Equipes da UFPE e entidades parceiras propõem uma nova técnica de representação de sequências de DNA do vírus SARS-CoV-2
A pandemia de covid-19, doença transmitida pelo vírus SARS-CoV-2, já causou a infecção de mais de 120 milhões de pessoas, das quais 70 milhões foram recuperadas, enquanto 3 milhões morreram. Dentro desse cenário pandêmico que nos rodeia há mais de um ano, o Grupo de Pesquisas em Computação Biomédica, do Departamento de Engenharia Biomédica (DEBM) da Universidade Federal de Pernambuco (UFPE), em parceria com o Núcleo de Engenharia da Computação da Escola Politécnica da Universidade de Pernambuco (UPE), o Instituto Federal da Paraíba e a Sulaimani Polytechnic University, desenvolveu um sistema para o reconhecimento do vírus SARS-Cov-2.
No artigo “Covid‑19 diagnosis by combining RT‑PCR and pseudo‑convolutional machines to characterize virus sequences”, publicado na revista Nature Scientific Reports, os professores Wellington Pinheiro dos Santos, Bruno José Torres Fernandes, Leandro Honorato Silva e Aras Ismael Masood propõem uma nova técnica de representação de sequências de DNA do vírus com o objetivo de otimizar o resultado potencial do Transcriptase Reversa por Reação em Cadeia da Polimerase (RT-PCR) para o diagnóstico de covid-19. A avaliação do sistema em cenários de testes reais, com um conjunto limitado de famílias de vírus candidatas e DNA de amostras humanas saudáveis, mostrou resultados de sensibilidade e especificidade para o diagnóstico da covid-19 acima de 97%.
Segundo a pesquisa, essa técnica analisa “as sequências de DNA obtidas pelo método RT-PCR, considerado o método padrão ouro para o diagnóstico da doença, eliminando o processo de alinhamento”. De acordo com os autores, o objetivo do sistema é “mostrar a capacidade de otimizar o diagnóstico molecular de covid-19 combinando RT-PCR, o método de diagnóstico padrão ouro da covid-19, e nosso método pseudo-convolucional para identificar sequências de DNA de SARS-CoV-2 de outros vírus candidatos sem métodos de bioinformática de alto custo computacional, como alinhamento de múltiplas sequências”. O estudo mapeou e criou uma base de dados com 347.363 sequências de DNA de vírus de 24 famílias e SARS-CoV-2.
Para verificar a eficiência do método, os pesquisadores utilizaram os seguintes classificadores: Floresta Aleatória; Classificador Naive Bayes; Aprendiz baseado em instância; Perceptrons multicamadas; e Máquinas de vetor de suporte. O estudo também utilizou 24 famílias de vírus diferentes para avaliar a eficiência do método de extração de características, incluindo a família SARS-CoV-2: Coronaviridae. Entretanto, para separar o SARS-CoV-2 de outros coronavírus, as sequências do SARS-CoV-2 foram usadas como uma classe separada. Após os testes de verificação, foi comprovado que o modelo é capaz de diferenciar todas as famílias de vírus presentes no banco de dados elaborado pelo estudo.
O sistema produzido tem como proposta ser uma alternativa mais rápida e eficaz aos sistemas web baseados no alinhamento de sequências de DNA, cuja principal limitação é sua restrição à análise de sequências de DNA de vírus, uma vez que muitos vírus são expressos como RNA, e não como DNA. “O sistema está em processo de implantação no Laboratório de Computação Biomédica da Universidade Federal de Pernambuco. Como trabalho futuro, propomos adaptar a abordagem de rede pseudo-convolucional proposta para sequências de RNA, proporcionar aos usuários potenciais a identificação de vírus tanto por sua expressão em RNA ou em DNA quanto pela tradução de RNA em DNA, no caso de vírus de RNA” afirmam os autores.
Fonte: Ascom da UFPE
Deixe um comentário