Un avance en virología fue logrado por una colaboración entre científicos de la Universidad de Sídney, Alibaba Cloud Intelligence's Apsara Lab y la Universidad Sun Yat-Sen. El estudio publicado en la prestigiosa revista Cell identifica más de 161.000 nuevas especies de virus de ARN. Esta es una hazaña sin precedentes en la historia de la ciencia, hecha posible por el desarrollo de una innovadora herramienta de aprendizaje automático llamada LucaProt, que ha revolucionado la forma en que analizamos los datos de genomas virales.
Hasta ahora, se han obtenido grandes cantidades de información genética a partir de la secuenciación de muestras ambientales, que van desde el suelo y el agua hasta los tejidos de plantas y animales, pero han permanecido en gran parte sin procesar. Millones de fragmentos de secuencias genéticas que potencialmente pertenecen a virus han estado dispersos en vastas bases de datos que son inaccesibles para un análisis efectivo utilizando métodos tradicionales. El procesamiento manual de cantidades tan masivas de información era una tarea imposible que requería décadas de trabajo de un gran número de investigadores. A diferencia de sus predecesores, LucaProt utiliza sofisticados algoritmos de aprendizaje profundo capaces de reconocer patrones característicos en secuencias genómicas. En lugar de simplemente buscar coincidencias con virus conocidos, analiza la estructura de los genes y predice las funciones de las proteínas codificadas por ellos, y luego clasifica nuevos virus basándose en esta información compleja incluso si no tienen parientes cercanos en la ciencia conocida. El punto clave es la capacidad de LucaProt para tener en cuenta muchos factores, incluidas las características del código genético, el tamaño del genoma y la presencia de genes específicos. Esto le permite distinguir con precisión virus pertenecientes a diferentes familias y géneros.