Normalmente los avances en ciencia son paulatinos, paso a paso se van desarrollando diversas líneas de investigación en miles de laboratorios de todo el mundo. En ocasiones se produce un cambio tan relevante que implica un salto diferencial, revolucionario.
Así ha ocurrido estos días en el campo de la biología molecular, de la bioquímica y de la bioinformática por la publicación de un método computacional basado en inteligencia artificial que permite predecir la estructura tridimensional (3D) de las proteínas usando la simple secuencia de sus aminoácidos (codificada por sus genes).
Este salto alcanza un empeño de más de 50 años de investigación sobre el plegamiento y la estructura de las proteínas, que son las máquinas moleculares de nuestro organismo y nos permiten, por ejemplo, respirar, la existencia de la hemoglobina, o reaccionar atacando específicamente a un patógeno como el coronavirus.
El grupo de Demis Hassabis, de la empresa DeepMind (Londres, Reino Unido), en colaboración con el Instituto Europeo de Bioinformática (EMBL-EBI), ha logrado la predicción de todas las proteínas del proteoma humano usando el método computacional AlphaFold. El avance, publicado en la revista Nature, marca un gran hito. Saber predecir la estructura 3D de las proteínas humanas a partir de la secuencia de aminoácidos es decisivo para el desarrollo, por ejemplo, de nuevos fármacos y la mejora de la asistencia médica de multitud de enfermedades graves.
Poder hacer esta predicción con precisión supone un logro extraordinario que rompe un reto de 50 años. De hecho, hasta 2018 los mejores predictores sólo acertaban en torno a un 40%; pero con el algoritmo AlphaFold en su versión actual se ha podido alcanzar una precisión de hasta un 90-95%.
El método computacional AlphaFold es un algoritmo bioinformático basado en redes neuronales profundas (DNN, por sus siglas en inglés), que constituyen un área concreta del campo de la inteligencia artificial, conocido como Deep Learning, y que va a revolucionar seguro muchos otros campos de la investigación biomédica.
Es importante subrayar que el avance realmente sobresaliente se dio hace año y medio y fue publicado también en la revista Nature, en enero de 2020. De hecho entre finales de 2019 y principios de 2020, el método AlphaFold2 arrasó en el concurso internacional de estructura de proteínas CASP, que se celebra desde 1994, con una puntuación media de precisión de 92,4 sobre 100; muy por delante del siguiente competidor más cercano.
Sin embargo, debido a que los investigadores de DeepMind no revelaron entonces los detalles del método y ni publicaron el código informático del algoritmo AlphaFold usado para predecir la estructura de las proteínas, otros equipos se sintieron frustrados, incapaces de aprovechar el progreso en sus líneas de investigación. Esta situación empezó a cambiar la semana pasada gracias a la sana competencia entre grupos de investigación.
Investigadores dirigidos por David Baker y Minkyung Baek de la Universidad de Washington (Seattle, Estados Unidos) informaron en la revista Science de que habían creado un programa de predicción de la estructura de proteínas de alta precisión llamado RoseTTAFold, también basado en redes neuronales y cuyo código publicaron en abierto.
Ante esta publicación, la revista Nature reveló detalles de AlphaFold en el artículo de los investigadores de DeepMind dirigidos por Demis Hassabis y John Jumper, en el que hacen público y accesible el método. Este artículo aparece en el mismo volumen de Nature junto al otro del mismo grupo que se ha citado antes y publica la predicción con alta precisión de la estructura de todas proteínas del proteoma humano, es decir del 98.5% de las proteínas humanas.
En mi opinión, es muy importante para el avance de la ciencia que los investigadores hayan publicado los detalles del algoritmo y del método de inteligencia artificial usado para lograr este paso tan transcendente que corona el esfuerzo de 50 años de investigación sobre la estructura tridimensional de las proteínas.
La publicación del método nos permitirá aplicarlo a otros estudios específicos de proteínas que estamos realizando por ejemplo en nuestro grupo del CSIC. Además, la aplicación de estos métodos computacionales en biomedicina se verá reflejada, sin lugar a duda, en la mejora de la asistencia médica en plazos más breves de lo que podíamos predecir hasta ahora.
Javier De Las Rivas es investigador del CSIC y director del Grupo de Bioinformática y Genómica Funcional del Instituto de Biología Molecular y Celular del Cáncer (IBMCC), centro mixto del CSIC y la Universidad de Salamanca.