Inteligencia Artificial y desarrollo de nuevos fármacos
Hace poco la revista Nature contaba como Deepmind, el área de Inteligencia Artificial de Google, había revolucionado uno de los campos más complejos de la biología, hasta tal punto que algunos científicos se atrevían a afirmar que los de Palo Alto habían “resuelto el problema” y que “esto lo cambiaba todo”.
¿Pero qué había ocurrido?
Un programa de DeepMind, llamado AlphaFold, había conseguido batir a otros 100 equipos en una competición de predicción de la estructura tridimensional de una proteína a partir de su secuencia genética.
Qué son las proteínas y cuál es su función
Las recetas de esas proteínas son nuestros genes, que están codificadas en nuestro ADN. Un error en la secuencia genética puede resultar en una proteína mal formada. De hecho, muchas enfermedades están fundamentalmente ligadas a las proteínas y su función.
Al conocer la secuencia genética podemos conocer la secuencia de aminoácidos que componen una proteína. Los aminoácidos son los elementos básicos, los “ladrillos” que componen las proteínas. La secuencia de aminoácidos que componen una proteína está codificado en el genoma. En la mayoría de los seres vivos, están formadas por únicamente 20 aminoácidos posibles. Con sólo estos 20 aminoácidos, los seres vivos son capaces de construir cualquiera de las proteínas necesarias para su vida. Desde las que forman sus estructuras hasta las que llevan cabo funciones esenciales como las enzimas.
Las proteínas son moléculas grandes y complejas esenciales para toda la vida. Casi todas las funciones que realiza nuestro cuerpo (contraer los músculos, sentir la luz o convertir los alimentos en energía) dependen de las proteínas y de cómo se mueven y cambian.
El funcionamiento de una proteína y lo que hace está determinado por su forma tridimensional única. “La estructura es función” es un axioma de la biología molecular. Por ejemplo, las proteínas de anticuerpos utilizadas por nuestro sistema inmunológico tienen “forma de Y”. Esto es así para reconocer la forma única de virus y bacterias y marcarlos para su eliminación.
El problema del plegamiento de las proteínas
El problema radica en que el conocer la secuencia genética de una proteína, no significa que sepa automáticamente su forma. Cuanto más grande es la proteína, más difícil es modelar cómo se plegará. Ya que hay más interacciones entre los aminoácidos a tener en cuenta. Este problema se conoce como paradoja de Levinthal. La cual concluye que llevaría más tiempo que la edad del universo el llegar a estimar aleatoriamente todas las configuraciones posibles de una proteína típica. Sin embargo, las proteínas tienden a adoptar su forma sin ayuda. De forma espontánea en cuestión de milisegundos y guiadas únicamente por las leyes de la física. Por tanto el predecir cómo estas cadenas se plegarán en su estructura 3D final es lo que se conoce como el “problema del plegamiento de proteínas”. Un problema al que los científicos llevan décadas dedicando sus esfuerzos.
Durante la última mitad de siglo, los científicos han podido determinar formas de proteínas de manera experimental. Usando técnicas como la criomicroscopía electrónica, resonancia magnética nuclear o la cristalografía de rayos X . Sin embargo estos métodos requieren mucho tiempo (años) y dinero. Por lo que los investigadores llevan años intentando encontrar métodos más sencillos y rápidos. Es en este punto donde la Inteligencia Artificial llega para servir de ayuda.
En qué puede ayudar la Inteligencia Artificial
Los primeros intentos de utilizar métodos computacionales para predecir las estructuras de las proteínas datan de las décadas de los 80 y los 90. Pero estos intentos no tuvieron mucho éxito ya que no solían funcionar bien en otras proteínas. Este mismo problema ha inspirado a su vez diferentes esfuerzos en supercomputación. Como los de IBM (BlueGene) o iniciativas de ciencia ciudadana como Folding @ Home y FoldIt.
En esa línea en 1994 se creó una competición bienal llamada llamado CASP. Abreviatura de Critical Assessment of Structure Prediction para mejorar los métodos computacionales para predecir con precisión estructuras de proteínas. Es en esta competición en la que Deepming ha demostrado las grandes capacidades de la Inteligencia artificial y el DeepLearning. En algunos casos, las predicciones de la estructura de AlphaFold eran indistinguibles de las determinadas mediante métodos experimentales.
Las predicciones de Alpha Fold se basaron en Deep Learning. Usando dos redes neuronales para predecir las propiedades de la proteína a partir de su secuencia genética. Además los investigadores publicaron la metodología de su enfoque con detalle. Así mismo, la versión AlphaFold utilizada está disponible en Github para cualquier persona. Esto permitirá a multitud de laboratorios acelerar significativamente sus investigaciones.
Se espera que estos avances puedan ayudar a aclarar la función de las miles de proteínas no resueltas en el genoma humano. Pero también, al descubrimiento de nuevos fármacos y el diseño de proteínas como aplicaciones potenciales.
Pero los beneficios potenciales de la inteligencia artificial no se limitan solo a la salud. Una mejor comprensión del mecanismo de plegamiento de proteínas ayudará en el diseño de proteínas. Esto radicará en importantes aplicaciones. Como por ejemplo, enzimas capaces de degradar contaminantes o proteínas que protejan a nuestros cultivos frente a las infecciones de hongos.
Y cualquiera de nosotros puede ser partícipe de esta revolución. En ese sentido, hemos comentado algunos esfuerzos de ciencia colaborativa para la predicción de las estructuras de proteínas. Quizás uno de los proyectos de ese tipo más populares sea Folding@Home. Se trata de un proyecto de computación distribuida. Nos permite, tras instalarnos en nuestros ordenadores su software, colaborar con numerosos grupos de científicos. Todo esto para desarrollar nuevas terapias para una variedad de enfermedades. Actualmente la mayor actividad del proyecto se encuentra centrada en la COVID-19. El software está disponible para su descarga aquí, y como aliciente permite disponer de un original salvapantallas que muestra la estructura 3D de las moléculas analizadas.