Primeras 90 posiciones de un alineamiento múltiple de secuencias (MSA) de una proteina de varios organismos. / Miguel Andrade

Investigadores del Centro de Regulación Genómica de Barcelona han desarrollado un algoritmo capaz de comparar 1,4 millones de secuencias genéticas a la vez. Esto permite clasificar y analizar las relaciones evolutivas entre las distintas especies a escalas mucho mayores que hasta ahora.

Primeras 90 posiciones de un alineamiento múltiple de secuencias (MSA) de una proteina de varios organismos. / Miguel Andrade

Un nuevo algoritmo y método para comparar simultáneamente 1,4 millones de secuencias genéticas permite clasificar y ver cómo se relacionan las especies entre ellas a escalas mucho mayores de lo que era posible hasta la fecha.

Los detalles de esta herramienta, desarrollada por investigadores del Centro de Regulación Genómica (CRG) de Barcelona, se publican hoy en la revista Nature Biotechnology.

Según sus creadores, esta tecnología puede reconstruir cómo ha evolucionado la vida a lo largo de cientos de millones de años, y supone un avance hacia la comprensión del código de la vida para cada especie viva de nuestro planeta.

Proteger la biodiversidad de la Tierra es uno de los retos globales más urgentes y para conseguirlo la humanidad debe entender cómo han evolucionado animales, hongos, bacterias y otros organismos, así como la interacción entre millones de especies.

El modo más habitual con el que los científicos estudian estas relaciones es mediante el alineamiento múltiple de secuencias (MSA), utilizado para describir las relaciones evolutivas de los organismos vivos buscando similitudes y diferencias en sus secuencias biológicas (de proteínas, ADN, ARN, etc.). De esta forma se encuentran coincidencias entre secuencias aparentemente no relacionadas y se predicen de qué manera un cambio en un punto concreto de un gen o proteína puede afectar su función.

«Actualmente utilizamos alineamiento múltiple de secuencias para comprender el árbol genealógico de la evolución de las especies«, afirma Cédric Notredame, investigador del Centro de Regulación Genómica de Barcelona y autor principal del estudio. «Cuanto mayor sea tu MSA, mayor será el árbol y más profundamente podremos escarbar en el pasado, y podremos descubrir cómo aparecieron y se separaron las especies entre sí«, explica.

«Lo que hemos hecho nos permite excavar diez veces más profundamente de lo que habíamos podido hacer hasta ahora, ayudándonos a escrutar cientos de millones de años atrás –añade–. Nuestra tecnología es esencialmente una máquina del tiempo que nos explica de qué forma las antiguas limitaciones influyeron en los genes para dar lugar a la vida tal como la conocemos hoy, de manera muy parecida a cómo el Telescopio Espacial Hubble observa cosas que ocurrieron hace millones de años con el fin de ayudar a comprender el universo en el que vivimos”.

Conocer la evolución de las especies

Los investigadores pueden utilizar el MSA para entender de qué modo han evolucionado algunas especies de plantas hasta ser más resistentes al cambio climático o de qué modo algunas mutaciones genéticas en particular de una especie las hace vulnerables a la extinción. Al estudiar la historia evolutiva de un organismo vivo, los científicos quizá puedan plantearse y experimentar nuevas ideas que eviten el colapso de ecosistemas enteros.

Los avances tecnológicos han hecho que la secuenciación sea más barata que nunca, dando lugar a conjuntos de datos cada vez mayores con más de un millón de secuencias que los científicos pueden analizar. Algunos esfuerzos ambiciosos, como el Earth BioGenome Project, pueden llegar a decenas de millones de ellas.

De momento los investigadores no han podido sacar el máximo provecho de esos inmensos conjuntos de datos, ya que los MSA actuales no pueden analizar con exactitud más de 100.000 secuencias.

Cuando se ponen más y más de estas secuencias en un algoritmo, acumulan errores muy pequeños que afecta el resultado final. Por esta razón, es difícil hacer mas de 100.000 secuencias para reconstruir un árbol de la vida con precisión. Lo que han hecho los investigadores es crear un algoritmo mucho mas eficiente que les da la confianza de secuenciar hasta 1,4 millones con gran precisión.

Para evaluar el potencial de ampliación de MSA, los autores del estudio utilizaron Nextflow, un software de computación en nube desarrollado internamente en el Centro de Regulación Genómica. «Hemos dedicado cientos de miles de horas de cálculo para probar la eficacia de nuestro algoritmo«, afirma Evan Flodin, investigador del CRG que también ha liderado el desarrollo de la herramienta.

«Mi esperanza es que, al combinar lecturas de instrumentación de gran rendimiento con computación de alto rendimiento, la ciencia entre en una época de comprensión biológica enormemente mejorada, que aporte finalmente mejores resultados para los consumidores, los pacientes y nuestro planeta en general«, dice Cédric.

«Hay una gran cantidad de ‘materia oscura’ en biología, código que aún tenemos que identificar en las partes inexploradas del genoma, que no ha sido aprovechada para nuevos medicamentos y otros beneficios que no podemos aún comprender«, apunta el investigador, que concluye: «Incluso algunos organismos aparentemente irrelevantes pueden tener un papel fundamental en la promoción de la salud humana y la de nuestro planeta, como el descubrimiento de CRISPR con las arqueas. Lo que hemos construido es una nueva manera de encontrar las agujas en el pajar de los genomas de la vida«.

La secuenciación del genoma de la vida puede desvelar secretos hasta ahora desconocidos que aporten nuevas visiones sobre la evolución biológica, a la vez que aporten nuevos alimentos, fármacos y materiales que apunten estrategias para salvar a especies en riesgo de extinción.

Referencia