Los ambientes extremos están codificados en los genomas de los organismos que viven allí
El genoma de un organismo es un conjunto de instrucciones de ADN necesarias para su desarrollo, función y reproducción. El genoma de un organismo actual contiene información de su viaje en un camino evolutivo que comienza con el "primer ancestro común universal" de toda la vida en la Tierra y culmina con ese organismo.
Codificado dentro de sí mismo, el genoma de un organismo contiene información que puede revelar conexiones con sus ancestros y parientes.
Otras dimensiones del genoma
"Nuestra investigación explora la hipótesis de que el genoma de un organismo podría contener otro tipo de información, más allá de la genealogía o la taxonomía. Preguntamos: ¿Podría el genoma de un organismo contener información que nos permitiera determinar el tipo de ambiente en el que vive el organismo?", dice Kathleen A. Hill, profesora asociada de biología en la Western University, Canadá.
Por improbable que parezca, un equipo de investigadores en informática y biología de la Universidad de Waterloo y la Western University descubrió que ese es el caso de los extremófilos, organismos que viven y prosperan en condiciones extremadamente duras. Estas condiciones ambientales van desde calor extremo (más de 100 C) hasta frío extremo (por debajo de -12 C), alta radiación o extremos de acidez o presión.
Imagen: Se han encontrado extremófilos en entornos como el lago Pitch en Trinidad y Tobago, el depósito de asfalto más grande del mundo.
El ADN como lenguaje.
Consideramos el ADN genómico como un texto escrito en un "lenguaje de ADN". Una cadena de ADN (o secuencia de ADN) consta de una sucesión de unidades básicas llamadas nucleótidos, unidas por una columna vertebral de azúcar-fosfato. Hay cuatro diferentes unidades de ADN: adenina, citosina, guanina y timina (A,C,G,T).
Vista de manera abstracta, una secuencia de ADN puede considerarse como una línea de texto escrita con "letras" del "alfabeto de ADN". Por ejemplo, "CAT" sería la "palabra de ADN" de tres letras correspondiente a la secuencia de ADN de tres unidades citosina-adenina-timina.
En la década de 1990, se descubrió que al contar la aparición de tales palabras de ADN en una secuencia corta de ADN extraída del genoma de un organismo, se podía identificar la especie del organismo y el grado de su relación con otros organismos en el "árbol evolutivo de la vida".
El mecanismo de esta identificación o clasificación de un organismo basado en el recuento de palabras del ADN es similar al proceso que nos permite diferenciar un libro en inglés de un libro en francés: Al tomar una página de cada libro, uno se da cuenta de que el texto en inglés tiene muchas apariciones de la palabra de tres letras "the", mientras que el texto francés tiene muchas apariciones de la palabra de tres letras "les".
Ten en cuenta que el perfil de frecuencia de palabras de cada libro no depende de la página particular que elegimos leer ni de si consideramos varias páginas, una sola página o un capítulo completo. De manera similar, el perfil de frecuencia de las palabras de ADN en un genoma no depende de la ubicación ni de la longitud de la secuencia de ADN que se seleccionó para representar ese genoma.
Que los perfiles de frecuencia de palabras del ADN puedan actuar como una "firma genómica" de un organismo fue un descubrimiento importante y, hasta ahora, se creía que el perfil de frecuencia de palabras del ADN de un genoma solo contenía información evolutiva perteneciente a la especie, género, familia, orden, clase, filo, reino o dominio al que pertenecía el organismo.
Imagen: Una cadena de ADN está formada por una sucesión de unidades básicas: adenina, citosina, guanina y timina (ACGT).
"Nuestro equipo se propuso preguntar si el perfil de frecuencia de palabras del ADN de un genoma podría revelar otros tipos de información, por ejemplo, información sobre el tipo de ambiente extremo en el que prospera un extremófilo microbiano", dice Lila Kari, profesora de informática en la Universidad de Waterloo, Canadá.
Huellas ambientales en el ADN de extremófilos
El equipo utilizó un conjunto de datos de 700 extremófilos microbianos que viven en temperaturas extremas (ya sea calor o frío extremos) o condiciones de pH extremas (fuertemente ácidas o alcalinas) además de enfoques computacionales de aprendizaje automático supervisado y no supervisado para probar su hipótesis.
En ambos tipos de condiciones ambientales, descubrieron que podían detectar claramente una señal ambiental que indicaba el tipo de entorno extremo que habitaba un organismo en particular.
En el caso del aprendizaje automático no supervisado, a un algoritmo "ciego" se le proporcionó un conjunto de datos de secuencias de ADN de extremófilos (y ninguna otra información sobre su taxonomía o su entorno de vida). Luego se pidió al algoritmo que agrupara estas secuencias de ADN en grupos, basándose en cualquier similitud que pudiera encontrar entre sus perfiles de frecuencia de palabras de ADN.
La expectativa era que todos los grupos descubiertos de esta manera seguirían líneas taxonómicas: bacterias agrupadas con bacterias y arqueas agrupadas con arqueas. Para su gran sorpresa, este no fue siempre el caso, y algunas arqueas y bacterias se agruparon consistentemente, sin importar qué algoritmos usaran los científicos.
El único punto en común obvio que podría explicar que los múltiples algoritmos de aprendizaje automático los consideraran similares era que eran extremófilos amantes del calor.
Imagen derecha: Un árbol de la vida esquemático con los dominios primarios, arqueas y bacterias, mostrados en violeta y azul, respectivamente, y el dominio secundario, eucariotas, en verde. (Tara Mahendrarajah), CC BY
Un impactante descubrimiento
El árbol de la vida, un marco conceptual utilizado en biología que representa las relaciones geneaológicas entre especies, tiene tres ramas principales, llamadas dominios: bacterias, arqueas y eucariotas.
Los eucariotas son organismos que tienen un núcleo rodeado de membranas, y este dominio incluye animales, plantas, hongos y protistas microscópicos unicelulares. Por el contrario, las bacterias y las arqueas son organismos unicelulares que no tienen un núcleo rodeado de membrana que contenga el genoma. Lo que distingue a las bacterias de las arqueas es la composición de sus paredes celulares.
Los tres dominios de la vida son dramáticamente diferentes entre sí y, genéticamente, una bacteria es tan diferente de una arquea como lo es un oso polar (eucariota) de una E. coli (bacteria).
Por lo tanto, la expectativa era que el genoma de una bacteria y de una arquea estuvieran lo más separados posible en cualquier agrupamiento según cualquier medida de similitud genómica. El nuevo hallazgo de algunas bacterias y arqueas agrupadas, aparentemente simplemente porque ambas están adaptadas al calor extremo, significa que el ambiente de temperatura extrema en el que viven provocó cambios sistémicos generalizados, en todo el genoma, en su lenguaje genómico.
Este descubrimiento equivale a encontrar una dimensión completamente nueva del genoma, una dimensión ambiental, que existe además de su conocida dimensión taxonómica.
Imagen: Pyrococcus furiosus, una arquea termófila que sorprendentemente se agrupó con las bacterias termófilas. (Michelle Kropf/Wikimedia Commons), CC BY
Impacto genómico de otros entornos
Además de ser inesperado, este hallazgo podría tener implicaciones para nuestra comprensión de la evolución de la vida en la Tierra, así como guiar nuestro pensamiento sobre lo que se necesitaría para vivir en el espacio exterior.
De hecho, la investigación en curso está explorando la existencia de una señal ambiental en la firma genómica de extremófilos resistentes a la radiación, como Deinococcus radiodurans, que puede sobrevivir a la exposición a la radiación, así como al frío, la deshidratación, las condiciones de vacío y el ácido, y se ha demostrado que puede sobrevivir en el espacio exterior hasta tres años.
El estudio de investigación fue publicado recientemente en la revista Nature Scientific Reports: Environment and taxonomy shape the genomic signature of prokaryotic extremophiles