Una IA se lee un millón y medio de artículos científicos y encuentra cosas que los científicos no sabían ni que existían

 

 

No hay una disciplina científica con más «eurekas» que la ciencia de materiales. Como no entendemos bien los intríngulis de la materia, el descubrimiento de materiales que tienen un conjunto particular de propiedades siempre ha sido un proceso tremendamente fortuito que requiere cantidades ingentes de buena ciencia, suerte y paciencia.

La historia de la tecnología está llena de ideas revolucionarias que se quedan durante décadas metidas en un cajón esperando a que seamos capaces de encontrar el material concreto que permita hacerlas realidad. Por eso, desde hace años, los científicos intentan utilizar la inteligencia artificial para tratar de agilizar estos procesos.

Ahora, un equipo de investigadores del Lawrence Berkeley National Laboratory han demostrado que gracias a una combinación de aprendizaje automático no supervisado y ‘minería de textos’ se pueden procesar millones de artículos científicos y encontrar relaciones que, hasta hoy, permanecían «ocultas». Hoy es en la ciencia de los materiales, pero no se va a quedar ahí.

IAs para descubrir materiales

Nature

Solo necesitamos imaginar las innumerables combinaciones de componentes y estructuras posibles, para darnos cuenta de que el desarrollo de materiales es una tarea que no se acaba nunca. Sobre todo porque los métodos tradicionales para el análisis de la composición de los materiales consumen mucho tiempo, son tremendamente aburridos y extremadamente caros. Según algunos expertos, se requiere un promedio de 10 años para que un laboratorio desarrolle un nuevo material y 20 años para que ese material pueda producirse en masa.

Machine Learning y Deep Learning: cómo entender las claves del presente y futuro de la inteligencia artificial

De ahí que el aprendizaje automático se haya convertido en una gran esperanza dentro del campo. Hasta ahora, la mayoría de enfoques se han basado en sistemas que nos permitieran asignar determinados parámetros estructurales (como las características de la composición del material) y determinadas propiedades físicas o electrónicas. La idea es utilizar esos sistemas para predecir las propiedades finales a partir de las iniciales, algo que no podemos hacer aún y que nos ahorraría mucho trabajo. Vamos haciendo avances, pero son enfoques aún muy verdes.

Minería de artículos científicos

Tshitoyan y su equipo han optado por otro enfoque. Según publican en Nature, han conseguido extraer conocimientos que hasta ahora se encontraban dispersos (y ocultos) en millones de artículos científicosde manera efectiva gracias a un algoritmo de aprendizaje automático.

Los científicos investigan cómo usar la IA para fabricar procesadores de diamante

Para ello, el equipo recopiló 3,3 millones de resúmenes de artículos sobre ciencias de los materiales publicados entre 1922 y 2018. Estos resúmenes se procesaron (para descartar textos que no estuvieran en inglés, etc… hasta dejarlos en un millón y medio) y se analizaron con un algoritmo de aprendizaje automático no supervisado (Word2vec). Ese algoritmo utiliza redes neuronales para realizar estimaciones sobre el significado de las palabras y sus patrones de uso en el texto original.

Ahí estaba la clave. Al analizar el banco de textos, los científicos descubrieron que el algoritmo era capaz de identificar posibles materiales relacionados con distintas propiedades físicas y eléctricas. Por ejemplo, entrenaron al sistema para predecir la probabilidad de que el nombre de un material en concreto coexistiera con el término «termoeléctrico». Fue un éxito, pero hay que reconocer que eso era sencillo.

Nature

Lo interesante vino después, cuando buscaron materiales que, aunque no se habían relacionado directamente con la termoelectricidad, sí tenían una fuerte relación semántica según los análisis previos del algoritmo. En este caso, para evaluar su efectividad, los investigadores cogieron un año al azar y pidieron al sistema que seleccionara los materiales con posibles propiedades termoeléctricas con la evidencia disponible. Y, sorprendentemente, también funcionó: los materiales seleccionados tenían ocho veces más probabilidad de haber sido estudiados, con éxito, en los siguientes cinco años.

El equipo investigó otros conceptos como ‘fotovoltaico’ o ‘ferroeléctrico’ con resultados muy parecidos. Resultados que rápidamente han disparado la imaginación de la gente con sus posibles aplicaciones en los más distintos campos del saber. Cada año se publican más de dos millones de artículos científicos, ¿Qué misterios habrá ocultos en esa enorme cantidad de trabajo? Me temo que la respuesta a esa pregunta la tendremos antes de lo que podríamos esperar.