SandboxAQ, una startup de inteligencia artificial (IA), ha lanzado un nuevo y vasto conjunto de datos que busca acelerar significativamente el descubrimiento de nuevos tratamientos médicos al mejorar la comprensión científica sobre cómo interactúan los fármacos con las proteínas. El objetivo final de la empresa —que surgió de Alphabet (Google) y cuenta con el respaldo de Nvidia— es ayudar a los investigadores a predecir con precisión si un fármaco se unirá exitosamente a su objetivo dentro del cuerpo humano.
¿Qué tiene de especial este conjunto de datos?
Según la agencia Reuters, este amplio conjunto de datos no se derivó de experimentos de laboratorio tradicionales. En su lugar, SandboxAQ generó estos datos utilizando chips especializados de Nvidia. La empresa planea alimentar estos datos sintéticos en sus propios modelos de IA.
Los científicos, a su vez, pueden utilizar estos modelos para predecir rápidamente si una molécula farmacéutica pequeña es probable que se una a una proteína objetivo, una cuestión fundamental que debe resolverse en las primeras etapas del desarrollo de medicamentos. Por ejemplo, si un fármaco está diseñado para frenar el avance de una enfermedad, esta herramienta puede predecir la probabilidad de que se una a las proteínas relevantes.
Cómo estos datos sintéticos pueden ayudar a los investigadores médicos
Entrenar modelos de IA con datos sintéticos impulsa un campo emergente que fusiona técnicas clásicas de computación científica con avances en inteligencia artificial. Si bien los científicos han utilizado durante mucho tiempo ecuaciones para predecir con precisión cómo se combinan los átomos para formar moléculas, calcular todas las posibles combinaciones incluso para moléculas pequeñas resulta abrumador desde el punto de vista computacional, incluso para las supercomputadoras más rápidas.
“Este es un problema de larga data en biología que toda la industria ha estado intentando resolver”, dijo Nadia Harhen, gerente general de simulación de IA en SandboxAQ, a Reuters.
“Todas estas estructuras generadas computacionalmente están etiquetadas con datos experimentales reales, por lo que al utilizar este conjunto de datos para entrenar modelos, se puede aprovechar la información sintética de una forma que nunca se había hecho antes”, añadió.
Para abordar este desafío, SandboxAQ utilizó datos experimentales existentes para calcular aproximadamente 5,2 millones de nuevas moléculas tridimensionales “sintéticas”. Estas moléculas, aún no observadas en el mundo real, fueron generadas mediante ecuaciones validadas con datos reales.
SandboxAQ —que ya ha conseguido casi 1.000 millones de dólares en capital de riesgo— busca permitir el entrenamiento de modelos de IA capaces de predecir la unión fármaco-proteína en una fracción del tiempo que requeriría un cálculo manual, manteniendo una alta precisión. La empresa planea monetizar sus propios modelos de IA desarrollados con estos datos, con la esperanza de ofrecer resultados comparables a los costosos experimentos de laboratorio, pero de forma virtual.
El fin del Artículo