En tendencia

El CEO de IA de Microsoft, Mustafa Suleyman, propone una nueva prueba desafiante para agentes de IA

El jefe de IA de Microsoft, Mustafa Suleyman, ha presentado un nuevo punto de referencia llamado Prueba de Inteligencia Artificial Capaz (ACI), que mide la inteligencia de los agentes de IA en tareas del mundo real. En lugar de pruebas tradicionales, la ACI evalúa si una IA puede convertir legalmente $100,000 en $1,000,000, centrándose en planificación, razonamiento y toma de decisiones bajo leyes reales. La propuesta busca que líderes como Sam Altman y Marc Benioff dirijan sus esfuerzos hacia el rendimiento práctico de agentes autónomos mientras se avanza hacia la inteligencia general artificial (AGI).
El CEO de IA de Microsoft, Mustafa Suleyman, propone una nueva prueba desafiante para agentes de IA
(Crédito de la imagen: iTimes Spanish)
El CEO de IA de Microsoft, Mustafa Suleyman, ha propuesto un nuevo criterio para medir la inteligencia de la IA que va más allá de pruebas tradicionales, animando a la industria a centrarse en capacidades del mundo real en lugar de solo imitar el comportamiento humano. La idea de Suleyman —referida como Inteligencia Artificial Capaz (ACI)— es un marco práctico que plantea un desafío para los agentes avanzados de IA: ¿Puede un agente de IA tomar $100,000 y convertirlos en $1,000,000 de manera legal? El concepto pone el énfasis en la planificación, la toma de decisiones estratégicas, el razonamiento y la operación dentro de marcos legales y financieros reales, en lugar de limitarse a los benchmarks habituales de IA. Esta propuesta aparece en medio de un debate continuo en el mundo tecnológico sobre cómo y cuándo se logrará la inteligencia general artificial (AGI) —una forma de IA capaz de realizar una amplia variedad de tareas al nivel humano o mejor. Suleyman presenta su prueba como una evolución moderna de la prueba de Turing, con el objetivo de cambiar la atención hacia evaluaciones basadas en acciones con resultados medibles en entornos realistas. Al sugerir que el rendimiento de la IA se mida por su capacidad de crear valor y navegar marcos legales y regulatorios reales, Suleyman está planteando un desafío a otros CEOs que están invirtiendo fuertemente en agentes autónomos de IA, incluidos Sam Altman de OpenAI y Marc Benioff de Salesforce. Estos agentes están diseñados para realizar tareas de manera independiente, sin instrucciones humanas directas, y muchos en la industria los ven como la próxima gran frontera en inteligencia artificial. Bajo el marco de ACI, la meta no es simplemente demostrar fluidez en el lenguaje o reconocimiento de patrones; en cambio, se trata de mostrar que un sistema de IA puede ejecutar acciones complejas que requieren juicio a largo plazo, resolución de problemas y cumplimiento de sistemas humanos como las regulaciones financieras. Suleyman cree que este tipo de prueba —centrada en la creación de valor medible en contextos reales— podría ofrecer un mejor indicador del progreso hacia la AGI, un hito que la industria todavía está definiendo a medida que los sistemas se vuelven más autónomos. Esta perspectiva refleja una tendencia más amplia entre las grandes empresas tecnológicas para desarrollar sistemas de IA que actúen no solo como asistentes, sino como agentes capaces de tomar acciones independientes para lograr objetivos. A medida que continúa el debate sobre el futuro de la IA, la prueba ACI de Suleyman introduce una nueva forma de evaluar la madurez y la seguridad de las tecnologías de IA cada vez más autónomas.