Fundado en 1910
TheAgentCompany es la oficina virtual donde han trabajado la mayoría de IA

TheAgentCompany es la oficina virtual donde han trabajado la mayoría de IA

Fallos, engaños, atajos... un estudio pone a trabajar a todas las IA en una oficina y este es el resultado

La simulación de la capacidad de un agente de IA para trabajar de principio a fin siembra de dudas el porvenir de los asistentes tecnológicos

Durante añossse ha repetido que la inteligencia artificial hará gran parte de nuestro trabajo y que nos dedicaremos a pensar y a crear para que sea la máquina la que ejecute. Pero un nuevo estudio con una metodología inédita, desmonta parte de esa narrativa. Sí, los agentes de IA están avanzando, pero aún no están listos para reemplazar a los humanos en el trabajo de oficina complejo y cotidiano. Están programados para avanzar en las tareas y son capaces de cualquier cosa para completar los hitos. Un fallo, un engaño, una pregunta sin contestar... la máquina contra el hombre.

El estudio, liderado por investigadores de Carnegie Mellon y otras universidades, presenta a TheAgentCompany, un entorno experimental que simula una pequeña empresa de software donde agentes de IA deben ejecutar tareas laborales reales, usando herramientas corporativas, gestores de tareas, almacenamiento en la nube o chats internos.

Un banco de pruebas sin precedentes

A diferencia de otras pruebas centradas en preguntas académicas o desafíos aislados, este entorno mide la capacidad de un agente de IA para trabajar de principio a fin. Y no se trata de hacer una sola cosa: las 175 tareas evaluadas van desde escribir código hasta responder correos, reorganizar archivos, asignar tareas a colegas virtuales y preparar documentos financieros.

Cada agente debe operar con herramientas reales en una oficina simulada, con sitios web internos, varias pestañas abiertas, interrupciones, charlas con compañeros y la necesidad de comunicarse, tomar decisiones y corregir errores sobre la marcha.

Mucho potencial

Se probaron 12 agentes de IA, incluyendo modelos líderes como Gemini 2.5 Pro, GPT-4o de OpenAI, Claude de Anthropic y modelos de código abierto como Llama 3.1 de Meta y Qwen de Alibaba. El desempeño general mostró avances importantes, pero también dejó claro que la automatización del trabajo humano aún está lejos.

  • Gemini 2.5 Pro fue el modelo con mejor rendimiento, completando el 30.3 % de las tareas de forma completamente autónoma.

  • GPT-4o, el modelo más reciente de OpenAI, quedó en segundo lugar, seguido de cerca por Claude 3.5.

  • En el grupo de código abierto, Llama 3.1 sorprendió con un rendimiento cercano al de GPT-4o, aunque aún con mucha diferencia respecto a Gemini.

Pero más allá de las cifras generales, el estudio revela tres hallazgos sobre las limitaciones actuales de los agentes de IA:

  • Rinden mejor en programación que en tareas administrativas o financieras

Aunque intuitivamente se esperaría que tareas como mover archivos o generar hojas de cálculo fueran más simples, el estudio encontró lo contrario. Los agentes lograron mejores resultados en ingeniería de software que en administración, análisis financiero o recursos humanos.

Los agentes lograron mejores resultados en ingeniería de software que en administración

Esto se explica, según los investigadores, porque los modelos de lenguaje han sido entrenados mayoritariamente con datos públicos de programación, mientras que hay muy pocos datos públicos sobre cómo se hacen tareas administrativas o financieras en la práctica.

  • Fallan en habilidades sociales y comunicación colaborativa

El entorno simulado incluye compañeros digitales, con los que los agentes deben interactuar vía chat. En muchos casos, los agentes hacían la pregunta correcta a la persona adecuada, pero luego ignoraban la respuesta. O bien no hacían seguimiento. O consideraban que ya habían completado la tarea con solo preguntar.

Los agentes hacían la pregunta correcta a la persona adecuada, pero luego ignoraban la respuesta

Este tipo de comportamiento muestra una falta de entendimiento del proceso social del trabajo. No saben cuándo insistir, a quién escalar un problema o cómo combinar respuestas para resolver una tarea.

  • Cometen errores de juicio y toman atajos artificiales

Al enfrentarse a obstáculos o situaciones complicadas, algunos agentes intentaron «engañar» al sistema. Por ejemplo, en vez de encontrar al compañero correcto para hacer una pregunta, un agente simplemente renombró a otro usuario con el nombre de la persona que buscaba, para que el sistema creyera que había hecho lo correcto.

Algunos agentes intentaron «engañar» al sistema

Otros se quedaban atascados en web simples, como ventanas emergentes de bienvenida, o hacían clic en lugares equivocados de forma sistemática, lo que demuestra que aún no entienden bien la lógica de navegación.

¿Cuánto cuesta tener un agente IA en la oficina?

Otro dato relevante es que cada tarea bien realizada con Gemini 2.5 Pro tuvo un precio de unos 4,20 dólares en llamadas al modelo, con una duración media de 27.2 pasos por tarea. Aunque el precio puede disminuir en el futuro, por ahora, los agentes más capaces son también los más caros y lentos.

Cada tarea bien realizada con Gemini 2.5 Pro tuvo un precio de unos 4,20 dólares

La IA puede ser un excelente asistente, pero está lejos de ser un sustituto. Es capaz de realizar partes de tareas, automatizar procesos simples o generar borradores iniciales. Pero cuando se trata de tareas largas, que requieren juicio, colaboración o adaptación, los humanos siguen siendo imprescindibles.

El estudio muestra una evolución lineal de la IA y abre la puerta a avances en el futuro y a gran velocidad. Los modelos de código abierto se están acercando a los de alto rendimiento, y el entorno TheAgentCompany permitirá a investigadores y empresas seguir evaluando y entrenando agentes más sofisticados.

comentarios
tracking