OpenAI presentó GDPval, una nueva evaluación diseñada para medir cómo los modelos de inteligencia artificial se desempeñan en tareas reales y de valor económico. A diferencia de los clásicos benchmarks académicos, este sistema se centra en trabajos del mundo real que profesionales experimentados realizan diariamente. Por ejemplo, incluye la redacción de informes legales, la elaboración de planos de ingeniería o la atención al cliente en situaciones específicas. La idea es generar una métrica que permita monitorear el progreso de la IA con base en evidencia concreta, no en especulaciones.
El valor diferencial de GDPval radica en su amplitud y realismo. La primera versión abarca 44 ocupaciones distribuidas en nueve industrias clave, entre ellas ingeniería, salud y derecho. Cada tarea fue diseñada y revisada por profesionales con un promedio de 14 años de experiencia. Este proceso buscó reflejar fielmente el trabajo cotidiano, con múltiples etapas de verificación y pruebas. A diferencia de evaluaciones previas, GDPval incorpora entregables como documentos, diagramas o presentaciones, lo que acerca la evaluación al verdadero flujo de trabajo de un profesional.
Uno de los aspectos más relevantes del informe es la comparación entre humanos y modelos de frontera como GPT-5, Claude Opus 4.1 o Gemini 2.5 Pro. Según los resultados preliminares, algunos modelos ya alcanzan un rendimiento comparable al de expertos, especialmente en precisión y formato. Por ejemplo, GPT-5 destacó en la identificación de conocimiento especializado, mientras Claude sobresalió en la estética de presentaciones. Sin embargo, el estudio también reconoce que estas evaluaciones son todavía limitadas, ya que no simulan procesos iterativos como revisiones tras retroalimentación del cliente.
Entre los pros de GDPval está la capacidad de identificar dónde la IA puede ahorrar tiempo y costes, ya que en ciertas tareas los modelos completaron entregables hasta 100 veces más rápido que humanos. Esto puede liberar a los trabajadores de actividades repetitivas, permitiéndoles concentrarse en labores estratégicas y creativas. No obstante, existen contras claros: la IA aún no puede gestionar con eficacia la ambigüedad, las interacciones humanas ni los procesos colaborativos que definen gran parte del trabajo del conocimiento.
Mirando hacia adelante, OpenAI plantea que GDPval es solo un primer paso hacia evaluaciones más sofisticadas. La intención es ampliar su alcance a más industrias, tareas con mayor interactividad y contextos donde el juicio humano sea esencial. El reto será medir cómo la IA complementa, en lugar de reemplazar, las capacidades humanas. En este sentido, GDPval no solo funciona como una métrica técnica, sino como un marco para entender cómo la inteligencia artificial puede integrarse responsablemente en el mundo laboral y económico.
Descargo de responsabilidad: La información presentada no constituye asesoramiento financiero, de inversión, comercial u otro tipo y es únicamente la opinión del escritor, Las imágenes son solo con fines ilustrativos y no deben usarse para la toma de decisiones importantes. Al usar este sitio, acepta que no somos responsables de pérdidas, daños o lesiones derivadas del uso o interpretación de la información o imágenes.







