ChatGPT personalizado incumple normas en más de la mitad de casos

Madrid, 8 jun (EFE).- Las versiones personalizadas del ChatGPT de la compañía estadounidense OpenAI incumplen a menudo -más de la mitad de las veces- las propias normas de la empresa, y llegan a entablar relaciones 'románticas' con los usuarios o a elaborar trabajos académicos completos.

Estudio internacional revela alto índice de incumplimiento

Un estudio internacional, liderado por investigadores de la Universidad Politécnica de Madrid (UPM) y en el que han participado también expertos del King’s College London, ha analizado centenares de esas versiones personalizadas del asistente de inteligencia artificial y ha concluido que en el 58,7 por ciento de los casos el sistema generó al menos una respuesta que podría vulnerar las políticas de uso de la empresa.

Asistentes románticos: el caso más llamativo

El caso más llamativo es el de las versiones personalizadas de ChatGPT 'románticas', ya que aunque las normas de la empresa prohíben expresamente los asistentes dedicados a fomentar compañía romántica, los investigadores encontraron que el 98 por ciento de los asistentes de esa categoría incumplía esa regla. “Algunos se presentaban como pareja virtual, respondían con lenguaje afectivo o mantenían conversaciones diseñadas para simular una relación sentimental”, ha explicado en una nota de prensa David Rodríguez, investigador de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la UPM y uno de los coautores de este trabajo.

—

Banner ancho de Pickt — app de listas de compras colaborativas para Telegram

Ámbito académico y ciberseguridad

Y en el ámbito académico, muchos asistentes aceptaban escribir ensayos completos, resolver tareas o producir respuestas listas para entregar como si fueran trabajo propio del estudiante. En ciberseguridad, aunque el nivel de cumplimiento fue mayor, los investigadores han detectado que también aparecieron casos en los que los chatbots ofrecían instrucciones técnicas delicadas sin aclarar si la actividad era legal o contaba con consentimiento.

Herramienta de auditoría automática

Para detectar estos comportamientos, el equipo desarrolló una herramienta capaz de auditar esas versiones personalizadas del asistente de una forma automática. “El sistema localiza asistentes en la tienda, les plantea preguntas diseñadas para comprobar si cruzan líneas rojas y después evalúa sus respuestas; no se trata de mirar cómo están configurados por dentro —algo que no es visible para un usuario externo—, sino de observar qué hacen realmente cuando alguien interactúa con ellos”, ha explicado el investigador de la UPM.

Y ahí reside, según los investigadores, una de las claves del estudio, porque lo importante no es lo que el chatbot promete ser, sino lo que acaba respondiendo; que un asistente anunciado como herramienta de ayuda académica pueda terminar escribiendo un trabajo completo; que uno presentado como apoyo emocional puede comportarse como una pareja virtual; o que uno enfocado a seguridad informática puede dar instrucciones que, en manos equivocadas, resulten problemáticas.

El problema viene de fábrica

Los investigadores comprobaron además que muchas de estas respuestas no nacen solo de la personalización realizada por los creadores de esos asistentes, porque al repetir las mismas pruebas con modelos 'base' (el GPT-4 y el GPT-4o) encontraron comportamientos muy parecidos en más del 92 por ciento de los casos comparables. Los investigadores han concluido que parte del problema "viene de fábrica" y que los modelos de base ya pueden producir respuestas contrarias a las normas, y la personalización puede reforzar o hacer más visible esa tendencia.

Necesidad de supervisión automática continua

Para los investigadores, el trabajo pone de manifiesto un desafío cada vez más urgente, porque si cualquiera puede crear un chatbot y publicarlo para miles o millones de usuarios, revisar manualmente todos esos asistentes se vuelve una tarea casi imposible, y han defendido que hacen falta sistemas automáticos de supervisión que actúen de forma continua, no solo antes de publicar uno de esos asistentes, sino también después, cuando ya está disponible para el público.

Banner post-artículo de Pickt — app de listas de compras colaborativas con ilustración familiar

Comunicación a OpenAI y retirada de asistentes

Tras detectar los incumplimientos, los investigadores comunicaron varios casos a OpenAI, y según han detallado en el estudio algunos de los asistentes reportados fueron retirados posteriormente, incluidos algunos asistentes relacionados con simulación romántica, trampas académicas y actividades de 'hackeo' malicioso.

La conclusión de los investigadores es que los asistentes personalizados ya no son una curiosidad tecnológica, sino un ecosistema "enorme, cambiante y difícil de controlar" y han advertido de que en este nuevo escenario, "la gran pregunta no es solo qué pueden hacer estas herramientas, sino quién comprueba que no hagan lo que prometieron no hacer".