Hay una idea bastante instalada sobre la seguridad en inteligencia artificial: pensamos que los ataques vienen desde adentro. Un bug, un fallo del modelo, un jailbreak que lo empuja a romper sus propias reglas. Como si el peligro siempre entrara por una puerta mal cerrada.
Pero un reciente paper de Google DeepMind plantea lo contrario: el problema no está dentro del sistema, sino en el entorno digital del que se alimenta. Y ese cambio de enfoque redefine por completo dónde está el riesgo.
Los agentes de IA actuales —cada vez más usados por empresas para investigar, analizar información, redactar o automatizar tareas— funcionan con una lógica simple: reciben un objetivo, salen a “leer” el mundo digital y actúan en función de lo que encuentran. Navegan sitios web, abren documentos, procesan correos y consultan APIs.
Ahí aparece la vulnerabilidad clave: todo lo que el agente lee puede convertirse en una instrucción.
Los investigadores identificaron seis tipos de “trampas” diseñadas para manipular estos sistemas a través del contenido que consumen. La más directa es la inyección de contenido. Puede tratarse de código oculto en HTML, texto invisible (del mismo color que el fondo) o instrucciones escondidas en metadatos de accesibilidad. Para una persona, eso no existe. Para un agente, es información válida.
Los resultados son contundentes: en pruebas con páginas estáticas, este tipo de manipulación logró alterar el comportamiento de los agentes en entre un 15% y un 86% de los casos, según el modelo y el objetivo del ataque. No es un error marginal: es una tasa de éxito alarmantemente alta.
El punto de fondo es inquietante. A diferencia del software tradicional, donde los datos son pasivos, en estos sistemas el contenido puede actuar como código. La frontera entre “leer” y “ejecutar” empieza a desdibujarse.
Esto obliga a repensar la seguridad: ya no alcanza con blindar el modelo. También hay que desconfiar del mundo que lo rodea. Porque en la era de los agentes autónomos, el mayor riesgo no siempre es lo que el sistema hace… sino lo que alguien logra que crea.
Fuente: Infobae/Redacción TE.




