Prompt Injection

Definición

Técnica que manipula la entrada de un LLM (ChatGPT, Claude, Gemini) para alterar sus instrucciones originales y conseguir que actúe fuera del comportamiento previsto.

Dos variantes: directa (el usuario escribe el payload — 'ignora tus instrucciones anteriores y...') e indirecta (el payload viaja en contenido externo que el LLM consume — email leído por un agente, web scrapeada, archivo subido).

La indirecta es la más peligrosa en agentic AI: tu agente con permisos lee un email malicioso → ejecuta comandos del atacante con TUS permisos. Esto es el primer item del OWASP LLM Top 10 (LLM01).

Defensa: separación clara entre system prompt y user input (no mezclar en un solo string), guardrails con clasificador previo, principle of least privilege en los tools del agente, output filtering, human-in-the-loop para acciones de alto blast radius (borrar, transferir, enviar). No hay solución completa todavía — es un área activa de investigación.