¿Qué debo hacer al respecto? (1)

Auditar los permisos de todos los agentes de IA con acceso a código o infra.

¿Qué debo hacer al respecto? (2)

Revisar pipelines que consumen APIs de LLMs para detectar superficies de prompt injection.

¿Qué debo hacer al respecto? (3)

Activar logging de outputs en producción antes de que lleguen modelos Mythos-class.

Claude Mythos llega al público: qué implica para seguridad

Anthropic confirma el despliegue público de los modelos Claude Mythos-class, retrasados por riesgos de seguridad en software.

por Gorka El Bochi Morillo

2 min lectura

·2 de junio, 2026

Qué pasa

Anthropic ha confirmado que sus modelos Claude Mythos-class llegarán al público general. El matiz relevante: el despliegue se había retrasado deliberadamente por *riesgos de seguridad para software público y privado* — no por problemas técnicos ni de rendimiento.

Eso es inusual. Las grandes labs rara vez admiten que un modelo estaba listo pero lo bloquearon por capacidades ofensivas. Que Anthropic lo comunique públicamente implica que la evaluación de riesgo ya pasó algún umbral interno, y que la decisión de sacar el modelo igualmente es consciente.

Los detalles exactos del tipo de riesgo no están completamente detallados en la confirmación inicial, pero el framing — "riesgos para software público y privado" — apunta a capacidades como generación autónoma de exploits, detección de vulnerabilidades zero-day, o asistencia avanzada en *post-explotación* (acciones que realiza un atacante tras comprometer un sistema).

Por qué importa

Estamos ante el primer caso documentado públicamente en que una lab top retiene un modelo frontier por riesgo de seguridad ofensiva y luego lo libera de todas formas. Eso abre varias preguntas concretas:

¿Qué *mitigaciones* se implementaron entre el bloqueo y el despliegue? ¿Filtros de output, restricciones de sistema prompt, monitoring de uso?
¿Qué nivel de CVSS (sistema de puntuación estándar de gravedad de vulnerabilidades) debería aplicarse al riesgo dual de un modelo de lenguaje? Nadie tiene la respuesta todavía.
Los modelos Mythos-class estarán disponibles vía API, lo que significa que cualquier developer puede integrarlos en pipelines de agentic AI (IA capaz de ejecutar tareas autónomas, encadenar acciones y operar con supervisión mínima). Sin controles, eso es superficie de ataque nueva.

El impacto real no es que el modelo exista — es que ahora estará embebido en miles de herramientas de terceros en semanas.

Qué hacer

Audita los permisos de tus agentes de IA antes del despliegue: ¿tienen acceso a código, infraestructura, o credenciales? Recórtalos al mínimo necesario.
Revisa si tu threat model contempla *prompt injection* (ataque donde input malicioso manipula las instrucciones del modelo) en pipelines que usen modelos externos vía API.
Si usas Anthropic API en producción, suscríbete a los canales de seguridad oficiales de Anthropic — los cambios de capacidad en modelos frontier pueden requerir actualizar tus controles de salida.
Evalúa si tus sistemas internos que consumen LLMs tienen logging suficiente para detectar usos anómalos cuando el modelo subyacente cambie.

La decisión de Anthropic de publicar el modelo a pesar del historial de riesgo es una apuesta calculada. Para los equipos de seguridad, el trabajo empieza ahora: el modelo llega, los controles tienen que llegar antes.

Ayuda a que más gente descubra BBLabs News.

Claude Mythos llega al público: qué implica para seguridad

Vertical Descargar imagen

LinkedIn X WhatsApp

Claude Mythos llega al público: qué implica para seguridad

Qué pasa

Por qué importa

Qué hacer

Artículos relacionados

npm malicioso apunta al directorio de Claude AI

ChatGPhish: resúmenes web de ChatGPT como vector de phishing

GreyVibe: IA comercial al servicio del ciberespionaje ruso