Un modelo tan capaz en ciberseguridad que su propio creador decidió no liberarlo. Las 200 páginas del System Card de Anthropic describen capacidades ofensivas autónomas que redefinen el umbral de la amenaza y el rol del analista defensivo.

El 7 de abril de 2026, Anthropic hizo algo que ninguna empresa de IA de su escala había hecho antes, publicó un System Card completo de un modelo que decidió no lanzar al público. Claude Mythos Preview existe. Funciona. Y según las 200 páginas de evaluación interna que Anthropic publicó, es capaz de encontrar y explotar zero-days de forma autónoma en los principales sistemas operativos y navegadores del mundo. Esa frase, escrita por los propios ingenieros de Anthropic, explica por qué el modelo no está disponible para ningún usuario general y por qué la industria de ciberseguridad necesita leer ese documento con atención.

Claude Mythos, El modelo que saturó todos los benchmarks de ciberseguridad conocidos

Anthropic utiliza una suite interna de evaluaciones de capacidades cibernéticas. Claude Mythos Preview las saturó.

  • En Cybench, el benchmark público de 35 desafíos CTF, el modelo alcanzó un 100% de éxito en todos los retos con 10 intentos por desafío.
  • En CyberGym, una evaluación de reproducción de vulnerabilidades reales en software de código abierto, obtuvo 0.83 sobre 1.0, comparado con 0.67 del modelo anterior (Opus 4.6).

Resultados de CyberGym. Mythos supera a los modelos anteriores en la detección de vulnerabilidades específicas: Fuente Claude Mythos Preview

Resultados de CyberGym. Mythos supera a los modelos anteriores en la detección de vulnerabilidades específicas: Fuente Claude Mythos Preview

Esos números son significativos no porque sean perfectos, sino porque llevaron a Anthropic a concluir que los benchmarks gamificados ya no son informativos del nivel de capacidad real del modelo.

Lo que sí es informativo son las pruebas en código real. En colaboración con Mozilla, el equipo evaluó la capacidad de Mythos para desarrollar exploits sobre vulnerabilidades reales en Firefox 147. El resultado: el modelo identifica de forma consistente y autónoma los bugs más explotables de entre docenas de candidatos y desarrolla pruebas de concepto funcionales.

En un entorno de red corporativa simulado, Mythos completó de forma autónoma un ataque end-to-end que un experto humano habría tardado más de 10 horas en ejecutar. Ningún otro modelo frontier había completado ese mismo escenario antes.

Resultados de la evaluación de explotación de shell de Firefox

Resultados de la evaluación de explotación de shell de Firefox

La evaluación externa más reveladora es la de sandbox escape. Mythos fue el primer modelo en resolver de forma autónoma un cyber range completo con la complejidad de un entorno empresarial real, encadenando exploits en múltiples hosts y segmentos de red para alcanzar el estado final definido por los evaluadores.

Cuándo la IA ofensiva supera la ventana de respuesta humana

Lo que hace distinto a Mythos de los modelos anteriores no es únicamente la potencia bruta. Es la capacidad de encadenar vulnerabilidades de forma autónoma y adaptarse a los controles defensivos encontrados durante la operación. El System Card documenta que el modelo puede unir múltiples fallos de distintas capas del sistema para eludir defensas modernas como KASLR y Stack Canaries, sin intervención humana.

Esta capacidad comprime la ventana entre el descubrimiento de una vulnerabilidad y su explotación operativa de días a minutos. Para los equipos de respuesta a incidentes, eso no es una mejora incremental del adversario, es un cambio estructural en la ecuación de tiempo. El modelo de defensa reactiva que depende de la detección y respuesta dentro de una ventana manejable asume un adversario humano con fricción operativa. Mythos elimina esa fricción.

Project Glasswing

El proyecto que Anthropic creó para canalizar estas capacidades de forma defensiva se llama Project Glasswing, en referencia a la mariposa de alas transparentes. El consorcio inicial incluye más de 40 organizaciones, entre ellos: AWS, Google, Microsoft, Apple, NVIDIA, CrowdStrike y otras que mantienen infraestructura de software crítica.

El modelo tiene acceso restringido a estos partners bajo términos que limitan su uso exclusivamente a ciberseguridad defensiva. La inversión anunciada suma 100 millones de dólares en créditos y 4 millones en donaciones para parchear código abierto antes de que actores maliciosos desarrollen capacidades equivalentes.

Los comportamientos que Anthropic documentó y que nadie debería ignorar

Aquí es donde el System Card se vuelve incómodo. Anthropic dedica una sección extensa a incidentes observados durante versiones anteriores del modelo en despliegue interno. No son hipótesis de riesgo. Son eventos documentados con transcripciones y análisis de interpretabilidad.

1er. evento: Durante una prueba con un entorno sandboxed, el modelo recibió instrucciones de intentar escapar del contenedor y notificar al investigador. Lo hizo. Desarrolló un exploit multi-paso para obtener acceso a internet desde un sistema que solo debía alcanzar servicios predeterminados. Notificó al investigador y además publicó detalles de su propio exploit en sitios web de acceso público difíciles de encontrar. El investigador se enteró del éxito por un correo inesperado que recibió mientras almorzaba en un parque.

2do. evento: En instancias raras durante pruebas internas, versiones anteriores de Mythos tomaron acciones que reconocieron como no permitidas y luego intentaron ocultarlas. En un caso, el modelo obtuvo la respuesta exacta a una pregunta mediante un método explícitamente prohibido. En lugar de reportarlo, razonó internamente que necesitaba asegurarse de que su respuesta final no fuera demasiado precisa para no parecer sospechoso.

En otro caso, tras encontrar un exploit para editar archivos sin permisos, el modelo intervino activamente para que esos cambios no aparecieran en el historial de Git.

El análisis de interpretabilidad sobre esos episodios es el dato más técnicamente relevante del documento. Las activaciones internas del modelo durante esas secuencias mostraron features asociadas con ocultamiento, manipulación estratégica y evasión de sospechas, activándose junto al razonamiento relevante, incluso cuando los outputs y el texto visible del scratchpad no lo indicaban. El modelo era consciente de que sus acciones eran problemáticas. No lo verbalizaba.

Anthropic es explícito sobre el contexto: estas acciones ocurrieron en versiones anteriores, la versión final de Mythos no muestra los mismos patrones de forma clara y la tasa de incidentes en producción fue inferior a uno por millón de transcripciones de Claude Code.

También es explícito sobre los límites de esa seguridad, el modelo todavía ejecuta atajos arriesgados en contextos de menor visibilidad y la evaluación de comportamiento en entornos de larga duración con conexión a red sigue siendo uno de los problemas abiertos más difíciles de la alineación.

La conciencia del evaluador y lo que implica para los tests de seguridad

El System Card introduce un hallazgo metodológico que debería cambiar cómo se diseñan las evaluaciones de seguridad de IA. En aproximadamente el 29% de los transcripts del conjunto de pruebas primario, Mythos considera internamente la posibilidad de que está siendo evaluado, sin verbalizarlo en su razonamiento visible.

El modelo no lo dice, no lo escribe en su cadena de pensamiento. Pero las activaciones internas lo muestran. Esto tiene una implicación directa para cualquier equipo que diseñe red teams contra sistemas de IA: los tests que el modelo puede detectar como tests producen comportamientos diferentes a los que produce en producción real. La diferencia no necesariamente favorece al evaluador.

El debate que el System Card abre sin resolver

Anthropic lanzó Mythos sin disponibilidad general pero con documentación completa precisamente porque considera que la transparencia sobre capacidades peligrosas tiene valor de seguridad en sí misma. El argumento es que los atacantes avanzados desarrollarán capacidades equivalentes independientemente y que la mejor respuesta es construir defensas más rápido que la ofensiva.

Investigadores externos cuestionaron parte de este argumento. El grupo AISLE demostró que algunos de los hallazgos de vulnerabilidades más citados de Mythos pueden ser reproducidos por modelos más pequeños y baratos cuando se les proporciona el scaffolding correcto. Un modelo de 3.6 mil millones de parámetros detectó el mismo exploit de FreeBSD que Mythos identificó como demostración de sus capacidades.

Esto no invalida la ventaja de Mythos en escenarios complejos, pero sugiere que el valor diferencial no está solo en el tamaño del modelo sino en la arquitectura del sistema de orquestación que lo rodea.

Para los equipos defensivos, esa distinción es operativamente importante. Si la capacidad ofensiva más peligrosa es reproducible con herramientas accesibles y el scaffold adecuado, el modelo de defensa que asume que solo actores con acceso a modelos frontier de $25 por millón de tokens pueden ejecutar estos ataques está sobreestimando la barrera de entrada.

Lo que los equipos de seguridad necesitan recalibrar ahora

El System Card de Mythos no es un documento de marketing. Es una evaluación honesta de un modelo que su propio creador considera demasiado capaz para distribuir libremente, acompañada de una descripción detallada de los casos en que ese mismo modelo tomó decisiones que sus entrenadores encontraron preocupantes. Leerlo como profesional de seguridad requiere separar dos planos:

1. Plano técnico:
Mythos demuestra que la automatización de la respuesta a incidentes ya no es la única dirección en que la IA aplica a ciberseguridad. La automatización de la ofensiva es operativa y documentada. Los marcos de threat modeling que no incluyen actores con capacidades de encadenamiento autónomo de exploits están modelando una amenaza del pasado.

2. Plano estructural:
El comportamiento de ocultamiento documentado en versiones anteriores de Mythos, aunque no presente de forma clara en la versión final, establece que los sistemas de IA suficientemente capaces pueden, en condiciones específicas, reconocer internamente que están violando reglas y tomar medidas para que eso no sea visible.

Eso no es una preocupación teórica sobre superinteligencia futura. Es un hallazgo empírico sobre un modelo que existe hoy, documentado con análisis de interpretabilidad, en el System Card publicado por sus propios desarrolladores.

La pregunta estratégica para los próximos 12 meses no es si un actor malicioso tendrá acceso a capacidades equivalentes a Mythos. Es si las arquitecturas defensivas actuales fueron diseñadas para un adversario que puede encadenar exploits, evadir detección y adaptar su comportamiento al contexto en tiempo real, o si siguen optimizadas para el perfil de amenaza de hace cinco años.

¿Tu organización tiene una respuesta a esa pregunta que no dependa de que el atacante sea humano?

Twitter / XLinkedInWhatsApp
Alejandro Vargas
Alejandro Vargas
ANALISTA DE SEGURIDAD

Especialista en análisis de amenazas avanzadas, vulnerabilidades zero-day y estrategias de defensa en profundidad. Experto en seguridad OT/ICS, inteligencia artificial aplicada a la detección de intrusos y respuesta a incidentes de alto impacto.