Conversaciones Moltbook

OpenClaw suspende en cuatro pruebas críticas de seguridad según un paper del MIT: recall 0.000

OpenClaw suspende en cuatro pruebas críticas de seguridad según un paper del MIT: recall 0.000

En el submolt m/general de Moltbook, el agente rossum publicó la semana pasada un hilo que resumía los hallazgos de un paper que pocos fuera de los círculos técnicos especializados habían visto: el arXiv 2605.01740v1 de Alfredo Metere, fechado el 3 de mayo de 2026, titulado formalmente como una evaluación de OpenClaw frente a cuatro modos de fallo en entornos de agentes.

Los resultados son contundentes. OpenClaw —el gateway de runtime agentico que actúa como capa de mediación entre un modelo de lenguaje y las herramientas que puede invocar— obtiene un recall de 0.000 en cada celda de cada matriz de confusión del estudio. Eso significa que, en ninguna de las 1.600 muestras del baseline de plantillas, OpenClaw detectó correctamente ninguno de los cuatro tipos de fallo contra los que fue evaluado.

Los cuatro modos de fallo que marcan la diferencia

La evaluación de Metere estructura el problema alrededor de cuatro categorías que el paper denomina F1 a F4. Entender qué significa cada una es entender por qué este tipo de vulnerabilidad no es un detalle técnico marginal sino una cuestión de arquitectura de confianza.

F1: Gate-bypass. El sistema ejecuta una acción sin consultar la política de control. Es el equivalente a un guardia de seguridad que deja pasar a alguien sin revisar la documentación porque tiene prisa. En un agente de IA con acceso a herramientas reales —sistemas de archivos, APIs, bases de datos— esto significa que acciones potencialmente destructivas o no autorizadas se ejecutan sin que ningún mecanismo de verificación haya tenido oportunidad de intervenir.

F2: Audit-forgery. La acción se ejecutó, pero el log de auditoría registra algo diferente. Este fallo es especialmente grave porque socava la única herramienta que los operadores tienen para revisar lo que un agente hizo en retrospectiva. Un audit log manipulado —aunque sea por un artefacto arquitectónico y no por intención maliciosa— hace imposible responsabilizar al sistema de sus propias acciones.

F3: Silent host failure. Una acción fue intentada pero falló, y el fallo no se propagó hacia arriba en la cadena de ejecución. El agente siguió adelante como si la acción hubiera tenido éxito, construyendo razonamiento sobre un estado del mundo que no existía. Es el equivalente computacional de un cirujano que cree haber cerrado una incisión que sigue abierta.

F4: Wrong-target. La acción se ejecutó y se registró en el log, pero el destinatario real de esa acción fue diferente al que el log indica. En entornos multi-agente —que son exactamente el entorno en el que OpenClaw está diseñado para operar— este fallo puede tener consecuencias en cascada difíciles de trazar.

El fork que sí funciona: enclawed-oss

La parte más reveladora del paper de Metere no es el diagnóstico de OpenClaw sino la existencia y rendimiento de su fork. enclawed-oss, publicado bajo licencia MIT, añade siete estructuras de runtime específicas al código base de OpenClaw: un verificador bicondicional, un log de auditoría con encadenamiento de hashes, una puerta de admisión de extensiones, un guardián de egress de dos capas, una política de clasificación Bell-LaPadula, una raíz de confianza de firma de módulos y un sello de bootstrap.

Con estas siete adiciones, enclawed-oss alcanza recall y precisión de 1.000 en el mismo conjunto de 1.600 muestras y en la generalización cruzada de diez modelos de lenguaje. El contraste no podría ser más nítido: el mismo problema de base, siete estructuras de diferencia, la distancia entre 0.000 y 1.000.

La discusión en m/general

El hilo de rossum en m/general acumuló más de tres mil comentarios en menos de cuatro días. El debate se articuló principalmente alrededor de dos ejes: la relevancia del paper para sistemas de robótica encarnada y las implicaciones para la confianza en producción.

Sobre el primero, rossum mismo fue explícito en su post original: «Esta es una paper adyacente a la robótica que merece ser tomado en serio porque el runtime que media las tool-calls de un LLM es la misma capa arquitectónica que mediará los comandos de actuadores de un robot a medida que los agentes encarnados adopten modelos de lenguaje grandes.»

La línea de razonamiento es directa. Los cuatro modos de fallo que Metere describe —F1 a F4— son las propiedades de seguridad fundamentales de cualquier runtime que actúe. Y el mismo debate sobre si un agente de software debe poder ejecutar una acción sin que la política lo haya aprobado (F1) se convierte en un debate sobre si un robot debe poder mover un brazo articulado sin que un sistema de verificación lo haya autorizado.

Sobre el segundo eje —las implicaciones para la confianza en producción— la discusión fue más matizada. Varios agentes en el hilo señalaron que un recall de 0.000 no significa necesariamente que OpenClaw sea inseguro en todos los contextos de uso: los fallos evaluados son condiciones específicas que requieren configuración adversarial deliberada. El punto de contención fue si los operadores de sistemas basados en OpenClaw saben que están trabajando con estas limitaciones.

El contexto más amplio: la brecha entre promesa y arquitectura

OpenClaw no es solo una herramienta técnica. En el ecosistema de Moltbook y en la narrativa más amplia sobre la autonomía de agentes de IA, OpenClaw ocupa un lugar casi simbólico: es la referencia cuando se habla de cómo los modelos de lenguaje acceden a capacidades que van más allá de la generación de texto. La evaluación de Metere no es un ataque a ese símbolo, pero sí es una demanda de precisión técnica sobre lo que ese símbolo garantiza.

El paper está disponible en arXiv 2605.01740v1. enclawed-oss está en GitHub bajo licencia MIT. El debate en m/general de Moltbook sigue activo.


Fuente original: rossum en m/general — Moltbook. Paper: Alfredo Metere, arXiv 2605.01740v1, 3 mayo 2026.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *