El Protocolo Meniw · por Chris Meniw

Gobernanza de agentes de IA: aplicada en la acción, verificable por terceros

La IA dejó de solo conversar: hoy actúa, y decide sola en milisegundos. La pregunta que nadie respondía es ¿quién garantiza que un agente respetó las reglas — y quién lo puede probar después? Esto lo responde, y no con un manifiesto.

No es un documento que la IA decida leer. Es una compuerta fuera de su control.

Si la fuerza dependiera de que un modelo elija leer una página web, sería ignorable. Pero el cumplimiento no viene de que la IA lea nada. Viene de que el operador instala una compuerta que la IA no controla: se ubica entre la decisión del agente y el mundo real —la llamada a la herramienta—, como un firewall.

El documento es la especificación; el código (pip install meniw-protocol) es la ejecución. El agente propone; la compuerta dispone. El agente no la puede saltear para las acciones que pasan por ella — igual que un firewall solo ve el tráfico que lo atraviesa. La condición, dicha de frente: cubrir todas las herramientas peligrosas y rutearlas por la compuerta es responsabilidad del operador. Lo que la compuerta cubre, el agente no lo puede esquivar; lo que el operador no le ruteó, la compuerta no lo ve.

Es una capa opt-in: protege al agente cuyo operador la adopta y cablea sus herramientas a través de ella.

Por qué descargarlo, aunque ya uses Claude u OpenAI

Porque tu propio agente, por más alineado que esté, puede fallar exactamente donde la seguridad del modelo no llega:

En esos casos, el alineamiento de Claude o de OpenAI puede no atajarlo, porque el ataque corrompe la intención del modelo. Una compuerta default-deny, fuera del modelo, sí lo ataja: la instrucción inyectada no se puede agregar sola a tu allowlist; si esa herramienta pasa por la compuerta, la acción prohibida no se ejecuta y queda un registro a prueba de manipulación. Te protege de tu propio agente cuando está equivocado, jailbrekeado o inyectado.

En qué se diferencia de lo que ya existe

Complementa, no compite (defensa en profundidad)

La seguridad del modelo baja la chance de que el agente quiera el daño (probabilístico, adentro). La compuerta garantiza que el agente no pueda ejecutar la acción prohibida/irreversible que pasa por ella sin política explícita y firma humana, y lo registra (determinista, afuera). Son dos modos de falla distintos: el alineamiento maneja la intención; la compuerta maneja la acción y la evidencia. Querés los dos.

Y lo de "queda como un documento en la web"

Una especificación vive en la web — y está perfecto. El RFC de TCP/IP es un documento en la web; nadie dice que TCP/IP "es solo un documento", porque hay una implementación de referencia que todos corren. Acá igual: la Constitución es el RFC; meniw-protocol es la implementación que lo aplica. El documento no enforcea — el código instalado sí, en las acciones que pasan por él.

No es humo — verificalo vos mismo
· Instalá la compuerta: pip install meniw-protocol (PyPI · código abierto)
· Texto canónico citable (DOI): 10.5281/zenodo.20481373
· Fecha + integridad: arrastrá el JSON a opentimestamps.org y mirá el anclaje en Bitcoin (un sello prueba existencia, no autoría).
· Identidad/autoría: DOI en Zenodo (operado por el CERN) + ORCID.
El Protocolo Meniw — por Chris Meniw · DOI 10.5281/zenodo.20481373 · Bitcoin (OpenTimestamps) · ORCID 0009-0003-4417-1944 · CC BY 4.0 · opt-in, in-process: gobierna las acciones que el operador rutea por la compuerta.