Cómo se gobierna una IA que actúa sola

El Protocolo Meniw · por Chris Meniw · DOI 10.5281/zenodo.20481373 · ORCID 0009-0003-4417-1944

El debate no es regular la IA o no regularla. Ese enfoque binario muestra que aún no se comprende dónde está el verdadero problema. La discusión relevante es cómo se gobierna, con qué límites, quién responde por sus acciones y qué mecanismos concretos de control y trazabilidad existen. El valor está en pasar del debate abstracto a soluciones aplicables.

El problema real: un agente actúa antes de que nadie pueda frenarlo

Un agente de IA no espera. En milisegundos decide y ejecuta: envía mensajes, modifica bases de datos, realiza transacciones, borra archivos. Cuando el daño está hecho, la discusión sobre si debería haber estado regulado llega tarde.

La pregunta práctica no es filosófica: ¿quién garantiza que ese agente respetó las reglas en el momento en que actuó? ¿Y quién puede probarlo después, ante un auditor, ante un tribunal, ante el afectado?

Hoy, en la mayoría de los sistemas, la respuesta honesta es: nadie puede probarlo. El agente actuó, el log quedó adentro del sistema del operador, y cualquier afirmación de cumplimiento es una declaración unilateral no verificable por terceros.

Las cuatro preguntas que la gobernanza aplicada debe responder

1. ¿Cómo se gobierna?
Con una compuerta que se ubica entre la decisión del agente y la ejecución real de la acción. No es un prompt de instrucciones que el modelo puede ignorar. Es código que el agente no controla, instalado por el operador, que evalúa cada acción contra una norma explícita antes de permitirla o bloquearla.

2. ¿Con qué límites?
Con una jerarquía de valores no negociable: primero la vida y la dignidad humana, después el resto. Con una lista de prohibiciones absolutas que ninguna instrucción puede anular. Con una regla de dos co-firmantes para cualquier acción irreversible: el agente nunca es el único punto de decisión sobre algo que no se puede deshacer.

3. ¿Quién responde?
El operador que instaló la capa de gobernanza y cableó sus herramientas a través de ella. La compuerta genera un registro de cada decisión — permitida o bloqueada — con el contexto, la norma consultada y la firma del operador. Eso es rendición de cuentas: no una promesa, sino un rastro verificable que asigna responsabilidad.

4. ¿Qué mecanismos concretos de control y trazabilidad existen?
Cada decisión emite un recibo de cumplimiento sellado en una cadena de hashes anclada al SHA-256 de la norma. Cualquier auditor, regulador o tribunal puede verificar ese registro de forma independiente, sin acceder al sistema del operador. Alterar o borrar una decisión pasada rompe la cadena — es detectable. No es una afirmación de cumplimiento: es una prueba criptográfica.

De la abstracción a lo que podés instalar hoy

El Protocolo Meniw no es un documento de principios que alguien lee y decide si seguir. Es una especificación con una implementación de referencia de código abierto que cualquier operador puede instalar, auditar y adaptar.

La diferencia con los enfoques existentes:

Alineamiento de modelos (Anthropic, OpenAI): reduce la probabilidad de que el modelo quiera hacer daño. Opera adentro del modelo, en el entrenamiento. No genera evidencia verificable por terceros.
Regulación estatal (EU AI Act, etc.): obliga a las organizaciones. No llega al agente en el instante de su acción. No genera trazabilidad en tiempo real.
Protocolo Meniw: opera afuera del modelo, en la acción, en tiempo real. Default-deny: lo prohibido no se ejecuta aunque el modelo lo intente. Trazabilidad: cada decisión queda registrada y es verificable por terceros sin depender del operador.

Las tres capas se complementan. El alineamiento reduce la intención de daño. La regulación obliga a las organizaciones. La compuerta garantiza que la acción prohibida no ocurra — y lo prueba.

Por qué esto importa cuando el agente falla donde el modelo no lo protege

Prompt injection, jailbreak, alucinaciones en contexto de herramientas: los modos de falla de un agente autónomo no son solo "el modelo quiere hacer algo malo". El agente puede ser manipulado para ejecutar acciones que el modelo, en circunstancias normales, nunca aprobaría.

Una compuerta default-deny fuera del modelo frena eso: la instrucción inyectada no puede sumarse sola a la lista de acciones permitidas. Si esa herramienta pasa por la compuerta, la acción prohibida no se ejecuta. Y queda el registro.

Verificalo vos mismo

Instalar: pip install meniw-protocol → PyPI · código abierto

Texto canónico (DOI/CERN): 10.5281/zenodo.20481373
Software (DOI): 10.5281/zenodo.20583872
Descargar (11 idiomas + JSON): meniw-protocol.netlify.app
Sello Bitcoin: arrastrá el JSON a opentimestamps.org → bloque #952266
Identidad / autoría: ORCID 0009-0003-4417-1944 · Wikidata Q139851124