Cinco programas para protegerse de los entrenadores de IA
El uso de imágenes disponibles en internet para entrenar modelos de inteligencia artificial (IA) mantiene viva la tensión entre desarrolladores y creadores. Mientras el debate jurídico avanza, sobre todo en la Unión Europea (UE), la realidad técnica se impone: cualquier archivo publicado es susceptible de ser rastreado (scraping) si no cuenta con límites expresos y barreras reconocibles. En 2026, la protección de una obra ya no depende de una marca de agua invisible. Las soluciones más eficaces combinan autenticación criptográfica, registros de exclusión, protocolos de control de scraping y reservas legales de minería de textos y datos (TDM).
Analizamos las cinco herramientas y marcos que definen el estado actual de la protección de los creadores frente al entrenamiento no autorizado de IA, incorporando la perspectiva jurídica de la mano de Juan Carlos Guerrero, socio de Propiedad Intelectual y Tecnología en ECIJA.
Credenciales de contenido
Impulsadas por Adobe dentro del estándar de la Coalición para la Procedencia y Autenticidad del Contenido (C2PA), permiten incrustar metadatos criptográficos verificables que acreditan autoría, historial de edición y preferencias de 1/5 uso, incluida la opción/etiqueta Do Not Train. A diferencia de las marcas invisibles tradicionales, integran firma digital y huella criptográfica en un estándar adoptado por medios y plataformas. No impiden la copia, pero dejan una señal verificable. Guerrero indica que estas credenciales «fortalecen la trazabilidad y pueden ser decisivas para acreditar que el desarrollador podía identificar la reserva de derechos».
En la práctica, resultan útiles para fotógrafos, marcas y profesionales que trabajan en entornos compatibles con C2PA. Safe Creative, reconocida como validador oficial desde finales de 2025, incorpora en las obras registradas el logotipo CR, que permite consultar la información de autenticidad, origen y edición.
Registro de exclusión de Spawning
La plataforma Spawning impulsa el Do Not Train Registry y la herramienta Have I Been Trained?, que permite comprobar si una imagen aparece en determinados conjuntos de datos. Su función principal es facilitar que los creadores manifiesten su oposición y que los desarrolladores puedan consultarla antes de entrenar modelos. Sin embargo, el experto apunta que estos sistemas «no sustituyen el opt out previsto en la normativa europea», sino que refuerzan «la visibilidad y trazabilidad de la oposición del titular de los derechos».
En España, el régimen de minería de textos y datos se incorporó mediante el Real Decreto-ley 24/2021 y permite el uso de obras accesibles lícitamente para TDM, salvo oposición expresa del titular. Por esta razón, no basta con figurar en un registro privado. Es imprescindible formular una reserva inequívoca y legible por sistemas automatizados. Spawning también promueve el protocolo ai.txt, una evolución del clásico robots.txt adaptada a la IA, que comunica a los sistemas de rastreo qué contenidos no pueden utilizarse para entrenamiento.
ImageSentinel
Es un marco de investigación orientado a proteger grandes colecciones de imágenes frente a modelos generativos. En lugar de limitarse a marcar archivos individuales, introduce imágenes «centinela» en los conjuntos de datos para detectar si el material se ha incorporado sin autorización. No impide el uso, pero puede aportar pruebas relevantes en caso de litigio. Aunque aún se encuentra en fase académica, resulta de interés para bancos de imágenes, archivos institucionales y grandes repositorios.
Herramientas de perturbación avanzada
Investigaciones recientes, como las desarrolladas por la Organización de Investigación Científica e Industrial de la Commonwealth (CSIRO), exploran métodos que alteran sutilmente los píxeles de las imágenes para que los sistemas de IA aprendan representaciones distorsionadas durante el entrenamiento, imperceptibles para el ojo humano.
Este tipo de técnicas se conocen como defensas adversariales y suponen un avance respecto a 2/5 las primeras generaciones de «ruido anti-IA», hoy fáciles de neutralizar mediante procesos automáticos. No obstante, requieren de conocimientos técnicos para aplicarlas y no garantizan la exclusión del entrenamiento.
Protocolo ai.txt
Se integra en el servidor y permite declarar de forma automática que el contenido no puede emplearse para entrenamiento ni fine-tuning (entrenamiento adicional para especializar a los modelos en tareas concretas). Aunque no bloquea descargas ilícitas ni asegura el cumplimiento legal, puede ser relevante en una eventual valoración jurídica. Guerrero indica que lo importante es que la «oposición sea inequívoca y legible por la máquina. Si el desarrollador no puede identificar razonablemente la reserva, será más fácil que invoque la excepción de TDM». Así, no es una muralla, pero sí una señal técnica para demostrar que la oposición era detectable por procesos automatizados.
¿Qué herramientas se están quedando atrás?
Los sistemas de marca de agua invisible de primera generación, como el proyecto NO AI, o servicios web básicos como el primer Watermarker de ArtShield resultan hoy insuficientes si se utilizan de forma aislada. La estrategia de hacer pasar una imagen como generada por IA para que los modelos la descarten ha perdido eficacia frente a sistemas de IA más avanzados. Herramientas como Glaze y Nightshade, que en 2023 fueron disruptivas, han tenido que evolucionar para adaptarse a modelos que resisten mejor las perturbaciones simples. Su utilidad actual es disuasoria y está sujeta al uso de versiones recientes que se combinan con otros mecanismos de protección como la reserva legal de derechos.
¿Qué hacer si la obra está en un dataset?
Hoy no existe un mecanismo automático que garantice la retirada de una obra incluida en un conjunto de entrenamiento. No obstante, la detección por parte de los creadores es crucial: aunque «no genera automáticamente un derecho a indemnización, constituye un elemento probatorio fundamental si se integra en una estrategia jurídica más amplia», asegura Guerrero. Las acciones a realizar incluyen:
- Formalizar o reforzar el opt-out de minería de textos y datos.
- Enviar requerimientos de retirada o exclusión.
- Explorar acciones por infracción de derechos de autor o competencia desleal, sobre todo si se ignora una reserva válida.
En cuanto a la compensación económica, tampoco existe un sistema general de remuneración obligatoria por el entrenamiento de IA, depende de acuerdos voluntarios, de licencias específicas o litigios individuales en los que se acredite la infracción.
Recomendaciones
En un entorno de modelos multimodales capaces de aprender de imágenes, texto y vídeo, la protección frente al entrenamiento no autorizado ha dejado de ser una acción puntual para convertirse en una estrategia integral.
Ahora ya se sabe que las medidas técnicas funcionan mejor cuando se combinan entre sí y, además, se acompañan de una estrategia jurídica y documental coherente. «Existe una diferencia clara entre quien publica sin estrategia y quien combina una oposición jurídica expresa, con una señal técnica legible por máquina y medidas probatorias de trazabilidad», defiende Guerrero. Un primer paso es registrar el proceso creativo de las obras, desde los bocetos hasta el resultado final, en servicios como Safe Creative, que permite acreditar la autoría en caso de conflicto. Además, a la hora de realizar el registro, esta plataforma incluye la opción de que el autor deje constancia de su oposición al uso de su obra para entrenamiento, lo que añade un extra de protección.
El abogado insiste en que: «la estrategia adecuada no es intentar hacer invisible la obra, sino que resulte difícil sostener que el sistema automatizado no ha podido identificar la reserva de derechos del titular». Y es que en un entorno donde el estilo es identidad y valor económico, protegerlo exige la misma profesionalidad con la que se crea.
Accede al artículo completo aquí.