Top 10 de OWASP para LLMs (2025) | Guía de Seguridad en IA para Modelos de Lenguaje de Gran Tamaño

OWASP Top 10 for LLM Applications Shield

La inteligencia artificial está transformando la forma en que se construye y utiliza el software, pero con un gran poder vienen riesgos de seguridad significativos. Los Large Language Models (LLMs) introducen una nueva clase de vulnerabilidades para las que los marcos de seguridad tradicionales nunca fueron diseñados. Para ayudar a desarrolladores, equipos de seguridad y organizaciones a navegar este panorama, OWASP publicó el OWASP Top 10 for LLM Applications 2025 — una guía definitiva sobre los riesgos de seguridad más críticos específicos de los sistemas impulsados por IA.

Esta guía desglosa cada uno de los diez riesgos, explicando qué son, por qué son importantes y cómo defenderse de ellos.

En este artículo

LLM01 — Inyección de Prompts

La inyección de prompts es el riesgo más prevalente y peligroso para las aplicaciones basadas en LLM. Ocurre cuando un atacante elabora una entrada maliciosa — directamente en el prompt del usuario o incrustada en el contenido externo que el modelo procesa — para anular las instrucciones previstas del sistema. Esto puede provocar que el modelo filtre datos confidenciales, eluda las salvaguardas de seguridad, ejecute acciones no deseadas o suplante a usuarios autorizados.

Mitigación: Trate toda entrada de usuarios como no confiable. Utilice validación estricta de entradas, separación de privilegios entre el modelo y los sistemas backend, y revisión humana para operaciones sensibles. Nunca permita que el contenido generado por LLMs active directamente acciones privilegiadas sin verificación.

LLM02 — Divulgación de Información Sensible

Los LLMs pueden revelar inadvertidamente información sensible — incluyendo información de identificación personal (PII), datos empresariales propietarios, claves de API o detalles de documentos confidenciales utilizados durante el entrenamiento o la recuperación. Esto puede ocurrir a través de consultas directas, prompts elaborados con astucia o memorización del modelo de los datos de entrenamiento.

Mitigación: Aplique principios de minimización de datos: exponga solo los datos que un LLM realmente necesita. Implemente filtrado de salidas para detectar y ocultar patrones sensibles antes de que las respuestas lleguen al usuario. Audite regularmente los pipelines de datos de entrenamiento y recuperación.

LLM03 — Vulnerabilidades en la Cadena de Suministro

Las aplicaciones LLM dependen de un ecosistema complejo: modelos base preentrenados, conjuntos de datos de ajuste fino, plugins de terceros, bases de datos vectoriales y APIs externas. Un compromiso en cualquier punto de esta cadena — un modelo envenenado, un plugin malicioso o un conjunto de datos manipulado — puede introducir puertas traseras o comportamientos inesperados en los sistemas de producción.

Mitigación: Examine detenidamente todos los modelos, plugins y fuentes de datos de terceros. Utilice registros de modelos verificados, fije las versiones de dependencias y realice auditorías de seguridad regulares de toda la cadena de suministro de IA. Prefiera modelos de proveedores de buena reputación con prácticas de seguridad documentadas.

LLM04 — Envenenamiento de Datos y Modelos

El envenenamiento de datos ocurre cuando un atacante manipula los datos de entrenamiento o ajuste fino para incrustar sesgos ocultos, puertas traseras o comportamientos maliciosos en el modelo. El envenenamiento del modelo extiende esto a los propios pesos del modelo. Los modelos envenenados pueden comportarse con normalidad en la mayoría de condiciones, pero producir salidas controladas por el atacante cuando están presentes entradas de activación específicas.

Mitigación: Seleccione y valide cuidadosamente todos los datos de entrenamiento. Utilice detección de anomalías durante el entrenamiento. Prefiera el ajuste fino sobre el reentrenamiento completo siempre que sea posible, y monitorice las salidas del modelo en producción para detectar cambios de comportamiento inesperados.

LLM05 — Manejo Inadecuado de Salidas

Cuando la salida generada por un LLM se pasa directamente a sistemas posteriores — como navegadores web, intérpretes de código, bases de datos o comandos del sistema operativo — sin validación adecuada, puede desencadenar ataques de cross-site scripting (XSS), inyección SQL, ejecución remota de código u otros ataques de inyección clásicos. El LLM en sí no es explotado; la vulnerabilidad reside en cómo se consume su salida.

Mitigación: Trate la salida del LLM como entrada de usuario no confiable. Aplique codificación de salida sensible al contexto, utilice consultas parametrizadas para interacciones con bases de datos, entornos de ejecución de código en sandbox e implemente validación estricta de salidas antes de pasar datos a cualquier sistema posterior.

Leer también Ciberseguridad en la Fórmula 1: Escenarios reales de ataque y cómo se defienden los equipos (2026)

LLM06 — Agencia Excesiva

Los agentes LLM modernos tienen capacidades — enviar correos electrónicos, ejecutar código, consultar bases de datos, llamar a APIs, gestionar archivos — que van mucho más allá de la simple respuesta a preguntas. La agencia excesiva ocurre cuando se le otorga a un LLM más permisos o autonomía de los necesarios, permitiendo que un modelo comprometido o manipulado cause daños significativos en el mundo real.

Mitigación: Aplique el principio de mínimo privilegio de forma rigurosa. Otorgue a los agentes LLM solo los permisos mínimos necesarios para cada tarea específica. Implemente puertas de aprobación humana para acciones de alto impacto, registre todas las actividades de los agentes y diseñe sistemas reversibles siempre que sea posible.

LLM07 — Filtración del Prompt de Sistema

Los prompts de sistema suelen contener valiosa propiedad intelectual, configuraciones de seguridad, definiciones de personalidad e instrucciones operativas que los desarrolladores consideran confidenciales. A través de consultas elaboradas cuidadosamente — pidiendo al modelo que repita todo lo que está arriba o que haga un juego de roles como una IA sin restricciones — los atacantes a menudo pueden extraer el contenido parcial o completo del prompt de sistema.

Mitigación: No depénda del secreto del prompt de sistema como control de seguridad principal. Asuma que el contenido del prompt de sistema puede ser descubierto y diseñe en consecuencia. Utilice controles de acceso robustos, evite incrustar credenciales o lógica empresarial sensible en los prompts y monitorice los intentos de extracción.

LLM08 — Debilidades en Vectores y Embeddings

Los sistemas de Generación Aumentada por Recuperación (RAG) dependen de bases de datos vectoriales para proporcionar contexto relevante a los LLMs. Las debilidades en cómo se generan, almacenan o recuperan los embeddings pueden permitir a los atacantes manipular los resultados de recuperación, inyectar contenido malicioso en la base de conocimiento o explotar algoritmos de búsqueda por similitud para extraer documentos almacenados sensibles.

Mitigación: Proteja las bases de datos vectoriales con controles de acceso y cifrado adecuados. Valide y sanee todo el contenido antes de que ingrese a la base de conocimiento. Implemente filtrado de consultas para prevenir la recuperación no autorizada de documentos y monitorice los patrones de búsqueda vectorial en busca de anomalías.

LLM09 — Desinformación

Los LLMs pueden generar información que suena plausible pero que es factualmente incorrecta — un fenómeno comúnmente llamado alucinación. Cuando se despliegan en dominios de alto riesgo como la sanidad, los servicios legales o el asesoramiento financiero, esto puede causar daño directo a los usuarios finales que confían en la salida del modelo. Los adversarios también pueden explotar intencionalmente esta tendencia para difundir desinformación dirigida a través de aplicaciones impulsadas por IA.

Mitigación: Fundamente las respuestas del modelo en fuentes de datos verificadas y autorizadas utilizando RAG o pipelines aumentados por herramientas. Muestre indicadores de confianza claros y citas de fuentes. Implemente revisión humana para decisiones críticas y eduque a los usuarios sobre las limitaciones del contenido generado por IA.

LLM10 — Consumo Sin Límites

La inferencia LLM es computacionalmente costosa. Sin los límites de velocidad y controles de recursos adecuados, los atacantes pueden desencadenar condiciones de denegación de servicio (DoS) inundando una aplicación con solicitudes de uso intensivo de recursos, explotar diseños de prompts que causan salidas del modelo extremadamente largas, o abusar del acceso a la API para acumular costes significativos para la organización objetivo. Este riesgo también abarca los ataques de extracción de modelos, donde la consulta repetida se usa para replicar las capacidades de un modelo propietario.

Mitigación: Aplique límites de tasa estrictos, cuotas por usuario y límites máximos de tokens de salida. Monitorice los patrones de uso inusuales e implemente disyuntores para detener procesos descontrolados. Establezca alertas de costes y límites de facturación en los servicios de IA conectados a API.

Por qué es importante el OWASP LLM Top 10

Los riesgos enumerados anteriormente son fundamentalmente diferentes de las vulnerabilidades clásicas de aplicaciones web. Emergen de la naturaleza probabilística y generativa de los LLMs — sistemas que no siguen lógica determinista y pueden ser influenciados por el contenido que procesan. Las organizaciones que construyen o despliegan aplicaciones impulsadas por IA no pueden simplemente aplicar listas de verificación de seguridad existentes; necesitan un marco dedicado adaptado a estos desafíos únicos.

El OWASP Top 10 para Aplicaciones LLM 2025 está mantenido por una comunidad global de expertos en seguridad de IA y actualizado para reflejar el panorama de amenazas en evolución. Tanto si eres un desarrollador integrando una API de LLM, un ingeniero de seguridad revisando un producto de IA, o un ejecutivo evaluando el riesgo de adopción de IA, entender estas diez categorías es un punto de partida esencial.

La seguridad en la era de la IA no es opcional — es un requisito fundamental para construir sistemas en los que los usuarios puedan confiar.

Usa nuestra Calculadora de evaluación de riesgos basada en OWASP para evaluar la exposición de tu organización a las categorías de amenaza para LLMs descritas anteriormente.