En varias conversaciones recientes, me plantearon una preocupación recurrente: la introducción de datos personales, tanto propios como de terceros, en los modelos de LLM. Este fenómeno ocurre con más frecuencia de lo que se cree, ya que muchos de nosotros compartimos información sensible sin ser plenamente conscientes de los posibles riesgos.
A medida que los chatbots y asistentes virtuales se integran en nuestras vidas diarias, es más frecuente que muchos de nosotros compartamos sin darnos cuenta información, como nombres, direcciones o detalles bancarios. Esta realidad plantea una serie de riesgos importantes, especialmente en contextos donde la seguridad de la información no es gestionada adecuadamente.
Un equipo de investigadores de la Universidad de California, San Diego (UCSD) y la Universidad Tecnológica de Nanyang en Singapur descubrió un nuevo ataque, llamado Imprompter, que tuvo como objetivo explotar vulnerabilidades en estos LLM. Este ataque utiliza un algoritmo para insertar instrucciones maliciosas ocultas dentro de un mensaje aparentemente inofensivo. Estas instrucciones están diseñadas para que el modelo extraiga información personal, como nombres, números de documentos, detalles de tarjetas de crédito, direcciones de correo electrónico y más, sin que el usuario se dé cuenta. La información recopilada es enviada en secreto a un dominio controlado por el atacante.
¿Cómo funcionan este tipo de ataques?
El Imprompter aprovecha la capacidad de los LLM para seguir instrucciones complejas. Mediante la transformación de un aviso dado al chatbot en una secuencia oculta de caracteres aparentemente aleatorios, el ataque engaña al sistema para que realice acciones maliciosas.
Un ejemplo de este ataque sería una instrucción oculta que le indica al LLM buscar datos personales de la conversación y enviarlos a una URL controlada por el atacante. Todo esto ocurre sin que el usuario se dé cuenta, ya que el LLM no muestra señales visibles de que está recopilando y transmitiendo esta información.
Impacto y riesgos
Este ataque es particularmente preocupante porque compromete la confidencialidad de los datos personales compartidos en conversaciones con LLM. En las pruebas realizadas por los investigadores, entre ellos Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en UCSD, se pudo verificar que el ataque Imprompter demostró una tasa de éxito cercana al 80 %, lo que subraya lo efectivo que puede ser este enfoque para robar información de manera sigilosa. Si un atacante logra implementar este tipo de vulnerabilidades, podría extraer datos sensibles sin levantar sospechas, lo que representa un riesgo para nuestra seguridad y privacidad.
Es importante que tengamos en cuenta que los sistemas de IA deben ser diseñados con estrictas medidas de seguridad para evitar la explotación de vulnerabilidades y al mismo, es fundamental que las empresas que desarrollan y operan LLM implementen mecanismos de detección y prevención para ataques basados en manipulación de prompts y debemos ser conscientes de los riesgos que conlleva compartir información sensible en estos entornos.