Pesquisadores desenvolveram um novo ataque que rouba dados do usuário injetando avisos maliciosos em imagens processadas por sistemas de IA antes de entregá-las a um grande modelo de linguagem.
O método se baseia em imagens de alta resolução que contêm instruções invisíveis ao olho humano, mas que se tornam aparentes quando a qualidade da imagem é reduzida por meio de algoritmos de reamostragem.
Desenvolvido pelos pesquisadores do Trail of Bits, Kikimora Morozova e Suha Sabi Hussain, o ataque se baseia em uma teoria apresentada em um artigo da USENIX de 2020 por uma universidade alemã (TU Braunschweig) explorando a possibilidade de um ataque de dimensionamento de imagem no aprendizado de máquina.
Como funciona o ataque
Quando os usuários carregam imagens em sistemas de IA, elas são automaticamente reduzidas para uma qualidade inferior para melhor desempenho e eficiência de custos.
Dependendo do sistema, os algoritmos de reamostragem de imagem podem tornar uma imagem mais clara usando interpolação de vizinho mais próximo, bilinear ou bicúbica.
Todos esses métodos introduzem artefatos de aliasing que permitem que padrões ocultos apareçam na imagem reduzida se a fonte for criada especificamente para esse propósito.
No exemplo do Trail of Bits, áreas escuras específicas de uma imagem maliciosa ficam vermelhas, permitindo que texto oculto apareça em preto quando a redução de escala bicúbica é usada para processar a imagem.
O modelo de IA interpreta esse texto como parte das instruções do usuário e o combina automaticamente com a entrada legítima.
Da perspectiva do usuário, nada parece errado, mas, na prática, o modelo executou instruções ocultas que podem levar ao vazamento de dados ou outras ações arriscadas.
Em um exemplo envolvendo o Gemini CLI , os pesquisadores conseguiram exfiltrar dados do Google Agenda para um endereço de e-mail arbitrário enquanto usavam o Zapier MCP com ‘trust=True’ para aprovar chamadas de ferramentas sem a confirmação do usuário.
A Trail of Bits explica que o ataque precisa ser ajustado para cada modelo de IA, de acordo com o algoritmo de redução de escala usado no processamento da imagem. No entanto, os pesquisadores confirmaram que seu método é viável para os seguintes sistemas de IA:
- Google Gemini CLI
- Vertex AI Studio (com backend Gemini)
- Interface web do Gemini
- API do Gemini via llm CLI
- Assistente do Google em um telefone Android
- Genspark
Como o vetor de ataque é disseminado, ele pode se estender muito além das ferramentas testadas. Além disso, para demonstrar sua descoberta, os pesquisadores também criaram e publicaram o Anamorpher (atualmente em beta), uma ferramenta de código aberto que pode criar imagens para cada um dos métodos de redução de escala mencionados.
Os pesquisadores argumentam que
Como ações de mitigação e defesa, os pesquisadores do Trail of Bits recomendam que os sistemas de IA implementem restrições de dimensão quando os usuários carregam uma imagem. Se for necessário reduzir a escala, eles recomendam fornecer aos usuários uma prévia do resultado entregue ao modelo de linguagem grande (LLM).
Eles também argumentam que a confirmação explícita dos usuários deve ser buscada para chamadas de ferramentas sensíveis, especialmente quando texto é detectado em uma imagem.
“A defesa mais forte, no entanto, é implementar padrões de design seguros e defesas sistemáticas que mitiguem a injeção de prompt impactante além da injeção de prompt multimodal”, dizem os pesquisadores, referindo-se a um artigo publicado em junho sobre padrões de design para a construção de LLMs que podem resistir a ataques de injeção de prompt.