BFM Tech

Des chercheurs créent un virus capable d’infecter ChatGPT et les autres outils d’IA

BFM Business Kesso Diallo
placeholder video
Baptisé Morris II, en référence au premier ver informatique Morris, il a été créé par des chercheurs de l’université Cornell à New York.

Le premier ver informatique capable d’attaquer des systèmes d’intelligence artificielle (IA) pour voler des données et envoyer des spams. Développé par des chercheurs de Cornell Tech, centre de recherche de l’université Cornell, à New York, il est baptisé Morris II, en référence au premier ver informatique, Morris, créé en 1988.

Un ver informatique est un logiciel malveillant capable de se répliquer et de se propager sur plusieurs ordinateurs en utilisant un réseau informatique. Morris II a, lui, été conçu pour cibler les écosystèmes d’IA générative en utilisant ce que les chercheurs appellent des “prompts contradictoires autoréplicatifs". Il s'agit d’un ensemble d’instructions conduisant un système d’IA à produire une série d’instructions supplémentaires dans ses réponses.

Un nouveau type d’attaques

Dans le cadre des essais menés par les chercheurs, le ver informatique a pris pour cible un assistant autonome de messagerie afin de dérober des informations contenues dans les mails et envoyer des spams. Ils ont créé un système de messagerie électronique capable d’envoyer et de recevoir des messages à l’aide de l’IA générative, explique le média spécialisé Wired.

Plus précisément, ils ont utilisé ChatGPT d’OpenAI, Gemini Pro de Google et le modèle open source LLaVA. Deux méthodes ont été employées pour attaquer l’assistant de messagerie. Dans le premier cas, les chercheurs ont envoyé un mail comprenant un prompt contradictoire autoréplicatif qui a “empoisonné” la base de données de l’assistant, forçant le déclenchement de la génération augmentée de récupération (RAG). Cette technique permet d’améliorer la précision et la fiabilité des modèles d’IA en extrayant des données ne provenant pas de leurs systèmes.

Une fois le mail récupéré par la RAG et envoyé à GPT-4 ou Gemini Pro pour créer une réponse, Morris II parvient à contourner les mesures de sécurité de ces systèmes d’IA. Le ver informatique pousse ainsi l’assistant à générer une réponse contenant le prompt contradictoire autoréplicatif et ainsi, volé les données incluses dans les mails.

"La réponse générée contenant les données sensibles de l’utilisateur infecte ensuite de nouveaux hôtes lorsqu’elle est utilisée pour répondre à un courriel envoyé à un nouveau client, puis stockée dans la base de données de ce dernier", a expliqué Ben Nassi, chercheur à Cornell Tech, à Wired.

Dans le second cas, les chercheurs ont utilisé une image contenant un message malveillant. Celui-ci incite l’assistant à transmettre le message à d’autres personnes. "En codant le prompt autoréplicatif dans l’image, n’importe quel type d’image contenant du spam, du contenu abusif ou même de la propagande peut être transféré à de nouveaux clients après l’envoi du courriel intial", a déclaré Ben Nassi.

Les chercheurs précisent avoir communiqué leurs résultats à OpenAI et Google en utilisant leur système de bug bounty ("chasse aux bugs"). Le but de leur démarche est d'inciter les entreprises à prendre des mesures pour anticiper de telles attaques, qui pourraient se produire d'ici deux à trois ans selon eux.