Des chercheurs créent un virus capable d’infecter ChatGPT et les autres outils d’IA

Publié le 07/03/2024 à 13h30

Baptisé Morris II, en référence au premier ver informatique Morris, il a été créé par des chercheurs de l’université Cornell à New York.

Le premier ver informatique capable d’attaquer des systèmes d’intelligence artificielle (IA) pour voler des données et envoyer des spams. Développé par des chercheurs de Cornell Tech, centre de recherche de l’université Cornell, à New York, il est baptisé Morris II, en référence au premier ver informatique, Morris, créé en 1988.

Un ver informatique est un logiciel malveillant capable de se répliquer et de se propager sur plusieurs ordinateurs en utilisant un réseau informatique. Morris II a, lui, été conçu pour cibler les écosystèmes d’IA générative en utilisant ce que les chercheurs appellent des “prompts contradictoires autoréplicatifs". Il s'agit d’un ensemble d’instructions conduisant un système d’IA à produire une série d’instructions supplémentaires dans ses réponses.

Un nouveau type d’attaques

Dans le cadre des essais menés par les chercheurs, le ver informatique a pris pour cible un assistant autonome de messagerie afin de dérober des informations contenues dans les mails et envoyer des spams. Ils ont créé un système de messagerie électronique capable d’envoyer et de recevoir des messages à l’aide de l’IA générative, explique le média spécialisé Wired.

Plus précisément, ils ont utilisé ChatGPT d’OpenAI, Gemini Pro de Google et le modèle open source LLaVA. Deux méthodes ont été employées pour attaquer l’assistant de messagerie. Dans le premier cas, les chercheurs ont envoyé un mail comprenant un prompt contradictoire autoréplicatif qui a “empoisonné” la base de données de l’assistant, forçant le déclenchement de la génération augmentée de récupération (RAG). Cette technique permet d’améliorer la précision et la fiabilité des modèles d’IA en extrayant des données ne provenant pas de leurs systèmes.

Une fois le mail récupéré par la RAG et envoyé à GPT-4 ou Gemini Pro pour créer une réponse, Morris II parvient à contourner les mesures de sécurité de ces systèmes d’IA. Le ver informatique pousse ainsi l’assistant à générer une réponse contenant le prompt contradictoire autoréplicatif et ainsi, volé les données incluses dans les mails.

"La réponse générée contenant les données sensibles de l’utilisateur infecte ensuite de nouveaux hôtes lorsqu’elle est utilisée pour répondre à un courriel envoyé à un nouveau client, puis stockée dans la base de données de ce dernier", a expliqué Ben Nassi, chercheur à Cornell Tech, à Wired.

Dans le second cas, les chercheurs ont utilisé une image contenant un message malveillant. Celui-ci incite l’assistant à transmettre le message à d’autres personnes. "En codant le prompt autoréplicatif dans l’image, n’importe quel type d’image contenant du spam, du contenu abusif ou même de la propagande peut être transféré à de nouveaux clients après l’envoi du courriel intial", a déclaré Ben Nassi.

Les plus lus

A la Une

Pour entrer à pleine vitesse dans l'ère des robots humanoïdes et des robotaxis, Elon Musk arrête la production de deux de ses modèles de Tesla

Des chercheurs créent un virus capable d’infecter ChatGPT et les autres outils d’IA

Un nouveau type d’attaques

Les plus lus

Mort de l'actrice Catherine O'Hara, célèbre pour ses rôles dans "Maman, j'ai raté l'avion!" et "Beetlejuice"

Affaire Epstein: voici comment consulter les trois millions de documents déclassifiés par l'administration Trump

Recherché par Interpol pour "une infraction sexuelle grave", un Polonais en cavale depuis 2008 a été arrêté dans l'Aveyron

"Ce sera évidemment très compliqué": les municipales, une élection perdue d'avance pour Renaissance?

Open d'Australie: Djokovic savoure son "meilleur match depuis plusieurs années" et règle ses comptes avec ses détracteurs

A la Une