Les réponses de l’IA

Question Peut-on empêcher les comportements indésirables ou les détournements de l’IA à des fins malveillantes?
Réponse : ChatGPT – 9 juin 2026

Oui, mais pas complètement.

Empêcher les comportements indésirables d’une IA ou son détournement à des fins malveillantes est un objectif central de la recherche en sécurité de l’IA, mais il n’existe pas aujourd’hui de méthode garantissant un risque nul. En pratique, on combine plusieurs approches.

1. Concevoir l’IA pour suivre certaines règles

Les modèles sont entraînés à respecter des consignes de sécurité et à refuser certaines demandes dangereuses (fabrication d’armes, fraude, logiciels malveillants, etc.). Cela réduit de nombreux risques courants.

Cependant, les utilisateurs peuvent parfois essayer de contourner ces protections par des techniques appelées « jailbreaks » ou en formulant les demandes de manière détournée.

2. Tester activement les vulnérabilités

Les développeurs réalisent des exercices de « red teaming » : des experts tentent délibérément de pousser l’IA à produire des réponses problématiques afin d’identifier ses faiblesses avant son déploiement.

3. Mettre en place des garde-fous techniques

Selon l’application, il est possible d’ajouter :

  • des filtres d’entrée et de sortie ;
  • une surveillance des usages ;
  • des limites d’accès ;
  • des systèmes de détection d’abus ;
  • une validation humaine pour les actions sensibles.

Par exemple, une IA qui contrôle des équipements industriels ou traite des données médicales ne devrait généralement pas agir de manière totalement autonome.

4. Limiter les capacités dans certains contextes

Plus une IA a accès à des ressources (internet, bases de données, systèmes informatiques, outils d’action), plus les conséquences potentielles d’un mauvais comportement augmentent. Une stratégie consiste à limiter ces accès et à appliquer le principe du moindre privilège.

5. Gouvernance, réglementation et responsabilité

Les mesures techniques seules ne suffisent pas. Des cadres juridiques et organisationnels sont également utilisés :

  • audits ;
  • obligations de transparence ;
  • évaluation des risques ;
  • responsabilité des acteurs qui déploient les systèmes.

Par exemple, l'[« organization », »Union européenne », »Régulateur supranational européen »] a adopté l'[« other », »AI Act », »Règlement européen sur l’intelligence artificielle »] pour encadrer certains usages de l’IA selon leur niveau de risque.

Pourquoi le risque ne peut-il pas être éliminé totalement ?

Pour plusieurs raisons :

  • les modèles peuvent se comporter de façon imprévue dans des situations nouvelles ;
  • des utilisateurs peuvent découvrir de nouvelles méthodes de contournement ;
  • les objectifs humains sont parfois ambigus ou contradictoires ;
  • les systèmes deviennent de plus en plus complexes.

On peut donc généralement réduire fortement les risques, mais garantir qu’une IA ne sera jamais utilisée de manière malveillante ou qu’elle ne produira jamais un comportement indésirable est aujourd’hui considéré comme extrêmement difficile.


Réponse de Gemini

Oui, il est possible de limiter et d’entraver les comportements indésirables ou les détournements malveillants de l’intelligence artificielle, mais il n’existe pas de solution miracle. C’est une lutte constante entre la sécurité et l’ingéniosité des pirates.

Les experts et les développeurs utilisent plusieurs leviers pour sécuriser l’IA :

1. Le « Guardrailing » et le filtrage des entrées/sorties

Avant même qu’une IA ne réponde, des filtres analysent la demande de l’utilisateur (l’entrée) pour détecter des intentions malveillantes (comme demander la recette d’un poison). De la même manière, la réponse générée par l’IA (la sortie) passe par un second filtre pour s’assurer qu’elle ne contient rien de dangereux ou d’éthiquement incorrect avant de s’afficher.

2. L’alignement et le RLHF

Pendant sa phase d’apprentissage, l’IA subit un entraînement appelé RLHF (Reinforcement Learning from Human Feedback ou apprentissage par renforcement hautement guidé par l’humain). Des humains testent l’IA et la « punissent » virtuellement lorsqu’elle adopte un comportement indésirable, tout en la « récompensant » lorsqu’elle refuse poliment de collaborer à une action malveillante. Cela permet d’aligner ses valeurs sur des principes éthiques.

3. Le « Red Teaming » (Simulations d’attaques)

Pour anticiper les détournements, les entreprises engagent des équipes de hackers éthiques (la Red Team). Leur rôle est de pousser l’IA à bout, de tenter de la piéger ou de contourner ses sécurités (ce qu’on appelle le jailbreaking). Trouver les failles en premier permet de les corriger avant que des personnes malintentionnées ne les exploitent.


⚠️ Le défi du « jeu du chat et de la souris »
Malgré toutes ces barrières, le risque zéro n’existe pas. Les cybercriminels trouvent régulièrement de nouvelles techniques de contournement linguistique ou logique. De plus, les modèles d’IA « open-source » (dont le code est public) peuvent être modifiés par n’importe qui pour en retirer les sécurités d’origine.

C’est pourquoi la sécurité de l’IA ne repose pas uniquement sur la technologie, mais aussi sur des lois et des réglementations internationales pour punir sévèrement les usages malveillants.