{"id":3804,"date":"2026-06-25T12:08:55","date_gmt":"2026-06-25T12:08:55","guid":{"rendered":"https:\/\/la-marque.org\/?page_id=3804"},"modified":"2026-06-25T12:08:55","modified_gmt":"2026-06-25T12:08:55","slug":"les-reponses-de-lia-11","status":"publish","type":"page","link":"https:\/\/la-marque.org\/index.php\/les-reponses-de-lia-11\/","title":{"rendered":"Les r\u00e9ponses de l&rsquo;IA"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><strong>Question<\/strong>&nbsp;<strong>:&nbsp;<\/strong><em><strong>Peut-on emp\u00eacher les comportements ind\u00e9sirables ou les d\u00e9tournements de l\u2019IA \u00e0 des fins malveillantes?<\/strong><\/em><br><strong>R\u00e9ponse<\/strong>&nbsp;: ChatGPT \u2013 9 juin 2026<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Oui, mais pas compl\u00e8tement.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Emp\u00eacher les comportements ind\u00e9sirables d\u2019une IA ou son d\u00e9tournement \u00e0 des fins malveillantes est un objectif central de la recherche en s\u00e9curit\u00e9 de l\u2019IA, mais il n\u2019existe pas aujourd\u2019hui de m\u00e9thode garantissant un risque nul. En pratique, on combine plusieurs approches.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">1. Concevoir l\u2019IA pour suivre certaines r\u00e8gles<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Les mod\u00e8les sont entra\u00een\u00e9s \u00e0 respecter des consignes de s\u00e9curit\u00e9 et \u00e0 refuser certaines demandes dangereuses (fabrication d\u2019armes, fraude, logiciels malveillants, etc.). Cela r\u00e9duit de nombreux risques courants.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cependant, les utilisateurs peuvent parfois essayer de contourner ces protections par des techniques appel\u00e9es \u00ab jailbreaks \u00bb ou en formulant les demandes de mani\u00e8re d\u00e9tourn\u00e9e.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">2. Tester activement les vuln\u00e9rabilit\u00e9s<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Les d\u00e9veloppeurs r\u00e9alisent des exercices de \u00ab red teaming \u00bb : des experts tentent d\u00e9lib\u00e9r\u00e9ment de pousser l\u2019IA \u00e0 produire des r\u00e9ponses probl\u00e9matiques afin d\u2019identifier ses faiblesses avant son d\u00e9ploiement.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">3. Mettre en place des garde-fous techniques<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Selon l\u2019application, il est possible d\u2019ajouter :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>des filtres d\u2019entr\u00e9e et de sortie ;<\/li>\n\n\n\n<li>une surveillance des usages ;<\/li>\n\n\n\n<li>des limites d\u2019acc\u00e8s ;<\/li>\n\n\n\n<li>des syst\u00e8mes de d\u00e9tection d\u2019abus ;<\/li>\n\n\n\n<li>une validation humaine pour les actions sensibles.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Par exemple, une IA qui contr\u00f4le des \u00e9quipements industriels ou traite des donn\u00e9es m\u00e9dicales ne devrait g\u00e9n\u00e9ralement pas agir de mani\u00e8re totalement autonome.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">4. Limiter les capacit\u00e9s dans certains contextes<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Plus une IA a acc\u00e8s \u00e0 des ressources (internet, bases de donn\u00e9es, syst\u00e8mes informatiques, outils d\u2019action), plus les cons\u00e9quences potentielles d\u2019un mauvais comportement augmentent. Une strat\u00e9gie consiste \u00e0 limiter ces acc\u00e8s et \u00e0 appliquer le principe du moindre privil\u00e8ge.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">5. Gouvernance, r\u00e9glementation et responsabilit\u00e9<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Les mesures techniques seules ne suffisent pas. Des cadres juridiques et organisationnels sont \u00e9galement utilis\u00e9s :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>audits ;<\/li>\n\n\n\n<li>obligations de transparence ;<\/li>\n\n\n\n<li>\u00e9valuation des risques ;<\/li>\n\n\n\n<li>responsabilit\u00e9 des acteurs qui d\u00e9ploient les syst\u00e8mes.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Par exemple, l'[\u00ab&nbsp;organization&nbsp;\u00bb,&nbsp;\u00bbUnion europ\u00e9enne&nbsp;\u00bb,&nbsp;\u00bbR\u00e9gulateur supranational europ\u00e9en&nbsp;\u00bb] a adopt\u00e9 l'[\u00ab&nbsp;other&nbsp;\u00bb,&nbsp;\u00bbAI Act&nbsp;\u00bb,&nbsp;\u00bbR\u00e8glement europ\u00e9en sur l\u2019intelligence artificielle&nbsp;\u00bb] pour encadrer certains usages de l\u2019IA selon leur niveau de risque.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">Pourquoi le risque ne peut-il pas \u00eatre \u00e9limin\u00e9 totalement ?<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Pour plusieurs raisons :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>les mod\u00e8les peuvent se comporter de fa\u00e7on impr\u00e9vue dans des situations nouvelles ;<\/li>\n\n\n\n<li>des utilisateurs peuvent d\u00e9couvrir de nouvelles m\u00e9thodes de contournement ;<\/li>\n\n\n\n<li>les objectifs humains sont parfois ambigus ou contradictoires ;<\/li>\n\n\n\n<li>les syst\u00e8mes deviennent de plus en plus complexes.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">On peut donc g\u00e9n\u00e9ralement&nbsp;<strong>r\u00e9duire fortement les risques<\/strong>, mais garantir qu\u2019une IA ne sera jamais utilis\u00e9e de mani\u00e8re malveillante ou qu\u2019elle ne produira jamais un comportement ind\u00e9sirable est aujourd\u2019hui consid\u00e9r\u00e9 comme extr\u00eamement difficile.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>R\u00e9ponse<\/strong>&nbsp;de Gemini<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Oui, il est possible de limiter et d\u2019entraver les comportements ind\u00e9sirables ou les d\u00e9tournements malveillants de l\u2019intelligence artificielle, mais il n\u2019existe pas de solution miracle. C\u2019est une lutte constante entre la s\u00e9curit\u00e9 et l\u2019ing\u00e9niosit\u00e9 des pirates.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les experts et les d\u00e9veloppeurs utilisent plusieurs leviers pour s\u00e9curiser l\u2019IA :<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">1. Le \u00ab&nbsp;Guardrailing&nbsp;\u00bb et le filtrage des entr\u00e9es\/sorties<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Avant m\u00eame qu\u2019une IA ne r\u00e9ponde, des filtres analysent la demande de l\u2019utilisateur (l\u2019entr\u00e9e) pour d\u00e9tecter des intentions malveillantes (comme demander la recette d\u2019un poison). De la m\u00eame mani\u00e8re, la r\u00e9ponse g\u00e9n\u00e9r\u00e9e par l\u2019IA (la sortie) passe par un second filtre pour s\u2019assurer qu\u2019elle ne contient rien de dangereux ou d\u2019\u00e9thiquement incorrect avant de s\u2019afficher.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">2. L\u2019alignement et le RLHF<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Pendant sa phase d\u2019apprentissage, l\u2019IA subit un entra\u00eenement appel\u00e9&nbsp;<strong>RLHF<\/strong>&nbsp;(<em>Reinforcement Learning from Human Feedback<\/em>&nbsp;ou apprentissage par renforcement hautement guid\u00e9 par l\u2019humain). Des humains testent l\u2019IA et la \u00ab&nbsp;punissent&nbsp;\u00bb virtuellement lorsqu\u2019elle adopte un comportement ind\u00e9sirable, tout en la \u00ab&nbsp;r\u00e9compensant&nbsp;\u00bb lorsqu\u2019elle refuse poliment de collaborer \u00e0 une action malveillante. Cela permet d\u2019aligner ses valeurs sur des principes \u00e9thiques.<\/p>\n\n\n\n<h6 class=\"wp-block-heading\">3. Le \u00ab&nbsp;Red Teaming&nbsp;\u00bb (Simulations d\u2019attaques)<\/h6>\n\n\n\n<p class=\"wp-block-paragraph\">Pour anticiper les d\u00e9tournements, les entreprises engagent des \u00e9quipes de hackers \u00e9thiques (la&nbsp;<em>Red Team<\/em>). Leur r\u00f4le est de pousser l\u2019IA \u00e0 bout, de tenter de la pi\u00e9ger ou de contourner ses s\u00e9curit\u00e9s (ce qu\u2019on appelle le&nbsp;<em>jailbreaking<\/em>). Trouver les failles en premier permet de les corriger avant que des personnes malintentionn\u00e9es ne les exploitent.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">\u26a0\ufe0f&nbsp;<strong>Le d\u00e9fi du \u00ab&nbsp;jeu du chat et de la souris&nbsp;\u00bb<\/strong><br>Malgr\u00e9 toutes ces barri\u00e8res, le risque z\u00e9ro n\u2019existe pas. Les cybercriminels trouvent r\u00e9guli\u00e8rement de nouvelles techniques de contournement linguistique ou logique. De plus, les mod\u00e8les d\u2019IA \u00ab&nbsp;open-source&nbsp;\u00bb (dont le code est public) peuvent \u00eatre modifi\u00e9s par n\u2019importe qui pour en retirer les s\u00e9curit\u00e9s d\u2019origine.<\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">C\u2019est pourquoi la s\u00e9curit\u00e9 de l\u2019IA ne repose pas uniquement sur la technologie, mais aussi sur des&nbsp;<strong>lois et des r\u00e9glementations internationales<\/strong>&nbsp;pour punir s\u00e9v\u00e8rement les usages malveillants.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Question&nbsp;:&nbsp;Peut-on emp\u00eacher les comportements ind\u00e9sirables ou les d\u00e9tournements de l\u2019IA \u00e0 des fins malveillantes?R\u00e9ponse&nbsp;: ChatGPT \u2013 9 juin 2026 Oui, mais pas compl\u00e8tement. Emp\u00eacher les comportements ind\u00e9sirables d\u2019une IA ou son d\u00e9tournement \u00e0 des fins malveillantes est un objectif central de la recherche en s\u00e9curit\u00e9 de l\u2019IA, mais il n\u2019existe pas aujourd\u2019hui de m\u00e9thode garantissant [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-3804","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/pages\/3804","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/comments?post=3804"}],"version-history":[{"count":1,"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/pages\/3804\/revisions"}],"predecessor-version":[{"id":3806,"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/pages\/3804\/revisions\/3806"}],"wp:attachment":[{"href":"https:\/\/la-marque.org\/index.php\/wp-json\/wp\/v2\/media?parent=3804"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}