Cybersécurité et IA : faut-il avoir peur du grand méchant Chat(GPT) ?

ChatGPT : faut-il encore le présenter ? Pour ceux qui ont été préservés par le tombereau d’articles sur le sujet (tombereau auquel le présent papier viendra s’ajouter), on peut résumer en disant que ChatGPT est un modèle d’intelligence artificielle utilisant le langage naturel, accessible depuis peu de temps et principalement connu du grand public pour ses capacités de « conversation ».

Une intelligence polyvalente… et commercialisable

L’interface et l’utilisation sont simples. L’IA accepte une question sous la forme que vous voulez et tente d’y répondre. Cela peut engendrer des discussions (souvent à bâtons rompus, il est vrai) de tout ordre, sur le temps qu’il fait, la géopolitique ou votre santé mentale ; mais, ses capacités logiques étant limitées, la plupart des sollicitations sont purement utilitaires. Par exemple, ChatPGT s’est montré capable de générer des dissertations de format académique, de répondre à des problèmes mathématiques ou logiques, de communiquer des informations comme pourrait le faire une recherche Google, de créer et d’imaginer de nouvelles choses, de traduire des textes dans diverses langues, etc.

L’IA s’est aussi professionnalisée : ChatGPT s’est montré plutôt doué en rédaction de code informatique dans divers langages de programmation, ainsi qu’en analyse de code, pouvant remonter et repérer des défauts et des failles de sécurités de manière assez impressionnante.

ChatGPT et le cybercrime

Dans la lignée des déclarations laudatives ou catastrophistes sur l’interruption de l’intelligence artificielle dans nos vies, une flopée d’articles ou de conférences a vu le jour sur l’utilisation potentielle de ChatGPT par les cybercriminels. Un petit florilège : Comment ChatGPT va rendre les arnaques en ligne plus difficiles à déceler, sur BFM TV ; Chat GPT – Ennemi ou allié de la cybersécurité ? En webinaire chez Sophos ; Les virus créés par Chat GPT font trembler les experts en sécurité, du site Freelance Informatique, et ainsi de suite.

Deux assertions reviennent :

ChatGPT pourrait aider les hackers à concevoir des virus plus sophistiqués
ChatGPT pourrait concevoir des messages d’ingénierie sociale (phishing…) indétectables

Étudions-les un peu. Concernant la première, comme dit plus haut, l’une des utilisations légitimes de ChatGPT est la création de code informatique. Ce service peut donc bien évidemment être utilisé pour créer ou améliorer des virus ! Seulement, ceux cherchant à exploiter les capacités de l’IA dans ce sens doivent ruser ; en effet, des mesures de sécurité basiques ont été mises en place par OpenAI (concepteur de l’intelligence) afin d’éviter que celles-ci ne servent des buts malveillants. Ces mesures sont cependant facilement contournables.

Ainsi, le chercheur en cybersécurité Aaron Mulgrew est parvenu à détourner ChatGPT pour le faire concevoir un maliciel indétectable, en utilisant des requêtes séquencées afin d’éviter que l’IA ne comprenne le plan d’ensemble du code et ses utilisations potentielles. En quelques heures, l’expert a réussi à développer un programme qui, se faisant passer pour une application d’économiseur d’écran, exfiltre des données ciblées vers un Google Drive via leur intégration à de simples images.

Cependant pour le moment, ces virus sont plutôt simples et ne constituent pas des avancées notables dans le monde du cybercrime. Nous sommes encore loin de l’utilisation de l’IA pour tracker les vulnérabilités type 0 day (vulnérabilités nouvelles, non patchées et donc impossible à éviter). Et tout comme les cybercriminels peuvent se servir de l’IA, les chercheurs en cybersécurité peuvent, eux aussi, perfectionner leurs outils : détecteur de spam ou d’activités suspectes, interfaces de langage naturel pour la recherche de sources de menaces, analyse de lignes de commande…. Autant d’utilisations possibles de l’intelligence.

Quant au 2ème point, il est vrai que les capacités de l’intelligence sont suffisantes pour la réalisation de messages de phishing mieux construits. Ceux ayant testé la création d’articles ou de lettres de motivation sur ChatGPT pourront en témoigner : au premier abord, les documents produits font souvent « vrais ». Ce n’est que lorsque le texte devient plus long que les incohérences apparaissent ; par conséquent, pour des messages simples, l’IA fait très bien l’affaire. Ainsi, selon DarkTrace, une société de sécurité informatique, si le nombre d’emails d’attaques informatiques est « stable » depuis le lancement de ChatGPT, on observe en revanche une hausse de leur « complexité de langage, y compris le volume de texte, la ponctuation, … », signifiant que « les cybercriminels pourraient recentrer leurs efforts sur la conception d’arnaques plus sophistiquées exploitant la confiance des utilisateurs ».

En revanche, cette hausse pouvait déjà s’observer pré-ChatGPT : de fait, avec ou sans l’IA, les messages sont de mieux en mieux construits, nécessitant de plus en plus de vigilance de la part des utilisateurs.

Les limites actuelles de ChatGPT et de ses semblables

Pour résumer, les compétences de ChatGPT peuvent bel et bien être utilisées dans le cadre d’activités cybercriminelles – mais ne doivent pas faire l’objet de fantasmes. S’il faut être honnête, l’IA, pour le moment, n’est en rien révolutionnaire pour le monde du cybercrime.

D’autant que ses capacités sont soumises à de nombreuses limites. Ainsi, faisons le petit exercice intéressant de lui demander quels sont ses défauts.

Il nous répond qu’en tant qu’IA, ChatGPT n’a pas de défauts au sens traditionnel du terme, mais comme tout modèle de langage, il peut présenter certaines limitations ou biais.

Par exemple, ChatGPT est entraîné sur des données linguistiques existantes, ce qui signifie que ses réponses sont basées sur des modèles de langage préexistants. Par conséquent, si les données d’entraînement sont biaisées ou incomplètes, cela peut entraîner des réponses qui reflètent ce biais ou cette incomplétude.

De plus, ChatGPT peut rencontrer des difficultés à comprendre certains contextes ou concepts complexes, en particulier si ces concepts ne sont pas bien représentés dans les données d’entraînement.

Enfin, comme toute technologie, ChatGPT peut également avoir des problèmes de confidentialité ou de sécurité si elle est utilisée de manière inappropriée ou malveillante. Il est donc important de mettre en place des protocoles appropriés pour assurer la sécurité et la confidentialité des données lorsque l’on travaille avec des modèles de langage tels que ChatGPT.

La principale faiblesse de l’IA est donc qu’elle ne « sait » que ce qui a fait partie des textes qui l’ont entrainée. De plus, le modèle d’intelligence artificielle GPT fonctionne sur la génération du mot ou des phrases qui vont se suivre logiquement dans un contexte donné. Ainsi, si on lui indique le contexte, « le chat a mangé », l’algorithme GPT va surement générer « le chat a mangé la souris » puisqu’il a appris que les mots « la souris » venaient souvent après le texte « le chat a mangé ». Mais il aurait bien pu compléter avec autre chose de tout aussi probable, comme « la pâtée », « le jambon » ou de nombreuses autres possibilités qui sont cohérentes avec ce qu’il a appris.

Il arrive très fréquemment que l’IA ne sache pas bien faire la différence entre la génération de langage sur la base du contexte (la conversation), et la retransmission d’information depuis une base de connaissances. ChatGPT va donc se heurter à sa propre logique lorsque l’utilisateur lui demandera des informations, en générant ses propres réponses au lieu d’aller les chercher dans sa base de connaissances. Ainsi, même lorsqu’on lui demande une information qui fait partie de son corpus de texte d’entrainement, ChatGPT génère lui-même la réponse à partir de ce corpus et va donc potentiellement insérer des choses inexactes.

Par exemple quand on lui demande de nous donner des liens de ressources présente sur internet à propos du minimalisme, il nous répond :

1 « The Minimalism Trend: Why Less Is More » de Jennifer Koebele sur Forbes – https://www.forbes.com/sites/jenniferkoebele/2021/02/17/the-minimalism-trend-why-less-is-more/

2 « The Power of Minimalism in Art and Design » de Danielle Krysa sur The Jealous Curator – https://www.thejealouscurator.com/blog/2019/07/15/the-power-of-minimalism-in-art-and-design/

3 « Minimalism: A Brief Overview of a Visual Arts Movement » de Caleb Melchior sur Widewalls – https://www.widewalls.ch/magazine/minimalism-art-movement

4 « Minimalism: Origins, Characteristics, and Influences » de Dora Duan sur My Modern Met – https://mymodernmet.com/minimalism/

5 « The Beauty of Minimalism in Web Design » de Jacob Gube sur Smashing Magazine – https://www.smashingmagazine.com/2010/05/the-beauty-of-minimalism-in-web-design/

Seul problème : Erreurs 404, tous ces articles n’existent pas et n’ont jamais existé ! Le modèle d’intelligence artificielle de ChatGPT a simplement su générer du texte qui ressemblait à des liens internet traitant du minimalisme, sur la base des millions de liens qu’il a ingéré, mais ces liens n’existent pas réellement.

Ces travers peuvent se retrouver dans la capacité à résoudre des problèmes : il arrive que GPT génère de faux résultats, parce qu’il complète simplement la suite de la question ou du contexte avec un texte probable. L’un des exemples les plus marquants reste celui de simples calculs mathématiques, par exemple lorsqu’on lui demande de résoudre l’opération suivante :

12 + 3 / 4

Il répond alors :

« La réponse à cette expression mathématique est 3.

En effet, l’opération de division a la priorité sur l’addition. Ainsi, vous devez d’abord effectuer la division de 12 + 3 par 4, ce qui donne 15/4. Ensuite, si vous souhaitez simplifier la fraction, vous pouvez la réduire en utilisant le plus grand diviseur commun entre le numérateur et le dénominateur, mais si vous voulez une réponse décimale, vous pouvez la calculer en utilisant une calculatrice ou en effectuant une division décimale. »

En réalité, puisque la division est prioritaire, cela donne 12 +( ¾) ou 12 + 0.75, le résultat est 12,75 et non 3.

Même si GPT énonce la bonne règle, il répond mal à la question en n’appliquant pas lui-même la règle énoncée. En effet, il ne la « comprend » pas : il régurgite simplement une connaissance sur la base du contexte donné (la division), puis complète sa réponse avec un mélange de données probables.

Même si les prochaines versions de ChatGPT corrigent ces travers, on voit donc bien en quoi l’utilisation par les cybercriminels de cette IA n’est pas une panacée !

Au-delà des limites d’utilisation par le cybercrime : le risque des fuites de données

Il reste toutefois un dernier point, mentionné par ChatGPT lui-même : la sécurité des données. Nous ne sommes plus dans le cas d’une utilisation par les pirates pour renforcer leurs techniques, mais plutôt d’une utilisation légitime par les entreprises, menant à un risque de sécurité.

De nombreuses personnes, en découvrant la puissance de chat GPT, se sont précipitées pour lui faire analyser des textes, des données ou des morceaux de code qui auraient dû rester privé.

Or ChatGPT garde en mémoire les conversations et les données qui lui sont soumises, pouvant les utiliser pour des réponses ultérieures à d’autres utilisateurs et l’application n’est pas prévue pour recueillir des données sensibles ; d’ailleurs, les conversations sont accessibles par les propriétaires de l’application.

La société Samsung a par exemple été l’objet d’une fuite d’une partie de son code source ainsi que de données confidentielles lorsque des employés ont utilisé ses services pour optimiser leur programme informatique ou réaliser automatiquement des comptes-rendus de réunion sur la base d’enregistrement oraux. Depuis, l’utilisation de cette IA a été très fortement restreinte par Samsung ainsi que par de nombreuses autres entreprises (comme Apple, JPMorgan Chase ou encore Verizon).

On ne sait évidemment pas ce que OpenAI fait des données récoltées des conversations, même si elle prétend ne les consulter qu’en cas de violation des règles d’utilisation ; mais il y a fort à parier que ChatGPT lui a permis de récupérer une quantité de données folle.

Néanmoins, avec l’engouement qu’a créé ChatGPT pour les IA, les modèles de LLM open source et/ou utilisables en local ont fleuri et se sont beaucoup améliorés. Ces derniers permettent d’empêcher toute fuite de données vers un tiers auquel on ne fait pas confiance, et sont recommandés si vous voulez utiliser ce type de service de manière sécurisé.

En tout cas, nul doute que ChatGPT a créé un précédent ; les modèles d’intelligence artificielle se multiplient désormais, et l’amélioration des mesures de sécurité et le perfectionnement des algorithmes laissent présager de beaux jours, tant pour les chercheurs en cybersécurité… que pour le cybercrime !

Article rédigé par : Baptiste Fraikin, pentester chez Coralium

Si vous voulez en savoir davantage sur nos offres, en lien avec le sujet de l’article, nous vous proposons de découvrir : notre formation et sensibilisation : le hacking pour les nuls