Utilisez l'OSINT pour vous protéger

Les données que nous partageons en ligne peuvent être utilisées à des fins malveillantes, compromettant ainsi notre vie privée et notre sécurité. Il faut donc faire de la protection de nos informations personnelles une priorité. Pour approfondir le sujet, vous pouvez lire nos articles : « le scandaleux pillage de nos données personnelles » et « fuite d’information, votre adresse email est-elle compromise« .

Afin de connaître les informations sur vous qui circulent sur Internet, je vous propose de faire un peu d’OSINT (pas d’inquiétude, ce sera simple).

Mais qu’est-ce que l’OSINT ?

D’abord, un peu de vocabulaire. OSINT signifie Open Source Intelligence, « Renseignement en Sources Ouvertes » en bon français.

Le mot « renseignement » renvoie à l’espionnage : il s’agit de la collecte de données brutes dans le but de les raffiner pour les transformer en informations utilisables : le renseignement. La donnée brute correspond donc à la source primaire d’information : une photo, une lettre, un compte rendu, etc. Une donnée brute seule n’est pas si utile ; ce qui lui confère de la valeur, c’est le traitement qu’elle va subir (comme notamment le croisement avec d’autres données) qui la transformera en une information.

Un exemple : une photo de votre maison, c’est une donnée. Traitée avec Google Street View, elle donnera peut-être votre adresse, et voilà votre information !

L’expression « sources ouvertes », quant à elle, est assez peu utilisée en français. On lui préfère l’expression anglaise open source. Cela fait tout simplement référence au fait que les données sont accessibles librement, sans nécessiter d’activités illégales, de vol, de détournement, d’espionnage ou d’achat.

L’OSINT consiste donc à utiliser ces sources ouvertes pour rassembler des informations utiles sur une personne.

Les recherches d’informations en Open Source peuvent fouiller dans des endroits peu usités du grand public : Tor, tous types de médias, les informations gouvernementales non classifiées (rapports, budgets, annuaires, conférences, publications…), la littérature grise (rapports techniques, prépublications, brevets, documents de travail, non publiés, lettres d’informations), mais également dans des coins très fréquentés comme Google maps, les réseaux sociaux, les mails connectés, les bases de données fuitées, les commentaires ou avis sur les sites… et tant d’autres.

La recherche d’informations n’est pas une activité illégale, mais le fait de continuer à naviguer lorsqu’on est conscient de profiter d’une faille l’est bel et bien. Si une faille permet d’accéder secrètement à l’appareil de quelqu’un d’autre ou à des fichiers protégés qui ne sont disponibles que par erreur et avaient vocation à rester privés, comme l’exemple de « Bluetouff » ci-dessous, le pas de l’illégalité est franchi :

« L’accès, qu’il ne conteste pas, lui a en fait été permis en raison d’une défaillance technique concernant l’identification existant dans le système, défaillance que reconnaît l’Agence Nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail ;

[…] le prévenu a parfaitement reconnu qu’après être arrivé “par erreur” au cœur de l’extranet de l’Anses, avoir parcouru l’arborescence des répertoires et être remonté jusqu’à la page d’accueil, il avait constaté la présence de contrôles d’accès et la nécessité d’une authentification par identifiant et mot de passe ; qu’il est ainsi démontré qu’il avait conscience de son maintien irrégulier dans le système de traitement automatisé de données visité où il a réalisé des opérations de téléchargement de données à l’évidence protégées. »

Dans cette affaire, le développeur informatique mis en cause n’a pas utilisé les données à mauvais escient, et après une série de condamnation-appel-renvoi, la bataille juridique est toujours en cours.

De manière légale et habituelle, l’OSINT est utilisée dans les domaines suivants :

La Sécurité nationale (en tant que base de données supplémentaire pour les enquêtes de police, pour comprendre les objectifs terroristes en créant des liens, etc.) ;
Le journalisme d’investigation ;
Le secteur bancaire (lutter contre les fraudes potentielles, escroqueries, phishing, blanchiment d’argent…) ;
L’application de la loi sans compromission des sources classifiées ;
L’intelligence économique…

Dans notre article d’aujourd’hui, elle servira à vous montrer comment trouver quelles informations disponibles sur vous par n’importe quelle personne pouvant faire une simple recherche Google. Pour cela, vous avez besoin : d’un accès à Google, de votre nom et prénom. C’est tout !

Commencez donc par rechercher votre nom sur les moteurs de recherche pour voir ce qui apparaît.

Probablement beaucoup d’articles qui ne vous concernent pas (regardez le nombre de résultats…). Pour y parer, nous allons utiliser les « Google dorks », de petites techniques faciles qui permettent d’affiner les recherches. La méthode est exactement la même que vos recherches habituelles, nous allons juste ajouter des caractères autour des mots dans la barre de recherche.

Pour obtenir des résultats correspondant exactement à une expression : entourez-la de guillemets : « [nom prénom] » ;
Pour s’assurer qu’un terme est inclus dans le résultat de la recherche : utilisez le signe plus (+) : [nom] + [prénom] ;
Pour exclure un terme de la recherche, notamment si vous avez un homonyme qui vit dans une autre ville : utilisez le tiret (-) : [nom] [prénom] – [ville de l’homonyme] ;
Vous pouvez combiner ces méthodes, comme ceci : « [nom][prénom] » + [votre métier] – [ville de l’homonyme].

Vous devriez obtenir des résultats plus pertinents et en bien moindre quantité.

Comment fonctionne le Google dorking ?

Quand Google parcourt le web pour indexer les pages pour son moteur de recherche, il envoie des robots qui peuvent consulter certaines parties des sites web qui sont normalement inaccessibles aux utilisateurs normaux d’Internet. Les Google Dorks (ou Google hacks) sont des requêtes de recherche avancées qui permettent d’explorer ces informations spécifiques et cachées. En pratique, en utilisant des opérateurs de recherche spéciaux, les Google Dorks permettent d’accéder à des pages, des fichiers, des répertoires ou des informations privées normalement invisibles aux utilisateurs lambda.

Tout comme l’OSINT, la pratique du Google dorking est une activité tout à fait légale : il s’agit simplement d’une forme de recherche, ce pour quoi Google a été conçu. Ce qui n’empêche pas de pouvoir être utilisée à des fins illégales, pour collecter des informations sur de futures cibles et préparer des attaques nécessitant de l’ingénierie sociale comme le cyber harcèlement ou la fraude au président. Cette méthode sert aussi pour récupérer et exploiter des failles ou vulnérabilités sur les sites Web mal configurés, conduisant à toutes sortes de conséquences néfastes pour l’entreprise et pour les clients qui y ont enregistré leurs données personnelles.

Dans le cadre de notre recherche sur vos informations personnelles propres, puisqu’elles vous appartiennent, les résultats que vous obtiendrez seront légaux. Les VPN ne servent pas à cacher votre identité aux autorités et les navigateurs spécifiques ne sont souvent pas suffisants : vous n’êtes pas anonymes, si vous sortez du cadre légal, vous risquez la condamnation.

Les 3 méthodes présentées plus haut paraissent simples, mais il existe beaucoup d’autres manières de restreindre des requêtes pour forcer Google à chercher plus loin, et elles peuvent toutes se combiner. Rédiger une Google Dork efficace pour obtenir un résultat précis peut se révéler fastidieux.

Les informations suivantes proviennent essentiellement du site de référence https://osintframework.com/, sur lequel les expressions de dorking sont listées par les chercheurs en cybersécurité lorsqu’ils les découvrent. Vous y trouverez 500 pages portant surtout sur des syntaxes concernant la recherche de failles de sécurité, puisque c’est le cœur de leur travail. Ci-dessous sont relevées 5 syntaxes vous permettant de chercher vos informations personnelles autrement. Tout comme les précédentes, il suffit d’entrer les mots dans la barre de recherche Google puis de taper sur la touche « Entrée ».

site:[condition] [nom prénom] restreint les résultats de votre recherche aux sites validant la condition [condition] et dont une page au moins contient l’expression [nom prénom]. [Condition] peut par notamment être remplacée par « fr » pour chercher uniquement des sites français ; [coralium.fr] pour chercher uniquement sur le site coralium.fr.
allintext:abc def permet de chercher les expressions « abc » et « def » uniquement dans le corps du texte des sites (la balise body des pages HTML pour ceux qui connaissent).
link :[page] vous permet de trouver les pages web qui référencent [page] ; si vous avez un site professionnel ou une page Facebook, vous pouvez trouver ainsi qui parle de vous !
filetype:[type de document] envoie une requête pour collecter uniquement des documents du type spécifié. Par exemple : « filetype :doc site: gouv.fr » affiche tous les documents de type .doc présents sur les sites dont l’extension est « gouv.fr » qui sont référencés par Google.
: ce simple caractère est le joker de la recherche. Il signifie qu’il doit y avoir un mot à cet endroit de votre requête, mais qu’il n’est pas défini, donc Google va chercher tout ce qui y correspond. Par exemple, « filetype:doc site:gouv. » enverra la même recherche que précédemment, mais pour toutes les plateformes web et pas uniquement pour celles en « .fr ».

Pour savoir si de nouvelles informations vous concernant apparaissent sur Internet, vous pouvez utiliser un système d’alertes. Le fonctionnement est simple : lorsque les mots-clefs que vous avez déterminés sont utilisés sur le web, les réseaux sociaux, les forums…, vous recevez une notification sous le format que vous avez choisi. J’utilise Google Alertes et Mention, deux outils gratuits, mais ce ne sont que des exemples : il y en a plein d’autres !

De cette façon, vous pouvez réagir rapidement en cas de divulgation non autorisée d’informations sensibles.

Mes données sont exposées… quelles solutions ?

Si vos données personnelles ont déjà fuité sur Google, deux possibilités majeures s’offrent à vous : demander à Google de les enlever avec Google Search Console, ou bien profiter d’être en zone RGPD et envoyer une demande d’effacement de vos informations à la CNIL (attention, le process est malheureusement long et peu efficace).

Pour protéger les informations qui ne sont pas encore dévoilées à tous les utilisateurs de Google Dorks, voici quelques trucs et astuces :

Utiliser des mots de passe sécurisés et différents pour chaque site ou application. Ainsi, même si l’un d’eux laisse votre mot de passe exposé, les pirates qui le récupèrent ne pourront pas entrer dans les autres espaces où vous êtes inscrits.
Cloisonner vos activités : entre le monde professionnel, personnel, associatif, social, administratif… pour que les informations ne puissent pas être croisées entre tous vos profils et éviter de fournir une description complète de votre vie à quiconque sait manier un ordinateur. Une vidéo ici de ce que c’est et ici de ce que ça donne en pratique.
Durcir la configuration de vos appareils (réduire au maximum les permissions, désactiver la localisation, etc.). Un article sera bientôt publié ici sur les outils à utiliser pour protéger votre vie privée.
Ne pas partager d’information sensible sur les réseaux publics. Facile à dire, plus difficile à exécuter, mais définitivement la meilleure des techniques.

Pour les gestionnaires de sites :

N’hésitez surtout pas à tenter de surpasser les règles que vous avez mises en place pour vérifier que les données que vous hébergez sont protégées, comme avec le Google Dorking. Les méthodes suivantes ne sont que des exemples et je vous encourage vivement à aller plus loin :

Bloquer l’indexation dans la recherche ;
Utiliser la restriction d’accès par IP et ségréger les zones par criticité avec demande d’authentification ;
Chiffrer systématiquement les informations importantes, même lorsque vous pensez qu’elles sont en sécurité : nom d’utilisateur, mot de passe, numéro de carte de crédit, adresses postales/IP/mail…, numéros de téléphone, etc. ;
Lancer des scans de vulnérabilité régulièrement et remédier aux failles remontées ;
Bloquer l’exposition des contenus sensibles avec un fichier robots.txt dans le document source du site.

Pour aller plus loin, pour les personnes qui savent lancer des scripts, voilà une petite liste d’outils d’OSINT pratiques à utiliser :

Maltego : pour mapper les traces numériques et analyser les réseaux ;
Shodan : pour chercher des machines spécifiques ou des systèmes vulnérables ;
The Harvester : pour collecter les comptes email, sous-domaines, hôtes virtuels, ports ouverts, etc.
FOCA: pour trouver et analyser les metadatas et les informations cachées dans des documents ;
Recon-ng, SpiderFoot : pour aider dans l’utilisation de l’OSINT en général ;
Social Mapper : pour la reconnaissance et le mapping des réseaux sociaux ;
Tinfoleak : pour collecter et analyser les informations de comptes Twitter ;
Atasploit : pour automatiser la collecte d’informations depuis de nombreuses sources différentes telles que les réseaux sociaux, les noms de domaine, les adresses IP, etc.

Article rédigé par : Charlotte Lemaistre, consultante chez Coralium

Si vous voulez en savoir davantage sur nos offres, en lien avec le sujet de l’article, nous vous proposons de découvrir : OSINT et exposition externe

Utilisez l’OSINT pour vous protéger

Mais qu’est-ce que l’OSINT ?

Mes données sont exposées… quelles solutions ?

Pour les gestionnaires de sites :

Pour aller plus loin, pour les personnes qui savent lancer des scripts, voilà une petite liste d’outils d’OSINT pratiques à utiliser :