Exploration de l'opinion publique à travers l'intelligence artificielle
Le générateur de texte ChatGPT a récemment mis en évidence les pouvoirs vertigineux des grands modèles de langue dans d’innombrables domaines : traduction, copy-editing, synthèses de notes, production de textes publicitaires…
La révolution des modèles transformers
Opsci mobilise depuis 2021 des outils similaires à chatGPT pour analyser de grands corpus de textes, d’images et, prochainement, de vidéos. Les principaux thèmes ou formes du corpus sont automatiquement détectés par des modèles dits « Transformers » (le T de ChatGPT) comme BERT (Bidirectional Encoder Representations from Transformers, modèle de langage développé par Google en 2018) pour le texte, ou CLIP (Contrastive Language-Image Pre-training développé par OpenAI en 2021) pour les images.
Ces modèles positionnent chaque document à classer dans une vaste cartographie sémantique. Ce point correspond à des “embeddings”, soit une série de coordonnées décrivant la position d’une publication par rapport à d’autres publications. Concrètement, plus une publication va être proche dans cet espace, plus son sens est similaire. Pour les corpus textuels, Opsci utilise communément une application développée par Maarten Grotendorst depuis 2021, BERTopic : elle permet de rassembler ces différents points en régions cohérentes correspondant à des thèmes, des formes ou des “topics” similaires.
Par rapport à d’autres méthodes de classification, cette approche plus abstraite présente un avantage majeur : elle n’est pas liée à une langue, ni même un registre de langue précis. Le modèle BERT “multilingue” est capable de fonctionner sur une cinquantaine de langues en même temps. Au sein d’une langue, BERT est aussi capable de tenir compte d’expressions informelles (jargon, langage SMS, fautes d’orthographe) qui sont fréquemment utilisées sur les réseaux sociaux.
Appliquer l’IA à l’étude de l’opinion publique
Appliqués à la sphère publique, ces modèles donnent un aperçu « panoramique » de l’opinion publique : ils permettent de voir immédiatement les sujets les plus discutés mais aussi une longue traîne de sujets plus secondaires voire émergents. Les suggestions et regroupements effectués par le modèle sont évalués et annotés par notre équipe d’analystes. Dans leur état final, les classifications sont indissociables d’une expertise humaine adaptée au domaine concerné.
Opsci dispose ainsi d’un grand modèle annoté des débats sur le réchauffement climatique et la transition énergétique. Il comprend 345 sujets de discussions qui couvrent aussi bien des thématiques structurantes depuis des années (le rôle de l’énergie nucléaire, l’investissement dans les renouvelables…) que des signaux faibles en accélération.
Au-delà de l’observation des plateformes, cette méthodologie contribue plus largement à repenser l’observation de l’opinion publique. Depuis 2023, Opsci collabore avec l'institut d'études Cluster 17 pour créer des sondages assistés par l’intelligence artificielle. Grâce à leur compréhension de la syntaxe et de la structure de la phrase, les modèles Transformers parviennent en effet à repérer des énoncés et des éléments de langage récurrents, dont la popularité ou l’effet de conviction peut ensuite être testé sur un échantillon représentatif de la population française. Au-delà d'un regard sur le présent, l’IA donne les clés pour comprendre et anticiper les développements à venir de l’opinion publique.
Comprendre et réguler l’IA
Les modèles utilisés par Opsci sont similaires aux outils déjà mis en œuvre de manières opaque par les grandes plateformes. L’ouverture récente de l’algorithme de recommandation de Twitter montre ainsi que chaque tweet et chaque compte sont analysés par un modèle BERT : les tweets qui parlent de sujets similaires à ce qu’évoque régulièrement une personne ont plus de chance d'être suggérés.
Grâce à l’expertise gagnée depuis deux ans, Opsci ambitionne d’informer les professionnels et le grand public sur les modèles d’intelligence artificielle. Les techniques mobilisées par les nouvelles IA génératives sont quasiment les mêmes que celles utilisées pour la classification de corpus. Elles amènent en revanche des questions inédites en termes de fiabilité, de sécurisation des données et d’impact social et économique…