# Partie 4 : Natural Language Processing (NLP)

Lino Galiana  
2025-06-14

# 1. Introduction

Les parties précédentes étaient consacrées à l’acquisition de compétences transversales pour la valorisation des données. De manière naturelle, nous nous sommes jusqu’à présent plutôt consacrés à la valorisation de données structurées, d’une dimension certes modeste mais qui ouvraient déjà énormément de problématiques à creuser. Cette partie propose maintenant de se consacrer à un sujet dont il n’est pas évident *a priori* que les ordinateurs s’emparent, source de débats philosophiques séculaires, de Platon à Saussure : le **langage humain** et sa richesse.

En faisant l’analogie entre langue et langage, c’est-à-dire en définissant ce dernier comme la capacité d’expression et de communication d’une pensée par le biais de signes et en définissant la langue comme la mise en œuvre conventionnelle de cette capacité, on peut se placer dans les traces de la linguistique et représenter le langage sous une forme de données.
Ceci ouvre la voie à l’analyse statistique ou algorithmique. Néanmoins, même s’il existe des régularités statistiques, comment des ordinateurs, qui au fond ne connaissent que le *0* et le *1*, peuvent-ils s’approprier cet objet éminemment complexe qu’est le langage et qu’un humain met lui-même des années à comprendre et s’approprier ?[1]

# 2. Le traitement automatique du langage

Le traitement automatique du langage — traduction française du concept de *natural language processing* (NLP) — est l’ensemble des techniques permettant aux ordinateurs de comprendre, analyser, synthétiser et générer le langage humain[2].

Il s’agit d’un champ disciplinaire à l’intersection de la statistique et de la linguistique qui connaît depuis quelques années un engouement important, que ce soit d’un point de vue académique, opérationnel ou industriel.
Certaines des applications de ces techniques sont devenues incontournables dans nos tâches quotidiennes, notamment les moteurs de recherche, la traduction automatique et plus récemment les *chatbots*, dont le développement connaît depuis l’émergence de `ChatGPT` en décembre 2022 un rythme fou.

# 3. Résumé de la partie

Cette partie du cours est consacrée à l’analyse des données textuelles avec
des exemples de 📖 pour s’amuser. Elle est une introduction progressive
à ce sujet en se concentrant sur des concepts de base, nécessaires à
la compréhension ultérieure de principes plus avancés et de techniques
sophistiquées[3]. Cette partie présente principalement :

-   Les enjeux de nettoyage de champs textuels
    et d’analyse de fréquence. Il s’agit de NLP un
    peu *old school* mais dont la compréhension est nécessaire pour aller
    plus loin ;
-   La modélisation du langage, selon plusieurs approches.

Avant d’en arriver
au sujet des *embeddings*, il est précieux de comprendre les apports et les
limites de concepts comme
le sac de mot (*bag of words*) ou la distance
TF-IDF (*term frequency - inverse document frequency*). L’un des apports principaux des grands modèles de langage, à savoir la richesse de la fênetre contextuelle leur permettant de mieux saisir les nuances textuelles et l’intentionalité du locuteur, s’éclairent lorsqu’on saisit les limites du NLP traditionnel.

Dans une
optique introductive, ce cours se focalise donc sur les approches fréquentistes, notamment l’approche sac de mot, pour faciliter
l’ouverture ultérieure de la boite de Pandore que sont les *embeddings*.

## 3.1 Nettoyages textuels et analyse de fréquences

`Python` est un excellent outil pour l’analyse de données textuelles.
Les méthodes de base de transformation de données textuelles ou de dictionnaires, associées à des librairies spécialisées
comme `NLTK` et `SpaCy`, permettent d’effectuer des tâches de normalisation et d’analyse de données textuelles de manière
très efficace. `Python` est bien mieux outillé que `R` pour l’analyse de
données textuelles.
Les ressources en ligne sur le sujet sont très
nombreuses et la meilleure des écoles dans le domaine reste la pratique sur un corpus à nettoyer.

Dans un premier temps, cette partie propose
de revenir sur la manière de structurer et nettoyer un corpus
textuel au travers de l’approche *bag of words* (sac de mots).
Elle vise à montrer comment transformer un corpus en outil propre à une
analyse statistique :

-   Elle propose d’abord une introduction aux enjeux du nettoyage des données
    textuelles à travers l’analyse du *Comte de Monte Cristo* d’Alexandre Dumas
    [ici](../../content/NLP/01_intro.qmd) qui permet de synthétiser rapidement l’information disponible
    dans un large volume de données (à l’image de la **?@fig-wordcloud-dumas**)
-   Elle propose ensuite une série d’exercices sur le nettoyage de textes à partir des
    oeuvres d’Edgar Allan Poe, Mary Shelley et H.P. Lovecraft visant à distinguer la
    spécificité du vocabulaire employé par chaque auteurs (par exemple **?@fig-waffle-fear**). Ces exercices sont
    disponibles [dans le deuxième chapitre](../../content/NLP/01_exoclean.html) de la partie.

Cette analyse fréquentiste permet de prendre du recul sur la nature des données textuelles et sur les enjeux récurrents dans la réduction de dimension de corpus en langue naturelle. Comme la statistique descriptive entraîne naturellement la modélisation, cette approche fréquentiste va généralement amener rapidement à vouloir synthétiser quelques lois derrière nos corpus textuels.

## 3.2 Modélisation du langage

La suite de cette partie proposera une introduction aux enjeux de modélisation
du langage. Ceux-ci sont très à la mode du fait du succès de `ChatGPT`. Néanmoins, avant
d’en arriver aux grands modèles de langage (LLM), ces réseaux de neurone ayant des milliards de paramètres et entraînés sur des volumes massifs de données, il est nécessaire de passer par quelques modélisations
préliminaires.

Nous proposerons d’abord d’explorer une approche alternative, prenant en compte
le contexte d’apparition d’un mot. L’introduction à la
*Latent Dirichlet Allocation* (LDA) sera l’occasion de présenter la modélisation
de documents sous la forme de *topics*. Celle-ci est néanmoins passée de mode au profit des méthodes liées au concept d’*embedding*.

Nous introduirons ainsi à la fin de cette partie du cours les enjeux de la transformation de champs textuels
sous forme de vecteurs numériques. Pour cela, nous présenterons le principe
de `Word2Vec` qui permet ainsi, par exemple,
malgré une distance syntaxique importante,
de dire que sémantiquement `Homme` et `Femme` sont proches.
Ce chapitre est une passerelle vers le concept d’*embedding*, véritable
révolution récente du NLP, et qui permet de rapprocher des corpus
non seulement sur leur proximité syntaxique (partagent-ils par exemple des mots
communs ?) mais aussi sur leur proximité sémantique (partagent-ils un thème ou un sens commun ?)[4]. Ce passage par `Word2Vec` permettra aux curieux de pouvoir ensuite passer aux modèles de type *transformers*, les modèles faisant aujourd’hui office de référence dans le domaine du NLP.

# Pour aller plus loin

La recherche dans le domaine du NLP est très active. Il est donc recommandé
de faire preuve de curiosité pour en apprendre plus car une ressource
unique ne compilera pas l’ensemble des connaissances, *a fortiori* dans
un champ de recherche aussi dynamique que le NLP.

Pour approfondir les compétences évoquées dans ce cours, je recommande vivement
ce [cours d’`HuggingFace`](https://huggingface.co/course/chapter1/2?fw=pt).

Pour comprendre l’architecture interne d’un LLM,
ce [post de Sebastian Raschka](https://magazine.sebastianraschka.com/p/understanding-encoder-and-decoder)
est très utile.

Ces chapitres n’épuisent pas les cas d’usage du NLP pour les *data scientists*. Ils n’en sont que la surface émergée de l’iceberg.
Par exemple,
dans le domaine de la statistique publique, un des principaux cas d’usage du NLP est l’utilisation
de techniques de classification automatique pour transformer des réponses libres dans des questionnaires
en champs prédéfinis dans une nomenclature.
Il s’agit donc d’une adaptation, un peu spécifique à la statistique publique, grande utilisatrice de nomenclatures normalisées, de problématiques de classification multi-niveaux.

Voici un exemple sur un projet de classification automatisée des professions dans la typologie
des nomenclatures d’activités (les PCS) à partir d’un modèle entraîné par la librairie `Fasttext` :

[1] While writing these lines, I asked `ChatGPT` to tell me a joke.

> Why do programmers hate the beach?
> Because the sand keeps changing paradigms!

Not understanding it, I asked for an explanation. Here’s what I got:

> Of course, I’d be happy to explain! This joke plays on the double meaning of the word “paradigm” and is a pun involving programming and the beach.
>
> In programming, a “paradigm” refers to a model or method of programming, such as object-oriented or functional programming. Programmers are often familiar with different paradigms.
>
> On the other hand, in a beach context, “paradigm” is humorously misused to mean “tide”—alluding to the natural shifting of sand and water.
>
> The joke plays on the humorous frustration programmers might feel when adapting to new programming paradigms, just like how sand constantly shifts with the tides. By combining both meanings of “paradigm,” the joke creates an absurd and amusing scenario that will resonate with those familiar with programming and beaches.

In the end, I found the explanation funnier than the joke itself.

[2] The concept of “natural language processing” has tended to replace the more specific term “text mining.” Text mining refers to the search for — or mining of — information within a set of texts. While it is one application area of NLP, it is not the only one. Advances in computing power and in the formalization of language have expanded the scope of fields where computational linguistics is applied.

[3] For example, the concept of *embedding*—the transformation of a text field into a multidimensional numeric vector—is central in NLP today but is only briefly mentioned here.

[4] An example of the value of this approach can be seen in **?@fig-relevanc-table-embedding**.

In [1]:
import requests
import pandas as pd

activite = "data scientist"
urlApe = f"https://codification-ape-test.lab.sspcloud.fr/predict?nb_echos_max=3&prob_min=0&text_feature=${activite}"
import requests
data = requests.get(urlApe).json()

# Extract 'IC' value
IC = data['IC']
data.pop('IC', None)

df = pd.DataFrame(data.values())
df['indice_confiance'] = IC
df