# Partie 4 : Natural Language Processing (NLP)

Lino Galiana  
2025-06-14

# 1. Introduction

Les parties pr√©c√©dentes √©taient consacr√©es √† l‚Äôacquisition de comp√©tences transversales pour la valorisation des donn√©es. De mani√®re naturelle, nous nous sommes jusqu‚Äô√† pr√©sent plut√¥t consacr√©s √† la valorisation de donn√©es structur√©es, d‚Äôune dimension certes modeste mais qui ouvraient d√©j√† √©norm√©ment de probl√©matiques √† creuser. Cette partie propose maintenant de se consacrer √† un sujet dont il n‚Äôest pas √©vident *a priori* que les ordinateurs s‚Äôemparent, source de d√©bats philosophiques s√©culaires, de Platon √† Saussure : le **langage humain** et sa richesse.

En faisant l‚Äôanalogie entre langue et langage, c‚Äôest-√†-dire en d√©finissant ce dernier comme la capacit√© d‚Äôexpression et de communication d‚Äôune pens√©e par le biais de signes et en d√©finissant la langue comme la mise en ≈ìuvre conventionnelle de cette capacit√©, on peut se placer dans les traces de la linguistique et repr√©senter le langage sous une forme de donn√©es.
Ceci ouvre la voie √† l‚Äôanalyse statistique ou algorithmique. N√©anmoins, m√™me s‚Äôil existe des r√©gularit√©s statistiques, comment des ordinateurs, qui au fond ne connaissent que le *0* et le *1*, peuvent-ils s‚Äôapproprier cet objet √©minemment complexe qu‚Äôest le langage et qu‚Äôun humain met lui-m√™me des ann√©es √† comprendre et s‚Äôapproprier ?[1]

# 2. Le traitement automatique du langage

Le traitement automatique du langage ‚Äî traduction fran√ßaise du concept de *natural language processing* (NLP) ‚Äî est l‚Äôensemble des techniques permettant aux ordinateurs de comprendre, analyser, synth√©tiser et g√©n√©rer le langage humain[2].

Il s‚Äôagit d‚Äôun champ disciplinaire √† l‚Äôintersection de la statistique et de la linguistique qui conna√Æt depuis quelques ann√©es un engouement important, que ce soit d‚Äôun point de vue acad√©mique, op√©rationnel ou industriel.
Certaines des applications de ces techniques sont devenues incontournables dans nos t√¢ches quotidiennes, notamment les moteurs de recherche, la traduction automatique et plus r√©cemment les *chatbots*, dont le d√©veloppement conna√Æt depuis l‚Äô√©mergence de `ChatGPT` en d√©cembre 2022 un rythme fou.

# 3. R√©sum√© de la partie

Cette partie du cours est consacr√©e √† l‚Äôanalyse des donn√©es textuelles avec
des exemples de üìñ pour s‚Äôamuser. Elle est une introduction progressive
√† ce sujet en se concentrant sur des concepts de base, n√©cessaires √†
la compr√©hension ult√©rieure de principes plus avanc√©s et de techniques
sophistiqu√©es[3]. Cette partie pr√©sente principalement :

-   Les enjeux de nettoyage de champs textuels
    et d‚Äôanalyse de fr√©quence. Il s‚Äôagit de NLP un
    peu *old school* mais dont la compr√©hension est n√©cessaire pour aller
    plus loin ;
-   La mod√©lisation du langage, selon plusieurs approches.

Avant d‚Äôen arriver
au sujet des *embeddings*, il est pr√©cieux de comprendre les apports et les
limites de concepts comme
le sac de mot (*bag of words*) ou la distance
TF-IDF (*term frequency - inverse document frequency*). L‚Äôun des apports principaux des grands mod√®les de langage, √† savoir la richesse de la f√™netre contextuelle leur permettant de mieux saisir les nuances textuelles et l‚Äôintentionalit√© du locuteur, s‚Äô√©clairent lorsqu‚Äôon saisit les limites du NLP traditionnel.

Dans une
optique introductive, ce cours se focalise donc sur les approches fr√©quentistes, notamment l‚Äôapproche sac de mot, pour faciliter
l‚Äôouverture ult√©rieure de la boite de Pandore que sont les *embeddings*.

## 3.1 Nettoyages textuels et analyse de fr√©quences

`Python` est un excellent outil pour l‚Äôanalyse de donn√©es textuelles.
Les m√©thodes de base de transformation de donn√©es textuelles ou de dictionnaires, associ√©es √† des librairies sp√©cialis√©es
comme `NLTK` et `SpaCy`, permettent d‚Äôeffectuer des t√¢ches de normalisation et d‚Äôanalyse de donn√©es textuelles de mani√®re
tr√®s efficace. `Python` est bien mieux outill√© que `R` pour l‚Äôanalyse de
donn√©es textuelles.
Les ressources en ligne sur le sujet sont tr√®s
nombreuses et la meilleure des √©coles dans le domaine reste la pratique sur un corpus √† nettoyer.

Dans un premier temps, cette partie propose
de revenir sur la mani√®re de structurer et nettoyer un corpus
textuel au travers de l‚Äôapproche *bag of words* (sac de mots).
Elle vise √† montrer comment transformer un corpus en outil propre √† une
analyse statistique :

-   Elle propose d‚Äôabord une introduction aux enjeux du nettoyage des donn√©es
    textuelles √† travers l‚Äôanalyse du *Comte de Monte Cristo* d‚ÄôAlexandre Dumas
    [ici](../../content/NLP/01_intro.qmd) qui permet de synth√©tiser rapidement l‚Äôinformation disponible
    dans un large volume de donn√©es (√† l‚Äôimage de la **?@fig-wordcloud-dumas**)
-   Elle propose ensuite une s√©rie d‚Äôexercices sur le nettoyage de textes √† partir des
    oeuvres d‚ÄôEdgar Allan Poe, Mary Shelley et H.P. Lovecraft visant √† distinguer la
    sp√©cificit√© du vocabulaire employ√© par chaque auteurs (par exemple **?@fig-waffle-fear**). Ces exercices sont
    disponibles [dans le deuxi√®me chapitre](../../content/NLP/01_exoclean.html) de la partie.

Cette analyse fr√©quentiste permet de prendre du recul sur la nature des donn√©es textuelles et sur les enjeux r√©currents dans la r√©duction de dimension de corpus en langue naturelle. Comme la statistique descriptive entra√Æne naturellement la mod√©lisation, cette approche fr√©quentiste va g√©n√©ralement amener rapidement √† vouloir synth√©tiser quelques lois derri√®re nos corpus textuels.

## 3.2 Mod√©lisation du langage

La suite de cette partie proposera une introduction aux enjeux de mod√©lisation
du langage. Ceux-ci sont tr√®s √† la mode du fait du succ√®s de `ChatGPT`. N√©anmoins, avant
d‚Äôen arriver aux grands mod√®les de langage (LLM), ces r√©seaux de neurone ayant des milliards de param√®tres et entra√Æn√©s sur des volumes massifs de donn√©es, il est n√©cessaire de passer par quelques mod√©lisations
pr√©liminaires.

Nous proposerons d‚Äôabord d‚Äôexplorer une approche alternative, prenant en compte
le contexte d‚Äôapparition d‚Äôun mot. L‚Äôintroduction √† la
*Latent Dirichlet Allocation* (LDA) sera l‚Äôoccasion de pr√©senter la mod√©lisation
de documents sous la forme de *topics*. Celle-ci est n√©anmoins pass√©e de mode au profit des m√©thodes li√©es au concept d‚Äô*embedding*.

Nous introduirons ainsi √† la fin de cette partie du cours les enjeux de la transformation de champs textuels
sous forme de vecteurs num√©riques. Pour cela, nous pr√©senterons le principe
de `Word2Vec` qui permet ainsi, par exemple,
malgr√© une distance syntaxique importante,
de dire que s√©mantiquement `Homme` et `Femme` sont proches.
Ce chapitre est une passerelle vers le concept d‚Äô*embedding*, v√©ritable
r√©volution r√©cente du NLP, et qui permet de rapprocher des corpus
non seulement sur leur proximit√© syntaxique (partagent-ils par exemple des mots
communs ?) mais aussi sur leur proximit√© s√©mantique (partagent-ils un th√®me ou un sens commun ?)[4]. Ce passage par `Word2Vec` permettra aux curieux de pouvoir ensuite passer aux mod√®les de type *transformers*, les mod√®les faisant aujourd‚Äôhui office de r√©f√©rence dans le domaine du NLP.

# Pour aller plus loin

La recherche dans le domaine du NLP est tr√®s active. Il est donc recommand√©
de faire preuve de curiosit√© pour en apprendre plus car une ressource
unique ne compilera pas l‚Äôensemble des connaissances, *a fortiori* dans
un champ de recherche aussi dynamique que le NLP.

Pour approfondir les comp√©tences √©voqu√©es dans ce cours, je recommande vivement
ce [cours d‚Äô`HuggingFace`](https://huggingface.co/course/chapter1/2?fw=pt).

Pour comprendre l‚Äôarchitecture interne d‚Äôun LLM,
ce [post de Sebastian Raschka](https://magazine.sebastianraschka.com/p/understanding-encoder-and-decoder)
est tr√®s utile.

Ces chapitres n‚Äô√©puisent pas les cas d‚Äôusage du NLP pour les *data scientists*. Ils n‚Äôen sont que la surface √©merg√©e de l‚Äôiceberg.
Par exemple,
dans le domaine de la statistique publique, un des principaux cas d‚Äôusage du NLP est l‚Äôutilisation
de techniques de classification automatique pour transformer des r√©ponses libres dans des questionnaires
en champs pr√©d√©finis dans une nomenclature.
Il s‚Äôagit donc d‚Äôune adaptation, un peu sp√©cifique √† la statistique publique, grande utilisatrice de nomenclatures normalis√©es, de probl√©matiques de classification multi-niveaux.

Voici un exemple sur un projet de classification automatis√©e des professions dans la typologie
des nomenclatures d‚Äôactivit√©s (les PCS) √† partir d‚Äôun mod√®le entra√Æn√© par la librairie `Fasttext` :

[1] While writing these lines, I asked `ChatGPT` to tell me a joke.

> Why do programmers hate the beach?
> Because the sand keeps changing paradigms!

Not understanding it, I asked for an explanation. Here‚Äôs what I got:

> Of course, I‚Äôd be happy to explain! This joke plays on the double meaning of the word ‚Äúparadigm‚Äù and is a pun involving programming and the beach.
>
> In programming, a ‚Äúparadigm‚Äù refers to a model or method of programming, such as object-oriented or functional programming. Programmers are often familiar with different paradigms.
>
> On the other hand, in a beach context, ‚Äúparadigm‚Äù is humorously misused to mean ‚Äútide‚Äù‚Äîalluding to the natural shifting of sand and water.
>
> The joke plays on the humorous frustration programmers might feel when adapting to new programming paradigms, just like how sand constantly shifts with the tides. By combining both meanings of ‚Äúparadigm,‚Äù the joke creates an absurd and amusing scenario that will resonate with those familiar with programming and beaches.

In the end, I found the explanation funnier than the joke itself.

[2] The concept of ‚Äúnatural language processing‚Äù has tended to replace the more specific term ‚Äútext mining.‚Äù Text mining refers to the search for ‚Äî or mining of ‚Äî information within a set of texts. While it is one application area of NLP, it is not the only one. Advances in computing power and in the formalization of language have expanded the scope of fields where computational linguistics is applied.

[3] For example, the concept of *embedding*‚Äîthe transformation of a text field into a multidimensional numeric vector‚Äîis central in NLP today but is only briefly mentioned here.

[4] An example of the value of this approach can be seen in **?@fig-relevanc-table-embedding**.

In [1]:
import requests
import pandas as pd

activite = "data scientist"
urlApe = f"https://codification-ape-test.lab.sspcloud.fr/predict?nb_echos_max=3&prob_min=0&text_feature=${activite}"
import requests
data = requests.get(urlApe).json()

# Extract 'IC' value
IC = data['IC']
data.pop('IC', None)

df = pd.DataFrame(data.values())
df['indice_confiance'] = IC
df