# 📝 **Travaux Dirigés : Tokenisation et Lemmatisation avec spaCy**  

## 🎯 Objectifs  
Ce TD a pour but d’apprendre à **tokeniser et lemmatiser** un texte littéraire avec **spaCy**, une bibliothèque NLP très utilisée.  
Nous travaillerons sur un extrait de texte pour voir comment les modèles NLP segmentent et analysent le langage.

À la fin de ce TD, vous serez capable de :
- Comprendre ce qu’est la **tokenisation**
- Utiliser **spaCy** pour segmenter un texte en **tokens**
- Appliquer la **lemmatisation** pour obtenir les formes de base des mots

---

## 🚀 **1. Introduction : Tokenisation et Lemmatisation**  

### 🧩 **1.1. Qu’est-ce que la Tokenisation ?**  
La **tokenisation** est l’opération qui consiste à diviser un texte en unités élémentaires appelées **tokens**.  
Ces tokens peuvent être :
- **Des mots** : "Elle mange une pomme." → `["Elle", "mange", "une", "pomme", "."]`
- **Des signes de ponctuation** : `!`, `?`, `.` sont considérés comme des tokens
- **Des clitiques** : "J'aime" peut être séparé en `["J", "'", "aime"]`

📌 **Problèmes à gérer :**  
- La segmentation des **mots composés** (`arc-en-ciel` doit rester entier)
- La gestion des **apostrophes** (`l'arbre` ne doit pas devenir `["l", "'", "arbre"]`)

---

### 📌 **1.2. Qu’est-ce que la Lemmatisation ?**  
La **lemmatisation** réduit un mot à sa forme canonique, telle qu’on la retrouve dans un dictionnaire.  
- Exemples :
  - *mange*, *mangerai*, *mangeons* → **"manger"**
  - *chevaux*, *cheval* → **"cheval"**
  - *étais*, *était*, *êtes* → **"être"**

Cette opération est **utile pour** :
- La **recherche d’informations** (`courir` doit trouver `courait`)
- L’**analyse sémantique** (évite la dispersion des formes d’un même mot)
- La **stylométrie** (comparer le vocabulaire d’auteurs différents)

---

## 🛠 **2. Installation et Chargement de spaCy**  

### 📝 Installer et charger le modèle de langue**  
Installez **spaCy** et téléchargez le modèle pour le français :  

In [5]:
!pip install -U spacy
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


Puis importez **spaCy** et chargez le modèle :

In [6]:
import spacy

# Charger le modèle français
nlp = spacy.load("fr_core_news_sm")

In [7]:
texte = "Elle lui rappelait, en manière de souvenirs, ses peines et ses sacrifices, et, les comparant aux négligences d’Emma, concluait qu’il n’était point raisonnable de l’adorer d’une façon si exclusive.Charles ne savait que répondre ; il respectait sa mère, et il aimait infiniment sa femme ; il considérait le jugement de l’une comme infaillible, et cependant il trouvait l’autre irréprochable. Quand madame Bovary était partie, il essayait de hasarder timidement, et dans les mêmes termes, une ou deux des plus anodines observations qu’il avait entendu faire à sa maman ; Emma, lui prouvant d’un mot qu’il se trompait, le renvoyait à ses malades.Cependant, d’après des théories qu’elle croyait bonnes, elle voulut se donner de l’amour. Au clair de lune, dans le jardin, elle récitait tout ce qu’elle savait par cœur de rimes passionnées et lui chantait en soupirant des adagios mélancoliques ; mais elle se trouvait ensuite aussi calme qu’auparavant, et Charles n’en paraissait ni plus amoureux ni plus remué."

In [13]:
# Appliquer la tokenisation
doc = nlp(texte)

# Afficher les tokens
print([token.text for token in doc])

['Elle', 'lui', 'rappelait', ',', 'en', 'manière', 'de', 'souvenirs', ',', 'ses', 'peines', 'et', 'ses', 'sacrifices', ',', 'et', ',', 'les', 'comparant', 'aux', 'négligences', 'd’', 'Emma', ',', 'concluait', 'qu’', 'il', 'n’', 'était', 'point', 'raisonnable', 'de', 'l’', 'adorer', 'd’', 'une', 'façon', 'si', 'exclusive', '.', 'Charles', 'ne', 'savait', 'que', 'répondre', '\xa0', ';', 'il', 'respectait', 'sa', 'mère', ',', 'et', 'il', 'aimait', 'infiniment', 'sa', 'femme', '\xa0', ';', 'il', 'considérait', 'le', 'jugement', 'de', 'l’', 'une', 'comme', 'infaillible', ',', 'et', 'cependant', 'il', 'trouvait', 'l’', 'autre', 'irréprochable', '.', 'Quand', 'madame', 'Bovary', 'était', 'partie', ',', 'il', 'essayait', 'de', 'hasarder', 'timidement', ',', 'et', 'dans', 'les', 'mêmes', 'termes', ',', 'une', 'ou', 'deux', 'des', 'plus', 'anodines', 'observations', 'qu’', 'il', 'avait', 'entendu', 'faire', 'à', 'sa', 'maman', '\xa0', ';', 'Emma', ',', 'lui', 'prouvant', 'd’', 'un', 'mot', 'qu’'

In [None]:
# Plus compliqué !
texte2 = "Un garde-chasse, guéri par Monsieur, d’une fluxion de poitrine, avait donné à Madame une petite levrette d’Italie ; elle la prenait pour se promener, car elle sortait quelquefois, afin d’être seule un instant et de n’avoir plus sous les yeux l’éternel jardin avec la route poudreuse.Elle allait jusqu’à la hétraie de Banneville, près du pavillon abandonné qui fait l’angle du mur, du côté des champs. Il y a dans le saut-de-loup, parmi les herbes, de longs roseaux à feuilles coupantes.Elle commençait par regarder tout alentour, pour voir si rien n’avait changé depuis la dernière fois qu’elle était venue. Elle retrouvait aux mêmes places les digitales et les ravenelles, les bouquets d’orties entourant les gros cailloux, et les plaques de lichen le long des trois fenêtres, dont les volets toujours clos s’égrenaient de pourriture, sur leurs barres de fer rouillées. Sa pensée, sans but d’abord, vagabondait au hasard, comme sa levrette, qui faisait des cercles dans la campagne, jappait après les papillons jaunes, donnait la chasse aux musaraignes ou mordillait les coquelicots sur le bord d’une pièce de blé. Puis ses idées peu à peu se fixaient, et, assise sur le gazon, qu’elle fouillait à petits coups avec le bout de son ombrelle, Emma se répétait :– Pourquoi, mon Dieu ! me suis-je mariée ?"

In [None]:
# token.is_punct

## 🔍 **Affichage des Propriétés des Tokens**  

Chaque token possède des informations supplémentaires :

In [None]:
for token in doc:
    print(f"Texte : {token.text}, Type : {token.pos_}, Dépendance : {token.dep_}")

## 🌱 **5. Lemmatisation avec spaCy**  

### 📝 ** Trouver les lemmes des mots**  
Appliquons la lemmatisation au même extrait :

In [None]:
for token in doc:
    print(f"Mot : {token.text}, Lemme : {token.lemma_}")

🔍 **Remarque :**  
Les noms propres (`Emma`) et les mots invariables (`de`, `en`) ne changent pas.

---

### 📝 **Exercice : Nettoyer et Lemmatiser un texte complet**  

- Lire un fichier texte de votre choix
- Filtrer les mots sans ponctuation
- Récupérer les lemmes
- Retourner une liste de lemmes, une liste de tokens 