# üìù **Travaux Dirig√©s : Tokenisation et Lemmatisation avec spaCy**  

## üéØ Objectifs  
Ce TD a pour but d‚Äôapprendre √† **tokeniser et lemmatiser** un texte litt√©raire avec **spaCy**, une biblioth√®que NLP tr√®s utilis√©e.  
Nous travaillerons sur un extrait de texte pour voir comment les mod√®les NLP segmentent et analysent le langage.

√Ä la fin de ce TD, vous serez capable de :
- Comprendre ce qu‚Äôest la **tokenisation**
- Utiliser **spaCy** pour segmenter un texte en **tokens**
- Appliquer la **lemmatisation** pour obtenir les formes de base des mots

---

## üöÄ **1. Introduction : Tokenisation et Lemmatisation**  

### üß© **1.1. Qu‚Äôest-ce que la Tokenisation ?**  
La **tokenisation** est l‚Äôop√©ration qui consiste √† diviser un texte en unit√©s √©l√©mentaires appel√©es **tokens**.  
Ces tokens peuvent √™tre :
- **Des mots** : "Elle mange une pomme." ‚Üí `["Elle", "mange", "une", "pomme", "."]`
- **Des signes de ponctuation** : `!`, `?`, `.` sont consid√©r√©s comme des tokens
- **Des clitiques** : "J'aime" peut √™tre s√©par√© en `["J", "'", "aime"]`

üìå **Probl√®mes √† g√©rer :**  
- La segmentation des **mots compos√©s** (`arc-en-ciel` doit rester entier)
- La gestion des **apostrophes** (`l'arbre` ne doit pas devenir `["l", "'", "arbre"]`)

---

### üìå **1.2. Qu‚Äôest-ce que la Lemmatisation ?**  
La **lemmatisation** r√©duit un mot √† sa forme canonique, telle qu‚Äôon la retrouve dans un dictionnaire.  
- Exemples :
  - *mange*, *mangerai*, *mangeons* ‚Üí **"manger"**
  - *chevaux*, *cheval* ‚Üí **"cheval"**
  - *√©tais*, *√©tait*, *√™tes* ‚Üí **"√™tre"**

Cette op√©ration est **utile pour** :
- La **recherche d‚Äôinformations** (`courir` doit trouver `courait`)
- L‚Äô**analyse s√©mantique** (√©vite la dispersion des formes d‚Äôun m√™me mot)
- La **stylom√©trie** (comparer le vocabulaire d‚Äôauteurs diff√©rents)

---

## üõ† **2. Installation et Chargement de spaCy**  

### üìù Installer et charger le mod√®le de langue**  
Installez **spaCy** et t√©l√©chargez le mod√®le pour le fran√ßais :  

In [5]:
!pip install -U spacy
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


Puis importez **spaCy** et chargez le mod√®le :

In [6]:
import spacy

# Charger le mod√®le fran√ßais
nlp = spacy.load("fr_core_news_sm")

In [7]:
texte = "Elle lui rappelait, en mani√®re de souvenirs, ses peines et ses sacrifices, et, les comparant aux n√©gligences d‚ÄôEmma, concluait qu‚Äôil n‚Äô√©tait point raisonnable de l‚Äôadorer d‚Äôune fa√ßon si exclusive.Charles ne savait que r√©pondre¬†; il respectait sa m√®re, et il aimait infiniment sa femme¬†; il consid√©rait le jugement de l‚Äôune comme infaillible, et cependant il trouvait l‚Äôautre irr√©prochable. Quand madame Bovary √©tait partie, il essayait de hasarder timidement, et dans les m√™mes termes, une ou deux des plus anodines observations qu‚Äôil avait entendu faire √† sa maman¬†; Emma, lui prouvant d‚Äôun mot qu‚Äôil se trompait, le renvoyait √† ses malades.Cependant, d‚Äôapr√®s des th√©ories qu‚Äôelle croyait bonnes, elle voulut se donner de l‚Äôamour. Au clair de lune, dans le jardin, elle r√©citait tout ce qu‚Äôelle savait par c≈ìur de rimes passionn√©es et lui chantait en soupirant des adagios m√©lancoliques¬†; mais elle se trouvait ensuite aussi calme qu‚Äôauparavant, et Charles n‚Äôen paraissait ni plus amoureux ni plus remu√©."

In [13]:
# Appliquer la tokenisation
doc = nlp(texte)

# Afficher les tokens
print([token.text for token in doc])

['Elle', 'lui', 'rappelait', ',', 'en', 'mani√®re', 'de', 'souvenirs', ',', 'ses', 'peines', 'et', 'ses', 'sacrifices', ',', 'et', ',', 'les', 'comparant', 'aux', 'n√©gligences', 'd‚Äô', 'Emma', ',', 'concluait', 'qu‚Äô', 'il', 'n‚Äô', '√©tait', 'point', 'raisonnable', 'de', 'l‚Äô', 'adorer', 'd‚Äô', 'une', 'fa√ßon', 'si', 'exclusive', '.', 'Charles', 'ne', 'savait', 'que', 'r√©pondre', '\xa0', ';', 'il', 'respectait', 'sa', 'm√®re', ',', 'et', 'il', 'aimait', 'infiniment', 'sa', 'femme', '\xa0', ';', 'il', 'consid√©rait', 'le', 'jugement', 'de', 'l‚Äô', 'une', 'comme', 'infaillible', ',', 'et', 'cependant', 'il', 'trouvait', 'l‚Äô', 'autre', 'irr√©prochable', '.', 'Quand', 'madame', 'Bovary', '√©tait', 'partie', ',', 'il', 'essayait', 'de', 'hasarder', 'timidement', ',', 'et', 'dans', 'les', 'm√™mes', 'termes', ',', 'une', 'ou', 'deux', 'des', 'plus', 'anodines', 'observations', 'qu‚Äô', 'il', 'avait', 'entendu', 'faire', '√†', 'sa', 'maman', '\xa0', ';', 'Emma', ',', 'lui', 'prouvant

In [None]:
# Plus compliqu√© !
texte2 = "Un garde-chasse, gu√©ri par Monsieur, d‚Äôune fluxion de poitrine, avait donn√© √† Madame une petite levrette d‚ÄôItalie¬†; elle la prenait pour se promener, car elle sortait quelquefois, afin d‚Äô√™tre seule un instant et de n‚Äôavoir plus sous les yeux l‚Äô√©ternel jardin avec la route poudreuse.Elle allait jusqu‚Äô√† la h√©traie de Banneville, pr√®s du pavillon abandonn√© qui fait l‚Äôangle du mur, du c√¥t√© des champs. Il y a dans le saut-de-loup, parmi les herbes, de longs roseaux √† feuilles coupantes.Elle commen√ßait par regarder tout alentour, pour voir si rien n‚Äôavait chang√© depuis la derni√®re fois qu‚Äôelle √©tait venue. Elle retrouvait aux m√™mes places les digitales et les ravenelles, les bouquets d‚Äôorties entourant les gros cailloux, et les plaques de lichen le long des trois fen√™tres, dont les volets toujours clos s‚Äô√©grenaient de pourriture, sur leurs barres de fer rouill√©es. Sa pens√©e, sans but d‚Äôabord, vagabondait au hasard, comme sa levrette, qui faisait des cercles dans la campagne, jappait apr√®s les papillons jaunes, donnait la chasse aux musaraignes ou mordillait les coquelicots sur le bord d‚Äôune pi√®ce de bl√©. Puis ses id√©es peu √† peu se fixaient, et, assise sur le gazon, qu‚Äôelle fouillait √† petits coups avec le bout de son ombrelle, Emma se r√©p√©tait¬†:‚Äì¬†Pourquoi, mon Dieu¬†! me suis-je mari√©e¬†?"

In [None]:
# token.is_punct

## üîç **Affichage des Propri√©t√©s des Tokens**  

Chaque token poss√®de des informations suppl√©mentaires :

In [None]:
for token in doc:
    print(f"Texte : {token.text}, Type : {token.pos_}, D√©pendance : {token.dep_}")

## üå± **5. Lemmatisation avec spaCy**  

### üìù ** Trouver les lemmes des mots**  
Appliquons la lemmatisation au m√™me extrait :

In [None]:
for token in doc:
    print(f"Mot : {token.text}, Lemme : {token.lemma_}")

üîç **Remarque :**  
Les noms propres (`Emma`) et les mots invariables (`de`, `en`) ne changent pas.

---

### üìù **Exercice : Nettoyer et Lemmatiser un texte complet**  

- Lire un fichier texte de votre choix
- Filtrer les mots sans ponctuation
- R√©cup√©rer les lemmes
- Retourner une liste de lemmes, une liste de tokens 