# üìò MODULE 2.1 : Les Outils du NLP (Spacy, NLTK, Pandas, Regex)

**Objectif du TP :**
Prendre en main les biblioth√®ques fondamentales. Comprendre la diff√©rence entre une cha√Æne de caract√®res (`String`) et un document trait√© (`Doc`).

---

## üõ†Ô∏è √âTAPE 1 : Installation
Nous installons Spacy et t√©l√©chargeons le mod√®le de langue anglais (`en_core_web_sm`). C'est le "cerveau" qui contient la grammaire.

In [None]:
# Installation de la librairie
!pip install -U spacy

# T√©l√©chargement du mod√®le (Small English)
!python -m spacy download en_core_web_sm

## üß† √âTAPE 2 : Le Pipeline SpaCy
Nous allons charger le mod√®le et transformer du texte brut en un objet intelligent.

In [None]:
import spacy

# 1. Chargement du mod√®le
nlp = spacy.load("en_core_web_sm")

# 2. Traitement (Le texte passe dans le Pipeline : Tokenizer -> Tagger -> Parser -> NER)
texte = "Apple is looking at buying U.K. startup for $1 billion."
doc = nlp(texte)

print("Traitement termin√© !")

### Analyse des Tokens
Regardons ce que Spacy a compris de notre phrase. Pour chaque mot, nous affichons :
* **Text** : Le mot original.
* **POS** (Part of Speech) : La nature grammaticale (Verbe, Nom...).
* **Lemma** : La racine du mot.

In [None]:
# Affichage sous forme de tableau
print(f"{'MOT':{12}} {'NATURE (POS)':{15}} {'RACINE (LEMMA)'}")
print("-" * 45)

for token in doc:
    print(f"{token.text:{12}} {token.pos_:{15}} {token.lemma_}")

## üïµÔ∏è √âTAPE 3 : Reconnaissance d'Entit√©s (NER)
Spacy a aussi d√©tect√© les noms propres automatiquement.

In [None]:
print("Entit√©s d√©tect√©es :")
for ent in doc.ents:
    # ent.label_ donne le type (ORG = Organisation, GPE = Pays/Lieu, MONEY = Argent)
    print(f" - {ent.text} ({ent.label_})")

## üêº √âTAPE 4 : Pandas et les Donn√©es
Dans la vraie vie, on charge des fichiers Excel/CSV. Pandas est fait pour √ßa.

In [None]:
import pandas as pd

# Cr√©ation d'un faux dataset
data = {
    "Commentaire": [
        "I love this product!",
        "Worst service ever.",
        "It is okay, not great."
    ],
    "Note": [5, 1, 3]
}

df = pd.DataFrame(data)

# Appliquer SpaCy sur une colonne enti√®re
# On compte le nombre de mots pour chaque commentaire
df['Nb_Mots'] = df['Commentaire'].apply(lambda x: len(nlp(x)))

display(df)

## üîç √âTAPE 5 : Regex pour le nettoyage
Si on veut trouver quelque chose de pr√©cis (un email, une date) que l'IA rate parfois, on utilise Regex.

In [None]:
import re

texte_sale = "Contactez support@google.com ou test.user@yahoo.fr pour info."

# Motif pour trouver un email
motif_email = r"[\w\.-]+@[\w\.-]+"

emails = re.findall(motif_email, texte_sale)
print(f"Emails trouv√©s : {emails}")

## üéì Exercice Final
Analysez la phrase suivante avec SpaCy et extrayez les entit√©s nomm√©es :
*"Elon Musk bought Twitter in 2022."*

In [None]:
# Votre code ici
phrase_exo = "Elon Musk bought Twitter in 2022."

# Indice : doc = nlp(phrase_exo)
# Indice : bouclez sur doc.ents