# üìù Module 3 : N-grams en Python - D√©monstration Pratique

Dans ce notebook, nous allons apprendre √† utiliser les **N-grams** en Python de mani√®re simple et pratique.

## üéØ Objectifs
- Comprendre ce que sont les N-grams
- Cr√©er des N-grams manuellement
- Utiliser scikit-learn pour les N-grams
- Voir des applications concr√®tes

## üß† Qu'est-ce qu'un N-gram ?

Un **N-gram** est une s√©quence de N mots cons√©cutifs dans un texte.

**Exemples avec la phrase : "Le chat mange des croquettes"**
- **1-gram (unigram)** : ["Le", "chat", "mange", "des", "croquettes"]
- **2-gram (bigram)** : ["Le chat", "chat mange", "mange des", "des croquettes"]
- **3-gram (trigram)** : ["Le chat mange", "chat mange des", "mange des croquettes"]

üí° **Pourquoi c'est utile ?** Les N-grams capturent le **contexte** et l'**ordre des mots**, contrairement au simple Bag of Words.

## üì¶ Installation et Imports

In [1]:
# Imports n√©cessaires
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from collections import Counter
import re

print("‚úÖ Imports r√©ussis !")

‚úÖ Imports r√©ussis !


## üî® M√©thode 1 : Cr√©er des N-grams Manuellement

Commen√ßons par comprendre le principe en cr√©ant des N-grams "√† la main".

In [2]:
def create_ngrams(text, n):
    """
    Cr√©e des N-grams √† partir d'un texte
    
    Args:
        text (str): Le texte d'entr√©e
        n (int): La taille des N-grams (1, 2, 3, etc.)
    
    Returns:
        list: Liste des N-grams
    """
    # Nettoyer et diviser en mots
    words = text.lower().split()
    
    # Cr√©er les N-grams
    ngrams = []
    for i in range(len(words) - n + 1):
        ngram = ' '.join(words[i:i+n])
        ngrams.append(ngram)
    
    return ngrams

# Test avec un exemple
texte_exemple = "Le chat mange des croquettes dans la cuisine"
print(f"üìù Texte : {texte_exemple}")
print()

# Cr√©er diff√©rents N-grams
for n in [1, 2, 3]:
    ngrams = create_ngrams(texte_exemple, n)
    print(f"üî∏ {n}-grams : {ngrams}")
    print(f"   Nombre : {len(ngrams)}")
    print()

üìù Texte : Le chat mange des croquettes dans la cuisine

üî∏ 1-grams : ['le', 'chat', 'mange', 'des', 'croquettes', 'dans', 'la', 'cuisine']
   Nombre : 8

üî∏ 2-grams : ['le chat', 'chat mange', 'mange des', 'des croquettes', 'croquettes dans', 'dans la', 'la cuisine']
   Nombre : 7

üî∏ 3-grams : ['le chat mange', 'chat mange des', 'mange des croquettes', 'des croquettes dans', 'croquettes dans la', 'dans la cuisine']
   Nombre : 6



## üîß M√©thode 2 : Utiliser scikit-learn (Recommand√©)

scikit-learn offre une m√©thode plus simple et plus puissante pour cr√©er des N-grams.

In [3]:
# Documents d'exemple
documents = [
    "Le chat mange des croquettes",
    "Le chien mange aussi des croquettes", 
    "Le chat boit de l'eau fra√Æche",
    "Les animaux domestiques mangent bien"
]

print("üìö Documents d'exemple :")
for i, doc in enumerate(documents, 1):
    print(f"   {i}. {doc}")
print()

üìö Documents d'exemple :
   1. Le chat mange des croquettes
   2. Le chien mange aussi des croquettes
   3. Le chat boit de l'eau fra√Æche
   4. Les animaux domestiques mangent bien



### üìä Unigrammes (1-grams)

In [4]:
# Cr√©er un vectoriseur pour les unigrammes
vectorizer_1gram = CountVectorizer(
    ngram_range=(1, 1),  # Seulement des 1-grams
    lowercase=True,      # Convertir en minuscules
    stop_words=None      # Pas de suppression de mots vides pour cet exemple
)

# Transformer les documents
matrice_1gram = vectorizer_1gram.fit_transform(documents)

# Obtenir les noms des features (mots)
mots = vectorizer_1gram.get_feature_names_out()

# Cr√©er un DataFrame pour la visualisation
df_1gram = pd.DataFrame(
    matrice_1gram.toarray(), 
    columns=mots,
    index=[f"Doc {i+1}" for i in range(len(documents))]
)

print("üî∏ Matrice Unigrammes (1-grams) :")
print(df_1gram)
print(f"\nüìè Taille du vocabulaire : {len(mots)} mots uniques")

üî∏ Matrice Unigrammes (1-grams) :
       animaux  aussi  bien  boit  chat  chien  croquettes  de  des  \
Doc 1        0      0     0     0     1      0           1   0    1   
Doc 2        0      1     0     0     0      1           1   0    1   
Doc 3        0      0     0     1     1      0           0   1    0   
Doc 4        1      0     1     0     0      0           0   0    0   

       domestiques  eau  fra√Æche  le  les  mange  mangent  
Doc 1            0    0        0   1    0      1        0  
Doc 2            0    0        0   1    0      1        0  
Doc 3            0    1        1   1    0      0        0  
Doc 4            1    0        0   0    1      0        1  

üìè Taille du vocabulaire : 16 mots uniques


### üìä Bigrammes (2-grams)

In [5]:
# Cr√©er un vectoriseur pour les bigrammes
vectorizer_2gram = CountVectorizer(
    ngram_range=(2, 2),  # Seulement des 2-grams
    lowercase=True
)

# Transformer les documents
matrice_2gram = vectorizer_2gram.fit_transform(documents)

# Obtenir les bigrammes
bigrammes = vectorizer_2gram.get_feature_names_out()

# Cr√©er un DataFrame
df_2gram = pd.DataFrame(
    matrice_2gram.toarray(), 
    columns=bigrammes,
    index=[f"Doc {i+1}" for i in range(len(documents))]
)

print("üî∏ Matrice Bigrammes (2-grams) :")
print(df_2gram)
print(f"\nüìè Nombre de bigrammes : {len(bigrammes)}")
print(f"\nüìù Quelques bigrammes trouv√©s : {list(bigrammes[:8])}")

üî∏ Matrice Bigrammes (2-grams) :
       animaux domestiques  aussi des  boit de  chat boit  chat mange  \
Doc 1                    0          0        0          0           1   
Doc 2                    0          1        0          0           0   
Doc 3                    0          0        1          1           0   
Doc 4                    1          0        0          0           0   

       chien mange  de eau  des croquettes  domestiques mangent  eau fra√Æche  \
Doc 1            0       0               1                    0            0   
Doc 2            1       0               1                    0            0   
Doc 3            0       1               0                    0            1   
Doc 4            0       0               0                    1            0   

       le chat  le chien  les animaux  mange aussi  mange des  mangent bien  
Doc 1        1         0            0            0          1             0  
Doc 2        0         1            0    

### üìä Combinaison : Unigrammes + Bigrammes

In [8]:
# Cr√©er un vectoriseur combin√© (1-grams + 2-grams)
vectorizer_combo = CountVectorizer(
    ngram_range=(1, 2),  # 1-grams ET 2-grams
    lowercase=True
)

# Transformer les documents
matrice_combo = vectorizer_combo.fit_transform(documents)

# Obtenir toutes les features
features_combo = vectorizer_combo.get_feature_names_out()

print(f"üî∏ Nombre total de features (1-grams + 2-grams) : {len(features_combo)}")
print(f"\nüìù Exemples de features :")
print(f"   - Unigrammes : {[f for f in features_combo if ' ' not in f][:5]}")
print(f"   - Bigrammes : {[f for f in features_combo if ' ' in f][:5]}")

# Matrice dense (limit√©e aux 10 premi√®res colonnes pour la lisibilit√©)
df_combo_sample = pd.DataFrame(
    matrice_combo.toarray()[:, :10], 
    columns=features_combo[:10],
    index=[f"Doc {i+1}" for i in range(len(documents))]
)

print(f"\nüî∏ Aper√ßu de la matrice combin√©e (10 premi√®res colonnes) :")
print(df_combo_sample)

üî∏ Nombre total de features (1-grams + 2-grams) : 32

üìù Exemples de features :
   - Unigrammes : ['animaux', 'aussi', 'bien', 'boit', 'chat']
   - Bigrammes : ['animaux domestiques', 'aussi des', 'boit de', 'chat boit', 'chat mange']

üî∏ Aper√ßu de la matrice combin√©e (10 premi√®res colonnes) :
       animaux  animaux domestiques  aussi  aussi des  bien  boit  boit de  \
Doc 1        0                    0      0          0     0     0        0   
Doc 2        0                    0      1          1     0     0        0   
Doc 3        0                    0      0          0     0     1        1   
Doc 4        1                    1      0          0     1     0        0   

       chat  chat boit  chat mange  
Doc 1     1          0           1  
Doc 2     0          0           0  
Doc 3     1          1           0  
Doc 4     0          0           0  


## üìà Application Pratique : Analyse de Sentiment avec N-grams

Voyons comment les N-grams peuvent am√©liorer l'analyse de sentiment.

In [9]:
# Donn√©es d'exemple pour l'analyse de sentiment
avis_clients = [
    "Ce produit est vraiment tr√®s bon",
    "Je ne suis pas satisfait du service", 
    "Excellente qualit√©, je recommande fortement",
    "Pas terrible, √ßa pourrait √™tre mieux",
    "Tr√®s bon rapport qualit√© prix",
    "Service client pas du tout professionnel"
]

labels = ["Positif", "N√©gatif", "Positif", "N√©gatif", "Positif", "N√©gatif"]

print("üí¨ Avis clients d'exemple :")
for avis, label in zip(avis_clients, labels):
    emoji = "üòä" if label == "Positif" else "üòû"
    print(f"   {emoji} {label} : '{avis}'")
print()

üí¨ Avis clients d'exemple :
   üòä Positif : 'Ce produit est vraiment tr√®s bon'
   üòû N√©gatif : 'Je ne suis pas satisfait du service'
   üòä Positif : 'Excellente qualit√©, je recommande fortement'
   üòû N√©gatif : 'Pas terrible, √ßa pourrait √™tre mieux'
   üòä Positif : 'Tr√®s bon rapport qualit√© prix'
   üòû N√©gatif : 'Service client pas du tout professionnel'



In [10]:
# Comparaison : Unigrammes vs Bigrammes

# 1. Avec unigrammes seulement
vectorizer_sentiment_1 = TfidfVectorizer(ngram_range=(1, 1), max_features=20)
X_1gram = vectorizer_sentiment_1.fit_transform(avis_clients)

print("üî∏ Features importantes avec UNIGRAMMES seulement :")
print(list(vectorizer_sentiment_1.get_feature_names_out()))
print()

# 2. Avec unigrammes + bigrammes
vectorizer_sentiment_2 = TfidfVectorizer(ngram_range=(1, 2), max_features=20)
X_2gram = vectorizer_sentiment_2.fit_transform(avis_clients)

print("üî∏ Features importantes avec UNIGRAMMES + BIGRAMMES :")
features_sentiment = list(vectorizer_sentiment_2.get_feature_names_out())
print("   Unigrammes :", [f for f in features_sentiment if ' ' not in f])
print("   Bigrammes :", [f for f in features_sentiment if ' ' in f])

üî∏ Features importantes avec UNIGRAMMES seulement :
['bon', 'du', 'je', 'mieux', 'ne', 'pas', 'pourrait', 'prix', 'produit', 'qualit√©', 'rapport', 'recommande', 'satisfait', 'service', 'suis', 'terrible', 'tout', 'tr√®s', 'vraiment', '√ßa']

üî∏ Features importantes avec UNIGRAMMES + BIGRAMMES :
   Unigrammes : ['bon', 'du', 'je', 'pas', 'qualit√©', 'rapport', 'recommande', 'satisfait', 'service', 'suis', 'terrible', 'tr√®s']
   Bigrammes : ['qualit√© je', 'qualit√© prix', 'rapport qualit√©', 'recommande fortement', 'satisfait du', 'suis pas', 'terrible √ßa', 'tr√®s bon']


## üí° Insights : Pourquoi les N-grams sont Utiles

Regardons des exemples concrets o√π les N-grams capturent mieux le sens :

In [11]:
# Exemples o√π les bigrammes sont plus informatifs
exemples_problematiques = [
    "Ce produit n'est pas bon",  # "pas bon" = n√©gatif
    "Pas mal du tout",           # "pas mal" = positif
    "Service client tr√®s professionnel",  # "tr√®s professionnel" = positif
    "Pas du tout satisfait"      # "pas du tout" = tr√®s n√©gatif
]

print("üßê Analyse comparative : Unigrammes vs Bigrammes\n")

for texte in exemples_problematiques:
    print(f"üìù Texte : '{texte}'")
    
    # Unigrammes
    unigrams = create_ngrams(texte, 1)
    print(f"   üî∏ Unigrammes : {unigrams}")
    
    # Bigrammes
    bigrams = create_ngrams(texte, 2)
    print(f"   üî∏ Bigrammes : {bigrams}")
    
    print(f"   üí° Les bigrammes capturent mieux la n√©gation et les expressions !")
    print()

üßê Analyse comparative : Unigrammes vs Bigrammes

üìù Texte : 'Ce produit n'est pas bon'
   üî∏ Unigrammes : ['ce', 'produit', "n'est", 'pas', 'bon']
   üî∏ Bigrammes : ['ce produit', "produit n'est", "n'est pas", 'pas bon']
   üí° Les bigrammes capturent mieux la n√©gation et les expressions !

üìù Texte : 'Pas mal du tout'
   üî∏ Unigrammes : ['pas', 'mal', 'du', 'tout']
   üî∏ Bigrammes : ['pas mal', 'mal du', 'du tout']
   üí° Les bigrammes capturent mieux la n√©gation et les expressions !

üìù Texte : 'Service client tr√®s professionnel'
   üî∏ Unigrammes : ['service', 'client', 'tr√®s', 'professionnel']
   üî∏ Bigrammes : ['service client', 'client tr√®s', 'tr√®s professionnel']
   üí° Les bigrammes capturent mieux la n√©gation et les expressions !

üìù Texte : 'Pas du tout satisfait'
   üî∏ Unigrammes : ['pas', 'du', 'tout', 'satisfait']
   üî∏ Bigrammes : ['pas du', 'du tout', 'tout satisfait']
   üí° Les bigrammes capturent mieux la n√©gation et les expressio

## ‚öôÔ∏è Param√®tres Avanc√©s

Explorons quelques param√®tres utiles pour affiner l'utilisation des N-grams.

In [12]:
# Param√®tres avanc√©s avec CountVectorizer
vectorizer_avance = CountVectorizer(
    ngram_range=(1, 3),      # 1-grams, 2-grams ET 3-grams
    min_df=1,                # Minimum de documents contenant le N-gram
    max_df=0.8,              # Maximum de documents (pour √©viter les mots trop fr√©quents)
    max_features=50,         # Limite du nombre de features
    lowercase=True,          # Minuscules
    stop_words=None          # Pas de mots vides pour cet exemple
)

# Documents d'exemple plus riches
documents_riches = [
    "Le machine learning est une branche de l'intelligence artificielle",
    "L'intelligence artificielle r√©volutionne de nombreux secteurs",
    "Le deep learning est un sous-domaine du machine learning", 
    "Les r√©seaux de neurones sont la base du deep learning",
    "L'apprentissage automatique n√©cessite beaucoup de donn√©es"
]

# Transformation
X_avance = vectorizer_avance.fit_transform(documents_riches)
features_avancees = vectorizer_avance.get_feature_names_out()

print(f"üî∏ Nombre total de N-grams (1 √† 3) : {len(features_avancees)}")
print(f"\nüìä R√©partition par type :")
unigrams_count = len([f for f in features_avancees if len(f.split()) == 1])
bigrams_count = len([f for f in features_avancees if len(f.split()) == 2])
trigrams_count = len([f for f in features_avancees if len(f.split()) == 3])

print(f"   - Unigrammes : {unigrams_count}")
print(f"   - Bigrammes : {bigrams_count}")
print(f"   - Trigrammes : {trigrams_count}")

print(f"\nüìù Quelques trigrammes int√©ressants :")
trigrams_examples = [f for f in features_avancees if len(f.split()) == 3][:5]
for trigram in trigrams_examples:
    print(f"   - '{trigram}'")

üî∏ Nombre total de N-grams (1 √† 3) : 50

üìä R√©partition par type :
   - Unigrammes : 21
   - Bigrammes : 15
   - Trigrammes : 14

üìù Quelques trigrammes int√©ressants :
   - 'intelligence artificielle r√©volutionne'
   - 'le deep learning'
   - 'le machine learning'
   - 'learning est un'
   - 'learning est une'


## üìã R√©sum√© et Bonnes Pratiques

### ‚úÖ Ce qu'on a appris :
1. **Les N-grams** capturent l'ordre et le contexte des mots
2. **scikit-learn** rend leur utilisation tr√®s simple
3. **Les bigrammes** sont particuli√®rement utiles pour les n√©gations
4. **La combinaison** unigrammes + bigrammes est souvent optimale

### üéØ Bonnes pratiques :
- Commencez avec `ngram_range=(1, 2)` (unigrammes + bigrammes)
- Utilisez `max_features` pour limiter la taille du vocabulaire
- Les trigrammes sont rarement n√©cessaires (sauf cas sp√©ciaux)
- Testez toujours avec et sans N-grams pour voir l'am√©lioration

### ‚ö†Ô∏è Attention √† :
- **Explosion du vocabulaire** : les N-grams augmentent rapidement le nombre de features
- **Overfitting** : plus de features = risque de sur-apprentissage
- **Temps de calcul** : plus de features = plus lent

## üöÄ Exercice Pratique

√Ä vous de jouer ! Modifiez les param√®tres ci-dessous pour explorer :

In [13]:
# üéÆ Zone d'exp√©rimentation - Modifiez ces param√®tres !

# Vos propres documents
mes_documents = [
    "Ajoutez vos propres phrases ici",
    "Pour tester les N-grams",
    "Et voir comment √ßa fonctionne"
]

# Param√®tres √† exp√©rimenter
mon_vectorizer = CountVectorizer(
    ngram_range=(1, 2),    # Changez √ßa ! Essayez (1,1), (2,2), (1,3)...
    max_features=20,       # Changez √ßa ! Essayez 10, 50, 100...
    lowercase=True
)

# Transformation et affichage
if len(mes_documents[0]) > 30:  # Si vous avez modifi√© les documents
    X_perso = mon_vectorizer.fit_transform(mes_documents)
    features_perso = mon_vectorizer.get_feature_names_out()
    
    print("üéØ Vos r√©sultats :")
    print(f"   Nombre de features : {len(features_perso)}")
    print(f"   Features trouv√©es : {list(features_perso)}")
else:
    print("‚úèÔ∏è Modifiez les documents ci-dessus pour voir vos r√©sultats !")

üéØ Vos r√©sultats :
   Nombre de features : 20
   Features trouv√©es : ['ajoutez', 'et', 'et voir', 'fonctionne', 'grams', 'ici', 'les', 'les grams', 'phrases ici', 'pour', 'pour tester', 'propres', 'propres phrases', 'tester', 'tester les', 'voir', 'voir comment', 'vos', 'vos propres', '√ßa']


---

## üéì Conclusion

**F√©licitations !** Vous ma√Ætrisez maintenant les N-grams en Python. 

üîó **Prochaine √©tape** : Dans le prochain module, nous verrons TF-IDF qui am√©liore encore la repr√©sentation textuelle !

---
*Module 3 - Formation NLP - N-grams avec Python*