#  Le Langage des Machines - Acte 0
## Le vocabulaire du NLP

**Auteur :** Glorie M. WOWO | Data Scientist

---

## üéØ Objectif de ce notebook

Avant de plonger dans les techniques de NLP, nous devons ma√Ætriser le **vocabulaire** de ce domaine.

| Terme | Description |
|-------|-------------|
| Token | Unit√© √©l√©mentaire extraite d'un texte |
| Tokenisation | Processus de d√©coupage en tokens |
| Corpus | Collection de textes |
| Vocabulaire | Ensemble des tokens uniques |
| Document | Une unit√© de texte dans le corpus |
| Pr√©traitement | Nettoyage et normalisation |
| Embedding | Repr√©sentation vectorielle du sens |

## 1.  Le texte brut : notre mati√®re premi√®re

In [None]:
# Un texte du programme SUCCEED
texte = "Dans le programme SUCCEED, les enfants apprennent l'informatique."

print("Pour nous : une phrase qui √©voque des jeunes qui d√©couvrent le code.")
print(f"Pour la machine : une cha√Æne de {len(texte)} caract√®res.")
print(f"\nTexte : '{texte}'")
print(f"\nCe que la machine 'voit' :")
print(list(texte))

## 2. Token : l'unit√© √©l√©mentaire

Un **token** peut √™tre un mot, un sous-mot, ou un caract√®re.

In [1]:
texte = "Les enfants codent en Python."

print("DIFF√âRENTS TYPES DE TOKENS")
print("=" * 40)
print(f"Texte : '{texte}'")

# Tokens par mots
tokens_mots = texte.split()
print(f"\n1. Par MOTS : {tokens_mots}")

# Tokens par caract√®res
tokens_chars = list(texte)
print(f"\n2. Par CARACT√àRES : {tokens_chars[:15]}...")

# Tokens par sous-mots (simulation)
tokens_sousmots = ["Les", " enfants", " cod", "ent", " en", " Python", "."]
print(f"\n3. Par SOUS-MOTS : {tokens_sousmots}")
print("   -> C'est ce que font GPT, Claude, LLaMA...")

DIFF√âRENTS TYPES DE TOKENS
Texte : 'Les enfants codent en Python.'

1. Par MOTS : ['Les', 'enfants', 'codent', 'en', 'Python.']

2. Par CARACT√àRES : ['L', 'e', 's', ' ', 'e', 'n', 'f', 'a', 'n', 't', 's', ' ', 'c', 'o', 'd']...

3. Par SOUS-MOTS : ['Les', ' enfants', ' cod', 'ent', ' en', ' Python', '.']
   -> C'est ce que font GPT, Claude, LLaMA...


## 3. ‚úÇÔ∏è Tokenisation : le d√©coupage

In [3]:
def tokenize_simple(texte):
    """Tokenisation simple par mots."""
    texte = texte.lower()
    tokens = texte.split()
    return tokens

texte = "Dans le programme SUCCEED, les enfants apprennent l'informatique."

print("PROCESSUS DE TOKENISATION")
print("=" * 40)
print(f"ENTR√âE : '{texte}'")

tokens = tokenize_simple(texte)
print(f"\nSORTIE : {tokens}")
print(f"-> {len(tokens)} tokens extraits")

PROCESSUS DE TOKENISATION
ENTR√âE : 'Dans le programme SUCCEED, les enfants apprennent l'informatique.'

SORTIE : ['dans', 'le', 'programme', 'succeed,', 'les', 'enfants', 'apprennent', "l'informatique."]
-> 8 tokens extraits


## 4. üìö Corpus : la collection de textes

In [4]:
# Corpus de retours d'√©l√®ves SUCCEED
corpus = [
    "J'ai appris √† cr√©er mon premier site web !",
    "Python est plus facile que je pensais.",
    "Je veux devenir d√©veloppeuse !",
    "Les formateurs expliquent tr√®s bien.",
    "J'adore coder des jeux vid√©o."
]

print("CORPUS DE RETOURS D'√âL√àVES SUCCEED")
print("=" * 40)
print(f"Nombre de documents : {len(corpus)}\n")

for i, doc in enumerate(corpus):
    print(f"Document {i+1} : '{doc}'")

CORPUS DE RETOURS D'√âL√àVES SUCCEED
Nombre de documents : 5

Document 1 : 'J'ai appris √† cr√©er mon premier site web !'
Document 2 : 'Python est plus facile que je pensais.'
Document 3 : 'Je veux devenir d√©veloppeuse !'
Document 4 : 'Les formateurs expliquent tr√®s bien.'
Document 5 : 'J'adore coder des jeux vid√©o.'


## 5. üìñ Vocabulaire : le dictionnaire du mod√®le

In [5]:
def build_vocabulary(corpus):
    """Construit le vocabulaire (tokens uniques) d'un corpus."""
    vocabulary = set()
    for document in corpus:
        tokens = document.lower().split()
        vocabulary.update(tokens)
    return vocabulary

# Corpus simplifi√©
corpus_simple = [
    "les enfants codent",
    "les enfants apprennent",
    "les formateurs enseignent"
]

vocab = build_vocabulary(corpus_simple)

print("VOCABULAIRE DU CORPUS")
print("=" * 40)
print(f"Corpus : {corpus_simple}")
print(f"\nVocabulaire ({len(vocab)} tokens uniques) :")
for token in sorted(vocab):
    print(f"   ‚Ä¢ {token}")

VOCABULAIRE DU CORPUS
Corpus : ['les enfants codent', 'les enfants apprennent', 'les formateurs enseignent']

Vocabulaire (6 tokens uniques) :
   ‚Ä¢ apprennent
   ‚Ä¢ codent
   ‚Ä¢ enfants
   ‚Ä¢ enseignent
   ‚Ä¢ formateurs
   ‚Ä¢ les


In [9]:
# Vocabulaire index√© (n√©cessaire pour la vectorisation)
vocab_to_idx = {token: idx for idx, token in enumerate(sorted(vocab))}

print("VOCABULAIRE INDEX√â")
print("=" * 40)
print("Mapping token ‚Üí index :")
for token, idx in vocab_to_idx.items():
    print(f"   '{token}' -> {idx}")

VOCABULAIRE INDEX√â
Mapping token ‚Üí index :
   'apprennent' -> 0
   'codent' -> 1
   'enfants' -> 2
   'enseignent' -> 3
   'formateurs' -> 4
   'les' -> 5


## 6. üìÑ Document et S√©quence

In [11]:
texte = "les enfants codent"
tokens = texte.split()

print("ENSEMBLE vs S√âQUENCE")
print("=" * 40)
print(f"Texte : '{texte}'")

# Comme ensemble (pas d'ordre)
ensemble = set(tokens)
print(f"\nComme ENSEMBLE : {ensemble}")
print("   -> L'ordre est perdu (Bag of Words)")

# Comme s√©quence (ordre pr√©serv√©)
sequence = tuple(tokens)
print(f"\nComme S√âQUENCE : {sequence}")
print("   -> L'ordre est pr√©serv√© (N-grammes, Transformers)")

ENSEMBLE vs S√âQUENCE
Texte : 'les enfants codent'

Comme ENSEMBLE : {'codent', 'enfants', 'les'}
   -> L'ordre est perdu (Bag of Words)

Comme S√âQUENCE : ('les', 'enfants', 'codent')
   -> L'ordre est pr√©serv√© (N-grammes, Transformers)


## 7. üßπ Pr√©traitement (Preprocessing)

In [14]:
import re

texte_original = "Les ENFANTS du programme SUCCEED codent!!! √Ä Douala, en 2024."

print("√âTAPES DE PR√âTRAITEMENT")
print("=" * 50)
print(f"Original : '{texte_original}'")

# 1. Lowercasing
texte = texte_original.lower()
print(f"\n1. Lowercasing : '{texte}'")

# 2. Suppression ponctuation
texte_no_punct = re.sub(r'[^\w\s]', '', texte)
print(f"2. Sans ponctuation : '{texte_no_punct}'")

# 3. Suppression nombres
texte_no_numbers = re.sub(r'\d+', '', texte_no_punct)
print(f"3. Sans nombres : '{texte_no_numbers}'")

# 4. Nettoyage espaces
texte_clean = ' '.join(texte_no_numbers.split())
print(f"4. Nettoy√© : '{texte_clean}'")

√âTAPES DE PR√âTRAITEMENT
Original : 'Les ENFANTS du programme SUCCEED codent!!! √Ä Douala, en 2024.'

1. Lowercasing : 'les enfants du programme succeed codent!!! √† douala, en 2024.'
2. Sans ponctuation : 'les enfants du programme succeed codent √† douala en 2024'
3. Sans nombres : 'les enfants du programme succeed codent √† douala en '
4. Nettoy√© : 'les enfants du programme succeed codent √† douala en'


In [15]:
# Stop words
stop_words_fr = {'le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 
                 'et', 'en', '√†', 'au', 'dans', 'qui', 'que'}

texte = "les enfants du programme codent dans la salle"
tokens = texte.split()

print("SUPPRESSION DES STOP WORDS")
print("=" * 40)
print(f"Tokens : {tokens}")

tokens_filtered = [t for t in tokens if t not in stop_words_fr]
print(f"Apr√®s filtrage : {tokens_filtered}")
print("‚Üí On garde l'essentiel : enfants, programme, codent, salle")

SUPPRESSION DES STOP WORDS
Tokens : ['les', 'enfants', 'du', 'programme', 'codent', 'dans', 'la', 'salle']
Apr√®s filtrage : ['enfants', 'programme', 'codent', 'salle']
‚Üí On garde l'essentiel : enfants, programme, codent, salle


In [None]:
print("STEMMING vs LEMMATISATION")
print("=" * 40)
print("""
STEMMING (r√©duction au radical)
  "enseignaient" ‚Üí "enseign"
  "enseignera"   ‚Üí "enseign"
  ‚Üí Rapide mais impr√©cis

LEMMATISATION (forme de base)
  "enseignaient" ‚Üí "enseigner"
  "apprennent"   ‚Üí "apprendre"
  ‚Üí Plus lent mais pr√©cis
""")

## 8. üî¢ Vecteur et Embedding

In [7]:
import numpy as np

print("QU'EST-CE QU'UN VECTEUR ?")
print("=" * 40)

# Un vecteur simple
vecteur = np.array([0.2, 0.8, 0.1, 0.5])
print(f"Vecteur : {vecteur}")
print(f"Dimension : {len(vecteur)}")

# Repr√©sentation d'un document
print(f"\nExemple : repr√©senter 'les enfants codent'")
print(f"Vocabulaire : ['apprennent', 'codent', 'enfants', 'enseignent', 'formateurs', 'les']")
print(f"Vecteur BoW : [0, 1, 1, 0, 0, 1]")
print(f"              (apprennent=0, codent=1, enfants=1, enseignent=0, formateurs=0, les=1)")

QU'EST-CE QU'UN VECTEUR ?
Vecteur : [0.2 0.8 0.1 0.5]
Dimension : 4

Exemple : repr√©senter 'les enfants codent'
Vocabulaire : ['apprennent', 'codent', 'enfants', 'enseignent', 'formateurs', 'les']
Vecteur BoW : [0, 1, 1, 0, 0, 1]
              (apprennent=0, codent=1, enfants=1, enseignent=0, formateurs=0, les=1)


In [8]:
print("EMBEDDINGS (APER√áU)")
print("=" * 40)
print("""
Un embedding est un vecteur DENSE qui capture le SENS :

  "informatique" ‚Üí [0.32, -0.15, 0.87, 0.12, ..., -0.43]  (300+ dimensions)
  "programmation" ‚Üí [0.30, -0.12, 0.85, 0.10, ..., -0.40]  (proche!)
  "cuisine"       ‚Üí [-0.54, 0.67, -0.23, 0.89, ..., 0.12]  (loin)

La magie de Word2Vec :
  "roi" - "homme" + "femme" ‚âà "reine"
  "Paris" - "France" + "Italie" ‚âà "Rome"

‚Üí Nous explorerons cela dans l'Acte d√©di√© aux Embeddings !
""")

EMBEDDINGS (APER√áU)

Un embedding est un vecteur DENSE qui capture le SENS :

  "informatique" ‚Üí [0.32, -0.15, 0.87, 0.12, ..., -0.43]  (300+ dimensions)
  "programmation" ‚Üí [0.30, -0.12, 0.85, 0.10, ..., -0.40]  (proche!)
  "cuisine"       ‚Üí [-0.54, 0.67, -0.23, 0.89, ..., 0.12]  (loin)

La magie de Word2Vec :
  "roi" - "homme" + "femme" ‚âà "reine"
  "Paris" - "France" + "Italie" ‚âà "Rome"

‚Üí Nous explorerons cela dans l'Acte d√©di√© aux Embeddings !



## 9. üìä R√©capitulatif

In [16]:
glossaire = {
    "Token": "Unit√© √©l√©mentaire (mot, sous-mot, caract√®re)",
    "Tokenisation": "Processus de d√©coupage en tokens",
    "Tokenizer": "L'outil qui effectue la tokenisation",
    "Corpus": "Collection de textes pour entra√Æner un mod√®le",
    "Vocabulaire": "Ensemble des tokens uniques du corpus",
    "Document": "Une unit√© de texte dans le corpus",
    "S√©quence": "Suite ordonn√©e de tokens (l'ordre compte)",
    "Pr√©traitement": "Nettoyage et normalisation du texte",
    "Stop Words": "Mots trop fr√©quents qu'on filtre",
    "Vecteur": "Liste de nombres (format pour le ML)",
    "Embedding": "Repr√©sentation vectorielle dense du sens",
}

print("GLOSSAIRE NLP")
print("=" * 50)
for terme, definition in glossaire.items():
    print(f"\n{terme}")
    print(f"   {definition}")

GLOSSAIRE NLP

Token
   Unit√© √©l√©mentaire (mot, sous-mot, caract√®re)

Tokenisation
   Processus de d√©coupage en tokens

Tokenizer
   L'outil qui effectue la tokenisation

Corpus
   Collection de textes pour entra√Æner un mod√®le

Vocabulaire
   Ensemble des tokens uniques du corpus

Document
   Une unit√© de texte dans le corpus

S√©quence
   Suite ordonn√©e de tokens (l'ordre compte)

Pr√©traitement
   Nettoyage et normalisation du texte

Stop Words
   Mots trop fr√©quents qu'on filtre

Vecteur
   Liste de nombres (format pour le ML)

Embedding
   Repr√©sentation vectorielle dense du sens


---

## üéØ Conclusion

Nous avons maintenant le **vocabulaire** n√©cessaire pour comprendre les techniques de NLP.

### Prochaine √©tape : Acte I ‚Äî Bag of Words

Dans le prochain notebook, nous verrons comment transformer un texte en vecteur de nombres avec la technique la plus simple : **compter les mots**.

---

*Le Langage des Machines ‚Äî Glorie M. WOWO*