# Lecon 1 : Deviner la suite

> **Bienvenue !** Ce notebook est interactif : tu vas lire,
> executer du code, et ecrire tes propres lignes de Python.

### Comment ca marche ?

1. Clique sur une cellule grise (c'est du code Python)
2. Appuie sur **Shift + Entree** pour l'executer
3. Le resultat s'affiche juste en dessous
4. Passe a la cellule suivante et recommence !

**Regle d'or** : execute les cellules **dans l'ordre**, de haut en bas.
Si tu sautes une cellule, la suivante risque de ne pas marcher.

---

## Comment une IA "devine" le mot suivant ?

Quand tu ecris un message sur ton telephone, il te **propose** le mot suivant.
Comment fait-il ? Il a appris quels mots viennent souvent apres d'autres.

On va faire pareil, mais avec des **lettres** au lieu de mots.

---
### A toi de jouer ! (Exercice 1)

Complete ces suites dans ta tete :
- A, B, C, **?**
- L, U, N, D, **?**
- Apres la lettre Q, quelle lettre vient presque toujours ? **?**

Tu viens de faire ce que fait une IA : **predire la suite**.

Execute la cellule ci-dessous pour verifier tes reponses :

In [None]:
# Execute cette cellule pour verifier tes reponses (Shift + Entree)
print("Reponses :")
print("  A, B, C -> D  (l'alphabet !)")
print("  L, U, N, D -> I  (les jours : Lundi)")
print("  Apres Q -> presque toujours U")
print()
print("Bravo ! Tu sais deja predire comme une IA.")

---
## Compter les lettres qui suivent

On va prendre une liste de noms de Pokemon et compter quelle lettre
vient apres quelle autre.

Execute la cellule ci-dessous pour charger nos 20 Pokemon :

In [None]:
# Execute cette cellule pour charger les Pokemon (Shift + Entree)
pokemons = [
    "arcanin",
    "bulbizarre",
    "carapuce",
    "dracaufeu",
    "ectoplasma",
    "evoli",
    "felinferno",
    "gardevoir",
    "goupix",
    "lokhlass",
    "lucario",
    "metamorph",
    "mewtwo",
    "noctali",
    "pikachu",
    "rondoudou",
    "ronflex",
    "salameche",
    "togepi",
    "voltali",
]

print(f"On a {len(pokemons)} Pokemon pour apprendre.")
print()
print("Les 5 premiers :", pokemons[:5])

---
### A toi de jouer ! (Exercice 2)

Dans la cellule ci-dessous, ecris du code pour afficher :
1. Le **dernier** Pokemon de la liste (indice : `pokemons[-1]`)
2. Le **nombre de lettres** dans "bulbizarre" (indice : `len("bulbizarre")`)

In [None]:
# --- EXERCICE 2 : Ecris ton code ici, puis Shift + Entree ---

# Affiche le dernier Pokemon :


# Affiche le nombre de lettres dans "bulbizarre" :

---
## Compter les paires de lettres

Maintenant, on va compter **quelle lettre vient apres quelle autre**.
Par exemple, dans "pikachu" :
- apres "p" vient "i"
- apres "i" vient "k"
- apres "k" vient "a"
- ...

On utilise un **point** `.` pour marquer le debut et la fin :
`.pikachu.` signifie "le nom commence et finit ici".

Execute la cellule ci-dessous :

In [None]:
# Comptons : apres chaque lettre, quelle lettre vient ensuite ?
from collections import Counter

compteur = {}

for pokemon in pokemons:
    mot = "." + pokemon + "."  # ex: ".pikachu."
    for i in range(len(mot) - 1):
        lettre_actuelle = mot[i]
        lettre_suivante = mot[i + 1]
        if lettre_actuelle not in compteur:
            compteur[lettre_actuelle] = Counter()
        compteur[lettre_actuelle][lettre_suivante] += 1

# Que vient-il apres la lettre 'a' ?
print("Apres la lettre 'a', on trouve :")
for lettre, nb in compteur["a"].most_common():
    print(f"  '{lettre}' -> {nb} fois")

---
### A toi de jouer ! (Exercice 3)

Dans la cellule ci-dessous, change la lettre `"a"` pour voir ce qui
vient apres d'autres lettres. Essaie `"p"`, `"."` (debut de nom),
ou ta lettre preferee !

In [None]:
# --- EXERCICE 3 : Change la lettre entre guillemets, puis Shift + Entree ---
ma_lettre = "a"  # <-- Change cette lettre !

print(f"Apres la lettre '{ma_lettre}', on trouve :")
for lettre, nb in compteur[ma_lettre].most_common():
    print(f"  '{lettre}' -> {nb} fois")

---
## Transformer les comptes en probabilites

Au lieu de dire "la lettre 'r' vient 3 fois apres 'a'",
on veut dire "il y a 25% de chances que 'r' vienne apres 'a'".

C'est ce qu'on appelle une **probabilite** : un nombre entre 0% et 100%
qui dit "a quel point c'est probable".

Execute :

In [None]:
# Transformer les comptes en probabilites
probas = {}

for lettre, suivantes in compteur.items():
    total = sum(suivantes.values())
    probas[lettre] = {}
    for suivante, nb in suivantes.items():
        probas[lettre][suivante] = nb / total

# Probabilites apres 'a'
print("Probabilites apres 'a' :")
for lettre, p in sorted(probas["a"].items(), key=lambda x: -x[1]):
    barre = "#" * int(p * 40)
    print(f"  '{lettre}' : {p:.0%} {barre}")

---
## Generer un nom de Pokemon !

Maintenant on peut **inventer** un nom de Pokemon :
1. On part du debut (le point `.`)
2. On choisit la lettre suivante au hasard, en respectant les probabilites
3. On recommence jusqu'a tomber sur un point `.` (fin du nom)

C'est exactement comme ca que ChatGPT fonctionne, mais avec des **mots**
au lieu de lettres, et des milliards de parametres au lieu de 20 Pokemon.

Execute :

In [None]:
import random


def generer_pokemon(probas):
    """Genere un nom de Pokemon lettre par lettre."""
    nom = ""
    lettre = "."  # on commence au debut

    while True:
        choix = list(probas[lettre].keys())
        poids = list(probas[lettre].values())
        lettre = random.choices(choix, weights=poids, k=1)[0]

        if lettre == ".":  # fin du nom
            break
        nom += lettre

    return nom


# Generons 10 noms de Pokemon !
print("Noms de Pokemon inventes par notre modele :")
print()
for i in range(10):
    print(f"  {i + 1}. {generer_pokemon(probas).capitalize()}")

---
### A toi de jouer ! (Exercice 4)

1. **Re-execute** la cellule au-dessus plusieurs fois (Shift + Entree).
   Les noms changent a chaque fois ! Pourquoi ? Parce que le choix est **aleatoire**.
2. Dans la cellule ci-dessous, change le nombre pour generer **50** noms.
   Est-ce que certains ressemblent a de vrais Pokemon ?

In [None]:
# --- EXERCICE 4 : Change le nombre, puis Shift + Entree ---
nombre = 10  # <-- Mets 50 ici !

print(f"Generation de {nombre} Pokemon :")
print()
for i in range(nombre):
    print(f"  {i + 1}. {generer_pokemon(probas).capitalize()}")

---
## Ce qu'on a appris

- Un modele de langage **predit la suite** en se basant sur ce qu'il a vu avant
- Il utilise des **probabilites** : certaines lettres sont plus probables que d'autres
- Meme un modele tres simple peut generer des noms qui "sonnent" bien

### Le probleme de notre modele

Notre modele ne regarde que **1 lettre en arriere**. Il ne sait pas que
"Pik" est un bon debut de Pokemon, parce qu'il ne voit que la derniere lettre.

Dans la prochaine lecon, on va lui apprendre a **s'ameliorer quand il se trompe**.

---
*Prochaine lecon : [02 - Apprendre de ses erreurs](02_apprendre_des_erreurs.ipynb)*

---

### Sources (ISO 42001)

- **Concept de bigrammes et modeles de langage** : [microgpt.py](https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95) -- Andrej Karpathy
- **Approche pedagogique character-level** : [Video "Let's build GPT"](https://www.youtube.com/watch?v=kCc8FmEb1nY) -- Andrej Karpathy (2023)
- **Visualisation des reseaux de neurones** : [3Blue1Brown - Neural Networks](https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi) -- Grant Sanderson
- **Dataset Pokemon** : (c) Nintendo / Creatures Inc. / GAME FREAK inc., usage educatif. Source : [PokeAPI](https://pokeapi.co/)