# Lecon 1 : Deviner la suite

## Comment une IA "devine" le mot suivant ?

Quand tu ecris un message sur ton telephone, il te **propose** le mot suivant.
Comment fait-il ? Il a appris quels mots viennent souvent apres d'autres.

On va faire pareil, mais avec des **lettres** au lieu de mots.

---

### Exercice 1 : A toi de deviner

Complete ces suites :
- A, B, C, **?**
- L, U, N, D, **?**
- Apres la lettre Q, quelle lettre vient presque toujours ? **?**

Tu viens de faire ce que fait une IA : **predire la suite** en utilisant des patterns que tu connais.

## Compter les lettres qui suivent

On va commencer simplement : prendre une liste de prenoms et compter
quelle lettre vient apres quelle autre.

In [None]:
# Nos prenoms d'entrainement
prenoms = [
    "emma", "lucas", "lea", "hugo", "chloe",
    "louis", "alice", "jules", "lina", "adam",
    "rose", "arthur", "manon", "paul", "jade",
    "nathan", "eva", "leo", "clara", "noah",
]

print(f"On a {len(prenoms)} prenoms pour apprendre.")
print("Exemples :", prenoms[:5])

In [None]:
# Comptons : apres chaque lettre, quelle lettre vient ensuite ?
from collections import Counter

# On utilise "." pour marquer le debut et la fin d'un prenom
compteur = {}

for prenom in prenoms:
    # On ajoute un point au debut et a la fin
    mot = "." + prenom + "."
    for i in range(len(mot) - 1):
        lettre_actuelle = mot[i]
        lettre_suivante = mot[i + 1]
        if lettre_actuelle not in compteur:
            compteur[lettre_actuelle] = Counter()
        compteur[lettre_actuelle][lettre_suivante] += 1

# Que vient-il apres la lettre 'a' ?
print("Apres la lettre 'a', on trouve :")
for lettre, nb in compteur['a'].most_common():
    print(f"  '{lettre}' -> {nb} fois")

## Transformer les comptes en probabilites

Au lieu de dire "la lettre 'r' vient 3 fois apres 'a'",
on veut dire "il y a 25% de chances que 'r' vienne apres 'a'".

C'est ce qu'on appelle une **probabilite**.

In [None]:
# Transformer les comptes en probabilites
probas = {}

for lettre, suivantes in compteur.items():
    total = sum(suivantes.values())
    probas[lettre] = {}
    for suivante, nb in suivantes.items():
        probas[lettre][suivante] = nb / total

# Probabilites apres 'a'
print("Probabilites apres 'a' :")
for lettre, p in sorted(probas['a'].items(), key=lambda x: -x[1]):
    barre = '#' * int(p * 40)
    print(f"  '{lettre}' : {p:.0%} {barre}")

## Generer un prenom !

Maintenant on peut **inventer** un prenom :
1. On part du debut (le point `.`)
2. On choisit la lettre suivante au hasard, en respectant les probabilites
3. On recommence jusqu'a tomber sur un point `.` (fin du prenom)

In [None]:
import random

def generer_prenom(probas):
    """Genere un prenom lettre par lettre."""
    prenom = ""
    lettre = "."  # on commence au debut

    while True:
        # Les choix possibles et leurs probabilites
        choix = list(probas[lettre].keys())
        poids = list(probas[lettre].values())

        # Choisir au hasard (mais les lettres frequentes ont plus de chances)
        lettre = random.choices(choix, weights=poids, k=1)[0]

        if lettre == ".":  # fin du prenom
            break
        prenom += lettre

    return prenom

# Generons 10 prenoms !
print("Prenoms inventes par notre modele :")
print()
for i in range(10):
    print(f"  {generer_prenom(probas).capitalize()}")

## Ce qu'on a appris

- Un modele de langage **predit la suite** en se basant sur ce qu'il a vu avant
- Il utilise des **probabilites** : certaines lettres sont plus probables que d'autres
- Meme un modele tres simple peut generer des mots qui "sonnent" bien

### Probleme

Notre modele ne regarde que **1 lettre en arriere**. Il ne sait pas que
"Chl" est un bon debut de prenom. Dans la prochaine lecon, on va lui
apprendre a regarder plus loin en arriere et a **s'ameliorer** quand il se trompe.

---
*Prochaine lecon : [02 - Apprendre de ses erreurs](02_apprendre_des_erreurs.ipynb)*