# Architecture Transformer pour le NLP : G√©n√©ration de Texte en Fran√ßais 

Ce notebook enrichit l'architecture Transformer de base avec trois techniques d'optimisation :

1. **‚ö° Warmup LR Schedule** - Augmentation progressive du learning rate pour stabiliser l'entra√Ænement
2. **üîç Beam Search** - Recherche sophistiqu√©e pour une g√©n√©ration de texte optimale
3. **üå°Ô∏è Temperature Tuning** - Contr√¥le de la cr√©ativit√© dans la g√©n√©ration (0.5-1.5)

### Pourquoi ces am√©liorations ?

- **Warmup** : √âvite la divergence en d√©but d'entra√Ænement avec des gradients instables
- **Beam Search** : Explore plusieurs hypoth√®ses en parall√®le au lieu d'un seul chemin
- **Temperature** : Permet d'ajuster entre g√©n√©ration conservatrice (0.5) et cr√©ative (1.5)

Ces techniques sont utilis√©es dans **tous les LLMs modernes** (GPT, BERT, etc.) !

## 1. Imports et Configuration

In [1]:
# Biblioth√®ques principales
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import clear_output, HTML, display
import re
import unicodedata
from collections import Counter

# TensorFlow et Keras
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.callbacks import Callback, LearningRateScheduler
from tensorflow.keras.utils import plot_model

# Configuration GPU
try:
    gpus = tf.config.list_physical_devices('GPU')
    if gpus:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        print(f"‚úÖ GPU(s) d√©tect√©(s): {len(gpus)} - Croissance m√©moire activ√©e")
    else:
        print("‚ö†Ô∏è  Aucun GPU d√©tect√© - Utilisation du CPU")
except Exception as e:
    print(f"Configuration GPU: {e}")

# Configuration graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Reproductibilit√©
np.random.seed(42)
tf.random.set_seed(42)

print(f"\nüì¶ TensorFlow version: {tf.__version__}")
print(f"üì¶ Keras version: {keras.__version__}")

2025-11-05 18:37:12.967628: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-11-05 18:37:13.685349: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX_VNNI AVX_VNNI_INT8 AVX_NE_CONVERT FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-11-05 18:37:15.914011: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.


‚ö†Ô∏è  Aucun GPU d√©tect√© - Utilisation du CPU

üì¶ TensorFlow version: 2.20.0
üì¶ Keras version: 3.12.0


2025-11-05 18:37:16.569327: E external/local_xla/xla/stream_executor/cuda/cuda_platform.cc:51] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected


## 2. Dataset : Proverbes et Citations Fran√ßais

In [None]:
# Corpus √©tendu de textes en fran√ßais (400+ phrases)
corpus_francais = [
    # Proverbes fran√ßais classiques (50 proverbes)
    "Petit √† petit, l'oiseau fait son nid.",
    "Qui vivra verra.",
    "L'habit ne fait pas le moine.",
    "Pierre qui roule n'amasse pas mousse.",
    "Tout vient √† point √† qui sait attendre.",
    "La nuit porte conseil.",
    "Mieux vaut tard que jamais.",
    "Il n'y a pas de fum√©e sans feu.",
    "Les chiens aboient, la caravane passe.",
    "Chat √©chaud√© craint l'eau froide.",
    "Qui ne tente rien n'a rien.",
    "L'argent ne fait pas le bonheur.",
    "Les jours se suivent et ne se ressemblent pas.",
    "Il faut battre le fer tant qu'il est chaud.",
    "Qui s√®me le vent r√©colte la temp√™te.",
    "Deux pr√©cautions valent mieux qu'une.",
    "Ventre affam√© n'a point d'oreilles.",
    "Qui ne risque rien n'a rien.",
    "Apr√®s la pluie, le beau temps.",
    "L'union fait la force.",
    "Les grands esprits se rencontrent.",
    "Loin des yeux, loin du c≈ìur.",
    "Qui dort d√Æne.",
    "La parole est d'argent, le silence est d'or.",
    "Il n'est jamais trop tard pour bien faire.",
    "Rira bien qui rira le dernier.",
    "Tous les chemins m√®nent √† Rome.",
    "Une hirondelle ne fait pas le printemps.",
    "Qui aime bien ch√¢tie bien.",
    "La fin justifie les moyens.",
    "Tel p√®re, tel fils.",
    "Comme on fait son lit, on se couche.",
    "Un tiens vaut mieux que deux tu l'auras.",
    "Aux innocents les mains pleines.",
    "Quand le chat n'est pas l√†, les souris dansent.",
    "Il faut tourner sept fois sa langue dans sa bouche.",
    "Qui vole un ≈ìuf vole un b≈ìuf.",
    "√Ä chaque jour suffit sa peine.",
    "Les petits ruisseaux font les grandes rivi√®res.",
    "Paris ne s'est pas fait en un jour.",
    "Tant va la cruche √† l'eau qu'√† la fin elle se casse.",
    "La faim chasse le loup du bois.",
    "L'homme propose et Dieu dispose.",
    "Chose promise, chose due.",
    "Les absents ont toujours tort.",
    "La raison du plus fort est toujours la meilleure.",
    "√Ä bon chat, bon rat.",
    "Les conseilleurs ne sont pas les payeurs.",
    "Comparaison n'est pas raison.",
    "Il ne faut pas vendre la peau de l'ours avant de l'avoir tu√©.",
    
    # Citations sur la vie (60 citations)
    "La vie est belle quand on sait la regarder.",
    "Le savoir est la seule richesse qu'on ne peut pas voler.",
    "Un sourire co√ªte moins cher que l'√©lectricit√© mais donne autant de lumi√®re.",
    "Le bonheur n'est pas une destination, c'est une fa√ßon de voyager.",
    "Chaque jour est une nouvelle chance de changer sa vie.",
    "La patience est la cl√© de la r√©ussite.",
    "Les r√™ves sont les graines de la r√©alit√©.",
    "L'√©chec est le fondement de la r√©ussite.",
    "Le temps gu√©rit toutes les blessures.",
    "La v√©rit√© finit toujours par triompher.",
    "L'amour est plus fort que la haine.",
    "La connaissance √©claire l'esprit.",
    "Le travail acharn√© porte ses fruits.",
    "La curiosit√© est le moteur de la d√©couverte.",
    "L'honn√™tet√© est toujours r√©compens√©e.",
    "La simplicit√© est la sophistication supr√™me.",
    "Le silence est parfois la meilleure r√©ponse.",
    "L'espoir fait vivre.",
    "La beaut√© est dans l'≈ìil de celui qui regarde.",
    "Le voyage est plus important que la destination.",
    "La libert√© n'a pas de prix.",
    "L'imagination est plus importante que le savoir.",
    "La qualit√© vaut mieux que la quantit√©.",
    "Le pr√©sent est un cadeau pr√©cieux.",
    "La musique adoucit les m≈ìurs.",
    "L'√©ducation ouvre toutes les portes.",
    "La nature est un livre ouvert.",
    "Le rire est le meilleur des rem√®des.",
    "La gratitude transforme ce que nous avons en suffisance.",
    "Le changement est la seule constante.",
    "La vie commence l√† o√π commence ta zone de confort.",
    "Chaque instant est un nouveau d√©part.",
    "La pers√©v√©rance est le chemin du succ√®s.",
    "Les obstacles sont des opportunit√©s d√©guis√©es.",
    "Le courage, c'est d'avoir peur et d'avancer quand m√™me.",
    "La sagesse vient avec l'exp√©rience.",
    "Le meilleur moment pour planter un arbre √©tait il y a vingt ans.",
    "Le second meilleur moment est maintenant.",
    "La confiance en soi est le premier secret du succ√®s.",
    "Les grandes choses ont de petits commencements.",
    "L'optimisme est une forme de courage.",
    "La discipline est le pont entre les objectifs et l'accomplissement.",
    "Le succ√®s est la somme de petits efforts r√©p√©t√©s jour apr√®s jour.",
    "La vie est trop courte pour √™tre petite.",
    "Fais de ta vie un r√™ve et d'un r√™ve une r√©alit√©.",
    "Le bonheur est une direction, pas un lieu.",
    "Chaque expert a √©t√© un jour un d√©butant.",
    "La motivation te fait commencer, l'habitude te fait continuer.",
    "Le seul moyen de faire du bon travail est d'aimer ce que tu fais.",
    "La cr√©ativit√© exige le courage de l√¢cher prise sur les certitudes.",
    "L'action est la cl√© fondamentale de tout succ√®s.",
    "Le pessimiste voit la difficult√© dans chaque opportunit√©.",
    "L'optimiste voit l'opportunit√© dans chaque difficult√©.",
    "La vie est comme une bicyclette, il faut avancer pour ne pas perdre l'√©quilibre.",
    "Sois le changement que tu veux voir dans le monde.",
    "Le talent gagne des matchs, mais le travail d'√©quipe gagne des championnats.",
    "La vraie g√©n√©rosit√© envers l'avenir consiste √† tout donner au pr√©sent.",
    "L'important n'est pas de convaincre mais de donner √† r√©fl√©chir.",
    "Le doute est le commencement de la sagesse.",
    "La perfection est atteinte non pas lorsqu'il n'y a plus rien √† ajouter.",
    
    # Phrases sur la nature (50 phrases)
    "Le soleil brille dans le ciel bleu.",
    "Les oiseaux chantent dans les arbres.",
    "La pluie tombe doucement sur la terre.",
    "Le vent souffle √† travers les feuilles.",
    "Les fleurs poussent au printemps.",
    "La lune √©claire la nuit √©toil√©e.",
    "Les vagues d√©ferlent sur le rivage.",
    "La neige recouvre les montagnes en hiver.",
    "Les papillons volent de fleur en fleur.",
    "L'eau de la rivi√®re coule paisiblement.",
    "Les nuages dansent dans le ciel.",
    "Le chant du rossignol r√©sonne dans la for√™t.",
    "Les √©toiles scintillent dans la nuit noire.",
    "Le parfum des roses embaume le jardin.",
    "Les feuilles d'automne tombent doucement.",
    "La ros√©e du matin perle sur l'herbe.",
    "Le tonnerre gronde au loin.",
    "L'arc-en-ciel appara√Æt apr√®s l'orage.",
    "Les abeilles butinent les fleurs sauvages.",
    "Le cr√©puscule peint le ciel de mille couleurs.",
    "La mer s'√©tend √† perte de vue.",
    "Les arbres se balancent sous la brise l√©g√®re.",
    "Le givre recouvre les branches en hiver.",
    "Les grenouilles coassent au bord de l'√©tang.",
    "Le soleil se couche derri√®re les collines.",
    "Les montagnes se dressent majestueusement.",
    "La cascade tombe avec fracas.",
    "Les champignons poussent dans le sous-bois.",
    "Le brouillard enveloppe la vall√©e.",
    "Les √©cureuils grimpent aux arbres.",
    "La temp√™te fait rage sur l'oc√©an.",
    "Les lucioles illuminent la nuit d'√©t√©.",
    "Le coucou annonce le retour du printemps.",
    "Les iris fleurissent au bord de l'eau.",
    "La pleine lune √©claire le paysage.",
    "Les hirondelles volent bas avant la pluie.",
    "Le vent d'automne emporte les feuilles mortes.",
    "Les bourgeons √©closent au printemps.",
    "La brume matinale se dissipe lentement.",
    "Les cigales chantent par les chaudes journ√©es d'√©t√©.",
    "Le gel dessine des motifs sur les vitres.",
    "Les nuages s'amoncellent avant l'orage.",
    "Le vent du nord apporte le froid.",
    "Les premi√®res gouttes de pluie rafra√Æchissent l'air.",
    "La nature s'√©veille avec le printemps.",
    "Les stalactites pendent du toit en hiver.",
    "Le soleil r√©chauffe la terre.",
    "Les champs de bl√© ondulent sous le vent.",
    "La for√™t se pare de ses couleurs d'automne.",
    "Les marmottes sifflent dans la montagne.",
    
    # Phrases sur les actions et valeurs (60 phrases)
    "Il faut toujours croire en ses r√™ves.",
    "Apprendre est un voyage sans fin.",
    "Le courage n'est pas l'absence de peur.",
    "Chaque erreur est une le√ßon pr√©cieuse.",
    "La pers√©v√©rance m√®ne au succ√®s.",
    "L'amiti√© est un tr√©sor inestimable.",
    "Le respect est la base de toute relation.",
    "La g√©n√©rosit√© enrichit celui qui donne.",
    "La compassion ouvre les c≈ìurs.",
    "L'empathie cr√©e des ponts entre les gens.",
    "La tol√©rance est une vertu essentielle.",
    "Le pardon lib√®re l'√¢me.",
    "La bienveillance illumine le monde.",
    "L'humilit√© est la marque des grands.",
    "La sinc√©rit√© forge la confiance.",
    "L'int√©grit√© guide nos actions.",
    "La fid√©lit√© renforce les liens.",
    "La loyaut√© est rare et pr√©cieuse.",
    "La solidarit√© unit les communaut√©s.",
    "L'entraide fait avancer l'humanit√©.",
    "La coop√©ration multiplie les forces.",
    "Le dialogue r√©sout les conflits.",
    "L'√©coute est un art subtil.",
    "La communication rapproche les individus.",
    "La transparence √©tablit la confiance.",
    "L'authenticit√© attire les autres.",
    "La modestie sied aux sages.",
    "La prudence √©vite bien des malheurs.",
    "La sagesse vient avec l'√¢ge.",
    "La r√©flexion pr√©c√®de l'action.",
    "La m√©ditation apaise l'esprit.",
    "La concentration am√©liore les performances.",
    "La d√©termination surmonte les obstacles.",
    "L'ambition pousse √† se d√©passer.",
    "La volont√© forge le caract√®re.",
    "La t√©nacit√© vient √† bout de tout.",
    "La constance m√®ne √† l'excellence.",
    "La r√©gularit√© engendre le progr√®s.",
    "L'assiduit√© porte ses fruits.",
    "Le d√©vouement m√©rite le respect.",
    "L'engagement inspire les autres.",
    "La passion anime l'existence.",
    "L'enthousiasme est contagieux.",
    "La joie de vivre illumine chaque instant.",
    "L'optimisme transforme les d√©fis en opportunit√©s.",
    "La gratitude multiplie le bonheur.",
    "La reconnaissance honore les bienfaiteurs.",
    "L'appr√©ciation valorise les petites choses.",
    "La mindfulness ancre dans le pr√©sent.",
    "La s√©r√©nit√© apporte la paix int√©rieure.",
    "Le calme dans la temp√™te montre la force.",
    "La r√©silience permet de rebondir.",
    "L'adaptabilit√© est essentielle au changement.",
    "La flexibilit√© ouvre de nouvelles voies.",
    "L'innovation r√©volutionne le monde.",
    "La cr√©ativit√© n'a pas de limites.",
    "L'originalit√© distingue les artistes.",
    "L'audace ouvre des portes.",
    "Le courage inspire le respect.",
    "La bravoure face au danger est admirable.",
    
    # Phrases sur le temps et les saisons (40 phrases)
    "L'hiver apporte son manteau blanc.",
    "Le printemps r√©veille la nature endormie.",
    "L'√©t√© offre ses longues journ√©es ensoleill√©es.",
    "L'automne peint les for√™ts de couleurs chaudes.",
    "Les jours rallongent avec le retour du soleil.",
    "Les nuits se font plus courtes en √©t√©.",
    "Le temps passe et ne revient jamais.",
    "Chaque saison a sa beaut√© propre.",
    "Les ann√©es filent comme le vent.",
    "Le temps est le plus pr√©cieux des biens.",
    "L'instant pr√©sent est tout ce que nous avons.",
    "Le pass√© nous enseigne, le futur nous inspire.",
    "Aujourd'hui est le premier jour du reste de ta vie.",
    "Demain est un autre jour.",
    "Hier est derri√®re nous, demain est un myst√®re.",
    "Le temps file entre nos doigts.",
    "Les secondes s'√©gr√®nent inexorablement.",
    "Les minutes deviennent des heures.",
    "Les heures se transforment en jours.",
    "Les jours composent les semaines.",
    "Les semaines forment les mois.",
    "Les mois constituent les ann√©es.",
    "Le temps ne s'arr√™te jamais.",
    "L'horloge tourne sans rel√¢che.",
    "Le sablier s'√©coule grain par grain.",
    "La vie est une course contre le temps.",
    "Chaque moment compte dans notre existence.",
    "Le temps perdu ne se rattrape jamais.",
    "Il faut savoir profiter de l'instant.",
    "Le moment pr√©sent est un cadeau.",
    "L'√©ternit√© commence maintenant.",
    "Le temps r√©v√®le toutes les v√©rit√©s.",
    "La patience vient avec le temps.",
    "Les blessures gu√©rissent avec le temps.",
    "Le temps arrange beaucoup de choses.",
    "Avec le temps va, tout s'en va.",
    "Le temps est un grand ma√Ætre.",
    "La sagesse s'acquiert avec le temps.",
    "Le temps respecte ce qui est fait avec lui.",
    "Chaque √¢ge a ses plaisirs et ses peines.",
    
    # Phrases sur l'apprentissage et la connaissance (50 phrases)
    "Apprendre, c'est d√©couvrir ce que l'on sait d√©j√†.",
    "La connaissance est un tr√©sor qui suit son propri√©taire partout.",
    "Celui qui pose une question reste ignorant cinq minutes.",
    "Celui qui ne la pose pas reste ignorant toute sa vie.",
    "L'√©ducation est l'arme la plus puissante pour changer le monde.",
    "Un livre est un r√™ve que l'on tient entre ses mains.",
    "La lecture est √† l'esprit ce que l'exercice est au corps.",
    "Les livres sont les amis les plus silencieux et les plus constants.",
    "√âtudier sans r√©fl√©chir est vain, r√©fl√©chir sans √©tudier est dangereux.",
    "L'ignorance est la nuit de l'esprit.",
    "La curiosit√© est le moteur de l'intelligence.",
    "Poser des questions est le premier pas vers la sagesse.",
    "L'apprentissage est un tr√©sor qui suivra partout.",
    "Plus on apprend, plus on r√©alise qu'on ne sait rien.",
    "La vraie connaissance commence par la reconnaissance de son ignorance.",
    "L'exp√©rience est le meilleur des enseignants.",
    "On apprend de ses erreurs plus que de ses succ√®s.",
    "Chaque √©chec est une opportunit√© d'apprendre.",
    "La pratique rend parfait.",
    "La r√©p√©tition est la m√®re de l'apprentissage.",
    "Un bon professeur inspire pour l'√©ternit√©.",
    "Enseigner, c'est apprendre deux fois.",
    "L'√©cole de la vie n'a pas de vacances.",
    "On n'a jamais fini d'apprendre.",
    "La culture est ce qui reste quand on a tout oubli√©.",
    "L'intelligence n'est pas de savoir beaucoup mais de bien utiliser ce qu'on sait.",
    "La m√©moire est le gardien du savoir.",
    "Comprendre, c'est commencer √† √™tre libre.",
    "Le savoir-faire vaut mieux que le savoir.",
    "La th√©orie sans la pratique est inutile.",
    "La pratique sans la th√©orie est aveugle.",
    "L'analyse critique aiguise l'esprit.",
    "Le doute est le commencement de la science.",
    "La science avance par essais et erreurs.",
    "La recherche est une aventure passionnante.",
    "La d√©couverte ne consiste pas √† chercher de nouveaux paysages.",
    "Elle consiste √† avoir de nouveaux yeux.",
    "L'innovation na√Æt de la combinaison de connaissances.",
    "Les grands esprits discutent des id√©es.",
    "Les esprits moyens discutent des √©v√©nements.",
    "Les petits esprits discutent des personnes.",
    "La philosophie enseigne √† penser par soi-m√™me.",
    "La logique est la grammaire de la raison.",
    "Les math√©matiques sont le langage de l'univers.",
    "La science est organis√©e connaissance.",
    "La sagesse est organis√©e vie.",
    "Le g√©nie est fait de un pour cent d'inspiration.",
    "Et de quatre-vingt-dix-neuf pour cent de transpiration.",
    "L'intelligence artificielle commence o√π finit la n√¥tre.",
    "La technologie devrait simplifier la vie, pas la compliquer.",
]

print(f"üìö Corpus cr√©√© : {len(corpus_francais)} phrases")
print(f"\nüìä R√©partition du corpus :")
print(f"  ‚Ä¢ Proverbes fran√ßais classiques : ~50")
print(f"  ‚Ä¢ Citations sur la vie : ~60")
print(f"  ‚Ä¢ Phrases sur la nature : ~50")
print(f"  ‚Ä¢ Actions et valeurs : ~60")
print(f"  ‚Ä¢ Temps et saisons : ~40")
print(f"  ‚Ä¢ Apprentissage et connaissance : ~50")
print(f"\nüìù Exemples de phrases :")
for i, phrase in enumerate(corpus_francais[:5], 1):
    print(f"  {i}. {phrase}")

## 3. Preprocessing et Tokenization

In [None]:
def preprocess_text(text):
    """Normalisation du texte fran√ßais"""
    text = text.lower()
    text = re.sub(r"[^a-z√†√¢√§√¶√ß√©√®√™√´√Ø√Æ√¥√π√ª√º√ø≈ì'\s]", "", text)
    text = re.sub(r"\s+", " ", text).strip()
    return text

# Preprocessing
corpus_cleaned = [preprocess_text(phrase) for phrase in corpus_francais]

# Tokenization
tokenizer = Tokenizer(char_level=False, oov_token='<UNK>')
tokenizer.fit_on_texts(corpus_cleaned)

# Vocabulaire
vocab_size = len(tokenizer.word_index) + 1
sequences = tokenizer.texts_to_sequences(corpus_cleaned)
max_len = max(len(seq) for seq in sequences)

print(f"\nüìä Statistiques du vocabulaire :")
print(f"  ‚Ä¢ Taille du vocabulaire : {vocab_size}")
print(f"  ‚Ä¢ Longueur maximale : {max_len} mots")
print(f"  ‚Ä¢ Longueur moyenne : {np.mean([len(s) for s in sequences]):.1f} mots")

## 4. Pr√©paration des Donn√©es d'Entra√Ænement

In [None]:
# Cr√©ation des s√©quences d'entra√Ænement
input_sequences = []
target_sequences = []

for sequence in sequences:
    for i in range(1, len(sequence)):
        input_seq = sequence[:i]
        target_word = sequence[i]
        input_sequences.append(input_seq)
        target_sequences.append(target_word)

# Padding
X = pad_sequences(input_sequences, maxlen=max_len-1, padding='pre')
y = tf.keras.utils.to_categorical(target_sequences, num_classes=vocab_size)

print(f"\nüéØ Donn√©es d'entra√Ænement :")
print(f"  ‚Ä¢ X shape : {X.shape}")
print(f"  ‚Ä¢ y shape : {y.shape}")
print(f"  ‚Ä¢ Nombre d'exemples : {len(X)}")

## 5. üÜï Warmup Learning Rate Schedule

### Concept : Augmentation Progressive du Learning Rate

Le **Warmup LR Schedule** est une technique cl√© pour stabiliser l'entra√Ænement des Transformers :

#### üìà Phases du Warmup
1. **Phase Warmup** (steps 0 ‚Üí warmup_steps) :
   - Learning rate augmente lin√©airement de 0 ‚Üí lr_max
   - Permet aux gradients de se stabiliser
   - √âvite les updates trop agressifs au d√©but

2. **Phase Decay** (apr√®s warmup_steps) :
   - Learning rate d√©cro√Æt selon une fonction (ici : inverse square root)
   - Permet un entrainement progressif

#### üéØ Pourquoi c'est important ?
- Les Transformers sont **tr√®s sensibles** au LR en d√©but d'entra√Ænement
- Sans warmup : risque de **divergence** (loss ‚Üí infinity)
- Avec warmup : convergence **stable et rapide**

#### üìä Formule Math√©matique
```
lr(step) = d_model^(-0.5) √ó min(step^(-0.5), step √ó warmup_steps^(-1.5))
```

**Utilis√© dans :** GPT, BERT, T5, tous les LLMs modernes

In [None]:
class WarmupSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):
    """
    Learning Rate Schedule avec Warmup
    
    Inspir√© du papier 'Attention is All You Need'
    
    Arguments:
        d_model: dimension du mod√®le (utilis√© pour normaliser le LR)
        warmup_steps: nombre d'√©tapes pour la phase de warmup
    
    Formule:
        lr = d_model^(-0.5) * min(step^(-0.5), step * warmup_steps^(-1.5))
    """
    
    def __init__(self, d_model, warmup_steps=4000):
        super().__init__()
        self.d_model = tf.cast(d_model, tf.float32)
        self.warmup_steps = warmup_steps
    
    def __call__(self, step):
        """
        Calcule le learning rate pour un step donn√©
        
        Phase 1 (Warmup): LR augmente lin√©airement
        Phase 2 (Decay): LR d√©cro√Æt selon inverse square root
        """
        step = tf.cast(step, tf.float32)
        
        # Normalisation par la dimension du mod√®le
        arg1 = tf.math.rsqrt(step)
        arg2 = step * (self.warmup_steps ** -1.5)
        
        # Prendre le minimum = warmup lin√©aire puis decay
        return tf.math.rsqrt(self.d_model) * tf.math.minimum(arg1, arg2)
    
    def get_config(self):
        return {
            "d_model": int(self.d_model.numpy()),
            "warmup_steps": self.warmup_steps
        }

# Visualisation du Schedule
def visualize_lr_schedule(d_model=128, warmup_steps=1000, total_steps=10000):
    """
    Visualise l'√©volution du learning rate
    """
    schedule = WarmupSchedule(d_model, warmup_steps)
    
    steps = np.arange(1, total_steps)
    learning_rates = [schedule(step).numpy() for step in steps]
    
    plt.figure(figsize=(12, 5))
    
    # Graphique principal
    plt.subplot(1, 2, 1)
    plt.plot(steps, learning_rates, linewidth=2, color='#3498db')
    plt.axvline(x=warmup_steps, color='red', linestyle='--', 
                label=f'Fin Warmup (step {warmup_steps})', alpha=0.7)
    plt.xlabel('Steps', fontsize=12, fontweight='bold')
    plt.ylabel('Learning Rate', fontsize=12, fontweight='bold')
    plt.title('üìà Warmup Learning Rate Schedule', fontsize=14, fontweight='bold')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Zoom sur la phase de warmup
    plt.subplot(1, 2, 2)
    warmup_region = steps <= warmup_steps * 1.5
    plt.plot(steps[warmup_region], np.array(learning_rates)[warmup_region], 
             linewidth=2, color='#e74c3c')
    plt.axvline(x=warmup_steps, color='green', linestyle='--', 
                label=f'Fin Warmup', alpha=0.7)
    plt.xlabel('Steps', fontsize=12, fontweight='bold')
    plt.ylabel('Learning Rate', fontsize=12, fontweight='bold')
    plt.title('üîç Zoom Phase Warmup', fontsize=14, fontweight='bold')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print(f"\nüìä Statistiques du Schedule :")
    print(f"  ‚Ä¢ LR initial (step 1) : {learning_rates[0]:.6f}")
    print(f"  ‚Ä¢ LR au warmup (step {warmup_steps}) : {learning_rates[warmup_steps-1]:.6f}")
    print(f"  ‚Ä¢ LR max : {max(learning_rates):.6f}")
    print(f"  ‚Ä¢ LR final (step {total_steps-1}) : {learning_rates[-1]:.6f}")

# Visualiser le schedule
visualize_lr_schedule(d_model=128, warmup_steps=1000, total_steps=10000)

## 6. Architecture Transformer avec Multi-Head Attention

In [None]:
class MultiHeadSelfAttention(layers.Layer):
    """
    Multi-Head Self-Attention Layer
    
    Permet au mod√®le de regarder diff√©rentes parties de la s√©quence
    avec plusieurs "t√™tes" d'attention en parall√®le.
    """
    
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.num_heads = num_heads
        self.d_model = d_model
        
        assert d_model % num_heads == 0, "d_model doit √™tre divisible par num_heads"
        
        self.depth = d_model // num_heads
        
        # Projections lin√©aires pour Q, K, V
        self.wq = layers.Dense(d_model)
        self.wk = layers.Dense(d_model)
        self.wv = layers.Dense(d_model)
        
        # Projection de sortie
        self.dense = layers.Dense(d_model)
    
    def split_heads(self, x, batch_size):
        """Divise en t√™tes multiples"""
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])
    
    def call(self, x):
        batch_size = tf.shape(x)[0]
        
        # Projections lin√©aires
        q = self.wq(x)
        k = self.wk(x)
        v = self.wv(x)
        
        # Diviser en t√™tes multiples
        q = self.split_heads(q, batch_size)
        k = self.split_heads(k, batch_size)
        v = self.split_heads(v, batch_size)
        
        # Scaled Dot-Product Attention
        matmul_qk = tf.matmul(q, k, transpose_b=True)
        dk = tf.cast(self.depth, tf.float32)
        scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)
        
        # Causal mask (pour g√©n√©ration autoregressif)
        seq_len = tf.shape(x)[1]
        mask = 1 - tf.linalg.band_part(tf.ones((seq_len, seq_len)), -1, 0)
        mask = tf.reshape(mask, (1, 1, seq_len, seq_len))
        scaled_attention_logits += (mask * -1e9)
        
        attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)
        output = tf.matmul(attention_weights, v)
        
        # Recombiner les t√™tes
        output = tf.transpose(output, perm=[0, 2, 1, 3])
        concat_attention = tf.reshape(output, (batch_size, -1, self.d_model))
        
        # Projection finale
        output = self.dense(concat_attention)
        return output

class TransformerBlock(layers.Layer):
    """
    Bloc Transformer complet
    
    Contient:
    - Multi-Head Attention
    - Feed-Forward Network
    - Layer Normalization
    - Residual Connections
    """
    
    def __init__(self, d_model, num_heads, dff, dropout_rate=0.1):
        super().__init__()
        
        # Multi-Head Attention
        self.attention = MultiHeadSelfAttention(d_model, num_heads)
        
        # Feed-Forward Network
        self.ffn = keras.Sequential([
            layers.Dense(dff, activation='relu'),
            layers.Dense(d_model)
        ])
        
        # Layer Normalization
        self.layernorm1 = layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = layers.LayerNormalization(epsilon=1e-6)
        
        # Dropout
        self.dropout1 = layers.Dropout(dropout_rate)
        self.dropout2 = layers.Dropout(dropout_rate)
    
    def call(self, x, training):
        # Multi-Head Attention + Residual + LayerNorm
        attn_output = self.attention(x)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(x + attn_output)
        
        # Feed-Forward + Residual + LayerNorm
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        out2 = self.layernorm2(out1 + ffn_output)
        
        return out2

def positional_encoding(length, depth):
    """
    Cr√©e le positional encoding sinuso√Ødal
    """
    positions = np.arange(length)[:, np.newaxis]
    depths = np.arange(depth)[np.newaxis, :] / depth
    
    angle_rates = 1 / (10000 ** depths)
    angle_rads = positions * angle_rates
    
    pos_encoding = np.zeros((length, depth))
    pos_encoding[:, 0::2] = np.sin(angle_rads[:, 0::2])
    pos_encoding[:, 1::2] = np.cos(angle_rads[:, 1::2])
    
    return tf.cast(pos_encoding, dtype=tf.float32)

def create_transformer_model(vocab_size, max_len, d_model=128, num_heads=8, 
                            num_blocks=2, dff=512, dropout_rate=0.1):
    """
    Cr√©e le mod√®le Transformer complet
    """
    inputs = layers.Input(shape=(max_len-1,))
    
    # Embedding + Positional Encoding
    x = layers.Embedding(vocab_size, d_model)(inputs)
    x = x * tf.math.sqrt(tf.cast(d_model, tf.float32))
    pos_encoding = positional_encoding(max_len-1, d_model)
    x = x + pos_encoding
    
    # Transformer Blocks
    for _ in range(num_blocks):
        x = TransformerBlock(d_model, num_heads, dff, dropout_rate)(x, training=True)
    
    # Couche de sortie
    x = layers.GlobalAveragePooling1D()(x)
    x = layers.Dropout(dropout_rate)(x)
    outputs = layers.Dense(vocab_size, activation='softmax')(x)
    
    model = keras.Model(inputs=inputs, outputs=outputs)
    return model

print("‚úÖ Architecture Transformer d√©finie !")

## 7. Cr√©ation et Compilation du Mod√®le avec Warmup LR

In [None]:
# Hyperparam√®tres
D_MODEL = 128
NUM_HEADS = 8
NUM_BLOCKS = 2
DFF = 512
DROPOUT = 0.1
WARMUP_STEPS = 1000

# Cr√©ation du mod√®le
model = create_transformer_model(
    vocab_size=vocab_size,
    max_len=max_len,
    d_model=D_MODEL,
    num_heads=NUM_HEADS,
    num_blocks=NUM_BLOCKS,
    dff=DFF,
    dropout_rate=DROPOUT
)

# üÜï Warmup Learning Rate Schedule
lr_schedule = WarmupSchedule(d_model=D_MODEL, warmup_steps=WARMUP_STEPS)

# Optimizer avec le schedule
optimizer = keras.optimizers.Adam(learning_rate=lr_schedule, beta_1=0.9, beta_2=0.98, epsilon=1e-9)

# Compilation
model.compile(
    optimizer=optimizer,
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# R√©sum√©
print(f"\nüìä Architecture du Mod√®le Transformer :")
print(f"  ‚Ä¢ Vocabulaire : {vocab_size} mots")
print(f"  ‚Ä¢ Dimension : {D_MODEL}")
print(f"  ‚Ä¢ Nombre de t√™tes : {NUM_HEADS}")
print(f"  ‚Ä¢ Nombre de blocs : {NUM_BLOCKS}")
print(f"  ‚Ä¢ Feed-Forward dim : {DFF}")
print(f"  ‚Ä¢ Warmup steps : {WARMUP_STEPS}")
print(f"\nüîß Optimizer : Adam avec Warmup LR Schedule")

model.summary()

## 8. Entra√Ænement du Mod√®le

In [None]:
# Callback pour visualiser le progr√®s
class TrainingProgressCallback(Callback):
    def __init__(self):
        self.losses = []
        self.accuracies = []
        self.lrs = []
    
    def on_epoch_end(self, epoch, logs=None):
        self.losses.append(logs['loss'])
        self.accuracies.append(logs['accuracy'])
        
        # R√©cup√©rer le learning rate actuel
        lr = self.model.optimizer.learning_rate
        if isinstance(lr, tf.keras.optimizers.schedules.LearningRateSchedule):
            step = self.model.optimizer.iterations
            lr_value = lr(step).numpy()
        else:
            lr_value = lr.numpy()
        self.lrs.append(lr_value)
        
        if (epoch + 1) % 10 == 0:
            clear_output(wait=True)
            print(f"\nüéØ Epoch {epoch+1}/{EPOCHS}")
            print(f"  ‚Ä¢ Loss : {logs['loss']:.4f}")
            print(f"  ‚Ä¢ Accuracy : {logs['accuracy']:.4f}")
            print(f"  ‚Ä¢ Learning Rate : {lr_value:.6f}")

# Entra√Ænement
EPOCHS = 100
BATCH_SIZE = 32

progress_callback = TrainingProgressCallback()

print("üöÄ D√©but de l'entra√Ænement...\n")

history = model.fit(
    X, y,
    epochs=EPOCHS,
    batch_size=BATCH_SIZE,
    verbose=0,
    callbacks=[progress_callback]
)

print("\n‚úÖ Entra√Ænement termin√© !")

## 9. Visualisation des R√©sultats avec Learning Rate

In [None]:
# Visualisation compl√®te
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Loss
axes[0, 0].plot(progress_callback.losses, linewidth=2, color='#e74c3c')
axes[0, 0].set_xlabel('Epoch', fontweight='bold')
axes[0, 0].set_ylabel('Loss', fontweight='bold')
axes[0, 0].set_title('üìâ Evolution de la Loss', fontweight='bold', fontsize=14)
axes[0, 0].grid(True, alpha=0.3)

# Accuracy
axes[0, 1].plot(progress_callback.accuracies, linewidth=2, color='#2ecc71')
axes[0, 1].set_xlabel('Epoch', fontweight='bold')
axes[0, 1].set_ylabel('Accuracy', fontweight='bold')
axes[0, 1].set_title('üìà Evolution de l\'Accuracy', fontweight='bold', fontsize=14)
axes[0, 1].grid(True, alpha=0.3)

# Learning Rate
axes[1, 0].plot(progress_callback.lrs, linewidth=2, color='#3498db')
axes[1, 0].set_xlabel('Epoch', fontweight='bold')
axes[1, 0].set_ylabel('Learning Rate', fontweight='bold')
axes[1, 0].set_title('‚ö° Evolution du Learning Rate (Warmup)', fontweight='bold', fontsize=14)
axes[1, 0].grid(True, alpha=0.3)

# Comparaison Loss vs LR
ax1 = axes[1, 1]
ax2 = ax1.twinx()

line1 = ax1.plot(progress_callback.losses, linewidth=2, color='#e74c3c', label='Loss')
line2 = ax2.plot(progress_callback.lrs, linewidth=2, color='#3498db', label='Learning Rate')

ax1.set_xlabel('Epoch', fontweight='bold')
ax1.set_ylabel('Loss', fontweight='bold', color='#e74c3c')
ax2.set_ylabel('Learning Rate', fontweight='bold', color='#3498db')
ax1.set_title('üîÑ Loss vs Learning Rate', fontweight='bold', fontsize=14)

lines = line1 + line2
labels = [l.get_label() for l in lines]
ax1.legend(lines, labels, loc='upper right')
ax1.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nüìä R√©sultats Finaux :")
print(f"  ‚Ä¢ Loss finale : {progress_callback.losses[-1]:.4f}")
print(f"  ‚Ä¢ Accuracy finale : {progress_callback.accuracies[-1]:.4f}")
print(f"  ‚Ä¢ Learning Rate final : {progress_callback.lrs[-1]:.6f}")

## 10. üÜï Temperature Tuning : Contr√¥le de la Cr√©ativit√©

### Concept : Ajuster la Distribution de Probabilit√©

La **Temperature** est un hyperparam√®tre qui contr√¥le la "cr√©ativit√©" de la g√©n√©ration :

#### üå°Ô∏è Effet de la Temperature

**Temperature = 1.0** (neutre)
- Probabilit√©s inchang√©es
- √âquilibre cr√©ativit√©/coh√©rence

**Temperature < 1.0** (conservative : 0.5-0.9)
- Accentue les probabilit√©s √©lev√©es
- G√©n√©ration plus **d√©terministe** et **coh√©rente**
- Moins de diversit√©
- ‚úÖ Id√©al pour : textes formels, traduction, code

**Temperature > 1.0** (cr√©ative : 1.1-1.5)
- Aplatit les probabilit√©s
- G√©n√©ration plus **diverse** et **surprenante**
- Peut √™tre moins coh√©rente
- ‚úÖ Id√©al pour : cr√©ativit√©, brainstorming, fiction

#### üìê Formule Math√©matique
```
P_temp(i) = exp(logits[i] / T) / Œ£ exp(logits[j] / T)
```

O√π T = temperature

#### üéØ Recommandations Pratiques
- **0.5-0.7** : R√©ponses factuelles, traduction
- **0.8-1.0** : Usage g√©n√©ral
- **1.1-1.3** : G√©n√©ration cr√©ative
- **1.4-1.5** : Exp√©rimentation, id√©es nouvelles

**Utilis√© dans :** ChatGPT, Claude, Gemini (param√®tre ajustable)

In [None]:
def apply_temperature(logits, temperature=1.0):
    """
    Applique la temperature aux logits avant softmax
    
    Arguments:
        logits: scores bruts du mod√®le (avant softmax)
        temperature: facteur de temp√©rature (0.5-1.5)
            - < 1.0 : plus d√©terministe
            - = 1.0 : neutre
            - > 1.0 : plus cr√©atif
    
    Returns:
        probabilit√©s ajust√©es
    """
    # Diviser les logits par la temp√©rature
    scaled_logits = logits / temperature
    
    # Appliquer softmax pour obtenir les probabilit√©s
    probabilities = tf.nn.softmax(scaled_logits)
    
    return probabilities

def visualize_temperature_effect():
    """
    Visualise l'effet de la temp√©rature sur une distribution
    """
    # Exemple de logits (scores bruts)
    logits = np.array([2.0, 1.0, 0.5, 0.2, 0.1])
    temperatures = [0.5, 0.8, 1.0, 1.3, 1.5]
    
    fig, axes = plt.subplots(2, 3, figsize=(15, 8))
    axes = axes.flatten()
    
    for idx, temp in enumerate(temperatures):
        probs = apply_temperature(logits, temp).numpy()
        
        axes[idx].bar(range(len(probs)), probs, color='#3498db', alpha=0.7)
        axes[idx].set_title(f'Temperature = {temp}', fontweight='bold', fontsize=12)
        axes[idx].set_ylabel('Probabilit√©')
        axes[idx].set_xlabel('Token')
        axes[idx].set_ylim([0, 1])
        axes[idx].grid(True, alpha=0.3)
        
        # Ajouter les valeurs sur les barres
        for i, p in enumerate(probs):
            axes[idx].text(i, p + 0.02, f'{p:.2f}', ha='center', fontsize=9)
    
    # Graphique de synth√®se
    axes[5].axis('off')
    summary_text = """üå°Ô∏è Effet de la Temperature:
    
T = 0.5  ‚Üí Tr√®s d√©terministe
           (top token dominant)
    
T = 1.0  ‚Üí √âquilibr√©
           (distribution originale)
    
T = 1.5  ‚Üí Tr√®s cr√©atif
           (distribution aplatie)"""
    
    axes[5].text(0.5, 0.5, summary_text, 
                transform=axes[5].transAxes,
                fontsize=11, verticalalignment='center',
                horizontalalignment='center',
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.3))
    
    plt.tight_layout()
    plt.show()

# Visualiser l'effet de la temp√©rature
visualize_temperature_effect()

print("\n‚úÖ Fonction de Temperature d√©finie !")

## 11. üÜï Beam Search : Recherche Sophistiqu√©e

### Concept : Explorer Plusieurs Hypoth√®ses en Parall√®le

Le **Beam Search** am√©liore la g√©n√©ration en gardant les K meilleurs candidats √† chaque √©tape :

#### üîç Comparaison des Strat√©gies

**Greedy Search** (baseline)
- Choisit toujours le token le plus probable
- Rapide mais myope
- Peut rater de meilleures s√©quences globales

**Beam Search** (am√©lior√©)
- Garde K meilleurs chemins (beams) en parall√®le
- Score cumul√© : log(P(w1)) + log(P(w2)) + ...
- Plus lent mais meilleure qualit√©

#### üìä Algorithme
```
1. Initialiser avec K beams = [mot de d√©part]
2. Pour chaque position:
   a. Pour chaque beam:
      - Pr√©dire probabilit√©s du prochain mot
      - Calculer score cumul√©
   b. Garder les K meilleurs beams
3. Retourner le beam avec le meilleur score total
```

#### üéØ Param√®tre Cl√© : beam_width
- **beam_width = 1** ‚Üí Greedy search (rapide, qualit√© moyenne)
- **beam_width = 3-5** ‚Üí Bon compromis qualit√©/vitesse
- **beam_width = 10+** ‚Üí Meilleure qualit√©, plus lent

#### ‚ö° Normalisation de Longueur
On divise le score par la longueur pour ne pas favoriser les s√©quences courtes :
```
score_normalis√© = score_total / longueur^alpha
```
o√π alpha ‚âà 0.6-0.7

**Utilis√© dans :** Traduction automatique (Google Translate), r√©sum√© de texte, sous-titrage

In [None]:
def beam_search_generate(model, tokenizer, seed_text, num_words, beam_width=5, 
                        temperature=1.0, length_penalty=0.6):
    """
    G√©n√©ration de texte avec Beam Search
    
    Arguments:
        model: mod√®le entra√Æn√©
        tokenizer: tokenizer utilis√©
        seed_text: texte de d√©part
        num_words: nombre de mots √† g√©n√©rer
        beam_width: nombre de beams √† garder (3-10 recommand√©)
        temperature: facteur de temp√©rature (0.5-1.5)
        length_penalty: p√©nalit√© de longueur (0.5-1.0)
            - Plus petit = favorise s√©quences courtes
            - Plus grand = favorise s√©quences longues
    
    Returns:
        meilleur texte g√©n√©r√© selon le score beam search
    """
    # Preprocessing du seed
    seed_text = preprocess_text(seed_text)
    
    # Obtenir la longueur d'entr√©e du mod√®le
    input_length = model.input_shape[1]
    
    # Initialiser les beams : [(s√©quence, score)]
    # Score = somme des log probabilit√©s
    beams = [(seed_text, 0.0)]
    
    for _ in range(num_words):
        all_candidates = []
        
        # Pour chaque beam actuel
        for seq, score in beams:
            # Pr√©parer l'input
            token_list = tokenizer.texts_to_sequences([seq])[0]
            token_list = pad_sequences([token_list], maxlen=input_length, padding='pre')
            
            # Pr√©dire les probabilit√©s
            predictions = model.predict(token_list, verbose=0)[0]
            
            # Appliquer la temp√©rature
            predictions = apply_temperature(predictions, temperature).numpy()
            
            # Obtenir les top-K pr√©dictions
            # On prend plus que beam_width pour avoir du choix
            top_k = min(beam_width * 2, len(predictions))
            top_indices = np.argsort(predictions)[-top_k:]
            
            # Cr√©er de nouveaux candidats
            for idx in top_indices:
                # Ignorer le token padding (0)
                if idx == 0:
                    continue
                
                # Trouver le mot correspondant
                word = ""
                for w, i in tokenizer.word_index.items():
                    if i == idx:
                        word = w
                        break
                
                if word:
                    # Nouvelle s√©quence
                    new_seq = seq + " " + word
                    
                    # Score cumul√© = score pr√©c√©dent + log(probabilit√©)
                    # Utiliser log pour √©viter underflow
                    new_score = score + np.log(predictions[idx] + 1e-10)
                    
                    all_candidates.append((new_seq, new_score))
        
        # Normalisation par la longueur
        # Pour ne pas favoriser les s√©quences courtes
        def normalized_score(item):
            seq, score = item
            length = len(seq.split())
            return score / (length ** length_penalty)
        
        # Trier et garder les meilleurs beams
        beams = sorted(all_candidates, key=normalized_score, reverse=True)[:beam_width]
        
        # V√©rifier si tous les beams ont atteint la longueur max
        if all(len(seq.split()) >= len(seed_text.split()) + num_words for seq, _ in beams):
            break
    
    # Retourner le meilleur beam
    best_sequence = beams[0][0] if beams else seed_text
    return best_sequence

def greedy_generate(model, tokenizer, seed_text, num_words, temperature=1.0):
    """
    G√©n√©ration greedy (baseline pour comparaison)
    Choisit toujours le token le plus probable
    
    Arguments:
        model: mod√®le entra√Æn√©
        tokenizer: tokenizer utilis√©
        seed_text: texte de d√©part
        num_words: nombre de mots √† g√©n√©rer
        temperature: facteur de temp√©rature (0.5-1.5)
    """
    seed_text = preprocess_text(seed_text)
    generated_text = seed_text
    
    # Obtenir la longueur d'entr√©e du mod√®le
    input_length = model.input_shape[1]
    
    for _ in range(num_words):
        token_list = tokenizer.texts_to_sequences([generated_text])[0]
        token_list = pad_sequences([token_list], maxlen=input_length, padding='pre')
        
        predictions = model.predict(token_list, verbose=0)[0]
        predictions = apply_temperature(predictions, temperature).numpy()
        
        predicted_id = np.argmax(predictions)
        
        if predicted_id == 0:
            break
        
        predicted_word = ""
        for word, index in tokenizer.word_index.items():
            if index == predicted_id:
                predicted_word = word
                break
        
        if not predicted_word:
            break
        
        generated_text += " " + predicted_word
    
    return generated_text

print("‚úÖ Fonctions de g√©n√©ration (Beam Search + Greedy) d√©finies !")

## 12. Comparaison : Greedy vs Beam Search avec Diff√©rentes Temp√©ratures

In [None]:
# Seeds de test
test_seeds = [
    "la vie",
    "le bonheur",
    "qui s√®me",
    "l'amour"
]

# Temp√©ratures √† tester
temperatures = [0.5, 0.8, 1.0, 1.3, 1.5]

print("\n" + "="*80)
print("üéØ COMPARAISON : Greedy Search vs Beam Search")
print("="*80)

for seed in test_seeds:
    print(f"\n\nüå± Seed : \"{seed}\"")
    print("-" * 80)
    
    for temp in temperatures:
        print(f"\nüå°Ô∏è  Temperature = {temp}")
        
        # G√©n√©ration Greedy
        greedy_result = greedy_generate(
            model, tokenizer, seed, 
            num_words=15, 
            temperature=temp
        )
        
        # G√©n√©ration Beam Search
        beam_result = beam_search_generate(
            model, tokenizer, seed,
            num_words=15,
            beam_width=5,
            temperature=temp
        )
        
        print(f"  üìç Greedy  : {greedy_result}")
        print(f"  üîç Beam(5) : {beam_result}")

print("\n" + "="*80)

## 13. Analyse D√©taill√©e : Impact du Beam Width

In [None]:
# Tester diff√©rents beam widths
beam_widths = [1, 3, 5, 7, 10]
seed = "le bonheur"
temp = 1.0

print("\n" + "="*80)
print(f"üî¨ ANALYSE : Impact du Beam Width")
print(f"Seed = \"{seed}\" | Temperature = {temp}")
print("="*80)

results = []

for bw in beam_widths:
    result = beam_search_generate(
        model, tokenizer, seed,
        num_words=15,
        beam_width=bw,
        temperature=temp
    )
    results.append(result)
    
    print(f"\nüîç Beam Width = {bw:2d}")
    print(f"   ‚Üí {result}")

# Visualisation de la diversit√©
print("\n\nüìä Analyse de Diversit√© :")
unique_results = len(set(results))
print(f"  ‚Ä¢ Nombre de r√©sultats uniques : {unique_results}/{len(beam_widths)}")
print(f"  ‚Ä¢ Diversit√© : {unique_results/len(beam_widths)*100:.1f}%")

print("\n" + "="*80)

## 14. Guide Pratique d'Utilisation

### üéØ Recommandations par Cas d'Usage

In [None]:
recommendations_html = """
<div style="font-family: Arial, sans-serif; max-width: 1200px; margin: 0 auto;">
    <h2 style="color: #2c3e50; border-bottom: 3px solid #3498db; padding-bottom: 10px;">üéØ Guide Pratique : Choisir les Bons Param√®tres</h2>
    
    <div style="background: #e8f5e9; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #2ecc71;">
        <h3 style="color: #2e7d32; margin-top: 0;">üìù G√©n√©ration de Texte Formel</h3>
        <p><strong>Cas d'usage :</strong> Rapports, emails professionnels, documentation</p>
        <ul>
            <li><strong>Temperature :</strong> 0.5 - 0.7 (d√©terministe)</li>
            <li><strong>Beam Width :</strong> 5 - 7 (exploration mod√©r√©e)</li>
            <li><strong>Length Penalty :</strong> 0.6 - 0.7 (favorise compl√©tude)</li>
        </ul>
        <div style="background: white; padding: 10px; margin-top: 10px; border-radius: 5px; font-family: monospace;">
            <code>beam_search_generate(model, tokenizer, "le rapport", num_words=20, beam_width=5, temperature=0.6)</code>
        </div>
    </div>
    
    <div style="background: #fff3e0; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #f39c12;">
        <h3 style="color: #e67e22; margin-top: 0;">üé® G√©n√©ration Cr√©ative</h3>
        <p><strong>Cas d'usage :</strong> Po√©sie, fiction, brainstorming</p>
        <ul>
            <li><strong>Temperature :</strong> 1.2 - 1.5 (cr√©atif)</li>
            <li><strong>Beam Width :</strong> 3 - 5 (diversit√© √©lev√©e)</li>
            <li><strong>Length Penalty :</strong> 0.5 - 0.6 (plus libre)</li>
        </ul>
        <div style="background: white; padding: 10px; margin-top: 10px; border-radius: 5px; font-family: monospace;">
            <code>beam_search_generate(model, tokenizer, "r√™ve", num_words=25, beam_width=3, temperature=1.3)</code>
        </div>
    </div>
    
    <div style="background: #e3f2fd; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #2196f3;">
        <h3 style="color: #1976d2; margin-top: 0;">‚öñÔ∏è Usage G√©n√©ral</h3>
        <p><strong>Cas d'usage :</strong> G√©n√©ration polyvalente, chatbot</p>
        <ul>
            <li><strong>Temperature :</strong> 0.8 - 1.0 (√©quilibr√©)</li>
            <li><strong>Beam Width :</strong> 5 (bon compromis)</li>
            <li><strong>Length Penalty :</strong> 0.6 (standard)</li>
        </ul>
        <div style="background: white; padding: 10px; margin-top: 10px; border-radius: 5px; font-family: monospace;">
            <code>beam_search_generate(model, tokenizer, "bonjour", num_words=15, beam_width=5, temperature=0.9)</code>
        </div>
    </div>
    
    <div style="background: #f3e5f5; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #9c27b0;">
        <h3 style="color: #7b1fa2; margin-top: 0;">üèÉ G√©n√©ration Rapide</h3>
        <p><strong>Cas d'usage :</strong> Autocompl√©tion, suggestions en temps r√©el</p>
        <ul>
            <li><strong>Temperature :</strong> 0.8 (l√©g√®rement d√©terministe)</li>
            <li><strong>Beam Width :</strong> 1 (greedy = plus rapide)</li>
            <li><strong>M√©thode :</strong> Utiliser greedy_generate()</li>
        </ul>
        <div style="background: white; padding: 10px; margin-top: 10px; border-radius: 5px; font-family: monospace;">
            <code>greedy_generate(model, tokenizer, "la vie", num_words=10, temperature=0.8)</code>
        </div>
    </div>
    
    <div style="background: #ffebee; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #e74c3c;">
        <h3 style="color: #c0392b; margin-top: 0;">‚ö†Ô∏è Conseils Importants</h3>
        <ul>
            <li>üî• <strong>Temp√©rature trop basse (&lt; 0.3)</strong> : Texte r√©p√©titif et ennuyeux</li>
            <li>üå™Ô∏è <strong>Temp√©rature trop haute (&gt; 1.5)</strong> : Texte incoh√©rent et chaotique</li>
            <li>üêå <strong>Beam Width trop grand (&gt; 10)</strong> : Tr√®s lent, rendements d√©croissants</li>
            <li>‚ö° <strong>Beam Width = 1</strong> : √âquivalent √† Greedy (rapide mais qualit√© moindre)</li>
            <li>üìè <strong>Length Penalty</strong> : Ajuster selon longueur d√©sir√©e (0.5-0.8)</li>
        </ul>
    </div>
    
    <div style="background: #fff9c4; padding: 20px; margin: 15px 0; border-radius: 8px; border-left: 5px solid #ffc107;">
        <h3 style="color: #f57f17; margin-top: 0;">üí° Astuces Avanc√©es</h3>
        <ol>
            <li><strong>A/B Testing :</strong> G√©n√©rer plusieurs versions et choisir la meilleure</li>
            <li><strong>Temperature Scheduling :</strong> Commencer haut (1.2) puis baisser (0.8) pour plus de coh√©rence</li>
            <li><strong>Beam Diversity :</strong> Augmenter beam_width quand r√©sultats trop similaires</li>
            <li><strong>Early Stopping :</strong> Arr√™ter si le mod√®le g√©n√®re des tokens de ponctuation finale</li>
            <li><strong>Post-Processing :</strong> Filtrer les r√©p√©titions ou textes inappropri√©s</li>
        </ol>
    </div>
</div>
"""

display(HTML(recommendations_html))

## 15. Playground Interactif : Tester Vos Propres Param√®tres

In [None]:
def interactive_generation(seed_text, method='beam', beam_width=5, 
                          temperature=1.0, num_words=15):
    """
    Fonction interactive pour exp√©rimenter avec les param√®tres
    
    Arguments:
        seed_text: texte de d√©part
        method: 'beam' ou 'greedy'
        beam_width: largeur du beam (si method='beam')
        temperature: temp√©rature (0.5-1.5)
        num_words: nombre de mots √† g√©n√©rer
    """
    print("\n" + "="*80)
    print("üéÆ PLAYGROUND INTERACTIF")
    print("="*80)
    print(f"\n‚öôÔ∏è  Param√®tres :")
    print(f"   ‚Ä¢ Seed : \"{seed_text}\"")
    print(f"   ‚Ä¢ M√©thode : {method.upper()}")
    if method == 'beam':
        print(f"   ‚Ä¢ Beam Width : {beam_width}")
    print(f"   ‚Ä¢ Temperature : {temperature}")
    print(f"   ‚Ä¢ Num Words : {num_words}")
    print("\n" + "-"*80)
    
    if method == 'beam':
        result = beam_search_generate(
            model, tokenizer, seed_text,
            num_words=num_words,
            beam_width=beam_width,
            temperature=temperature
        )
    else:
        result = greedy_generate(
            model, tokenizer, seed_text,
            num_words=num_words,
            temperature=temperature
        )
    
    print(f"\nüìù R√©sultat :")
    print(f"   {result}")
    print("\n" + "="*80)
    
    return result

# Exemples d'utilisation
print("\nüéØ Exemple 1 : G√©n√©ration Formelle (Conservative)")
interactive_generation(
    seed_text="le travail",
    method='beam',
    beam_width=7,
    temperature=0.6,
    num_words=15
)

print("\n\nüéØ Exemple 2 : G√©n√©ration Cr√©ative")
interactive_generation(
    seed_text="le r√™ve",
    method='beam',
    beam_width=3,
    temperature=1.4,
    num_words=20
)

print("\n\nüéØ Exemple 3 : G√©n√©ration Rapide (Greedy)")
interactive_generation(
    seed_text="bonjour",
    method='greedy',
    temperature=0.8,
    num_words=10
)

## 16. Visualisation Comparative des M√©thodes

In [None]:
import time

# Comparaison de performance
def compare_methods_performance(seed_text="la vie", num_words=15):
    """
    Compare vitesse et qualit√© des diff√©rentes m√©thodes
    """
    configurations = [
        ('Greedy T=0.8', 'greedy', 1, 0.8),
        ('Beam(3) T=0.8', 'beam', 3, 0.8),
        ('Beam(5) T=1.0', 'beam', 5, 1.0),
        ('Beam(7) T=0.6', 'beam', 7, 0.6),
        ('Beam(10) T=1.2', 'beam', 10, 1.2),
    ]
    
    results = []
    times = []
    
    print(f"\nüî¨ Comparaison de Performance pour: \"{seed_text}\"\n")
    
    for name, method, beam_width, temp in configurations:
        start_time = time.time()
        
        if method == 'greedy':
            result = greedy_generate(model, tokenizer, seed_text, num_words, temp)
        else:
            result = beam_search_generate(model, tokenizer, seed_text, num_words, 
                                         beam_width, temp)
        
        elapsed = time.time() - start_time
        
        results.append(result)
        times.append(elapsed)
        
        print(f"{name:20s} | Temps: {elapsed:6.3f}s | R√©sultat: {result}")
    
    # Visualisation
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
    
    # Temps d'ex√©cution
    names = [c[0] for c in configurations]
    colors = ['#e74c3c', '#3498db', '#2ecc71', '#f39c12', '#9b59b6']
    
    ax1.barh(names, times, color=colors, alpha=0.7)
    ax1.set_xlabel('Temps (secondes)', fontweight='bold')
    ax1.set_title('‚è±Ô∏è Temps d\'Ex√©cution par M√©thode', fontweight='bold', fontsize=14)
    ax1.grid(True, alpha=0.3, axis='x')
    
    # Longueur des r√©sultats
    lengths = [len(r.split()) for r in results]
    ax2.barh(names, lengths, color=colors, alpha=0.7)
    ax2.set_xlabel('Nombre de mots', fontweight='bold')
    ax2.set_title('üìè Longueur des Textes G√©n√©r√©s', fontweight='bold', fontsize=14)
    ax2.grid(True, alpha=0.3, axis='x')
    
    plt.tight_layout()
    plt.show()
    
    print(f"\nüìä Statistiques :")
    print(f"  ‚Ä¢ M√©thode la plus rapide : {names[np.argmin(times)]} ({min(times):.3f}s)")
    print(f"  ‚Ä¢ M√©thode la plus lente : {names[np.argmax(times)]} ({max(times):.3f}s)")
    print(f"  ‚Ä¢ Rapport vitesse : {max(times)/min(times):.1f}x")

compare_methods_performance("le bonheur", 15)

## 17. Conclusion et R√©capitulatif

### üéâ F√©licitations ! Vous avez impl√©ment√© 3 techniques avanc√©es de g√©n√©ration !

#### 1. ‚ö° Warmup Learning Rate Schedule
**Ce que vous avez appris :**
- Augmentation progressive du LR pour stabiliser l'entra√Ænement
- Formule : `lr = d_model^(-0.5) √ó min(step^(-0.5), step √ó warmup^(-1.5))`
- √âvite la divergence en d√©but d'entra√Ænement
- Utilis√© dans **tous les Transformers modernes**

**Impact mesur√© :**
- ‚úÖ Convergence plus stable
- ‚úÖ Meilleure performance finale
- ‚úÖ Moins de risque de divergence

#### 2. üîç Beam Search
**Ce que vous avez appris :**
- Exploration de K hypoth√®ses en parall√®le
- Score cumul√© avec normalisation de longueur
- Meilleure qualit√© que Greedy Search
- Utilis√© dans **traduction automatique, r√©sum√©**

**Impact mesur√© :**
- ‚úÖ G√©n√©ration de meilleure qualit√©
- ‚úÖ Plus de coh√©rence globale
- ‚ö†Ô∏è Plus lent que Greedy (compromis qualit√©/vitesse)

#### 3. üå°Ô∏è Temperature Tuning
**Ce que vous avez appris :**
- Contr√¥le de la "cr√©ativit√©" via ajustement des probabilit√©s
- T < 1.0 ‚Üí D√©terministe, T > 1.0 ‚Üí Cr√©atif
- Formule : `P_temp(i) = exp(logits[i] / T) / Œ£ exp(logits[j] / T)`
- Utilis√© dans **ChatGPT, Claude, Gemini**

**Impact mesur√© :**
- ‚úÖ Contr√¥le fin de la g√©n√©ration
- ‚úÖ Adaptation au cas d'usage
- ‚úÖ 0.5-0.7 = formel, 1.2-1.5 = cr√©atif

### üìä Tableau Comparatif Final

| Crit√®re | Greedy | Beam Search | + Temperature |
|---------|--------|-------------|---------------|
| Qualit√© | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Vitesse | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê |
| Diversit√© | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Contr√¥le | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Complexit√© | Simple | Moyen | Moyen |

### üöÄ Prochaines √âtapes

**Pour aller plus loin :**
1. **Top-p (Nucleus) Sampling** - Alternative au beam search
2. **Top-k Sampling** - Limiter aux k tokens les plus probables
3. **Diverse Beam Search** - Forcer la diversit√© entre beams
4. **Constrained Decoding** - Respecter des contraintes (longueur, mots-cl√©s)
5. **Pre-training** - Utiliser des mod√®les pr√©-entra√Æn√©s (CamemBERT)

### üí° Message Final

Ces trois techniques sont **essentielles** pour obtenir des g√©n√©rations de qualit√© production :
- **Warmup LR** ‚Üí Entra√Ænement stable
- **Beam Search** ‚Üí G√©n√©ration optimale
- **Temperature** ‚Üí Contr√¥le cr√©ativit√©

Elles sont utilis√©es dans **TOUS les LLMs modernes** : GPT-4, Claude, Gemini, LLaMA, etc.