# TP : Introduction pratique aux mod√®les NLP et LLM

## Objectifs du TP (1h30-2h)

Dans ce TP, nous allons explorer :
1. **La repr√©sentation du langage naturel** : tokenizers et encodage du texte
2. **Les caract√©ristiques des mod√®les GPT** : pr√©diction de tokens, context window
3. **L'impact du prompting et de la temp√©rature** sur les sorties du mod√®le
4. **La diversit√© des mod√®les** disponibles sur Hugging Face

---

## Installation des d√©pendances

Ex√©cutez la cellule suivante pour installer les biblioth√®ques n√©cessaires :

In [None]:
# Installation des biblioth√®ques
!pip install transformers torch datasets sentencepiece sacremoses -q

# Imports n√©cessaires
import torch
from transformers import (
    AutoTokenizer, 
    AutoModelForCausalLM,
    AutoModelForSequenceClassification,
    AutoModelForSeq2SeqLM,
    pipeline
)
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import display, HTML
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques install√©es et import√©es avec succ√®s!")

---

## Partie 1 : Repr√©senter le langage naturel - Les Tokenizers

### 1.1 Introduction aux tokenizers

Les tokenizers sont des outils essentiels qui convertissent le texte en tokens (unit√©s de base) que les mod√®les peuvent traiter.

In [None]:
# Textes d'exemple pour nos tests
textes_exemples = [
    "Bonjour, comment allez-vous aujourd'hui?",
    "The quick brown fox jumps over the lazy dog.",
    "‰∫∫Â∑•Êô∫ËÉΩÊ≠£Âú®ÊîπÂèò‰∏ñÁïå„ÄÇ",  # Chinois : "L'IA change le monde"
    "ü§ñ Les emojis sont-ils bien tokenis√©s? üöÄ",
    "import numpy as np\nprint('Hello World!')"
]

# Fonction utilitaire pour visualiser la tokenisation
def visualiser_tokenisation(tokenizer, texte, nom_tokenizer):
    tokens = tokenizer.tokenize(texte)
    token_ids = tokenizer.encode(texte)
    
    print(f"\n{'='*60}")
    print(f"Tokenizer: {nom_tokenizer}")
    print(f"Texte original: {texte}")
    print(f"Nombre de tokens: {len(tokens)}")
    print(f"Tokens: {tokens[:20]}{'...' if len(tokens) > 20 else ''}")
    print(f"Token IDs: {token_ids[:20]}{'...' if len(token_ids) > 20 else ''}")
    
    return len(tokens)

### 1.2 Comparaison de diff√©rents tokenizers

Nous allons comparer plusieurs tokenizers populaires :

In [None]:
# Chargement de diff√©rents tokenizers
tokenizers = {
    "GPT-2": AutoTokenizer.from_pretrained("gpt2"),
    "BERT": AutoTokenizer.from_pretrained("bert-base-uncased"),
    "T5": AutoTokenizer.from_pretrained("t5-small"),
    "CamemBERT (Fran√ßais)": AutoTokenizer.from_pretrained("camembert-base")
}

# Analyse comparative
resultats = {}
for nom, tokenizer in tokenizers.items():
    print(f"\n\n{'#'*80}\n{nom.upper()}\n{'#'*80}")
    resultats[nom] = []
    
    for texte in textes_exemples:
        try:
            nb_tokens = visualiser_tokenisation(tokenizer, texte, nom)
            resultats[nom].append(nb_tokens)
        except:
            print(f"‚ùå Erreur avec le texte: {texte}")
            resultats[nom].append(0)

### üìù Question 1.1

**Observez les r√©sultats ci-dessus. Que remarquez-vous concernant :**
- Le nombre de tokens pour le m√™me texte selon les tokenizers ?
- La gestion des caract√®res sp√©ciaux et emojis ?
- La tokenisation du code Python ?

**Votre r√©ponse :** *(Double-cliquez pour √©diter)*

...

In [None]:
# Visualisation graphique des r√©sultats
import pandas as pd

df_resultats = pd.DataFrame(resultats, index=[f"Texte {i+1}" for i in range(len(textes_exemples))])

# Graphique
fig, ax = plt.subplots(figsize=(10, 6))
df_resultats.plot(kind='bar', ax=ax)
ax.set_title("Nombre de tokens par tokenizer et par texte")
ax.set_xlabel("Textes")
ax.set_ylabel("Nombre de tokens")
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

print("\nR√©sum√© statistique:")
print(df_resultats.describe())

### 1.3 Exploration approfondie : Vocabulaire et tokens sp√©ciaux

In [None]:
# Explorons le vocabulaire d'un tokenizer
tokenizer_gpt2 = tokenizers["GPT-2"]

print(f"Taille du vocabulaire GPT-2: {tokenizer_gpt2.vocab_size}")
print(f"\nTokens sp√©ciaux:")
print(f"- Token de padding: {tokenizer_gpt2.pad_token}")
print(f"- Token de d√©but: {tokenizer_gpt2.bos_token}")
print(f"- Token de fin: {tokenizer_gpt2.eos_token}")
print(f"- Token inconnu: {tokenizer_gpt2.unk_token}")

# Exemple de d√©codage
texte_test = "Intelligence artificielle"
tokens_ids = tokenizer_gpt2.encode(texte_test)
texte_decode = tokenizer_gpt2.decode(tokens_ids)

print(f"\nEncodage/D√©codage:")
print(f"Texte original: '{texte_test}'")
print(f"Token IDs: {tokens_ids}")
print(f"Texte d√©cod√©: '{texte_decode}'")
print(f"Correspondance parfaite: {texte_test == texte_decode}")

### üìù Exercice 1.1 : Analyse de tokenisation

Modifiez le texte ci-dessous et observez comment la tokenisation change :

In [None]:
# TODO: Modifiez ce texte pour tester diff√©rents cas
mon_texte = "L'intelligence artificielle r√©volutionne notre quotidien!"

# Testez avec diff√©rents tokenizers
for nom, tokenizer in list(tokenizers.items())[:2]:  # On teste avec les 2 premiers
    tokens = tokenizer.tokenize(mon_texte)
    print(f"\n{nom}:")
    print(f"  Tokens ({len(tokens)}): {tokens}")
    
    # Reconstruction token par token
    print("  Reconstruction: ", end="")
    for token in tokens:
        print(f"[{token}]", end="")
    print()

---

## Partie 2 : Comprendre les mod√®les GPT

### 2.1 Chargement d'un mod√®le GPT-2

In [None]:
# Chargement du mod√®le GPT-2 small
print("Chargement du mod√®le GPT-2... (cela peut prendre un moment)")

model_name = "gpt2"  # Vous pouvez essayer "gpt2-medium" si vous avez plus de RAM
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Configuration du token de padding
tokenizer.pad_token = tokenizer.eos_token

# Informations sur le mod√®le
print(f"\n‚úÖ Mod√®le charg√©: {model_name}")
print(f"Nombre de param√®tres: {model.num_parameters():,}")
print(f"Taille du contexte maximum: {model.config.n_ctx} tokens")

### 2.2 G√©n√©ration de texte : Pr√©diction de tokens

In [None]:
def generer_texte(prompt, max_length=50, temperature=1.0, num_return_sequences=1):
    """
    G√©n√®re du texte √† partir d'un prompt
    """
    # Encodage du prompt
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    
    # G√©n√©ration
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=max_length,
            temperature=temperature,
            num_return_sequences=num_return_sequences,
            pad_token_id=tokenizer.eos_token_id,
            do_sample=True
        )
    
    # D√©codage et affichage
    for i, output in enumerate(outputs):
        texte_genere = tokenizer.decode(output, skip_special_tokens=True)
        print(f"\nG√©n√©ration {i+1}:")
        print(f"{'='*60}")
        print(texte_genere)

# Test de g√©n√©ration
prompt_test = "L'intelligence artificielle est"
print(f"Prompt: '{prompt_test}'\n")
generer_texte(prompt_test, max_length=50, temperature=0.8)

### 2.3 Importance du bon tokenizer

In [None]:
# D√©monstration : utiliser le mauvais tokenizer
print("üîç Exp√©rience : Que se passe-t-il si on utilise le mauvais tokenizer?\n")

# Tokenizer correct (GPT-2)
prompt = "Paris is the capital of"
inputs_correct = tokenizer.encode(prompt, return_tensors="pt")

# Tokenizer incorrect (BERT)
tokenizer_bert = AutoTokenizer.from_pretrained("bert-base-uncased")
inputs_incorrect = tokenizer_bert.encode(prompt, return_tensors="pt")

print(f"Prompt: '{prompt}'")
print(f"\nTokens GPT-2 (correct): {tokenizer.tokenize(prompt)}")
print(f"Token IDs GPT-2: {inputs_correct[0].tolist()}")
print(f"\nTokens BERT (incorrect): {tokenizer_bert.tokenize(prompt)}")
print(f"Token IDs BERT: {inputs_incorrect[0].tolist()}")

# G√©n√©ration avec le bon tokenizer
with torch.no_grad():
    output_correct = model.generate(inputs_correct, max_length=20, temperature=0.1)
    texte_correct = tokenizer.decode(output_correct[0], skip_special_tokens=True)
    
print(f"\n‚úÖ G√©n√©ration avec le bon tokenizer: '{texte_correct}'")

# Tentative avec les IDs du mauvais tokenizer (attention aux erreurs!)
try:
    # On va cr√©er des IDs al√©atoires pour simuler
    fake_ids = torch.randint(0, tokenizer.vocab_size, (1, len(inputs_incorrect[0])))
    with torch.no_grad():
        output_incorrect = model.generate(fake_ids, max_length=20, temperature=0.1)
        texte_incorrect = tokenizer.decode(output_incorrect[0], skip_special_tokens=True)
    print(f"‚ùå G√©n√©ration avec mauvais tokenizer: '{texte_incorrect}'")
except Exception as e:
    print(f"‚ùå Erreur avec le mauvais tokenizer: {str(e)}")

### üìù Question 2.1

**Pourquoi est-il crucial d'utiliser le tokenizer correspondant au mod√®le?**

**Votre r√©ponse :** *(Double-cliquez pour √©diter)*

...

### 2.4 Limites du contexte (Context Window)

In [None]:
# D√©monstration de la limite de contexte
print(f"üîç Limite de contexte du mod√®le: {model.config.n_ctx} tokens\n")

# Cr√©ons un texte tr√®s long
texte_court = "Ceci est un exemple. " * 10
texte_long = "Ceci est un exemple. " * 100

tokens_court = tokenizer.encode(texte_court)
tokens_long = tokenizer.encode(texte_long)

print(f"Texte court: {len(tokens_court)} tokens")
print(f"Texte long: {len(tokens_long)} tokens")
print(f"D√©passe la limite? {len(tokens_long) > model.config.n_ctx}")

# Visualisation de ce qui se passe avec un texte trop long
if len(tokens_long) > model.config.n_ctx:
    print(f"\n‚ö†Ô∏è Le texte long ({len(tokens_long)} tokens) d√©passe la limite!")
    print(f"Le mod√®le ne peut traiter que les {model.config.n_ctx} premiers tokens.")
    
    # Tronquons pour la d√©monstration
    tokens_tronques = tokens_long[:model.config.n_ctx]
    texte_tronque = tokenizer.decode(tokens_tronques)
    print(f"\nTexte tronqu√© (d√©but): {texte_tronque[:100]}...")
    print(f"Texte tronqu√© (fin): ...{texte_tronque[-100:]}")

### 2.5 Date limite d'entra√Ænement

In [None]:
# Test des connaissances temporelles du mod√®le
prompts_temporels = [
    "The president of the United States in 2019 was",
    "The COVID-19 pandemic started in",
    "The latest iPhone model in 2023 is",
    "The winner of the 2022 FIFA World Cup was"
]

print("üïê Test des connaissances temporelles du mod√®le\n")
print("Note: GPT-2 a √©t√© entra√Æn√© sur des donn√©es jusqu'en 2019\n")

for prompt in prompts_temporels:
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=len(inputs[0]) + 20,
            temperature=0.1,
            pad_token_id=tokenizer.eos_token_id
        )
    
    resultat = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(f"Q: {prompt}")
    print(f"R: {resultat}")
    print("-" * 60)

### üìù Exercice 2.1 : Explorer les limites du mod√®le

Testez le mod√®le avec vos propres prompts pour identifier ses limites temporelles :

In [None]:
# TODO: Ajoutez vos propres prompts pour tester les connaissances du mod√®le
mes_prompts = [
    "En 2018, le champion du monde de football √©tait",
    # Ajoutez vos prompts ici
]

for prompt in mes_prompts:
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    with torch.no_grad():
        outputs = model.generate(inputs, max_length=50, temperature=0.3, pad_token_id=tokenizer.eos_token_id)
    print(f"Prompt: {prompt}")
    print(f"R√©ponse: {tokenizer.decode(outputs[0], skip_special_tokens=True)}\n")

---

## Partie 3 : Impact du prompting et de la temp√©rature

### 3.1 Exploration de la temp√©rature

In [None]:
# Fonction pour visualiser l'impact de la temp√©rature
def explorer_temperature(prompt, temperatures=[0.1, 0.5, 0.8, 1.0, 1.5]):
    print(f"Prompt: '{prompt}'\n")
    
    resultats = {}
    
    for temp in temperatures:
        print(f"\nüå°Ô∏è Temp√©rature = {temp}")
        print("=" * 60)
        
        inputs = tokenizer.encode(prompt, return_tensors="pt")
        generations = []
        
        # G√©n√©rer plusieurs fois pour voir la variabilit√©
        for i in range(3):
            with torch.no_grad():
                outputs = model.generate(
    inputs,
                    max_length=50,
                    temperature=temp,
                    do_sample=True,
                    pad_token_id=tokenizer.eos_token_id
                )
            
            texte = tokenizer.decode(outputs[0], skip_special_tokens=True)
            generations.append(texte)
            print(f"Essai {i+1}: {texte}")
        
        resultats[temp] = generations
    
    return resultats

# Test avec diff√©rentes temp√©ratures
resultats_temp = explorer_temperature("Une recette de cuisine innovante:")

### üìù Question 3.1

**Observez l'impact de la temp√©rature sur les g√©n√©rations:**
- Que se passe-t-il avec une temp√©rature basse (0.1) ?
- Que se passe-t-il avec une temp√©rature √©lev√©e (1.5) ?
- Quelle temp√©rature recommanderiez-vous pour des cas d'usage cr√©atifs vs factuels ?

**Votre r√©ponse :** *(Double-cliquez pour √©diter)*

...

### 3.2 L'art du prompting

In [None]:
# Comparaison de diff√©rents styles de prompts
tache = "expliquer ce qu'est le machine learning"

prompts_styles = {
    "Basique": "Le machine learning est",
    
    "Avec contexte": "En tant que professeur d'informatique, j'explique √† mes √©tudiants que le machine learning est",
    
    "Avec exemple": "Le machine learning est comme apprendre √† faire du v√©lo. Au d√©but,",
    
    "Structur√©": "D√©finition du Machine Learning:\n1.",
    
    "Conversation": "√âtudiant: Qu'est-ce que le machine learning?\nProfesseur: Excellente question! Le machine learning est"
}

print("üéØ Comparaison de diff√©rents styles de prompting\n")

for style, prompt in prompts_styles.items():
    print(f"\n{'='*80}")
    print(f"Style: {style}")
    print(f"Prompt: '{prompt}'")
    print("-" * 80)
    
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=100,
            temperature=0.7,
            pad_token_id=tokenizer.eos_token_id,
            do_sample=True
        )
    
    resultat = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(resultat)

### üìù Exercice 3.1 : Cr√©ez vos propres prompts

Exp√©rimentez avec diff√©rents prompts pour une t√¢che de votre choix :

In [None]:
# TODO: Cr√©ez 3 prompts diff√©rents pour accomplir la m√™me t√¢che
ma_tache = "g√©n√©rer une histoire courte sur un robot"

mes_prompts = {
    "Prompt 1": "Il √©tait une fois un robot qui",
    "Prompt 2": "Journal intime d'un robot, jour 1:",
    "Prompt 3": "Breaking news: Un robot extraordinaire vient de"
}

# Testez vos prompts
temperature_choisie = 0.8  # Modifiez cette valeur

for nom, prompt in mes_prompts.items():
    print(f"\n{nom}: '{prompt}'")
    print("-" * 60)
    
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=80,
            temperature=temperature_choisie,
            pad_token_id=tokenizer.eos_token_id,
            do_sample=True
        )
    
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

---

## Partie 4 : La diversit√© des mod√®les sur Hugging Face

### 4.1 Pipeline : Interface simple pour diff√©rentes t√¢ches

In [None]:
# Pr√©sentation des diff√©rentes t√¢ches disponibles
print("üéØ Exemples de t√¢ches NLP disponibles sur Hugging Face:\n")

taches_exemples = [
    "text-generation",
    "sentiment-analysis", 
    "translation",
    "summarization",
    "question-answering",
    "zero-shot-classification",
    "text2text-generation"
]

for tache in taches_exemples:
    print(f"- {tache}")

### 4.2 Analyse de sentiment

In [None]:
# Pipeline d'analyse de sentiment
sentiment_analyzer = pipeline("sentiment-analysis")

# Textes √† analyser
textes_sentiment = [
    "J'adore ce cours sur le NLP, c'est passionnant!",
    "Cette exp√©rience est vraiment d√©cevante.",
    "Le temps est nuageux aujourd'hui.",
    "This transformer model is absolutely amazing! üöÄ",
    "Je ne sais pas trop quoi en penser, c'est mitig√©."
]

print("üòäüòêüò¢ Analyse de sentiment\n")

resultats_sentiment = sentiment_analyzer(textes_sentiment)

for texte, resultat in zip(textes_sentiment, resultats_sentiment):
    emoji = "üòä" if resultat['label'] == 'POSITIVE' else "üò¢"
    print(f"{emoji} Texte: '{texte}'")
    print(f"   ‚Üí Sentiment: {resultat['label']} (confiance: {resultat['score']:.2%})")
    print()

### 4.3 Classification zero-shot

In [None]:
# Classification zero-shot : classifier sans entra√Ænement sp√©cifique
classifier = pipeline("zero-shot-classification")

# Textes √† classifier
textes_classification = [
    "Tesla annonce une nouvelle voiture √©lectrique autonome",
    "Le PSG remporte le match 3-0 contre Lyon",
    "Nouvelle d√©couverte scientifique sur les trous noirs",
    "Apple d√©voile l'iPhone 15 avec des fonctionnalit√©s r√©volutionnaires"
]

# Cat√©gories possibles
categories = ["sport", "technologie", "science", "politique", "√©conomie"]

print("üè∑Ô∏è Classification zero-shot\n")

for texte in textes_classification:
    resultat = classifier(texte, candidate_labels=categories)
    
    print(f"Texte: '{texte}'")
    print(f"Classifications:")
    for label, score in zip(resultat['labels'][:3], resultat['scores'][:3]):
        print(f"  - {label}: {score:.2%}")
    print()

### 4.4 G√©n√©ration de r√©sum√©s

In [None]:
# Pipeline de r√©sum√©
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Texte long √† r√©sumer
article = """
L'intelligence artificielle (IA) transforme rapidement notre monde. 
Des assistants vocaux dans nos maisons aux syst√®mes de recommandation sur nos plateformes de streaming, 
l'IA est omnipr√©sente. Les r√©centes avanc√©es en apprentissage profond, notamment avec les transformers, 
ont permis des progr√®s spectaculaires dans le traitement du langage naturel. 
Ces mod√®les peuvent maintenant comprendre et g√©n√©rer du texte avec une qualit√© impressionnante, 
ouvrant de nouvelles possibilit√©s dans de nombreux domaines comme la traduction automatique, 
la g√©n√©ration de contenu, et l'analyse de sentiment. Cependant, ces avanc√©es soul√®vent aussi 
des questions √©thiques importantes concernant la vie priv√©e, les biais algorithmiques, 
et l'impact sur l'emploi.
"""

print("üìù G√©n√©ration de r√©sum√©\n")
print("Article original:")
print(article)
print("\nR√©sum√© g√©n√©r√©:")

resume = summarizer(article, max_length=80, min_length=30, do_sample=False)
print(resume[0]['summary_text'])

### 4.5 Questions-R√©ponses

In [None]:
# Pipeline de questions-r√©ponses
qa_pipeline = pipeline("question-answering")

# Contexte
contexte = """
Hugging Face est une entreprise franco-am√©ricaine fond√©e en 2016 par Cl√©ment Delangue, Julien Chaumond et Thomas Wolf.
L'entreprise est surtout connue pour sa biblioth√®que Transformers, qui fournit des architectures de pointe 
pour le traitement du langage naturel. La plateforme Hugging Face Hub h√©berge plus de 100 000 mod√®les 
pr√©-entra√Æn√©s que les d√©veloppeurs peuvent utiliser gratuitement. L'entreprise a lev√© 235 millions de dollars 
en 2023, atteignant une valorisation de 4,5 milliards de dollars.
"""

# Questions
questions = [
    "Quand a √©t√© fond√©e Hugging Face?",
    "Qui sont les fondateurs?",
    "Combien de mod√®les sont h√©berg√©s sur le Hub?",
    "Quelle est la valorisation de l'entreprise?"
]

print("‚ùì Questions-R√©ponses\n")
print(f"Contexte: {contexte}\n")

for question in questions:
    reponse = qa_pipeline(question=question, context=contexte)
    print(f"Q: {question}")
    print(f"R: {reponse['answer']} (confiance: {reponse['score']:.2%})")
    print()

### üìù Exercice 4.1 : Explorer d'autres mod√®les

Choisissez un mod√®le sp√©cialis√© sur Hugging Face et testez-le :

In [None]:
# TODO: Explorez un autre mod√®le de votre choix
# Exemples de mod√®les int√©ressants:
# - "Helsinki-NLP/opus-mt-fr-en" pour la traduction fran√ßais‚Üíanglais
# - "camembert-base" pour du NLP en fran√ßais
# - "microsoft/DialoGPT-medium" pour la conversation

# Votre code ici
mon_modele = "Helsinki-NLP/opus-mt-fr-en"  # Changez ce mod√®le
ma_tache = "translation_fr_to_en"  # Adaptez la t√¢che

# Cr√©ez votre pipeline et testez-le
# ...

---

## Conclusion et points cl√©s √† retenir

### üéØ Ce que nous avons appris :

1. **Tokenisation** :
   - Les tokenizers transforment le texte en unit√©s que les mod√®les peuvent traiter
   - Diff√©rents tokenizers ont diff√©rentes strat√©gies (BPE, WordPiece, etc.)
   - Il est crucial d'utiliser le bon tokenizer avec le bon mod√®le

2. **Mod√®les GPT** :
   - Fonctionnent par pr√©diction du token suivant
   - Ont une limite de contexte (context window)
   - Leurs connaissances sont limit√©es √† leur date d'entra√Ænement

3. **Param√®tres de g√©n√©ration** :
   - La temp√©rature contr√¥le la cr√©ativit√©/al√©atoire
   - Le prompting est un art qui influence grandement les r√©sultats

4. **√âcosyst√®me Hugging Face** :
   - Grande vari√©t√© de mod√®les pour diff√©rentes t√¢ches
   - Pipelines pour une utilisation simplifi√©e
   - Mod√®les sp√©cialis√©s vs mod√®les g√©n√©ralistes

### üìö Pour aller plus loin :

- Documentation Hugging Face : https://huggingface.co/docs
- Cours sur les Transformers : https://huggingface.co/course
- Model Hub : https://huggingface.co/models
- Papers with Code : https://paperswithcode.com/

### üí° Mini-projet final (optionnel)

Cr√©ez une petite application qui combine plusieurs mod√®les :

In [None]:
# Exemple : Assistant multilingue
def assistant_multilingue(texte, langue_source="fr", langue_cible="en"):
    """
    1. D√©tecte le sentiment
    2. Traduit le texte
    3. G√©n√®re une r√©ponse appropri√©e
    """
    print(f"üì• Texte re√ßu: '{texte}'\n")
    
    # √âtape 1: Analyse de sentiment
    sentiment = sentiment_analyzer(texte)[0]
    print(f"üòä Sentiment d√©tect√©: {sentiment['label']} ({sentiment['score']:.2%})")
    
    # √âtape 2: Traduction (si n√©cessaire)
    if langue_source != langue_cible:
        translator = pipeline(f"translation_{langue_source}_to_{langue_cible}")
        traduction = translator(texte)[0]['translation_text']
        print(f"üåç Traduction: '{traduction}'")
    
    # √âtape 3: G√©n√©ration de r√©ponse bas√©e sur le sentiment
    if sentiment['label'] == 'POSITIVE':
        prompt = "Thank you for your positive feedback! I'm glad"
    else:
        prompt = "I understand your concern. Let me help you by"
    
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    outputs = model.generate(inputs, max_length=50, temperature=0.7, pad_token_id=tokenizer.eos_token_id)
    reponse = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    print(f"\nüí¨ R√©ponse g√©n√©r√©e: {reponse}")
    
    return reponse

# Test
assistant_multilingue("Ce TP √©tait vraiment int√©ressant et bien structur√©!")

---

## üéâ F√©licitations!

Vous avez termin√© ce TP d'introduction aux mod√®les NLP et LLM. Vous avez maintenant les bases pour:

- Comprendre comment les mod√®les de langage traitent le texte
- Utiliser et configurer des mod√®les pr√©-entra√Æn√©s
- Explorer l'√©cosyst√®me riche de Hugging Face
- Cr√©er vos propres applications NLP

N'h√©sitez pas √† exp√©rimenter davantage avec les diff√©rents mod√®les et param√®tres!