# Notebook de Test et Comparaison de LLM

## Objectif
Ce notebook permet de tester et comparer des mod√®les de langage (LLM) de ~1B de param√®tres, optimis√©s pour Google Colab Free.

Pourquoi ce notebook :
- Comprendre le comportement des LLM avant de se lancer dans la compression
- √âtablir des m√©triques de base (baseline) pour comparer les mod√®les
- Apprendre les diff√©rentes m√©thodes d'√©valuation des LLM

Tests inclus :
1. G√©n√©ration de texte simple
2. Conversation avec prompt syst√®me
3. Benchmark de performance (vitesse)
4. Perplexit√© sur WikiText-2
5. Mesure de l'utilisation m√©moire
6. Tests de raisonnement basique
7. Latence du premier token (TTFT)

## Installation des d√©pendances

Installation des biblioth√®ques n√©cessaires :
- `transformers` : pour charger et utiliser les mod√®les
- `torch` : framework de deep learning
- `datasets` : pour acc√©der √† WikiText-2
- `accelerate` : pour optimiser le chargement des mod√®les

In [None]:
!pip install -q transformers torch datasets accelerate

## Import des biblioth√®ques

Import des outils n√©cessaires pour les tests.

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
import time
import numpy as np
from typing import List, Dict
import warnings
warnings.filterwarnings('ignore')

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device utilis√© : {device}")
if device == "cuda":
    print(f"GPU : {torch.cuda.get_device_name(0)}")
    print(f"M√©moire disponible : {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")

üñ•Ô∏è Device utilis√© : cuda
GPU : Tesla T4
M√©moire disponible : 15.83 GB


## Configuration des mod√®les √† tester

Liste de mod√®les recommand√©s (~1B param√®tres) pour Colab Free :

1. **TinyLlama-1.1B** : Version compacte de Llama, tr√®s rapide
2. **Qwen2.5-1.5B** : Mod√®le multilingue de Alibaba
3. **SmolLM2-1.7B** : Mod√®le performant de HuggingFace
4. **Phi-1.5** : Mod√®le de Microsoft, bon en raisonnement

Pour changer de mod√®le, modifiez l'ID du mod√®le dans la liste ci-dessous.

In [None]:
# Liste des mod√®les √† tester
MODELS_TO_TEST = [
    # "TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    # "Qwen/Qwen2.5-1.5B-Instruct",
    # "HuggingFaceTB/SmolLM2-1.7B-Instruct",
    # "microsoft/phi-1_5",
    "mistralai/Mistral-7B-v0.1",
]

current_model_id = MODELS_TO_TEST[0]
print(f"Mod√®le s√©lectionn√© : {current_model_id}")

üì¶ Mod√®le s√©lectionn√© : mistralai/Mistral-7B-v0.1


## Chargement du mod√®le et du tokenizer

**Tokenizer** : Outil qui convertit le texte en tokens (nombres) que le mod√®le peut traiter.

**AutoModelForCausalLM** : Classe qui charge automatiquement un mod√®le de langage g√©n√©ratif (pr√©diction du mot suivant).

Options de chargement :
- `torch_dtype=torch.float16` : R√©duit l'utilisation de la m√©moire
- `device_map="auto"` : Place automatiquement le mod√®le sur le GPU si disponible

In [None]:
print(f"Chargement du mod√®le {current_model_id}...")
start_time = time.time()

tokenizer = AutoTokenizer.from_pretrained(current_model_id)

model = AutoModelForCausalLM.from_pretrained(
    current_model_id,
    dtype=torch.float16,
    device_map="auto",
    low_cpu_mem_usage=True
)

load_time = time.time() - start_time
print(f"Mod√®le charg√© en {load_time:.2f} secondes")

num_params = sum(p.numel() for p in model.parameters())
print(f"Nombre de param√®tres : {num_params / 1e9:.2f}B")

‚è≥ Chargement du mod√®le mistralai/Mistral-7B-v0.1...


tokenizer_config.json:   0%|          | 0.00/996 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.94G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/116 [00:00<?, ?B/s]



‚úÖ Mod√®le charg√© en 329.17 secondes
üìä Nombre de param√®tres : 7.24B


---
# TEST 1 : G√©n√©ration de texte simple

## Objectif
Tester la capacit√© du mod√®le √† compl√©ter un prompt de mani√®re coh√©rente.

## Fonctionnement
1. On donne un d√©but de phrase au mod√®le
2. Le mod√®le g√©n√®re la suite mot par mot
3. On observe la qualit√© et la coh√©rence du texte g√©n√©r√©

## Param√®tres de g√©n√©ration :
- `max_new_tokens` : Nombre maximum de mots √† g√©n√©rer
- `temperature` : Contr√¥le la cr√©ativit√© (0.7 = √©quilibr√©)
- `top_p` : √âchantillonnage nucleus (0.9 = vari√©t√©)
- `do_sample` : Active l'√©chantillonnage (plus cr√©atif)

In [None]:
def test_generation_simple(prompt: str, max_tokens: int = 100):
    """Teste la g√©n√©ration de texte simple."""
    print("="*70)
    print("TEST DE G√âN√âRATION SIMPLE")
    print("="*70)
    print(f"\nPrompt : {prompt}\n")

    inputs = tokenizer(prompt, return_tensors="pt").to(device)

    start_time = time.time()

    outputs = model.generate(
        **inputs,
        max_new_tokens=max_tokens,
        temperature=0.7,
        top_p=0.9,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id
    )

    generation_time = time.time() - start_time

    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

    print(f"R√©ponse du mod√®le :\n{generated_text}\n")
    print(f"Temps de g√©n√©ration : {generation_time:.2f}s")
    print(f"Vitesse : {max_tokens/generation_time:.2f} tokens/s")
    print("="*70)

    return generated_text, generation_time

### Ex√©cution du test avec diff√©rents prompts

Testez plusieurs types de prompts pour voir comment le mod√®le se comporte.

In [None]:
# Exemple 1 : Compl√©tion cr√©ative
test_generation_simple(
    "Once upon a time, in a faraway kingdom,",
    max_tokens=80
)

üìù TEST DE G√âN√âRATION SIMPLE

üí≠ Prompt : Once upon a time, in a faraway kingdom,

ü§ñ R√©ponse du mod√®le :
Once upon a time, in a faraway kingdom, there was a beautiful princess who had a problem.

Every night, when she was supposed to be sleeping, she would wake up and wander around the palace.

She would walk down long hallways, climb up the grand staircase, and even sneak into the kitchen to taste the food.

But no matter how much she tried, she just couldn‚Äôt sleep.

‚è±Ô∏è Temps de g√©n√©ration : 27.94s
üöÄ Vitesse : 2.86 tokens/s


('Once upon a time, in a faraway kingdom, there was a beautiful princess who had a problem.\n\nEvery night, when she was supposed to be sleeping, she would wake up and wander around the palace.\n\nShe would walk down long hallways, climb up the grand staircase, and even sneak into the kitchen to taste the food.\n\nBut no matter how much she tried, she just couldn‚Äôt sleep.',
 27.935600996017456)

In [None]:
# Exemple 2 : Explication technique
test_generation_simple(
    "L'intelligence artificielle est",
    max_tokens=100
)

üìù TEST DE G√âN√âRATION SIMPLE

üí≠ Prompt : L'intelligence artificielle est

ü§ñ R√©ponse du mod√®le :
L'intelligence artificielle est l'une des technologies les plus prometteuses de notre temps. Elle a d√©j√† fait son apparition dans plusieurs domaines, tels que le commerce √©lectronique, la sant√© et l'√©ducation.

Mais elle peut aussi √™tre utilis√©e pour des fins plus malveillantes, telles que la propagande ou la manipulation de l'opinion publique. C'est pourquoi il est important de comprendre comment fonction

‚è±Ô∏è Temps de g√©n√©ration : 33.16s
üöÄ Vitesse : 3.02 tokens/s


("L'intelligence artificielle est l'une des technologies les plus prometteuses de notre temps. Elle a d√©j√† fait son apparition dans plusieurs domaines, tels que le commerce √©lectronique, la sant√© et l'√©ducation.\n\nMais elle peut aussi √™tre utilis√©e pour des fins plus malveillantes, telles que la propagande ou la manipulation de l'opinion publique. C'est pourquoi il est important de comprendre comment fonction",
 33.16127371788025)

---
# TEST 2 : Conversation avec prompt syst√®me

## Objectif
Tester la capacit√© du mod√®le √† suivre des instructions et √† r√©pondre dans un format conversationnel.

## Structure d'une conversation :
1. **System prompt** : Instructions sur le comportement du mod√®le
2. **User message** : La question ou requ√™te de l'utilisateur
3. **Assistant response** : La r√©ponse g√©n√©r√©e par le mod√®le

Le prompt syst√®me d√©finit la "personnalit√©" du mod√®le, similaire √† ChatGPT.

In [None]:
def test_conversation(system_prompt: str, user_message: str, max_tokens: int = 150):
    """Teste le mod√®le avec un prompt syst√®me et un message utilisateur."""
    print("="*70)
    print("TEST DE CONVERSATION AVEC PROMPT SYST√àME")
    print("="*70)

    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_message}
    ]

    print(f"\nSystem : {system_prompt}")
    print(f"User : {user_message}\n")

    if tokenizer.chat_template is None:
        tokenizer.chat_template = (
            "<s>"
            "[INST] "
            "{% if messages[0]['role'] == 'system' %}"
                "{{ messages[0]['content'] | trim }}\n"
            "{% endif %}"
            "{{ messages[-1]['content'] | trim }} [/INST]"
        )

    if hasattr(tokenizer, 'apply_chat_template'):
        prompt = tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
    else:
        prompt = f"System: {system_prompt}\n\nUser: {user_message}\n\nAssistant:"

    inputs = tokenizer(prompt, return_tensors="pt").to(device)

    start_time = time.time()
    outputs = model.generate(
        **inputs,
        max_new_tokens=max_tokens,
        temperature=0.7,
        top_p=0.9,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id
    )
    generation_time = time.time() - start_time

    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    assistant_response = full_response[len(prompt):].strip()

    print(f"Assistant : {assistant_response}\n")
    print(f"Temps de g√©n√©ration : {generation_time:.2f}s")
    print("="*70)

    return assistant_response, generation_time

### Exemples de conversations

Testez diff√©rents r√¥les et questions pour √©valuer la flexibilit√© du mod√®le.

In [None]:
# Exemple 1 : Assistant p√©dagogique
test_conversation(
    system_prompt="Tu es un assistant p√©dagogique qui explique des concepts complexes de mani√®re simple et accessible.",
    user_message="Qu'est-ce que la perplexit√© en machine learning ?",
    max_tokens=120
)

üí¨ TEST DE CONVERSATION AVEC PROMPT SYST√àME

‚öôÔ∏è System : Tu es un assistant p√©dagogique qui explique des concepts complexes de mani√®re simple et accessible.
üë§ User : Qu'est-ce que la perplexit√© en machine learning ?

ü§ñ Assistant : a perplexit√© est une mesure de l'incertitude ou de l'impr√©visibilit√© de la sortie d'un mod√®le de machine learning.
Elle est calcul√©e en divisant le nombre d'√©chantillons par le logarithme du nombre d'√©chantillons.

Pour illustrer cette id√©e, prenons un exemple o√π nous avons 100 √©chantillons et 2 classes.
La perplexit√© est calcul√©e en divisant 100 par le log

‚è±Ô∏è Temps de g√©n√©ration : 40.81s


("a perplexit√© est une mesure de l'incertitude ou de l'impr√©visibilit√© de la sortie d'un mod√®le de machine learning.\nElle est calcul√©e en divisant le nombre d'√©chantillons par le logarithme du nombre d'√©chantillons.\n\nPour illustrer cette id√©e, prenons un exemple o√π nous avons 100 √©chantillons et 2 classes.\nLa perplexit√© est calcul√©e en divisant 100 par le log",
 40.81255865097046)

In [None]:
# Exemple 2 : Expert technique
test_conversation(
    system_prompt="You are a helpful AI assistant specialized in computer science.",
    user_message="What are the main differences between GPT and BERT architectures?",
    max_tokens=150
)

üí¨ TEST DE CONVERSATION AVEC PROMPT SYST√àME

‚öôÔ∏è System : You are a helpful AI assistant specialized in computer science.
üë§ User : What are the main differences between GPT and BERT architectures?

ü§ñ Assistant : OUT]

GPT and BERT are both neural network-based language models, but they have different architectures and are used for different tasks.

GPT, or Generative Pre-trained Transformer, is an autoregressive language model that is trained on a large amount of text data and can generate new text based on the input it receives. It uses a transformer architecture that allows it to capture long-range dependencies between words in a sentence.

BERT, or Bidirectional Encoder Representations from Transformers, is a pre-trained language representation model that is used for a variety of natural language processing tasks such as question answering, sentiment analysis, and text classification. It

‚è±Ô∏è Temps de g√©n√©ration : 49.73s


('OUT]\n\nGPT and BERT are both neural network-based language models, but they have different architectures and are used for different tasks.\n\nGPT, or Generative Pre-trained Transformer, is an autoregressive language model that is trained on a large amount of text data and can generate new text based on the input it receives. It uses a transformer architecture that allows it to capture long-range dependencies between words in a sentence.\n\nBERT, or Bidirectional Encoder Representations from Transformers, is a pre-trained language representation model that is used for a variety of natural language processing tasks such as question answering, sentiment analysis, and text classification. It',
 49.72596621513367)

---
# TEST 3 : Benchmark de performance (vitesse)

## Objectif
Mesurer pr√©cis√©ment la vitesse de g√©n√©ration du mod√®le.

## M√©triques importantes :
- **Tokens/seconde** : Vitesse de g√©n√©ration
- **Temps de premi√®re r√©ponse** : Latence initiale (time to first token)
- **Temps total** : Dur√©e compl√®te de la g√©n√©ration

Apr√®s compression, on pourra comparer si le mod√®le est devenu plus rapide.

In [None]:
def benchmark_performance(num_runs: int = 5, tokens_to_generate: int = 100):
    """Effectue un benchmark de performance du mod√®le."""
    print("="*70)
    print("BENCHMARK DE PERFORMANCE")
    print("="*70)
    print(f"\nConfiguration : {num_runs} ex√©cutions, {tokens_to_generate} tokens chacune\n")

    prompt = "The quick brown fox jumps over the lazy dog."
    times = []
    tokens_per_second = []

    for i in range(num_runs):
        print(f"Run {i+1}/{num_runs}...", end=" ")

        inputs = tokenizer(prompt, return_tensors="pt").to(device)

        start_time = time.time()

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=tokens_to_generate,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id
            )

        elapsed_time = time.time() - start_time
        times.append(elapsed_time)

        tps = tokens_to_generate / elapsed_time
        tokens_per_second.append(tps)

        print(f"{elapsed_time:.2f}s ({tps:.2f} tokens/s)")

    print(f"\nR√âSULTATS :")
    print(f"  - Temps moyen : {np.mean(times):.3f}s (+/-{np.std(times):.3f}s)")
    print(f"  - Vitesse moyenne : {np.mean(tokens_per_second):.2f} tokens/s")
    print(f"  - Vitesse min : {np.min(tokens_per_second):.2f} tokens/s")
    print(f"  - Vitesse max : {np.max(tokens_per_second):.2f} tokens/s")
    print("="*70)

    return {
        "mean_time": np.mean(times),
        "std_time": np.std(times),
        "mean_tokens_per_sec": np.mean(tokens_per_second),
        "min_tokens_per_sec": np.min(tokens_per_second),
        "max_tokens_per_sec": np.max(tokens_per_second)
    }

### Ex√©cution du benchmark

Lance 5 tests et calcule les statistiques.

In [None]:
benchmark_results = benchmark_performance(num_runs=5, tokens_to_generate=100)

‚è±Ô∏è BENCHMARK DE PERFORMANCE

üìä Configuration : 5 ex√©cutions, 100 tokens chacune

üîÑ Run 1/5... 33.45s (2.99 tokens/s)
üîÑ Run 2/5... 33.14s (3.02 tokens/s)
üîÑ Run 3/5... 32.87s (3.04 tokens/s)
üîÑ Run 4/5... 32.96s (3.03 tokens/s)
üîÑ Run 5/5... 33.01s (3.03 tokens/s)

üìà R√âSULTATS :
  ‚Ä¢ Temps moyen : 33.087s (¬±0.202s)
  ‚Ä¢ Vitesse moyenne : 3.02 tokens/s
  ‚Ä¢ Vitesse min : 2.99 tokens/s
  ‚Ä¢ Vitesse max : 3.04 tokens/s


---
# TEST 4 : Calcul de la perplexit√©

## Qu'est-ce que la perplexit√© ?
La perplexit√© mesure √† quel point le mod√®le est "surpris" par le texte qu'il voit.

- **Perplexit√© basse** (ex: 10-20) = Le mod√®le pr√©dit bien le texte
- **Perplexit√© haute** (ex: 100+) = Le mod√®le est confus

## Formule math√©matique :
$$\text{Perplexity} = \exp\left(\frac{1}{N} \sum_{i=1}^{N} -\log P(w_i | w_1, ..., w_{i-1})\right)$$

En termes simples : c'est l'exponentielle de la perte (loss) moyenne.

## Dataset : WikiText-2
Un dataset standard pour √©valuer les mod√®les de langage, extrait de Wikipedia.

In [None]:
def calculate_perplexity(num_samples: int = 100, max_length: int = 512):
    """Calcule la perplexit√© du mod√®le sur un √©chantillon de WikiText-2."""
    print("="*70)
    print("CALCUL DE LA PERPLEXIT√â SUR WIKITEXT-2")
    print("="*70)

    print("\nChargement du dataset WikiText-2...")
    dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")

    texts = [text for text in dataset["text"] if len(text.strip()) > 50]
    texts = texts[:num_samples]

    print(f"{len(texts)} √©chantillons charg√©s\n")
    print("Calcul en cours...")

    total_loss = 0
    total_tokens = 0

    model.eval()

    with torch.no_grad():
        for i, text in enumerate(texts):
            if (i + 1) % 20 == 0:
                print(f"  - Progression : {i+1}/{len(texts)} √©chantillons")

            encodings = tokenizer(
                text,
                return_tensors="pt",
                truncation=True,
                max_length=max_length
            ).to(device)

            outputs = model(**encodings, labels=encodings["input_ids"])
            loss = outputs.loss

            num_tokens = encodings["input_ids"].size(1)
            total_loss += loss.item() * num_tokens
            total_tokens += num_tokens

    mean_loss = total_loss / total_tokens
    perplexity = np.exp(mean_loss)

    print(f"\nR√âSULTATS :")
    print(f"  - Perte moyenne (loss) : {mean_loss:.4f}")
    print(f"  - Perplexit√© : {perplexity:.2f}")
    print(f"  - Tokens analys√©s : {total_tokens:,}")
    print(f"\nInterpr√©tation :")
    if perplexity < 20:
        print("  Excellente perplexit√©. Le mod√®le pr√©dit tr√®s bien le texte.")
    elif perplexity < 50:
        print("  Bonne perplexit√©. Le mod√®le est performant.")
    elif perplexity < 100:
        print("  Perplexit√© moyenne. Le mod√®le est correct mais pourrait √™tre am√©lior√©.")
    else:
        print("  Perplexit√© √©lev√©e. Le mod√®le a des difficult√©s avec ce texte.")

    print("="*70)

    return {
        "perplexity": perplexity,
        "mean_loss": mean_loss,
        "total_tokens": total_tokens
    }

### Ex√©cution du test de perplexit√©

Note : Ce test prend quelques minutes car il analyse 100 √©chantillons de texte.

In [None]:
perplexity_results = calculate_perplexity(num_samples=100, max_length=512)

üìä CALCUL DE LA PERPLEXIT√â SUR WIKITEXT-2

üì• Chargement du dataset WikiText-2...


README.md: 0.00B [00:00, ?B/s]

wikitext-2-raw-v1/test-00000-of-00001.pa(‚Ä¶):   0%|          | 0.00/733k [00:00<?, ?B/s]

wikitext-2-raw-v1/train-00000-of-00001.p(‚Ä¶):   0%|          | 0.00/6.36M [00:00<?, ?B/s]

wikitext-2-raw-v1/validation-00000-of-00(‚Ä¶):   0%|          | 0.00/657k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/4358 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/36718 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3760 [00:00<?, ? examples/s]

‚úÖ 100 √©chantillons charg√©s

üîÑ Calcul en cours...
  ‚Ä¢ Progression : 20/100 √©chantillons
  ‚Ä¢ Progression : 40/100 √©chantillons
  ‚Ä¢ Progression : 60/100 √©chantillons
  ‚Ä¢ Progression : 80/100 √©chantillons
  ‚Ä¢ Progression : 100/100 √©chantillons

üìà R√âSULTATS :
  ‚Ä¢ Perte moyenne (loss) : 2.1729
  ‚Ä¢ Perplexit√© : 8.78
  ‚Ä¢ Tokens analys√©s : 19,122

üí° Interpr√©tation :
  ‚úÖ Excellente perplexit√© ! Le mod√®le pr√©dit tr√®s bien le texte.


### Ex√©cution de la mesure de latence

In [None]:
def measure_ttft(num_runs: int = 10):
    """Mesure le Time To First Token (TTFT) - latence initiale."""
    print("="*70)
    print("MESURE DE LA LATENCE (TIME TO FIRST TOKEN)")
    print("="*70)
    print(f"\nConfiguration : {num_runs} mesures\n")

    prompt = "The meaning of life is"
    ttft_times = []

    from transformers import TextStreamer

    for i in range(num_runs):
        print(f"Mesure {i+1}/{num_runs}...", end=" ")

        inputs = tokenizer(prompt, return_tensors="pt").to(device)

        start_time = time.time()

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=1,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id
            )

        ttft = time.time() - start_time
        ttft_times.append(ttft)

        print(f"{ttft*1000:.1f}ms")

    mean_ttft = np.mean(ttft_times)
    std_ttft = np.std(ttft_times)
    min_ttft = np.min(ttft_times)
    max_ttft = np.max(ttft_times)

    print(f"\nR√âSULTATS :")
    print(f"  - TTFT moyen : {mean_ttft*1000:.1f}ms (+/-{std_ttft*1000:.1f}ms)")
    print(f"  - TTFT min : {min_ttft*1000:.1f}ms")
    print(f"  - TTFT max : {max_ttft*1000:.1f}ms")

    print(f"\nInterpr√©tation :")
    if mean_ttft < 0.1:
        print("  Excellente latence (< 100ms)")
    elif mean_ttft < 0.5:
        print("  Bonne latence pour un chatbot.")
    elif mean_ttft < 1.0:
        print("  Latence acceptable mais perceptible.")
    else:
        print("  Latence √©lev√©e, l'utilisateur pourrait la remarquer.")

    print("="*70)

    return {
        "mean_ttft_ms": mean_ttft * 1000,
        "std_ttft_ms": std_ttft * 1000,
        "min_ttft_ms": min_ttft * 1000,
        "max_ttft_ms": max_ttft * 1000
    }

In [None]:
ttft_results = measure_ttft(num_runs=10)

‚ö° MESURE DE LA LATENCE (TIME TO FIRST TOKEN)

üìä Configuration : 10 mesures

üîÑ Mesure 1/10... 343.1ms
üîÑ Mesure 2/10... 332.9ms
üîÑ Mesure 3/10... 331.3ms
üîÑ Mesure 4/10... 327.8ms
üîÑ Mesure 5/10... 338.0ms
üîÑ Mesure 6/10... 333.2ms
üîÑ Mesure 7/10... 333.2ms
üîÑ Mesure 8/10... 334.1ms
üîÑ Mesure 9/10... 358.8ms
üîÑ Mesure 10/10... 378.9ms

üìà R√âSULTATS :
  ‚Ä¢ TTFT moyen : 341.1ms (¬±15.1ms)
  ‚Ä¢ TTFT min : 327.8ms
  ‚Ä¢ TTFT max : 378.9ms

üí° Interpr√©tation :
  ‚úÖ Bonne latence pour un chatbot.


---
# TEST 7 : Latence du premier token (TTFT)

## Objectif
Mesurer le temps avant la premi√®re r√©ponse du mod√®le.

## Qu'est-ce que le TTFT ?
**Time To First Token** = Le d√©lai entre l'envoi du prompt et la g√©n√©ration du premier mot.

## Pourquoi c'est important :
- **Exp√©rience utilisateur** : Un TTFT bas = chatbot r√©actif
- **Compression** : Peut r√©duire la latence (mod√®le plus petit = chargement plus rapide)
- **Production** : M√©trique cl√© pour les applications en temps r√©el

## Diff√©rence avec le benchmark de vitesse :
- **TTFT** : Mesure la latence initiale
- **Tokens/sec** : Mesure la vitesse de g√©n√©ration continue

### Ex√©cution des tests de raisonnement

In [None]:
def test_basic_reasoning():
    """Teste les capacit√©s de raisonnement basique du mod√®le."""
    print("="*70)
    print("TEST DE RAISONNEMENT BASIQUE")
    print("="*70)

    test_cases = [
        {
            "category": "Arithm√©tique",
            "question": "What is 2 + 2? Answer with just the number.",
            "expected_keywords": ["4", "four"],
            "max_tokens": 10
        },
        {
            "category": "Arithm√©tique",
            "question": "Calculate: 15 - 7 = ? Give only the result.",
            "expected_keywords": ["8", "eight"],
            "max_tokens": 10
        },
        {
            "category": "Logique",
            "question": "True or False: A cat is an animal.",
            "expected_keywords": ["true", "yes"],
            "max_tokens": 10
        },
        {
            "category": "Logique",
            "question": "Is the sky typically blue? Answer Yes or No.",
            "expected_keywords": ["yes", "true"],
            "max_tokens": 10
        },
        {
            "category": "Classification",
            "question": "Which of these is a fruit: car, apple, or table? Answer in one word.",
            "expected_keywords": ["apple"],
            "max_tokens": 10
        },
        {
            "category": "Compr√©hension",
            "question": "What is the capital of France? One word answer.",
            "expected_keywords": ["paris"],
            "max_tokens": 10
        }
    ]

    results = []
    correct_count = 0

    for i, test in enumerate(test_cases):
        print(f"\n{'='*70}")
        print(f"Question {i+1}/{len(test_cases)} - {test['category']}")
        print(f"{'='*70}")
        print(f"Question: {test['question']}")

        inputs = tokenizer(test['question'], return_tensors="pt").to(device)

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=test['max_tokens'],
                temperature=0.1,
                do_sample=True,
                pad_token_id=tokenizer.eos_token_id
            )

        full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)

        answer = full_response[len(test['question']):].strip().lower()

        is_correct = any(keyword in answer for keyword in test['expected_keywords'])

        print(f"R√©ponse : {answer[:100]}")
        print(f"Attendu : {', '.join(test['expected_keywords'])}")

        if is_correct:
            print(f"Correct")
            correct_count += 1
        else:
            print(f"Incorrect")

        results.append({
            "category": test['category'],
            "question": test['question'],
            "answer": answer,
            "expected": test['expected_keywords'],
            "correct": is_correct
        })

    print(f"\n{'='*70}")
    print(f"R√âSUM√â DES R√âSULTATS")
    print(f"{'='*70}")
    print(f"  - Score : {correct_count}/{len(test_cases)} ({(correct_count/len(test_cases))*100:.1f}%)")

    categories = {}
    for result in results:
        cat = result['category']
        if cat not in categories:
            categories[cat] = {'correct': 0, 'total': 0}
        categories[cat]['total'] += 1
        if result['correct']:
            categories[cat]['correct'] += 1

    print(f"\n  - Par cat√©gorie :")
    for cat, stats in categories.items():
        score = (stats['correct']/stats['total'])*100
        print(f"    - {cat} : {stats['correct']}/{stats['total']} ({score:.0f}%)")

    print("="*70)

    return {
        "score": correct_count,
        "total": len(test_cases),
        "percentage": (correct_count/len(test_cases))*100,
        "details": results
    }

In [None]:
reasoning_results = test_basic_reasoning()

üß† TEST DE RAISONNEMENT BASIQUE

Question 1/6 - Arithm√©tique
‚ùì What is 2 + 2? Answer with just the number.
ü§ñ R√©ponse : what is 2 + 2?
‚úÖ Attendu : 4, four
‚ùå Incorrect

Question 2/6 - Arithm√©tique
‚ùì Calculate: 15 - 7 = ? Give only the result.
ü§ñ R√©ponse : ### guidance

the distribut
‚úÖ Attendu : 8, eight
‚ùå Incorrect

Question 3/6 - Logique
‚ùì True or False: A cat is an animal.
ü§ñ R√©ponse : true or false: a cat is a
‚úÖ Attendu : true, yes
‚úÖ Correct !

Question 4/6 - Logique
‚ùì Is the sky typically blue? Answer Yes or No.
ü§ñ R√©ponse : the sky is blue because of the way
‚úÖ Attendu : yes, true
‚ùå Incorrect

Question 5/6 - Classification
‚ùì Which of these is a fruit: car, apple, or table? Answer in one word.
ü§ñ R√©ponse : the answer is apple.

the
‚úÖ Attendu : apple
‚úÖ Correct !

Question 6/6 - Compr√©hension
‚ùì What is the capital of France? One word answer.
ü§ñ R√©ponse : paris.

what is the capital of france
‚úÖ Attendu : paris
‚úÖ Correct !

üìä 

---
# TEST 6 : Tests de raisonnement basique

## Objectif
√âvaluer les capacit√©s de raisonnement √©l√©mentaire du mod√®le.

## Pourquoi c'est important :
- V√©rifie que la compression ne d√©truit pas les capacit√©s de base
- Plus objectif que la g√©n√©ration cr√©ative (r√©ponses v√©rifiables)
- Facile √† comparer : bonne r√©ponse ou mauvaise r√©ponse

## Types de tests :
1. **Arithm√©tique simple** : Addition, soustraction
2. **Logique de base** : Vrai/Faux, classification
3. **Compr√©hension** : Questions factuelles
4. **Coh√©rence** : R√©ponses contradictoires ou non

### Ex√©cution de la mesure m√©moire

In [None]:
def measure_memory_usage():
    """Mesure l'utilisation de la m√©moire GPU et la taille du mod√®le."""
    print("="*70)
    print("MESURE DE L'UTILISATION M√âMOIRE")
    print("="*70)

    model_size_bytes = sum(p.numel() * p.element_size() for p in model.parameters())
    model_size_gb = model_size_bytes / (1024**3)

    buffer_size_bytes = sum(b.numel() * b.element_size() for b in model.buffers())
    buffer_size_gb = buffer_size_bytes / (1024**3)

    total_size_gb = model_size_gb + buffer_size_gb

    print(f"\nTaille du mod√®le en m√©moire :")
    print(f"  - Param√®tres : {model_size_gb:.3f} GB")
    print(f"  - Buffers : {buffer_size_gb:.3f} GB")
    print(f"  - Total : {total_size_gb:.3f} GB")

    if torch.cuda.is_available():
        gpu_allocated = torch.cuda.memory_allocated() / (1024**3)
        gpu_reserved = torch.cuda.memory_reserved() / (1024**3)
        gpu_total = torch.cuda.get_device_properties(0).total_memory / (1024**3)

        print(f"\nUtilisation GPU :")
        print(f"  - M√©moire allou√©e : {gpu_allocated:.3f} GB")
        print(f"  - M√©moire r√©serv√©e : {gpu_reserved:.3f} GB")
        print(f"  - M√©moire totale : {gpu_total:.2f} GB")
        print(f"  - Utilisation : {(gpu_allocated/gpu_total)*100:.1f}%")

        if gpu_total < 16:
            if gpu_allocated < 12:
                print(f"\n  Compatible Colab Free (< 12 GB utilis√©s)")
            else:
                print(f"\n  Risque pour Colab Free (> 12 GB utilis√©s)")
    else:
        print(f"\nCPU utilis√© - Pas de statistiques GPU")

    disk_size_gb = (num_params * 2) / (1024**3)
    print(f"\nTaille estim√©e sur disque (float16) : {disk_size_gb:.3f} GB")

    print("="*70)

    return {
        "model_size_gb": model_size_gb,
        "total_size_gb": total_size_gb,
        "gpu_allocated_gb": torch.cuda.memory_allocated() / (1024**3) if torch.cuda.is_available() else 0,
        "gpu_reserved_gb": torch.cuda.memory_reserved() / (1024**3) if torch.cuda.is_available() else 0,
        "disk_size_gb": disk_size_gb
    }

In [None]:
memory_results = measure_memory_usage()

üíæ MESURE DE L'UTILISATION M√âMOIRE

üìä Taille du mod√®le en m√©moire :
  ‚Ä¢ Param√®tres : 13.489 GB
  ‚Ä¢ Buffers : 0.000 GB
  ‚Ä¢ Total : 13.489 GB

üñ•Ô∏è Utilisation GPU :
  ‚Ä¢ M√©moire allou√©e : 12.440 GB
  ‚Ä¢ M√©moire r√©serv√©e : 12.701 GB
  ‚Ä¢ M√©moire totale : 14.74 GB
  ‚Ä¢ Utilisation : 84.4%

  ‚ö†Ô∏è Risque pour Colab Free (> 12 GB utilis√©s)

üíø Taille estim√©e sur disque (float16) : 13.489 GB


---
# TEST 5 : Mesure de l'utilisation m√©moire

## Objectif
Mesurer pr√©cis√©ment la m√©moire GPU/RAM utilis√©e par le mod√®le.

## Pourquoi c'est important pour la compression :
- La compression vise souvent √† r√©duire l'empreinte m√©moire
- Permet de voir si le mod√®le tient dans les 15 GB de Colab Free
- M√©trique cl√© pour comparer avant/apr√®s compression

## M√©triques mesur√©es :
- **M√©moire GPU allou√©e** : Espace utilis√© sur la carte graphique
- **M√©moire GPU r√©serv√©e** : Espace total r√©serv√© par PyTorch
- **Taille du mod√®le** : Poids en m√©moire (GB)
- **Taille sur disque** : Espace occup√© si sauvegard√©

---
# R√©sum√© des r√©sultats

Cette cellule affiche un tableau r√©capitulatif de tous les tests effectu√©s.

In [None]:
def display_summary():
    """Affiche un r√©sum√© complet des tests effectu√©s."""
    print("\n" + "="*70)
    print("R√âSUM√â COMPLET DES TESTS")
    print("="*70)
    print(f"\nMod√®le test√© : {current_model_id}")
    print(f"Nombre de param√®tres : {num_params / 1e9:.2f}B")
    print(f"Device : {device}")
    print("\n" + "-"*70)

    if 'benchmark_results' in globals():
        print(f"\nPerformance (vitesse) :")
        print(f"  - Vitesse moyenne : {benchmark_results['mean_tokens_per_sec']:.2f} tokens/s")
        print(f"  - Temps de g√©n√©ration : {benchmark_results['mean_time']:.3f}s")

    if 'ttft_results' in globals():
        print(f"\nLatence (TTFT) :")
        print(f"  - Time to First Token : {ttft_results['mean_ttft_ms']:.1f}ms")

    if 'perplexity_results' in globals():
        print(f"\nQualit√© (perplexit√©) :")
        print(f"  - Perplexit√© : {perplexity_results['perplexity']:.2f}")
        print(f"  - Loss moyenne : {perplexity_results['mean_loss']:.4f}")

    if 'reasoning_results' in globals():
        print(f"\nRaisonnement basique :")
        print(f"  - Score : {reasoning_results['score']}/{reasoning_results['total']} ({reasoning_results['percentage']:.1f}%)")

    if 'memory_results' in globals():
        print(f"\nUtilisation m√©moire :")
        print(f"  - Taille du mod√®le : {memory_results['model_size_gb']:.3f} GB")
        print(f"  - GPU allou√© : {memory_results['gpu_allocated_gb']:.3f} GB")
        print(f"  - Taille sur disque : {memory_results['disk_size_gb']:.3f} GB")

    print("\n" + "="*70)
    print("\nProchaines √©tapes :")
    print("  1. Sauvegarder ces r√©sultats comme baseline")
    print("  2. Appliquer des techniques de compression (quantization, pruning, distillation)")
    print("  3. R√©-ex√©cuter ces tests pour comparer les performances")
    print("  4. Analyser le trade-off : vitesse vs qualit√© vs m√©moire")
    print("="*70)

display_summary()


üìã R√âSUM√â COMPLET DES TESTS

ü§ñ Mod√®le test√© : mistralai/Mistral-7B-v0.1
üìä Nombre de param√®tres : 7.24B
üñ•Ô∏è Device : cuda

----------------------------------------------------------------------

‚è±Ô∏è Performance (vitesse) :
  ‚Ä¢ Vitesse moyenne : 3.02 tokens/s
  ‚Ä¢ Temps de g√©n√©ration : 33.087s

‚ö° Latence (TTFT) :
  ‚Ä¢ Time to First Token : 341.1ms

üìä Qualit√© (perplexit√©) :
  ‚Ä¢ Perplexit√© : 8.78
  ‚Ä¢ Loss moyenne : 2.1729

üß† Raisonnement basique :
  ‚Ä¢ Score : 3/6 (50.0%)

üíæ Utilisation m√©moire :
  ‚Ä¢ Taille du mod√®le : 13.489 GB
  ‚Ä¢ GPU allou√© : 12.440 GB
  ‚Ä¢ Taille sur disque : 13.489 GB


üí° Prochaines √©tapes :
  1. Sauvegarder ces r√©sultats comme baseline
  2. Appliquer des techniques de compression (quantization, pruning, distillation)
  3. R√©-ex√©cuter ces tests pour comparer les performances
  4. Analyser le trade-off : vitesse vs qualit√© vs m√©moire


---
# Tester un autre mod√®le

Pour tester un autre mod√®le, revenez √† la cellule "Configuration des mod√®les" et changez le mod√®le s√©lectionn√©, puis r√©-ex√©cutez les cellules suivantes.

---
# Sauvegarde des r√©sultats

Optionnel : Sauvegardez vos r√©sultats dans un fichier JSON pour comparaison future.

In [None]:
import json
from datetime import datetime

def save_results(filename="llm_test_results.json"):
    """Sauvegarde les r√©sultats des tests dans un fichier JSON."""
    results = {
        "model_id": current_model_id,
        "num_parameters": num_params,
        "device": device,
        "timestamp": datetime.now().isoformat(),
        "benchmark": benchmark_results if 'benchmark_results' in globals() else None,
        "ttft": ttft_results if 'ttft_results' in globals() else None,
        "perplexity": perplexity_results if 'perplexity_results' in globals() else None,
        "reasoning": reasoning_results if 'reasoning_results' in globals() else None,
        "memory": memory_results if 'memory_results' in globals() else None
    }

    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(results, f, indent=2, ensure_ascii=False)

    print(f"R√©sultats sauvegard√©s dans {filename}")

save_results()

‚úÖ R√©sultats sauvegard√©s dans llm_test_results.json


---
# Ressources suppl√©mentaires

## Pour aller plus loin :

### Techniques de compression de LLM :
1. **Quantization** : R√©duire la pr√©cision des poids (float16 vers int8 vers int4)
2. **Pruning** : Supprimer les connexions peu importantes
3. **Knowledge Distillation** : Entra√Æner un petit mod√®le √† imiter un grand
4. **Low-Rank Factorization** : D√©composer les matrices en matrices plus petites

### Biblioth√®ques utiles :
- **bitsandbytes** : Quantization facile
- **GPTQ** : Quantization post-training
- **GGML/llama.cpp** : Ex√©cution optimis√©e sur CPU

### Autres m√©triques √† explorer :
- **BLEU, ROUGE** : Qualit√© de la g√©n√©ration
- **Benchmarks acad√©miques** : MMLU, HellaSwag, TruthfulQA
- **Taille du mod√®le** : M√©moire occup√©e (GB)
- **√ânergie consomm√©e** : Impact environnemental