# üöÄ Classification de Texte avec Hugging Face Transformers

Ce notebook pr√©sente un pipeline complet de **classification de texte** utilisant **DistilBERT** et la biblioth√®que **Transformers** de Hugging Face.

## üìã Table des Mati√®res
1. [Installation des D√©pendances](#dependencies)
2. [Chargement du Dataset AG News](#dataset)
3. [Justification du Choix du Mod√®le](#model-choice)
4. [Tokenisation des Donn√©es](#tokenization)
5. [Fine-tuning du Mod√®le](#training)
6. [√âvaluation des Performances](#evaluation)
7. [Sauvegarde du Mod√®le](#save)
8. [Tests de Pr√©diction](#prediction)

## üéØ Objectif
D√©velopper un classifieur de texte capable de **cat√©goriser automatiquement des articles de presse** en 4 cat√©gories : World, Sports, Business, et Sci/Tech.

## üìä R√©sultats Attendus
- **üéØ Accuracy**: ~92% sur le jeu de test
- **üìà Dataset**: AG News (127,600 articles)
- **üèóÔ∏è Architecture**: DistilBERT fine-tun√©
- **‚ö° Temps d'entra√Ænement**: ~10 epochs

---

## 1. Installation des D√©pendances {#dependencies}


In [9]:
# Installation des biblioth√®ques Hugging Face et de scikit-learn pour l'√©valuation
!pip install -q datasets transformers torch scikit-learn

print("‚úÖ Biblioth√®ques install√©es.")

‚úÖ Biblioth√®ques install√©es.


In [10]:
!pip install --upgrade datasets transformers huggingface-hub



## 2. Chargement du Dataset AG News {#dataset}

### üì∞ √Ä Propos d'AG News
Le dataset **AG News** est un benchmark populaire pour la classification de texte :

- **üìä Taille**: 127,600 articles de presse
- **üìã Classes**: 4 cat√©gories d'actualit√©s
- **üéØ Task**: Classification multi-classe
- **üìà Split**: 120K train / 7.6K test

### üè∑Ô∏è Classes Disponibles:
1. **World** (0) - Actualit√©s mondiales
2. **Sports** (1) - Actualit√©s sportives  
3. **Business** (2) - Actualit√©s √©conomiques
4. **Sci/Tech** (3) - Sciences et technologie


In [11]:
from datasets import load_dataset

# Chargement du jeu de donn√©es AG News
try:
    raw_datasets = load_dataset("ag_news")
    print("‚úÖ Jeu de donn√©es 'ag_news' charg√© avec succ√®s.")
    print("\nStructure du jeu de donn√©es :")
    print(raw_datasets)

    # Affichage d'un exemple pour comprendre la structure
    print("\n--- Exemple de donn√©e (train) ---")
    example = raw_datasets['train'][0]
    print(example)

    # Les labels sont des entiers, cr√©ons un mappage pour la lisibilit√©
    label_names = raw_datasets['train'].features['label'].names
    print(f"\nLabels : {list(enumerate(label_names))}")
    print(f"Texte : '{example['text']}'")
    print(f"Label : {example['label']} ({label_names[example['label']]})")

except Exception as e:
    print(f"‚ùå Erreur lors du chargement du jeu de donn√©es : {e}")
    print("Il est possible que le service Hugging Face Hub soit temporairement indisponible.")

‚úÖ Jeu de donn√©es 'ag_news' charg√© avec succ√®s.

Structure du jeu de donn√©es :
DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 120000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 7600
    })
})

--- Exemple de donn√©e (train) ---
{'text': "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.", 'label': 2}

Labels : [(0, 'World'), (1, 'Sports'), (2, 'Business'), (3, 'Sci/Tech')]
Texte : 'Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics, are seeing green again.'
Label : 2 (Business)


Justification du Choix du Mod√®le : DistilBERT
Pour cette t√¢che, nous allons choisir distilbert-base-uncased. C'est un choix strat√©gique pour plusieurs raisons :

Efficacit√© : DistilBERT est une version "distill√©e" de BERT. Il est environ 60% plus rapide et plus l√©ger que BERT, tout en conservant plus de 95% de ses performances.
Adapt√© √† Colab : Sa l√©g√®ret√© le rend id√©al pour un fine-tuning sur des ressources limit√©es comme celles de Google Colab, permettant des it√©rations plus rapides.
Performance : Il offre un excellent compromis entre vitesse et pr√©cision pour les t√¢ches de classification de texte.

## 4. Tokenisation des Donn√©es {#tokenization}

### üî§ Processus de Tokenisation

La tokenisation transforme le texte brut en tokens num√©riques compr√©hensibles par le mod√®le :

#### üîß √âtapes de Tokenisation:
1. **Segmentation**: Division en sous-mots (WordPiece)
2. **Mapping**: Conversion en IDs num√©riques
3. **Padding**: Uniformisation de la longueur
4. **Truncation**: Limitation √† 512 tokens max

#### ‚öôÔ∏è Configuration:
- **Tokenizer**: `distilbert-base-uncased`
- **Max Length**: 512 tokens
- **Padding**: Dynamique √† la longueur max du batch
- **Truncation**: Activ√©e pour les textes longs


In [12]:
from transformers import AutoTokenizer

# Chargement du tokenizer associ√© √† DistilBERT
model_checkpoint = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

# Fonction pour tokeniser les textes
def tokenize_function(examples):
    # padding=True et truncation=True assurent que toutes les s√©quences ont la m√™me longueur
    return tokenizer(examples["text"], padding="max_length", truncation=True)

# Appliquer la fonction de tokenisation √† l'ensemble du jeu de donn√©es
# batched=True permet de traiter les donn√©es par lots pour plus de rapidit√©
print("üîÑ Tokenisation des donn√©es en cours...")
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
print("‚úÖ Donn√©es tokenis√©es.")

# On peut retirer la colonne "text" qui n'est plus n√©cessaire et renommer "label" en "labels"
tokenized_datasets = tokenized_datasets.remove_columns(["text"])
tokenized_datasets.set_format("torch")

# Cr√©ation de sous-ensembles pour un entra√Ænement plus rapide
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(10000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

üîÑ Tokenisation des donn√©es en cours...


Map:   0%|          | 0/7600 [00:00<?, ? examples/s]

‚úÖ Donn√©es tokenis√©es.


## 5. Fine-tuning du Mod√®le {#training}

### üéØ Configuration d'Entra√Ænement

#### ‚öôÔ∏è Hyperparam√®tres:
- **Learning Rate**: 2e-5 (recommand√© pour BERT-family)
- **Batch Size**: 16 (train) / 16 (eval)
- **Epochs**: 10 (avec early stopping)
- **Weight Decay**: 0.01 (r√©gularisation L2)
- **Optimizer**: AdamW (optimiseur par d√©faut)

#### üìä Strat√©gie d'Entra√Ænement:
1. **Subset Training**: 10K √©chantillons (entra√Ænement rapide)
2. **√âvaluation**: 1K √©chantillons de validation
3. **Monitoring**: Loss de validation √† chaque epoch
4. **Sauvegarde**: Meilleur mod√®le automatiquement sauv√©

### üöÄ Avantages du Fine-tuning:
- **Transfer Learning**: Exploitation des connaissances pr√©-acquises
- **Adaptation**: Sp√©cialisation sur le domaine des actualit√©s
- **Efficacit√©**: Moins de donn√©es requises qu'un entra√Ænement from scratch


In [13]:
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer

# Chargement du mod√®le pr√©-entra√Æn√©, en sp√©cifiant le nombre de classes (4 pour AG News)
# Assurez-vous que la variable 'model_checkpoint' est bien d√©finie (ex: "distilbert-base-uncased")
# et que 'small_train_dataset' et 'small_eval_dataset' existent.

model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=4)

# D√©finition des arguments pour l'entra√Ænement
training_args = TrainingArguments(
    output_dir="Pipeline-Classification-MLOps/models/huggingFace/results",

    # --- CORRECTION APPLIQU√âE ICI ---
    eval_strategy="epoch", # Remplacement de "evaluation_strategy" par "eval_strategy"
    # ---------------------------------

    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01,
    logging_dir='/content/drive/MyDrive/TP/huginface/logs',
    report_to="none"
)

# Cr√©ation de l'objet Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
)

# Lancement du fine-tuning
print("\nüöÄ D√©but du fine-tuning...")
trainer.train()
print("‚úÖ Fine-tuning termin√©.")

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



üöÄ D√©but du fine-tuning...


Epoch,Training Loss,Validation Loss
1,0.4246,0.284693
2,0.2446,0.296621
3,0.1925,0.311361
4,0.0932,0.360529
5,0.0581,0.39359
6,0.0512,0.447178
7,0.0223,0.479264
8,0.0126,0.521314
9,0.0081,0.528451
10,0.0051,0.537483


‚úÖ Fine-tuning termin√©.


## 6. √âvaluation des Performances {#evaluation}

### üìä M√©triques d'√âvaluation

Nous utilisons plusieurs m√©triques pour √©valuer la performance de notre mod√®le :

#### üéØ M√©triques Principales:
- **Accuracy**: Pourcentage de pr√©dictions correctes
- **Precision**: Exactitude des pr√©dictions positives
- **Recall**: Capacit√© √† identifier tous les cas positifs
- **F1-Score**: Moyenne harmonique de Precision et Recall

#### üìà R√©sultats Attendus:
- **Accuracy globale**: ~92%
- **Performance par classe**: √âquilibr√©e entre les 4 cat√©gories
- **Meilleure classe**: Sports (textes distinctifs)
- **Plus difficile**: Business vs World (overlap possible)


In [14]:
import numpy as np
from sklearn.metrics import classification_report

print("\nüìä √âvaluation des performances sur l'ensemble de test...")

# Obtenir les pr√©dictions du mod√®le sur le jeu de test
predictions = trainer.predict(small_eval_dataset)
predicted_labels = np.argmax(predictions.predictions, axis=1)
true_labels = small_eval_dataset["label"]

# Afficher le rapport de classification
print("\n--- Rapport de Classification ---")
print(classification_report(true_labels, predicted_labels, target_names=label_names))


üìä √âvaluation des performances sur l'ensemble de test...



--- Rapport de Classification ---
              precision    recall  f1-score   support

       World       0.96      0.91      0.93       266
      Sports       0.98      0.99      0.98       246
    Business       0.89      0.87      0.88       246
    Sci/Tech       0.84      0.89      0.86       242

    accuracy                           0.92      1000
   macro avg       0.92      0.92      0.91      1000
weighted avg       0.92      0.92      0.92      1000



## 7. Sauvegarde du Mod√®le {#save}

### üíæ Strat√©gie de Sauvegarde

Le mod√®le et le tokenizer sont sauvegard√©s ensemble pour assurer la reproductibilit√© :

#### üîß √âl√©ments Sauvegard√©s:
- **Mod√®le DistilBERT** fine-tun√© (.bin)
- **Tokenizer** avec vocabulaire (.json)
- **Configuration** du mod√®le (.json)
- **M√©tadonn√©es** d'entra√Ænement

#### üìÅ Structure de Sauvegarde:
```
Pipeline-Classification-MLOps/models/huggingFace/
‚îî‚îÄ‚îÄ text-classifier-ag-news-distilbert/
    ‚îú‚îÄ‚îÄ config.json
    ‚îú‚îÄ‚îÄ pytorch_model.bin
    ‚îú‚îÄ‚îÄ tokenizer_config.json
    ‚îú‚îÄ‚îÄ tokenizer.json
    ‚îî‚îÄ‚îÄ vocab.txt
```


In [15]:
# D√©finition du dossier de sauvegarde
output_model_dir = "Pipeline-Classification-MLOps/models/huggingFace/text-classifier-ag-news-distilbert"

# Sauvegarde du mod√®le et du tokenizer
trainer.save_model(output_model_dir)
tokenizer.save_pretrained(output_model_dir)

print(f"\n‚úÖ Mod√®le et tokenizer sauvegard√©s dans le dossier : '{output_model_dir}'")


‚úÖ Mod√®le et tokenizer sauvegard√©s dans le dossier : '/content/drive/MyDrive/TP/huginface/text-classifier-ag-news-distilbert'


## 8. Tests de Pr√©diction en Production {#prediction}

### üß™ Suite de Tests Compl√®te

Cette section valide les performances du mod√®le sur diff√©rents types de textes :

#### üéØ Types de Tests:

1. **Tests Simples** üü¢
   - Textes √©vidents pour chaque cat√©gorie
   - Validation des cas d'usage basiques

2. **Tests Ambigus** üü°
   - Articles avec √©l√©ments de plusieurs cat√©gories
   - Test de la robustesse du mod√®le

3. **Tests Hors Distribution** üî¥
   - Textes non-journalistiques (cuisine, etc.)
   - √âvaluation de la g√©n√©ralisation

#### üìä M√©triques de Confiance:
- **Tr√®s Haute** (>95%): Pr√©diction fiable
- **Haute** (80-95%): Pr√©diction probable
- **Mod√©r√©e** (60-80%): Incertitude du mod√®le
- **Faible** (<60%): Pr√©diction peu fiable

### üéØ Objectifs des Tests:
- V√©rifier la **robustesse** du mod√®le
- Identifier les **cas limites**
- Tester la **g√©n√©ralisation** hors domaine


In [16]:
import torch
import os
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# --- Configuration ---
# MODIFIEZ CE NOM si votre dossier de mod√®le est diff√©rent
MODEL_DIR = "Pipeline-Classification-MLOps/models/huggingFace/text-classifier-ag-news-distilbert"

# Les noms des classes dans l'ordre de leur index (0, 1, 2, 3)
CLASS_NAMES = ['World', 'Sports', 'Business', 'Sci/Tech']

# --- Phrases de test ---
test_sentences = {
    "Cas Simple (Sport)": "The team won the championship final after a thrilling match.",
    "Cas Simple (Business)": "The company's stock price surged after announcing record profits for the quarter.",
    "Cas Simple (Sci/Tech)": "Researchers have developed a new AI that can write compelling short stories.",
    "Cas Ambigu (Sport/Business/Tech)": "Formula 1 announced new engine regulations powered by sustainable fuels to reduce costs.",
    "Cas Hors Distribution (Cuisine)": "The recipe for this cake requires two cups of flour and a pinch of salt."
}


def predict(text, model, tokenizer):
    """
    Effectue une pr√©diction sur une seule cha√Æne de caract√®res.
    """
    # 1. Tokeniser le texte d'entr√©e
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)

    # 2. Effectuer la pr√©diction
    with torch.no_grad():
        logits = model(**inputs).logits

    # 3. Interpr√©ter les r√©sultats
    # Appliquer Softmax pour convertir les logits en probabilit√©s
    probabilities = torch.nn.functional.softmax(logits, dim=-1)

    # Obtenir la classe pr√©dite et la confiance
    confidence, predicted_class_idx = torch.max(probabilities, dim=-1)
    predicted_class = CLASS_NAMES[predicted_class_idx.item()]

    return predicted_class, confidence.item()


def main():
    """
    Fonction principale pour charger le mod√®le et lancer les tests.
    """
    print(f"--- D√©but du test pour le mod√®le : {MODEL_DIR} ---")

    # 1. V√©rifier si le dossier du mod√®le existe
    if not os.path.exists(MODEL_DIR):
        print(f"‚ùå Erreur : Le dossier du mod√®le '{MODEL_DIR}' n'a pas √©t√© trouv√©.")
        return

    # 2. Charger le mod√®le et le tokenizer sauvegard√©s
    try:
        print("üîÑ Chargement du mod√®le et du tokenizer...")
        model = AutoModelForSequenceClassification.from_pretrained(MODEL_DIR)
        tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR)
        print("‚úÖ Mod√®le et tokenizer charg√©s avec succ√®s.")
        # Mettre le mod√®le en mode √©valuation
        model.eval()
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement : {e}")
        return

    # 3. Lancer les tests sur les diff√©rentes phrases
    for test_name, sentence in test_sentences.items():
        print("-" * 40)
        print(f"üî¨ Test en cours : {test_name}")
        print(f"   Texte : \"{sentence}\"")

        predicted_class, confidence = predict(sentence, model, tokenizer)

        print("\n--- R√âSULTAT DE LA PR√âDICTION ---")
        print(f"üéØ Classe pr√©dite : {predicted_class}")
        print(f"üíØ Confiance : {confidence:.2%}")
    print("-" * 40)


if __name__ == "__main__":
    main()

--- D√©but du test pour le mod√®le : /content/drive/MyDrive/TP/huginface/text-classifier-ag-news-distilbert ---
üîÑ Chargement du mod√®le et du tokenizer...
‚úÖ Mod√®le et tokenizer charg√©s avec succ√®s.
----------------------------------------
üî¨ Test en cours : Cas Simple (Sport)
   Texte : "The team won the championship final after a thrilling match."

--- R√âSULTAT DE LA PR√âDICTION ---
üéØ Classe pr√©dite : Sports
üíØ Confiance : 99.96%
----------------------------------------
üî¨ Test en cours : Cas Simple (Business)
   Texte : "The company's stock price surged after announcing record profits for the quarter."

--- R√âSULTAT DE LA PR√âDICTION ---
üéØ Classe pr√©dite : Business
üíØ Confiance : 99.95%
----------------------------------------
üî¨ Test en cours : Cas Simple (Sci/Tech)
   Texte : "Researchers have developed a new AI that can write compelling short stories."

--- R√âSULTAT DE LA PR√âDICTION ---
üéØ Classe pr√©dite : Sci/Tech
üíØ Confiance : 99.91%
---------