<a href="https://colab.research.google.com/github/RMoulla/SSL/blob/main/Fine_tuning_BERT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TP : Fine-tuning de BERT pour la classification de textes

Ce TP a pour objectif d'illustrer l'utilisation de BERT pour une tâche de classification de textes en utilisant le transfer learning. Nous utiliserons le dataset AG News qui contient des articles de presse à classifier en 4 catégories.


In [None]:
!pip install torch transformers datasets tqdm

Collecting datasets
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec (from torch)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.1.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m12.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl (179 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

## 1. Préparation de l'environnement

Commençons par importer les bibliothèques nécessaires et vérifier notre environnement d'exécution.


In [None]:
# Cellule 1 : Imports et setup
import torch
from torch import nn
from datasets import load_dataset
from transformers import BertTokenizer, BertModel
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Vérification du GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Device utilisé : {device}")


## 2. Exploration et visualisation des données

Explorons maintenant le dataset AG News pour comprendre sa structure et sa distribution.


In [None]:
# Chargement du dataset AG News
dataset = load_dataset("ag_news")
print("Structure du dataset :")
print(dataset)

# Affichage de quelques exemples
print("\nExemples du dataset :")
for i in range(3):
    print(f"\nExemple {i+1}:")
    print(f"Texte : {dataset['train'][i]['text']}")
    print(f"Label : {dataset['train'][i]['label']}")

# Statistiques sur les labels
labels = [x['label'] for x in dataset['train']]
unique, counts = np.unique(labels, return_counts=True)
print("\nDistribution des classes :")
for label, count in zip(unique, counts):
    print(f"Classe {label}: {count} exemples")

# Visualisation de la distribution
plt.figure(figsize=(10, 6))
sns.countplot(x=labels)
plt.title("Distribution des classes dans le jeu d'entraînement")
plt.xlabel("Classe")
plt.ylabel("Nombre d'exemples")
plt.show()


## 3. Tokenization avec BERT

La tokenization est une étape cruciale dans le traitement du texte avec BERT. Nous allons explorer comment BERT découpe le texte en tokens.


In [None]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Exemple de tokenization
text = "Hello! How are you doing? 😊"
tokens = tokenizer.tokenize(text)
print(f"Texte original : {text}")
print(f"Tokens : {tokens}")

# Conversion en IDs
input_ids = tokenizer.encode(text, add_special_tokens=True)
print(f"\nInput IDs : {input_ids}")
print(f"Tokens décodés : {tokenizer.convert_ids_to_tokens(input_ids)}")

# Preprocessing
encoding = tokenizer.encode_plus(
    text,
    add_special_tokens=True,
    max_length=32,
    padding='max_length',
    truncation=True,
    return_attention_mask=True,
    return_tensors='pt'
)

print("\nSortie complete du tokenizer :")
print(f"Input IDs shape : {encoding['input_ids'].shape}")
print(f"Attention mask shape : {encoding['attention_mask'].shape}")
print(f"Attention mask : {encoding['attention_mask'][0]}")

## 4. Préparation des données

Création d'un Dataset personnalisé pour gérer nos données efficacement.

In [None]:
class AGNewsDataset(Dataset):
    def __init__(self, split, tokenizer, max_len=128):
        self.dataset = load_dataset("ag_news")[split]
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        text = str(self.dataset[idx]['text'])
        label = self.dataset[idx]['label']

        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            return_token_type_ids=False,
            truncation=True,
            padding='max_length',
            return_attention_mask=True,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }



## 5. Architecture du modèle

Définition de notre modèle de classification basé sur BERT.
Points clés de l'architecture :
- Utilisation de BERT pré-entraîné comme base
- Ajout d'une couche de classification
- Gel des paramètres de BERT pour le transfer learning

In [None]:
class BERTClassifier(nn.Module):
    def __init__(self, num_classes=4, freeze_bert=True):
        super(BERTClassifier, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')

        ############# Code ##############


        #################################

        if freeze_bert:
            for param in self.bert.parameters():
                param.requires_grad = False

    def forward(self, input_ids, attention_mask):

        ############# Code ##############


        #################################



# Création du modèle et analyse des paramètres
model = BERTClassifier(num_classes=4, freeze_bert=True)

# Analyse des paramètres
        ############# Code ##############


        #################################

print("Analyse des paramètres du modèle :")
print(f"Paramètres totaux : {total_params:,}")
print(f"Paramètres entraînables : {trainable_params:,}")
print(f"Paramètres gelés : {frozen_params:,}")

## 6. Fonctions d'entraînement et d'évaluation

Implémentation des fonctions nécessaires pour l'entraînement et l'évaluation du modèle.
Ces fonctions orchestrent :
- L'entraînement par batch
- Le calcul de la loss et de l'accuracy
- L'évaluation sur le jeu de test
- L'affichage de la progression

In [None]:
def train_epoch(model, data_loader, criterion, optimizer, device):
    model.train()
    total_loss = 0
    correct_predictions = 0
    total_predictions = 0

    progress_bar = tqdm(data_loader, desc='Training')
    for batch in progress_bar:
        ############# Code ##############


        #################################

    return total_loss / len(data_loader), correct_predictions / total_predictions

def evaluate(model, data_loader, criterion, device):
    model.eval()
    total_loss = 0
    correct_predictions = 0
    total_predictions = 0
    all_predictions = []
    all_labels = []

    with torch.no_grad():
        for batch in data_loader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            outputs = model(input_ids=input_ids, attention_mask=attention_mask)
            loss = criterion(outputs, labels)

            _, predictions = torch.max(outputs, dim=1)
            all_predictions.extend(predictions.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())

            correct_predictions += (predictions == labels).sum().item()
            total_predictions += labels.shape[0]
            total_loss += loss.item()

    return (total_loss / len(data_loader),
            correct_predictions / total_predictions,
            all_predictions,
            all_labels)

## 7. Entraînement du modèle

In [None]:
BATCH_SIZE = 32
EPOCHS = 3
LEARNING_RATE = 2e-5

# Création des dataloaders
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_dataset = AGNewsDataset('test', tokenizer, max_len=128)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE)

# Préparation du modèle
model = model.to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=LEARNING_RATE)

# Suivi des métriques
history = {
    'train_loss': [], 'train_acc': [],
    'test_loss': [], 'test_acc': []
}

# Entraînement
for epoch in range(EPOCHS):
    print(f'\nEpoch {epoch + 1}/{EPOCHS}')

    ############# Code ##############


    #################################

## 8. Analyse des résultats

Visualisation et analyse des performances du modèle.
Cette section nous permet de :
- Visualiser les courbes d'apprentissage
- Analyser la matrice de confusion
- Identifier les forces et faiblesses du modèle

In [None]:
# Courbes d'apprentissage
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.plot(history['train_loss'], label='Train')
plt.plot(history['test_loss'], label='Test')
plt.title('Loss au cours des époques')
plt.xlabel('Époque')
plt.ylabel('Loss')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(history['train_acc'], label='Train')
plt.plot(history['test_acc'], label='Test')
plt.title('Accuracy au cours des époques')
plt.xlabel('Époque')
plt.ylabel('Accuracy')
plt.legend()

plt.tight_layout()
plt.show()

# Matrice de confusion
from sklearn.metrics import confusion_matrix
import seaborn as sns

cm = confusion_matrix(labels, predictions)
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matrice de confusion')
plt.xlabel('Prédictions')
plt.ylabel('Vraies classes')
plt.show()


## 9. Test sur des exemples réels

Utilisation du modèle entraîné sur de nouveaux exemples.
Testez le modèle avec vos propres textes pour évaluer ses performances dans des conditions réelles.


In [None]:
class_names = ['World', 'Sports', 'Business', 'Sci/Tech']
test_texts = [
    "NASA successfully launches new Mars rover to explore the red planet",
    "Manchester United wins dramatic match against Liverpool",
    "Apple stock reaches all-time high after strong quarterly earnings",
    "New study reveals breakthrough in quantum computing research"
]

############# Code ##############


#################################