# **Exercice : Résumer un Document avec un LLM de Hugging Face**

Dans cet exercice, vous utiliserez un modèle de langage de grande taille (LLM) pour **résumer automatiquement un document**.
L'objectif est d'extraire les informations clés d'un texte long tout en explorant les étapes nécessaires pour cette tâche NLP.

### **Contexte**
Un résumé automatique est une tâche courante dans le traitement du langage naturel (NLP). Vous utiliserez ici la bibliothèque **Hugging Face Transformers** et un modèle pré-entraîné optimisé pour cette tâche, `facebook/bart-large-cnn`.


### **Objectifs**
- Comprendre comment utiliser un pipeline Hugging Face pour effectuer une tâche NLP spécifique.
- Identifier les étapes nécessaires pour transformer un texte brut en résumé.
- Manipuler les paramètres pour ajuster les résultats.

### **Étapes à Compléter**

1. **Charger le Modèle** :
   - Utilisez le pipeline Hugging Face pour le résumé (`summarization`).
   - Quel modèle choisiriez-vous et pourquoi ce choix ?

2. **Configurer les Paramètres** :
   - Comment contrôler la longueur du résumé ?
   - Quels autres paramètres influencent la qualité des résultats ?

3. **Analyser le Texte à Résumer** :
   - Testez le modèle sur un exemple de texte.
   - Comment évaluer la pertinence du résumé généré ?


In [1]:
# Étape 1 : Importer les bibliothèques nécessaires
from transformers import pipeline

# Étape 2 : Charger le pipeline de résumé
def load_summarizer():
    """
    Chargez un pipeline Hugging Face pour le résumé automatique.
    """
    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
    return summarizer


In [3]:
# Étape 3 : Résumer un texte
def summarize_text(summarizer, text, max_length=130, min_length=30, length_penalty=2.0):
    """
    Utilisez le modèle pour résumer un texte donné.

    - Quels paramètres ajusteriez-vous pour un résumé plus concis ou détaillé ?
    - Comment évalueriez-vous le résultat ?
    """
    summary = summarizer(
        text,
        max_length=max_length,
        min_length=min_length,
        length_penalty=length_penalty,
        do_sample=False
    )
    return summary[0]["summary_text"]


In [4]:
# Étape 4 : Tester avec un exemple

# Exemple de texte à résumer
long_text = """
Hugging Face est une entreprise spécialisée dans les modèles de traitement du langage naturel
(NLP) et dans le développement d'outils open source pour les développeurs. Elle est surtout
connue pour sa bibliothèque Transformers, qui fournit des modèles pré-entraînés pour diverses
tâches comme la classification de texte, le résumé, la génération de texte, et bien plus encore.
Fondée en 2016, la société a depuis évolué pour devenir un leader de l'industrie, collaborant
avec des entreprises, des chercheurs et des institutions académiques pour démocratiser l'accès
aux technologies NLP avancées. Les modèles disponibles sur leur plateforme incluent des
architectures populaires comme BERT, GPT-3, et T5, qui permettent de résoudre des problèmes
complexes avec des solutions prêtes à l'emploi ou facilement personnalisables.
"""

# Charger le pipeline
summarizer = load_summarizer()

# Générer un résumé
summary = summarize_text(summarizer, long_text, max_length=100, min_length=30)
print("Résumé généré :")
print(summary)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Résumé généré :
Hugging Face est une entreprise spécialisée dans les modèles de traitement du langage naturel (NLP) Elle est surtout connue pour sa bibliothèque Transformers, qui fournit des modèle pré-entraînés.


## Mise en pratique

Prenez plusieurs textes à résumer, des actualités, des cours. Vérifiez la pertinence des écrits restitués et synthétisés.

### **Questions pour Réflexion**

1. **Choix du Modèle** :
   - Pourquoi le modèle `facebook/bart-large-cnn` est-il adapté pour cette tâche ?
   - Quels autres modèles pourraient être utilisés pour le résumé automatique ?

2. **Paramètres de Résumé** :
   - Que se passe-t-il si vous augmentez ou réduisez `max_length` ?
   - Comment ajusteriez-vous les résultats si le résumé est trop générique ?

3. **Analyse des Résultats** :
   - Comment évaluer si un résumé est pertinent ?
   - Quels ajustements feriez-vous pour améliorer la qualité du résumé ?
