# **NLP √† ressources limit√©es**

<img src="https://dli2024prac.blob.core.windows.net/content/lr_llm_header.png" width="60%" allign ="center"/>

<a href="https://colab.research.google.com/github/deep-learning-indaba/indaba-pracs-2024/blob/main/practicals/Indaba_2024_Prac_Template.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a> [Change colab link to point to prac.]

¬© Deep Learning Indaba 2024. Licence Apache 2.0.

**Auteurs :**
- Ali Zaidi
- Aya Salama
- Khalil Mrini
- Steven Kolawole 

**Introduction :**

Le TAL √† ressources limit√©es (Traitement Automatique des Langues, ou NLP en anglais, Natural Language Processing) fait r√©f√©rence √† l'√©tude et au d√©veloppement de mod√®les et de syst√®mes TAL pour des langues, des t√¢ches ou des domaines qui disposent de peu de donn√©es et de ressources. Cela peut inclure des langues avec moins de corpus textes num√©riques, d'outils informatiques limit√©s ou de recherches linguistiques moins d√©velopp√©es.

**Principaux d√©fis du TAL √† ressources limit√©es**

1. **Raret√© des donn√©es :**
   - **Donn√©es d'entra√Ænement limit√©es :** De nombreuses langues manquent de grands corpus annot√©s n√©cessaires pour entra√Æner les mod√®les TAL.
   - **Absence de mod√®les pr√©-entra√Æn√©s :** Les mod√®les TAL populaires comme BERT, GPT et autres ne sont souvent pas disponibles pour les langues √† ressources limit√©es.

2. **Diversit√© linguistique :**
   - **Complexit√© morphologique :** Certaines langues ont des structures grammaticales complexes et une richesse morphologique.
   - **Variations dialectales :** Un manque de versions standardis√©es peut compliquer les t√¢ches TAL.

3. **Limitations des ressources :**
   - **Contraintes computationnelles :** Les sc√©narios √† faibles ressources impliquent souvent un acc√®s limit√© √† la puissance de calcul et au stockage.
   - **Expertise et outils :** Moins d'experts linguistiques et moins d'outils TAL sont adapt√©s √† ces langues.

**Sujets :**

Contenu : [Traitement Automatique des Langues, Ressources Limit√©es, Mod√®les de Langages, R√©glage Fin Efficace en Param√®tres, Adaptation]  
Niveau : [Interm√©diaire]


**Objectifs/Comp√©tences vis√©es :**

- Explorer les d√©fis de la raret√© des donn√©es
- Explorer les limitations des ressources de calcul et les aborder avec un finetuning efficace des param√®tres
- Comparer les performances entre les petits (BERT) et les grands (GPT) mod√®les de langage sur des langues/t√¢ches √† faibles ressources.
  

**Pr√©requis :**

[Connaissances requises pour cette pratique. Vous pouvez lier une session de track parall√®le pertinente, des blogs, des articles, des cours, des sujets, etc.]
_ lier des ressources sur les LLMs, BERT, articles de Masakhane sur les conversations √† faibles ressources

**Plan :**

[Points qui lient chaque section. Auto-g√©n√©rer en suivant les instructions [ici](https://stackoverflow.com/questions/67458990/how-to-automatically-generate-a-table-of-contents-in-colab-notebook).]

**Avant de commencer :**

[T√¢ches juste avant de commencer.]


# Configuration

## Ex√©cutez la cellule pour configurer les packages Python et ressources n√©cessaires

**Dossiers de ressources** :

Les ressources dont vous aurez besoin pour r√©aliser ce pratique seront t√©l√©charg√©es lorsque vous ex√©cuterez la prochaine cellule.
Une fois le t√©l√©chargement et l'extraction termin√©s, vous aurez les dossiers suivants pr√©sents dans le dossier "resources" dans le r√©pertoire parent :

- *models* : ce dossier contient les mod√®les pr√©-entra√Æn√©s qui seront utilis√©s dans le pratique
- *dataset* : ce dossier contient le jeu de donn√©es Goud-sum que nous utiliserons dans le pratique
- *generated_responses* : ce dossier contient des r√©sum√©s pr√©-g√©n√©r√©s qui seront utilis√©s dans la Section 2

In [None]:
import utils

# Installer les packages requis
utils.install_requirements()

# T√©l√©chargez et extrayez le fichier zip contenant les ressources
utils.download_and_extract_zip("https://dli2024prac.blob.core.windows.net/resources/resources.zip")


## Imports

In [None]:
import os
import time
import random

import numpy as np
import pandas as pd
import torch
from dotenv import load_dotenv
from tqdm import tqdm

from datasets import load_dataset, concatenate_datasets, load_metric, load_from_disk
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training, TaskType, PeftConfig, PeftModel
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainer, Seq2SeqTrainingArguments
from huggingface_hub import login
from rouge_metric import PyRouge
import wandb
import openai

In [None]:
load_dotenv()
login(token=os.getenv("HF_HUB_TOKEN"))
wandb.login()

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/alizaidi/.cache/huggingface/token
Login successful


[34m[1mwandb[0m: Currently logged in as: [33malizaidi[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

# Introduction

Dans ce pratique, nous nous int√©ressons √† g√©n√©rer des titres pour les articles de presse pr√©sent√©s sur le site d'actualit√©s [Goud.ma](www.Gound.ma).

Nous aborderons cela comme une t√¢che de r√©sum√© o√π l'entr√©e est le corps d'un article de presse et la sortie est un titre appropri√©. L'[ensemble de donn√©es Goud](https://github.com/issam9/goud-summarization-dataset) contient 158k articles et leurs titres. Tous les titres sont en Darija marocaine, tandis que les articles peuvent √™tre en Darija marocaine, en arabe standard moderne, ou un m√©lange des deux (Darija marocaine en alternance de code).

**Champs de donn√©es**
- *article* : une cha√Æne de caract√®res contenant le corps de l'article de presse
- *headline* : une cha√Æne de caract√®res contenant le titre de l'article
- *categories* : une liste de cha√Ænes de caract√®res des cat√©gories d'articles

## Ce que nous allons faire :
<img src="./content/DLI_LR_llm_prac_1.png" width="40%" />

**Dossiers de ressources** :

Les ressources dont vous aurez besoin pour r√©aliser cet exercice font partie du d√©p√¥t, vous les trouverez dans le dossier parent :

- Dossier *Data* : ce dossier contient le dataset Goud-sum que nous utiliserons dans la pratique
- Dossier *genrated_responses* : ce dossier contient des r√©sum√©s pr√©-g√©n√©r√©s qui seront utilis√©s dans la Section 2

## M√©trique d'√©valuation : ROUGE

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) est un ensemble de m√©triques utilis√© pour √©valuer la qualit√© des r√©sum√©s en les comparant aux r√©sum√©s de r√©f√©rence (ou ground truth). ROUGE est largement utilis√© dans les t√¢ches de Traitement Automatique du Langage Naturel (NLP), en particulier pour √©valuer la performance des mod√®les de r√©sum√© de texte.

![ROUGE-Base](https://i0.wp.com/blog.uptrain.ai/wp-content/uploads/2024/01/rouge-n.webp?resize=700%2C228&ssl=1)

### Variants cl√©s de ROUGE

1. **ROUGE-N** : Mesure le chevauchement des n-grams entre le r√©sum√© candidat et le r√©sum√© de r√©f√©rence.

![ROUGE-1](https://clementbm.github.io/assets/2021-12-23/rouge-unigrams.png)

*caption:*
$ROUGE_1 = \frac{7}{10} = 0.7$

   - **ROUGE-1** : Chevauchement des unigrams (1-gram).
   - **ROUGE-2** : Chevauchement des bigrams (2-grams).
   - **ROUGE-L** : Mesure la plus longue sous-s√©quence commune (LCS) entre les r√©sum√©s candidat et de r√©f√©rence.

2. **ROUGE-L** : Mesure la plus longue sous-s√©quence commune (LCS) entre le r√©sum√© candidat et le r√©sum√© de r√©f√©rence. Contrairement √† ROUGE-N, ROUGE-L consid√®re la similarit√© de la structure au niveau de la phrase en identifiant la plus longue s√©quence de mots co-occurrences dans les deux r√©sum√©s.

3. **ROUGE-W** : Une version pond√©r√©e de ROUGE-L qui donne plus d'importance √† la LCS contigu√´.

4. **ROUGE-S** : Mesure le chevauchement des skip-bigrams, qui sont des paires de mots dans leur ordre d'apparition pouvant avoir n'importe quel nombre d'√©carts entre eux.

### Comment ROUGE est calcul√©

Les m√©triques ROUGE peuvent √™tre calcul√©es en termes de trois mesures :

- **Recall** : Le ratio des unit√©s chevauchantes (n-grams, LCS, ou skip-bigrams) entre le r√©sum√© candidat et le r√©sum√© de r√©f√©rence par rapport au nombre total d'unit√©s dans le r√©sum√© de r√©f√©rence. Cela r√©pond √† la question : "Quelle part du r√©sum√© de r√©f√©rence est captur√©e par le r√©sum√© candidat ?".

- **Pr√©cision** : Le ratio des unit√©s chevauchantes entre le r√©sum√© candidat et le r√©sum√© de r√©f√©rence par rapport au nombre total d'unit√©s dans le r√©sum√© candidat. Cela r√©pond √† la question : "Quelle part du r√©sum√© candidat est pertinente par rapport au r√©sum√© de r√©f√©rence ?".

- **F1-Score** : La moyenne harmonique de Pr√©cision et Recall. Cela donne une mesure √©quilibr√©e qui consid√®re √† la fois la pr√©cision et le recall.

### Importance de ROUGE

ROUGE est essentiel pour les t√¢ches de r√©sum√© car il fournit un moyen normalis√© pour √©valuer et comparer diff√©rents mod√®les de r√©sum√©. Des scores ROUGE plus √©lev√©s indiquent g√©n√©ralement que le r√©sum√© candidat est plus similaire au r√©sum√© de r√©f√©rence, ce qui signifie que le mod√®le fonctionne probablement bien.

#### NOTE: Mise en garde
<div style="display: flex; justify-content: space-between;">
    <img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*8ZNpaag-Nr2GLs3A-sz0aQ.png" alt="limitation 1" width="250"/>
    <img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*CLIKeyKYiR6sNA4yjIkCWg.png" alt="limitation 2" width="250"/>
    <img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*667HMbjSLJhwR_xqBau3JQ.png" alt="limitation 3" width="250"/>
</div>

Bien que ROUGE et d'autres m√©triques d'√©valuation (par exemple, BLEU, METEOR, etc.) servent d'outils pr√©cieux pour une √©valuation rapide et simple des mod√®les de langue, elles pr√©sentent certaines limitations qui les rendent moins id√©ales. Pour commencer, elles ne parviennent pas √† √©valuer la fluidit√©, la coh√©rence et le sens g√©n√©ral des passages. Elles sont √©galement relativement insensibles √† l'ordre des mots. ROUGE mesure principalement le chevauchement lexical et peut ne pas capturer pleinement le sens s√©mantique ou la qualit√© d'un r√©sum√©. Pour ces raisons, les chercheurs cherchent encore √† trouver des m√©triques am√©lior√©es.

Par cons√©quent, ces m√©triques ne remplacent pas totalement l'√©valuation humaine, mais elles sont mieux utilis√©es conjointement avec les √©valuations humaines pour une √©valuation plus compl√®te de la qualit√© des r√©sum√©s.

## Charger le dataset

In [5]:
from datasets import load_from_disk
# Load the dataset from disk
dataset = load_from_disk("./data/Goud-sum/Goud-sum")

## V√©rifier le dataset

In [None]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['article', 'headline', 'categories'],
        num_rows: 139288
    })
    validation: Dataset({
        features: ['article', 'headline', 'categories'],
        num_rows: 9497
    })
    test: Dataset({
        features: ['article', 'headline', 'categories'],
        num_rows: 9497
    })
})


In [None]:
dataset['train'][0]

{'article': 'ŸÖŸÜŸäÿ± ÿßŸÑÿπŸÑŸÖŸä ŸÖŸÜ ŸÖÿ±ÿßŸÉÿ¥: ÿ™ÿ≠ŸàŸÑ ŸÅÿ∂ÿßÿ° ŸÖŸÇÿ± ÿßŸÑÿ∫ÿ±ŸÅÿ© ÿßŸÑŸÅŸÑÿßÿ≠Ÿäÿ© ÿ®ŸÖÿØŸäŸÜÿ© ŸÖÿ±ÿßŸÉÿ¥ÿå ÿßŸÑÿ∞Ÿä Ÿäÿ≠ÿ™ÿ∂ŸÜ ŸÅŸä Ÿáÿ∞Ÿá ÿßŸÑÿßŸîÿ´ŸÜÿßÿ°ÿå ÿßŸÜÿ™ÿÆÿßÿ® ÿ±ŸäŸîŸäÿ≥ ŸàÿßŸîÿπÿ∂ÿßÿ° ÿßŸÑŸÖŸÉÿ™ÿ® ÿßŸÑŸÖÿ≥Ÿäÿ± ŸÑŸÑÿ∫ÿ±ŸÅÿ© ÿßŸÑŸÅŸÑÿßÿ≠Ÿäÿ© ÿ®ÿ¨Ÿáÿ© ŸÖÿ±ÿßŸÉÿ¥ ÿßŸìÿ≥ŸÅŸäÿå ÿßŸïŸÑŸâ ÿ≠ŸÑÿ®ÿ© ŸÑŸÑÿßÿ¥ÿ™ÿ®ÿßŸÉÿßÿ™ ŸàÿßŸÑŸÖŸÑÿßÿ≥ŸÜÿßÿ™ÿå ÿ®ÿπÿØ ÿßÿ¥ÿ™ÿØÿßÿØ ÿßŸÑÿÆŸÑÿßŸÅ ÿ®ŸäŸÜ ÿßŸÑÿ®ÿ±ŸÑŸÖÿßŸÜŸäŸäŸÜ ÿ≠ŸÖŸäÿØ ÿßŸÑÿπŸÉÿ±ŸàÿØ ŸàÿπŸÖÿ± ÿÆŸÅŸäŸÅÿå ÿßŸÑŸÑÿ∞ŸäŸÜ ŸäŸÜÿ™ŸÖŸäÿßŸÜ ÿßŸïŸÑŸâ ÿ≠ÿ≤ÿ® ÿßŸÑÿ™ÿ¨ŸÖÿπ ÿßŸÑŸàÿ∑ŸÜŸä ŸÑŸÑÿßŸîÿ≠ÿ±ÿßÿ±ÿå ŸÖÿß ŸÉÿßÿØ ŸäÿπÿµŸÅ ÿ®ÿßŸÑÿßÿ¨ÿ™ŸÖÿßÿπ ÿ®ÿπÿØ ÿßŸÜÿ∑ŸÑÿßŸÇ ÿ¥ÿ±ÿßÿ±ÿ© ÿßŸÑÿßÿ¥ÿ™ÿ®ÿßŸÉ ÿ®ÿßŸÑÿßŸîŸäÿßÿØŸä ÿßŸÑÿ™Ÿä ÿßŸîÿ¨Ÿáÿ∂ÿ™ ŸÅŸä ŸÖŸáÿØŸáÿß ÿ®ÿ™ÿØÿÆŸÑ ÿ®ÿπÿ∂ ÿßŸÑÿ≠ÿßÿ∂ÿ±ŸäŸÜ. Ÿàÿ≠ÿ≥ÿ® ÿ¥ŸáŸàÿØ ÿπŸäÿßŸÜÿå ŸÅÿßŸïŸÜ ÿπŸÖÿ± ÿÆŸÅŸäŸÅÿå ÿßŸÑÿ∞Ÿä Ÿäÿ¥ÿ∫ŸÑ ÿ±ŸäŸîŸäÿ≥ ÿ¨ŸÖÿßÿπÿ© ÿßŸîŸÉŸÅÿßŸäÿå ŸàŸÖÿØÿπŸÖ ÿßŸÑÿ≠ÿ®Ÿäÿ® ÿ®ŸÜ ÿßŸÑÿ∑ÿßŸÑÿ® ÿßŸÑŸÖŸÜÿ≥ŸÇ ÿßŸÑÿßŸÇŸÑŸäŸÖŸä ŸÑÿ≠ÿ≤ÿ® ÿßŸÑÿßŸîÿµÿßŸÑÿ© ŸàÿßŸÑŸÖÿπÿßÿµÿ± ÿßŸÑÿ∞Ÿä Ÿäÿ™ÿ¨Ÿá ŸÑÿ™Ÿ

# Section1: Affiner efficacement les mod√®les Seq2Seq avec Low Rank Adaptation (LoRA)

Nous allons utiliser Hugging Face [Transformers](https://huggingface.co/docs/transformers/index), [Accelerate](https://huggingface.co/docs/accelerate/index), et [PEFT](https://github.com/huggingface/peft). 

Vous apprendrez √† :

1. Configurer l'environnement de d√©veloppement
2. Charger et pr√©parer le jeu de donn√©es
3. Affiner Multilingual BERT avec LoRA et bnb int-8
4. √âvaluer et ex√©cuter une inf√©rence
5. Comparaison des performances de co√ªt

### Introduction rapide √† PEFT ou Affinage de param√®tres efficace

<div style="display: flex; justify-content: center; align-items: flex-start;">    <figure style="text-align: center;">
        <a href="https://arxiv.org/abs/2303.15647#" target="_blank">
            <img src="./content/PEFT_method.png" width="90%" />
        </a>
        <figcaption><a href="https://arxiv.org/abs/2303.15647#" target="_blank">M√©thodes PEFT, de l'article "Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning"
</a></figcaption>
    </figure>
</div>

[PEFT](https://github.com/huggingface/peft), ou Affinage de param√®tres efficace, est une nouvelle biblioth√®que open-source de Hugging Face permettant l'adaptation efficace des mod√®les de langue pr√©-entrain√©s (PLMs) √† diverses applications en aval sans affiner tous les param√®tres du mod√®le. PEFT inclut actuellement des techniques pour :

- LoRA:¬†[LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS](https://arxiv.org/pdf/2106.09685.pdf)
- Prefix Tuning:¬†[P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks](https://arxiv.org/pdf/2110.07602.pdf)
- P-Tuning:¬†[GPT Understands, Too](https://arxiv.org/pdf/2103.10385.pdf)
- Prompt Tuning:¬†[The Power of Scale for Parameter-Efficient Prompt Tuning](https://arxiv.org/pdf/2104.08691.pdf)

## Adaptation √† Basse Rang√©e (LoRA)

Bien que les grands mod√®les de langage (LLMs) aient montr√© des performances remarquables dans une large gamme de t√¢ches de NLP, ils n√©cessitent des ressources de calcul importantes pour l'entra√Ænement, le fine-tuning et le d√©ploiement. De plus, de nombreux cas d'utilisation du monde r√©el n√©cessitent l'adaptation des LLMs disponibles √† leur t√¢che cible afin d'atteindre les performances souhait√©es.

Alors que le fine-tuning d'un LLM complet est prohibitivement co√ªteux, m√™me sur de petits ensembles de donn√©es. Par exemple, le fine-tuning complet du mod√®le Llama7B n√©cessite 112 Go de VRAM, soit au moins deux GPU A100 de 80 Go. Heureusement, des m√©thodes de fine-tuning efficaces en termes de param√®tres comme LoRA permettent aux utilisateurs avec des ressources limit√©es d'adapter efficacement et efficacement un LLM √† leur t√¢che cible.

Dans ce tutoriel, nous explorons QLoRA, qui est une technique de fine-tuning efficace en termes de param√®tres qui r√©duit le nombre de param√®tres ajust√©s pendant le processus d'adaptation, et introduit en plus une quantification pour r√©duire encore l'empreinte m√©moire du mod√®le adapt√©.

### Comment Fonctionne LoRA ?

L'article [LoRA: Low-Rank Adaptation of Large Language Models](https://arxiv.org/abs/2106.09685) s'inspire de la conjecture selon laquelle les mod√®les surparam√©tr√©s couvrent une dimension intrins√®que √† basse rang√©e. Une basse dimension intrins√®que signifie que les donn√©es peuvent √™tre efficacement repr√©sent√©es ou approch√©es par un espace de dimension inf√©rieure tout en conservant la plupart de leurs informations ou structures essentielles. En d'autres termes, cela signifie que nous pouvons d√©composer la nouvelle matrice de poids pour la t√¢che adapt√©e en matrices de dimension inf√©rieure (plus petites) sans perdre d'informations significatives.

Concr√®tement, supposons que $\delta W$ soit la mise √† jour des poids pour une matrice de poids de $A\times B$. Alors, une d√©composition √† basse rang√©e de $\delta W$ peut √™tre exprim√©e comme : $\delta W = W_A W_B$, o√π $W_A$ est une matrice de $A\times k$ et $W_B$ est une matrice de $k\times B$. Ici, $k$ est le rang de la d√©composition, et est g√©n√©ralement beaucoup plus petit que $A$ et $B$.

![Image courtoisie du tutoriel de Sebastian Raschka sur LoRA de Lightning.AI](https://lightningaidev.wpengine.com/wp-content/uploads/2023/04/lora-4-300x226@2x.png)

## R√©sum√© en utilisant mT5

Avant l'affinage de notre mod√®le, nous devons s√©lectionner le mod√®le que nous utiliserons comme mod√®le de base. Dans ce cas, nous utiliserons le mod√®le [mT5](https://huggingface.co/google/mt5-small), qui est une variante multilingue du mod√®le T5. Le mod√®le mT5 est entra√Æn√© sur un large corpus multilingue et est capable de r√©aliser une vaste gamme de t√¢ches en PNL, y compris le r√©sum√©.

In [None]:
tokenizer = AutoTokenizer.from_pretrained("google/mt5-small")
model = AutoModelForSeq2SeqLM.from_pretrained("google/mt5-small")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565




Ensuite, nous pr√©parons nos jeux de donn√©es pour l'entra√Ænement. Cela n√©cessite de tokenizer les s√©quences d'entr√©e et de sortie, de les compl√©ter jusqu'√† la longueur souhait√©e, puis de les convertir en objets Dataset de PyTorch.

In [None]:
# The maximum total input sequence length after tokenization.
# Sequences longer than this will be truncated, sequences shorter will be padded.
tokenized_inputs = concatenate_datasets([dataset["train"], dataset["test"]]).map(
    lambda x: tokenizer(x["article"], truncation=True),
    batched=True,
    remove_columns=["categories", "headline"],
)
input_lenghts = [len(x) for x in tokenized_inputs["input_ids"]]

In [None]:
# take 85 percentile of max length for better utilization
max_source_length = int(np.percentile(input_lenghts, 85))
print(f"Max source length: {max_source_length}")

Max source length: 571


In [None]:
# The maximum total sequence length for target text after tokenization.
# Sequences longer than this will be truncated, sequences shorter will be padded."
tokenized_targets = concatenate_datasets([dataset["train"], dataset["test"]]).map(
    lambda x: tokenizer(x["headline"], truncation=True),
    batched=True,
    remove_columns=["article", "categories"],
)
target_lenghts = [len(x) for x in tokenized_targets["input_ids"]]
# take 90 percentile of max length for better utilization
max_target_length = int(np.percentile(target_lenghts, 90))
print(f"Max target length: {max_target_length}")

Max target length: 50


In [None]:
def preprocess_function(sample, padding="max_length"):
    # # add prefix to the input for t5
    # inputs = ["summarize: " + item for item in sample["dialogue"]]

    # tokenize inputs
    model_inputs = tokenizer(sample['article'], max_length=max_source_length, padding=padding, truncation=True)

    # Tokenize targets with the `summary` keyword argument
    labels = tokenizer(sample["headline"], max_length=max_target_length, padding=padding, truncation=True)

    # If we are padding here, replace all tokenizer.pad_token_id in the labels by -100 when we want to ignore
    # padding in the loss.
    if padding == "max_length":
        labels["input_ids"] = [
            [(l if l != tokenizer.pad_token_id else -100) for l in label] for label in labels["input_ids"]
        ]

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_dataset = dataset.map(preprocess_function, batched=True, remove_columns=["headline", "article", "categories"])
print(f"Keys of tokenized dataset: {list(tokenized_dataset['train'].features)}")

Keys of tokenized dataset: ['input_ids', 'attention_mask', 'labels']


In [None]:
tokenized_dataset["test"].save_to_disk("arabic-goud-data/eval")

Saving the dataset (0/1 shards):   0%|          | 0/9497 [00:00<?, ? examples/s]

Enfin, nous devons d√©finir notre configuration pour LoRA. Les principaux param√®tres pour LoRA sont :

* `r` : il s'agit du rang des matrices d√©compos√©es $A$ et $B$ √† apprendre pendant le fine-tuning. Un nombre plus petit √©conomisera plus de m√©moire GPU mais pourrait diminuer les performances.
* `lora_alpha` : il s'agit du poids de la perte de bas-rang dans la fonction de perte totale, ou du coefficient pour le facteur $\Delta W$ appris. Un nombre plus grand entra√Ænera g√©n√©ralement un changement de comportement plus significatif apr√®s le fine-tuning.
* `lora_dropout` : le ratio de dropout pour les couches dans les adaptateurs LoRA $A$ et $B$.
* `target_modules` : les modules pour lesquels apprendre la d√©composition de bas-rang. Cela pourrait √™tre toutes les couches lin√©aires, par exemple, ou des modules sp√©cifiques du r√©seau de base.

In [None]:
lora_config = LoraConfig(
  r=16,
  lora_alpha=32,
  target_modules=["q", "v"],
  lora_dropout=0.05,
  bias="none",
  task_type=TaskType.SEQ_2_SEQ_LM
)
# prepare int-8 model for training
model = prepare_model_for_kbit_training(model)

# add LoRA adaptor
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

trainable params: 688,128 || all params: 300,864,896 || trainable%: 0.2287


In [None]:
# we want to ignore tokenizer pad token in the loss
label_pad_token_id = -100
# Data collator
data_collator = DataCollatorForSeq2Seq(
    tokenizer=tokenizer,
    model=model,
    label_pad_token_id=label_pad_token_id,
    pad_to_multiple_of=8,
    return_tensors='pt'
)

In [None]:
NUM_EPOCHS = 10
output_dir = "lora-goud-mt5-small"

In [None]:
# Define training args
training_args = Seq2SeqTrainingArguments(
    output_dir="lora-mt5-goud",
    auto_find_batch_size=True,
    learning_rate=1e-3,
    num_train_epochs=NUM_EPOCHS,
    logging_dir=f"{output_dir}/logs",
    logging_strategy="steps",
    logging_steps=500,
    save_strategy="no",
    report_to=["tensorboard", "wandb"],
)

# Create Trainer instance
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset = tokenized_dataset["train"],
    eval_dataset = tokenized_dataset["validation"].select(range(20)),
    tokenizer = tokenizer,
)

In [None]:
trainer.train()



[34m[1mwandb[0m: wandb version 0.17.7 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade


[34m[1mwandb[0m: Tracking run with wandb version 0.17.6


[34m[1mwandb[0m: Run data is saved locally in [35m[1m/home/alizaidi/dev/nlp/llms/indaba/indaba-low-resource-nlp-prac/wandb/run-20240816_012514-brfaca9p[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.


[34m[1mwandb[0m: Syncing run [33mlora-mt5-goud[0m


[34m[1mwandb[0m: ‚≠êÔ∏è View project at [34m[4mhttps://wandb.ai/alizaidi/huggingface[0m


[34m[1mwandb[0m: üöÄ View run at [34m[4mhttps://wandb.ai/alizaidi/huggingface/runs/brfaca9p[0m


Step,Training Loss
500,6.3641
1000,5.0197
1500,4.7336
2000,4.5739
2500,4.487
3000,4.441
3500,4.3759
4000,4.3706
4500,4.3127
5000,4.3099


TrainOutput(global_step=174110, training_loss=3.7825945418129274, metrics={'train_runtime': 17642.8655, 'train_samples_per_second': 78.949, 'train_steps_per_second': 9.869, 'total_flos': 8.31857984054231e+17, 'train_loss': 3.7825945418129274, 'epoch': 10.0})

In [None]:
peft_model_id="peft-lora-mt5-goud-results"

In [None]:
trainer.model.save_pretrained(peft_model_id)
tokenizer.save_pretrained(peft_model_id)

('peft-lora-mt5-goud-results/tokenizer_config.json',
 'peft-lora-mt5-goud-results/special_tokens_map.json',
 'peft-lora-mt5-goud-results/spiece.model',
 'peft-lora-mt5-goud-results/added_tokens.json',
 'peft-lora-mt5-goud-results/tokenizer.json')

In [None]:
trainer.push_to_hub("alizaidi/lora-mt5-goud-ar")

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/2.77M [00:00<?, ?B/s]

Upload 4 LFS files:   0%|          | 0/4 [00:00<?, ?it/s]

training_args.bin:   0%|          | 0.00/5.30k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/alizaidi/lora-mt5-goud/commit/fee52adbeda959a97d9b839e0b8f0a5f315b0713', commit_message='alizaidi/lora-mt5-goud-ar', commit_description='', oid='fee52adbeda959a97d9b839e0b8f0a5f315b0713', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
config = PeftConfig.from_pretrained(peft_model_id)

In [None]:
# load base LLM model and tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path,  load_in_8bit=True,  device_map={"":0})
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.




In [None]:
# Load the Lora model
model = PeftModel.from_pretrained(model, peft_model_id, device_map={"":0})

text = dataset["test"][0]["article"]
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=128)
    print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])

ÿ®ÿßŸÑŸÅŸäÿØŸäŸà. ÿ∑ÿßŸÑÿ®ÿ© ŸÉŸÑŸäÿßÿ™ ŸÅÿßÿ≥ ÿÆÿ±ÿ¨ÿßÿ™ ŸÑŸÑÿßÿ≠ÿ™ÿ¨ÿßÿ¨ ÿπŸÑŸâ ŸÅÿ™ÿ≠ ÿßŸÑÿ£ÿ≠Ÿäÿßÿ° ŸàÿßŸÑÿ¨ÿßŸÖÿπÿßÿ™


In [None]:
dataset["test"][0]["headline"]

'ÿ±Ÿàÿ®Ÿàÿ±ÿ∑ÿßÿ¨.. ÿßŸÑÿ®Ÿäÿßÿ™ÿ© ÿ®ÿßŸÑŸÑŸäŸÑ ÿπŸÑŸâ ÿ®ÿ±ÿß ÿ¥ŸÉŸÑ ÿßÿ≠ÿ™ÿ¨ÿßÿ¨Ÿä ÿ¨ÿØŸäÿØ ŸÑŸÑŸÖÿ∑ÿßŸÑÿ®ÿ© ÿ®ŸÅÿ™ÿ≠ ÿßŸÑÿ£ÿ≠Ÿäÿßÿ° ÿßŸÑÿ¨ÿßŸÖÿπŸäÿ© ÿ®ŸÅÿßÿ≥'

In [None]:
def generate_batch_sized_chunks(list_of_elements, batch_size):
    """
    split the dataset into smaller batches that we can process simultaneously
    Yield successive batch-sized chunks from list_of_elements.
    """
    for i in range(0, len(list_of_elements), batch_size):
        yield list_of_elements[i : i + batch_size]


def calculate_metric_on_test_ds(
    dataset,
    metric,
    model,
    tokenizer,
    batch_size=16,
    device="cuda" if torch.cuda.is_available() else "cpu",
    column_text="article",
    column_summary="highlights",
):
    article_batches = list(
        generate_batch_sized_chunks(dataset[column_text], batch_size)
    )
    target_batches = list(
        generate_batch_sized_chunks(dataset[column_summary], batch_size)
    )

    for article_batch, target_batch in tqdm(
        zip(article_batches, target_batches), total=len(article_batches)
    ):

        inputs = tokenizer(
            article_batch,
            max_length=1024,
            truncation=True,
            padding="max_length",
            return_tensors="pt",
        )

        summaries = model.generate(
            input_ids=inputs["input_ids"].to(device),
            attention_mask=inputs["attention_mask"].to(device),
            length_penalty=0.8,
            num_beams=8,
            max_length=128,
        )
        """ parameter for length penalty ensures that the model does not generate sequences that are too long. """

        # Finally, we decode the generated texts,
        # replace the  token, and add the decoded texts with the references to the metric.
        decoded_summaries = [
            tokenizer.decode(
                s, skip_special_tokens=True, clean_up_tokenization_spaces=True
            )
            for s in summaries
        ]

        decoded_summaries = [d.replace("", " ") for d in decoded_summaries]
        metric.add_batch(predictions=decoded_summaries, references=target_batch)

    #  Finally compute and return the ROUGE scores.
    score = metric.compute()
    return score


def evaluation(tokenizer, model, dataset):
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # loading data
    rouge_names = ["rouge1", "rouge2", "rougeL", "rougeLsum"]
    rouge_metric = load_metric("rouge")
    score = calculate_metric_on_test_ds(
        dataset["test"][0:10],
        rouge_metric,
        model,
        tokenizer,
        batch_size=2,
        column_text="article",
        column_summary="headline",
    )

    rouge_dict = dict((rn, score[rn].mid.fmeasure) for rn in rouge_names)

    return rouge_dict

In [None]:
evaluation(tokenizer, model, dataset)

  rouge_metric = load_metric("rouge")



  0%|                                                                    | 0/5 [00:00<?, ?it/s]


 20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                | 1/5 [00:02<00:08,  2.03s/it]


 40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                    | 2/5 [00:04<00:06,  2.10s/it]


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                        | 3/5 [00:06<00:04,  2.23s/it]


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà            | 4/5 [00:10<00:02,  2.80s/it]


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5/5 [00:13<00:00,  2.80s/it]


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5/5 [00:13<00:00,  2.61s/it]




{'rouge1': 0.1, 'rouge2': 0.0, 'rougeL': 0.1, 'rougeLsum': 0.1}

## √âvaluation1 : point de contr√¥le pr√©coce du mod√®le

In [None]:
#load an early checkpoint
#run evaluation 

## √âvaluation2 : mod√®le final entra√Æn√© AraBERT, DarijaBERT

# Activit√© : R√©sum√© d'Article en Langue Maternelle

**T√¢che :** Rechercher un article dans votre langue maternelle et √©valuer les capacit√©s de r√©sum√© et de g√©n√©ration de titres de ChatGPT.

**√âtapes :**

1. **S√©lectionner un Article :** Choisissez un article pertinent et r√©cent r√©dig√© dans votre langue maternelle. Assurez-vous qu'il soit de longueur courte ou moyenne.

2. **R√©sumer avec ChatGPT :** Utilisez ChatGPT pour g√©n√©rer un r√©sum√© de l'article s√©lectionn√©.

3. **√âvaluer la Qualit√© du R√©sum√© :**
    - **Impression :** Partagez votre impression sur la qualit√© du r√©sum√©. Consid√©rez les points suivants :
        - **Exactitude :** Le r√©sum√© capture-t-il les points principaux et l'essence de l'article ?
        - **Clart√© :** Le r√©sum√© est-il clair et facile √† comprendre ?
        - **Couverture :** Le r√©sum√© inclut-il toutes les informations cruciales de l'article ?

4. **Fournir un Retour :** Offrez un retour constructif sur le r√©sum√©. Soulignez les divergences √©ventuelles ou les domaines √† am√©liorer.

In [18]:
# @title Generate Quiz Form. (Run Cell)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/sggLJWMFQ4JQCmHL8",
  width="80%"
	height="320px" >
	Loading...
</iframe>
"""
)

# Section2: R√©sum√© en utilisant GPT


Dans cette section, nous allons utiliser √† la fois les grands et petits mod√®les de langue d'OpenAI pour accomplir la m√™me t√¢che de r√©sum√© textuel abstractive. Nous √©valuerons ensuite leurs performances et comparerons les r√©sultats avec ceux obtenus √† partir des mod√®les discut√©s dans la Section 1.

Contrairement aux approches traditionnelles de fine-tuning qui impliquent la mise √† jour des poids du mod√®le, la premi√®re √©tape de l'adaptation d'un mod√®le bas√© sur GPT pour une t√¢che sp√©cifique est l'ing√©nierie des prompts, qui ne n√©cessite pas de mise √† jour des poids.

<div style="display: flex; align-items: flex-start;">
    <figure style="margin-right: 10px; text-align: center;">
        <a href="https://arxiv.org/pdf/2005.14165" target="_blank">
            <img src="./content/traditional-finetuning.png" width="80%" />
        </a>
        <figcaption><a href="https://arxiv.org/pdf/2005.14165" target="_blank">Traditional Fine-Tuning</a></figcaption>
    </figure>
    <figure style= "text-align: center;">
        <a href="https://arxiv.org/pdf/2005.14165" target="_blank">
            <img src="./content/prompting.png" width="80%" />
        </a>
        <figcaption><a href="https://arxiv.org/pdf/2005.14165" target="_blank">Prompting</a></figcaption>
    </figure>
</div>


## Imports

In [2]:
import pandas as pd
from rouge_metric import PyRouge
from tqdm import tqdm
import os
import random
import openai
import time
from openai import OpenAI
import os 
import time

## Fonctions Utilitaires

In [3]:
def evaluate_rouge(hypotheses, references):
    these_refs = [[ref.strip().lower()] for ref in references]
    rouge = PyRouge(rouge_n=(1, 2), rouge_l=True)
    scores = rouge.evaluate(hypotheses, these_refs)
    print(scores)

def substring_after_colon(input_string):
    colon_index = input_string.find(':')
    if colon_index != -1:
        return input_string[colon_index + 1:]
    else:
        return input_string

In [6]:
# Define dataset and paths
DATASET = "Goud"
MAX_TRAIN = 0
model_name = "gpt-4o-mini"

output_filename = f"./{DATASET}_{model_name}_test_generated_{MAX_TRAIN}.csv"

# Load dataset
goud_data = dataset
train_source = goud_data["train"]["article"]
train_target = goud_data["train"]["headline"]
test_source = goud_data["test"]["article"]

## Fonction pour r√©sumer des articles de presse

In [None]:
key = ""

In [None]:
def summarize_news_article(MAX_TRAIN=20):
       
    client = OpenAI(api_key=key)
    rewritten_prompt_count = 0
    line_count = 0
    wait_time = 1
    df_lines = []
    tokens_consumption = 0
    existing_len = 0
    if os.path.exists(output_filename):
        existing_df = pd.read_csv(output_filename)
        existing_len = existing_df.shape[0]
        rewritten_prompt_count = existing_len
        line_count = existing_len
        df_lines = existing_df.to_dict('records')
    
    for data in tqdm(test_source[existing_len:], desc=f"Lines processed from {existing_len}-th line"):
        news_article = data.strip()
        line_count += 1
        made_error = True
        num_error = 0
        while made_error:
            messages = [{"role": "system", "content": "You are asked to summarize a news article written in Modern Standard Arabic and Moroccan Darija, and write that summary as a clickbait headline, in Moroccan Darija only.\n"}]
            if MAX_TRAIN - num_error > 0:
                for _ in range(MAX_TRAIN - num_error):
                    idx = random.choice(range(len(train_source)))
                    train_src = train_source[idx]
                    train_tgt = train_target[idx]
                    messages.append({"role": "user", "content": f"Summarize the following news article into a headline in Moroccan Darija only:\n\"{train_src}\""})
                    messages.append({"role": "assistant", "content": f"Absolutely! Here is the headline summarizing your news article:\n\"{train_tgt}\""})
            messages.append({"role": "user", "content": f"Summarize the following news article into a headline in Moroccan Darija only:\n\"{news_article}\""})
            try:
                response = client.chat.completions.create(
                    messages=messages,
                    model=model_name,
                )
                headline = response.choices[0].message.content
                df_lines.append({"article": news_article,"generated_headline": headline,"prompt_messages":messages})

                rewritten_prompt_count += 1
                made_error = False
            except Exception as e:
                if isinstance(e, openai.RateLimitError):
                    print("Rate limit error")
                    print(f"Wait for {wait_time} seconds because all calls failed: ", flush=True)
                    time.sleep(wait_time)
                    wait_time *= 2
                else:
                    print(e)
                    num_error += 1
                    print("May be too long, reducing context to:", MAX_TRAIN - num_error)
            #time.sleep(1)
    
    df = pd.DataFrame.from_dict(df_lines)
    df.to_csv(output_filename)

## Ex√©cuter la synth√®se

In [None]:
#record cell running time
import time
start_time = time.time()
summarize_news_article(0)
print("--- %s seconds ---" % (time.time() - start_time))

Lines processed from 0-th line: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 9497/9497 [2:34:22<00:00,  1.03it/s]  


--- 9263.82370686531 seconds ---


## Charger le r√©sultat g√©n√©r√© et √©valuer le ROUGE


Dans le dossier "generated_responses", vous trouverez les r√©ponses gpt correspondant aux invites de 0, 1, 5, 20 coups.

√âvaluez les r√©sum√©s de titres g√©n√©r√©s en ex√©cutant l'√©valuation ROUGE et ajoutez les r√©sultats au tableau des r√©sultats.

### R√©sultats du M√©trique ROUGE : 0 Shot

| M√©trique | Rappel (r)         | Pr√©cision (p)      | Score F1 (f)      |
|----------|-------------------|-------------------|-------------------|
| ROUGE-1  | 0.1228            | 0.1069            | 0.1143            |
| ROUGE-2  | 0.0282            | 0.0235            | 0.0256            |
| ROUGE-L  | 0.1128            | 0.0980            | 0.1049            |

In [7]:
shot_count = 0
hypotheses = pd.read_csv(f".\generated_responses\{model_name}\Goud_{model_name}_test_generated_{str(shot_count)}.csv", encoding = "UTF-8")["generated_headline"].tolist()
hypotheses = [substring_after_colon(hypo).replace("\"", "").strip() for hypo in hypotheses]
references = goud_data["test"]["headline"]
evaluate_rouge(hypotheses, references)


{'rouge-1': {'r': 0.11884854492859614, 'p': 0.12977184865821972, 'f': 0.12407023545586798}, 'rouge-2': {'r': 0.0325784137233658, 'p': 0.03389945881811894, 'f': 0.03322581039836068}, 'rouge-l': {'r': 0.11128523451125509, 'p': 0.12142149826298465, 'f': 0.11613260817866634}}


### R√©sultats du Metric ROUGE: 20 Exemple
Choisissez un ou plusieurs des fichiers contenant les r√©ponses GPT N-shot pr√©c√©demment g√©n√©r√©es, pr√©sents dans le dossier "generated_responses", ex√©cutez l'√©valuation, puis remplissez le tableau ci-dessous

| Metric   | Rappel (r)        | Pr√©cision (p)     | Score-F (f)       |
|----------|-------------------|-------------------|-------------------|
| ROUGE-1  |                   |                   |                   |
| ROUGE-2  |                   |                   |                   |
| ROUGE-L  |                   |                   |                   |

In [16]:
shot_count = 20
model_name  = "gpt4"  #"C:\Users\salamaaya\OneDrive - Microsoft\Desktop\DLI\Indaba2024-practical\indaba-low-resource-nlp-prac\generated_responses\gpt4\Goud_test_generated_5.csv"
hypotheses = pd.read_csv(f".\generated_responses\{model_name}\Goud_test_generated_{str(shot_count)}.csv", encoding = "UTF-8")["generated_headline"].tolist()
hypotheses = [substring_after_colon(hypo).replace("\"", "").strip() for hypo in hypotheses]
references = goud_data["test"]["headline"]
evaluate_rouge(hypotheses, references)

{'rouge-1': {'r': 0.13750397869020445, 'p': 0.1306205269799418, 'f': 0.13397389480280544}, 'rouge-2': {'r': 0.03387859852289136, 'p': 0.03194819653833152, 'f': 0.032885092553751126}, 'rouge-l': {'r': 0.1264128630910928, 'p': 0.11986076103165903, 'f': 0.12304965282629712}}


In [None]:
# @title Generate Quiz Form. (Run Cell)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/zbJoTSz3nfYq1VrY6",
  width="80%"
	height="1200px" >
	Loading...
</iframe>
"""
)

## Conclusion
**R√©sum√© :**

[R√©sum√© des points principaux/√† retenir de la pratique.]

**Prochaines √âtapes :**

[Prochaines √©tapes pour les personnes ayant termin√© la pratique, comme des lectures optionnelles (par exemple, blogs, articles, cours, vid√©os YouTube). Cela pourrait √©galement renvoyer √† d'autres pratiques.]

**Annexe :**

[Tout ce qui (probablement des trucs math√©matiques lourds) ne trouve pas de place dans les sections pratiques principales.]

**R√©f√©rences :**

[R√©f√©rences pour tout contenu utilis√© dans le notebook.]

Pour d'autres pratiques du Deep Learning Indaba, veuillez visiter [ici](https://github.com/deep-learning-indaba/indaba-pracs-2022).

## Donnez-nous votre avis sur notre session!

Veuillez fournir des retours que nous pouvons utiliser pour am√©liorer nos travaux pratiques √† l'avenir.

In [None]:
# @title Generate Feedback Form. (Run Cell)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/WUpRupqfhFtbLXtN6",
  width="80%"
	height="1200px" >
	Loading...
</iframe>
"""
)

<img src="https://baobab.deeplearningindaba.com/static/media/indaba-logo-dark.d5a6196d.png" width="50%" />