<a href="https://colab.research.google.com/github/nicolashernandez/teaching_nlp/blob/main/05_Classification_de_textes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Automatisation de la résolution d'une tâche de classification de textes


## Reconnaissance de patrons et apprentissage automatique

La [**reconnaissance de patrons** (_pattern recognition_)](https://en.wikipedia.org/wiki/Pattern_recognition) désigne le processus automatique de reconnaissance de régularités dans de la donnée. Ce processus peut se spécifier davantage : 
* Classification : attribution d'une classe à chaque instance 
* Clustering : partitionnement des données 
* Régression : assigner une valeur réelle à chaque instance
* Sequence labeling : assigner une classe à chaque membre d'une séquence d'instance 

L'[**apprentissage automatique (_machine learning)**](https://en.wikipedia.org/wiki/Machine_learning#Approaches) désigne des algorithmes capables d'apprendre à faire des prédictions sur la base d'expériences avec de la donnée. 
On distingue trois approches principales
* l'apprentissage supervisé (_supervised learning_) : sur la base d'exemples d'attribution d'étiquettes à des données en entrées, la machine apprend les "règles" d'attribution les étiques sur de nouvelles données
* Unsupervised learning : sans étiquetage, l'algorithme apprend à trouver la structure qui organise des données
* Reinforcement learning : En interagissant avec un environnement dynamique,  l'algorithme apprend à accomplir un certain but (sur la base de feedback et de récompenses qu'il chercher à maximiser).

L'[**ingénierie des traits (_feature engineering_)**](https://en.wikipedia.org/wiki/Feature_engineering) est le processus d'utiliser les domaines de la connaissance pour extraire des traits de la donnée brute ; sous-entendu que c'est l'homme qui définit et qui implémente les extracteurs de traits selon sa connaissance du monde à propos de la donnée. Les mots d'une représentations sac de mots peuvent constituer ces traits.


Le [**feature learning** ou **représentation learning**](https://en.wikipedia.org/wiki/Feature_learning) désigne les techniques qui permettent à un système de découvrir automatiquement les traits/la représentation dont il a besoin pour la réalisation d'une tâche sur de la donnée brute. 


L'**approche à base de règles** désigne une procédure selon laquelle c'est l'humain qui définit les traits puis écrit les règles de prédiction.

L'[**apprentissage profond (_deep learning_)**](https://en.wikipedia.org/wiki/Deep_learning#Deep_neural_networks) désigne des techniques d'apprentissage automatique qui s'appuient sur les réseaux de neurones multi-couches et qui se chargent de l'apprentissage de la représentation de la donnée aussi.

L'[**apprentissage par transfert (_transfer learning_)**](https://www.tensorflow.org/tutorials/images/transfer_learning) consiste à exploiter un modèle pré-entraîné sur un grand ensemble de données à la résolution d'une certaine tâche. L'intuition est que le modèle formé sur un ensemble de données suffisamment grand et général va construire des représentations de caractéristiques (élémentaires) qui peuvent servir à d'autres tâches. 

Un modèle pré-entraîné **se personnalise (fine-tune)** généralement en ajoutant un classifieur au dessus du modèle pré-entraîné (par exemple une couche dense) et en entraînant ce classifieur sur la nouvelle tâche de manière supervisée. Une alternative est de "dégeler" les couches supérieures du modèle pré-entraîné et d'entraîner conjointement à la fois le classifieur nouvellement ajouté et les dernières couches du modèles de base. 



## Bibliothèques pour faire du _deep learning_ 

* [Tensorflow par Google](https://www.tensorflow.org/) développement et l'entraînement de modèles avec des solutions de créations et de déploiement d'application qui exploitent cette technologie ; détection et classification d'objets dans des images, transfert de style d'une image, classification de textes, réponse à des questions...
* [PyTorch](https://github.com/pytorch/pytorch) par Facebook développement et l'entraînement de modèles pour la résolutation d'applications telles que la vision par ordinateur ou le traitement automatique des langues
* [Keras](https://keras.io/) API python de haut niveau au dessus de _tensorflow_ 
* [fastai](https://docs.fast.ai/tutorial.text.html)  simplifies training fast and accurate neural nets using modern best practices (on top of _PyTorch_) ; ce sont aussi des cours en ligne
* [ludwig](https://github.com/ludwig-ai/ludwig) Ludwig is a data-centric deep learning framework that allows users to train and test deep learning models by specifying a declarative configuration tht matches the schema of the data. It is built on top of _PyTorch_.
* [ktrain](https://github.com/amaiya/ktrain) a lightweight wrapper for the deep learning library _TensorFlow Keras_ (and other libraries) to help build, train, and deploy neural networks and other machine learning models. Inspired by ML framework extensions like fastai and ludwig, ktrain is designed to make deep learning and AI more accessible and easier to apply for both newcomers and experienced practitioners.



##
 Classification de textes

La **classification** consiste à attribuer une classe à chaque texte (objet, instance, point) à classer. On parle de *classification binaire* (_binary classification_) quand il y a deux classes. On parle de *classification en classes multiples* (_multiclass classification_) pour désigner la répartition d'un lot de textes entre plus de deux ensembles (ou classes). On parle de *classification multi-étiquettes* (_multi-label classification_) pour désigner les problèmes de classification où plusieurs étiquettes (classes) peuvent être assignées à chaque instance.

Reconnaître si un email est un spam, si une photo contient une voiture... sont des problèmes de classification (binaire).

Les problèmes de classification peuvent être traités par des algorithmes d'apprentissage automatique et notamment des algorithmes dits d'apprentissage profond (_deep learning_).

Ci-dessous seront mis en oeuvre des approches de deep donc certaines avec personnalisation (fine tuning) aussi appelé apprentissage par transfert.


# Mise en oeuvre d'une bibliothèque de deep learning pour la résolution de problèmes de classification



La tâche classique d'analyse de sentiment consiste à annoter un texte donné selon une polarité positive ou négative exprimée dans le texte.


## QUESTION

* Selon vous la tâche d'analyse de sentiment tel que définie juste au dessus peut se définir comme un problème de 1) classification binaire, 2) classification en classes multiples ou 3) en classification multi-étiquettes ?

## VOTRE REPONSE

**TODO**


## Installation et configuration de l'environnement


Configuration de l'environnement

In [None]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline
import os
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID";
os.environ["CUDA_VISIBLE_DEVICES"]="0"; 

Installation de la bibliothèque ktrain

In [None]:
!pip install ktrain

Import de la bibliothèque ktrain

In [None]:
# Execution time 30 s
import ktrain
from ktrain import text

Récupération de la donnée

In [None]:
# Récupération
!wget -nc https://github.com/nicolashernandez/teaching_nlp/raw/main/data/allocine-train-10000.zip -P data
!unzip data/allocine-train-10000.zip -d data

## Fonctionnement de ktrain


Pour réaliser cette tâche de classification nous allons utiliser la bibliothèque ktrain pour faire un apprentissage par transfert.

Les étapes sont les suivantes
1. chargement des données avec application d'un prétraitement défini à la volée
2. construction d'un modèle de classification sur la base d'un modèle pré-entraîné spécifié
3. récupération d'une instance du modèle pour la personnalisation de celui-ci
4. recherche d'un bon taux d'apprentissage
5. entraînement du classifieur i.e. personnalisation du modèle de base à l'aide d'un taux d'apprentissage défini
6. utilisation du nouveau modèle

*ETAPE 1 :* 

Le type de pré-traitement est fonction du modèle pré-entraîné spécifié.

*ETAPE 2 :*

ktrain vient avec quelques modèles pré-entraînés packagés. Pour les connaître, exécutez : 

In [None]:
text.print_text_classifiers()

Vous connaissez **fasttext**.

[**NBSVM**](https://medium.com/@asmaiya/a-neural-implementation-of-nbsvm-in-keras-d4ef8c96cb7c) is an approach to text classification proposed by [Wang and Manning](https://www.aclweb.org/anthology/P12-2018) that takes a linear model such as SVM (or logistic regression) and infuses it with Bayesian probabilities by replacing word count features with Naive Bayes log-count ratios. Despite its simplicity, NBSVM models have been shown to be both fast and powerful across a wide range of different text classification datasets. 
Keras offers a NBSVM model implemented as a neural network using two embedding layers. The first stores the Naive Bayes log-count ratios. The second stores learned weights (or coefficients) for each feature (i.e., word) in this linear model. The prediction, then, is simply the dot product of these two vectors.

**BERT** (_Bidirectional Encoder Representations from Transformers_), proposé par [Google AI Language](https://arxiv.org/pdf/1810.04805.pdf) est un encodeur bidirectionnel qui applique un modèle d'attention Transformers à la modélisation du language (_language modeling_). Il représente l'état de l'art.
Les Transformers sont un mécanisme d'attention qui apprennent les relations contextuelles entre les mots dans un texte.


Il est possible d'[**encapsuler les modèles Transformers du site _hugging face_**](https://github.com/amaiya/ktrain/blob/master/tutorials/tutorial-A3-hugging_face_transformers.ipynb). _hugging face_ diffuse les [modèles Transformers pré-entraînés "officiels"](https://huggingface.co/transformers/pretrained_models.html) ainsi que les [modèles Transformers construits par la communauté](https://huggingface.co/models).


*ETAPE 4 :*


Le **taux d'apprentissage (_learning rate_)** est un hyperparamètre qui contrôle combien le modèle doit changer en réponse à l'erreur estimée à chaque fois que les poids du modèles sont mis à jour. Choisir un 'lr' trop petit conduit à une longue phase d'entraînement qui peut resté bloquée. Choisir un 'lr' trop grand conduit à un apprentissage sous-optimal des poids et à une instabilité du processus d'entraînement. 

#### QUESTION
* Un modèle français est-il disponible pour une tâche de conversation/chatbot sur le dépôt communautaire de hugging face ? 

#### VOTRE REPONSE

**TODO**

oui, mais ne pas l'essayer car trop mauvais https://huggingface.co/cedpsam/chatbot_fr

## FastText



*ETAPE 1 :* 

La méthode [`texts_from_csv`](https://amaiya.github.io/ktrain/text/index.html#ktrain.text.texts_from_csv) charge le corpus, normalise les documents (définit un préprocesseur réutilisable), et découpe la collection en données d'entraînement et données de validation.

```
* train_filepath(str): file path to training CSV
* text_column(str): name of column containing the text
* label_column(list): list of columns that are to be treated as labels
* val_filepath(string): file path to test CSV.  If not supplied, 10% of documents in training CSV will be used for testing/validation.
* max_features(int): max num of words to consider in vocabulary ; Note: This is only used for preprocess_mode='standard'.
* maxlen(int): each document can be of most <maxlen> words. 0 is used as padding ID.
* ngram_range(int): size of multi-word phrases to consider e.g., 2 will consider both 1-word phrases and 2-word phrases limited by max_features
* preprocess_mode (str):  Either 'standard' (normal tokenization) or one of {'bert', 'distilbert'} tokenization and preprocessing for use with                BERT/DistilBert text classification model.
```



        
  

In [None]:
DATA_PATH = 'data/allocine-train-10000.csv'

In [None]:
# fasttext
#NUM_WORDS = 50000
#MAXLEN = 150
#NGRAMS_SIZE = 1# 1 # 8 minutes avec 2
# nbsvm 
#NUM_WORDS = 80000
#MAXLEN = 2000
#NGRAMS_SIZE = 3

(x_train, y_train), (x_test, y_test), preproc = text.texts_from_csv(DATA_PATH,
                      'review',
                      label_columns = ["negative", "positive"],
                      val_filepath=None, # if None, 10% of data will be used for validation
                      #max_features=NUM_WORDS, 
                      #maxlen=MAXLEN,
                      ngram_range=NGRAMS_SIZE,
                      preprocess_mode='standard' # default
                      )

Observons les 5 premières des données prétraitées. `x_` représente la donnée et `y_` la classe. On note que les données ont été transformées. Chaque mot est remplacé par un identifiant. On note que la classe est décrite par 2 colonnes avec deux codes "1 0" et "0 1".

In [None]:
print ('x_train', x_train[:5])
print ('y_train', y_train[:5])

x_train [[   0    0    0 ...   23   14   49]
 [   0    0    0 ...   17  122 6939]
 [   0    0    0 ...    6 1041 2810]
 [   0    0    0 ...   19   92 3577]
 [   0    0    0 ...   73  786   72]]
y_train [[1. 0.]
 [1. 0.]
 [0. 1.]
 [1. 0.]
 [0. 1.]]


*ETAPE 2 et 3:* 


In [None]:
# Build and return a text classification model https://amaiya.github.io/ktrain/text/index.html#ktrain.text.text_classifier
model = text.text_classifier('fasttext', (x_train, y_train), preproc=preproc)

# Returns a Learner instance that can be used to tune and train Keras models https://amaiya.github.io/ktrain/index.html#ktrain.get_learner
learner = ktrain.get_learner(model, train_data=(x_train, y_train), val_data=(x_test, y_test))

*ETAPE 4 :* 

In [None]:
# recherche d'un bon taux d'apprentissage 
learner.lr_find()
learner.lr_plot()

*ETAPE 5 :* 

[autofit](https://amaiya.github.io/ktrain/core.html#ktrain.core.Learner.autofit)
Automatically train model using a default learning rate schedule shown to work well in practice.  By default, this method currently employs a triangular learning rate policy (https://arxiv.org/abs/1506.01186).  
During each epoch, this learning rate policy varies the learning rate from lr/10 to lr and then back to a low learning rate that is near-zero. 
If epochs is None, then early_stopping and reduce_on_plateau are atomatically
set to 6 and 3, respectively.


#### QUESTION

* Sur le graph ci-dessus, repérez approximativement la puissance n de 1/10^n où la chute de la loss devient importante. Testez avec cette valeur comme learning rate, observez votre performance (accuracy) sur le train et le val.

Dans l'extrait de log ci-dessous, loss et accuracy concerne le corpus de train tandis que  val_loss et val_accuracy le corpus de validation.
```
282/282 [==============================] - 7s 25ms/step - loss: 0.1105 - accuracy: 0.9566 - val_loss: 0.3318 - val_accuracy: 0.8911
```
* Est-ce normal d'observer un écart d'accuracy entre le train et le val ?
* Stoquez le score obtenu en dernière étape, et relancez le finetuning sans changer le paramétrage. Obtenez-vous les mêmes résultats ? Pourquoi ? La réponse est à chercher dans l'initiatilisation des poids du réseau neuronal.
* Volontairement tester des lr avec d'autres puissances de 10 (0.1, 0.01, 0.001, 0.0001). Est-ce que cela marche mieux ? 

Mon meilleur score est `loss: 0.1615 - accuracy: 0.9384 - val_loss: 0.2864 - val_accuracy: 0.8931` et vous ?



In [None]:
learner.autofit(0.00001)

#### VOTRE REPONSE

**TODO**

*ETAPE 6 :* Le code ci-dessous permet d'utiliser le modèle. 

In [None]:
predictor = ktrain.get_predictor(learner.model, preproc)

data = [ "Ce film était horrible ! L'intrigue était ennuyeuse. Le jeu d'acteur était correct, cependant.",
         "Le film est vraiment nul. Je veux qu'on me rende mon argent.",
        "Quelle belle comédie romantique. 10/10 à revoir !"]

predictor.predict(data)

#### QUESTION

* Tester le modèle. Arrivez-vous à piéger le modèle ? Avec quelle phrase (donnez le code)*texte en italique*.

#### VOTRE REPONSE

**TODO**

## NBSVM

Le code ci-dessous utilise le même pré-traitement que précédemment et applique un modèle neuronal plus "simple" que fasttext.  

In [None]:
# load an NBSVM model
model = text.text_classifier('nbsvm', (x_train, y_train), preproc=preproc)
learner = ktrain.get_learner(model, train_data=(x_train, y_train), val_data=(x_test, y_test))

# fine tune
LEARNING_RATE = 0.01
learner.autofit(LEARNING_RATE)

# Finally, we will fit our model using and [SGDR learning rate](https://github.com/amaiya/ktrain/blob/master/example-02-tuning-learning-rates.ipynb) schedule by invoking the fit method with the cycle_len parameter (along with the cycle_mult parameter).
# learner.fit(0.001, 3, cycle_len=1, cycle_mult=2)


#### QUESTION

* Le modèle nbsvm est-il plus performant que le précédent ? Vous pouvez tester aussi différents learning rate.

## BERT 

L'usage du modèle bert requiert que l'on change le prétraitement des données en entrée. Le code suivant réalise le prétraitement, charge un modèle bert et lance la personnalisation (fine tuning) sur 1 cycle avec taux d'apprentissage fixé.


#### QUESTION
* Exécutez le code en observant l'occupation de la RAM et attendez jusqu'à voir le temps prévisionnel s'afficher. Etes-vous choqué par le temps affiché ? Bert est très gros. Il requiert un peu de temps...
* Stoppez l'exécution dans la cellule, et tentez de changer la taille du batch_size (quantité de données traitées en même temps). Vous pouvez tester 128 et 12 comme valeurs. Ne lachez pas la barre de la RAM des yeux. Ça passe ? Quel problème rencontrez-vous ? 
* Passez à la suite...

In [None]:
# ETAPE 1
DATA_PATH = 'data/allocine-train-10000.csv'
(x_train, y_train), (x_test, y_test), preproc = text.texts_from_csv(DATA_PATH, 
                      'review',
                      label_columns = ["negative", "positive"],
                      val_filepath=None, # if None, 10% of data will be used for validation
                      ##max_features=NUM_WORDS, 
                      #maxlen=MAXLEN,
                      #ngram_range=NGRAMS_SIZE,
                      preprocess_mode='bert' 
                      )
# ETAPE 2 et 3
model = text.text_classifier('bert', (x_train, y_train) , preproc=preproc)
learner = ktrain.get_learner(model, 
                             train_data=(x_train, y_train), 
                             val_data=(x_test, y_test), 
                             batch_size=6)
# ETAPE 5
learner.fit_onecycle(2e-5, 1)

## Mode d'exécution GPU de Google Colab

Utilisiez-vous une GPU jusqu'à présent ou bien utilisiez-vous un CPU ? Que vous dis le code ci-dessous ?

In [None]:
# memory footprint support libraries/code
# https://medium.com/@oribarel/getting-the-most-out-of-your-google-colab-2b0585f82403
!ln -sf /opt/bin/nvidia-smi /usr/bin/nvidia-smi
!pip install gputil
!pip install psutil
!pip install humanize
import psutil
import humanize
import os
import GPUtil as GPU
GPUs = GPU.getGPUs()
# XXX: only one GPU on Colab and isn’t guaranteed

def printm():
 process = psutil.Process(os.getpid())
 print("Gen RAM Free: " + humanize.naturalsize( psutil.virtual_memory().available ), " | Proc size: " + humanize.naturalsize( process.memory_info().rss))
 print("GPU RAM Free: {0:.0f}MB | Used: {1:.0f}MB | Util {2:3.0f}% | Total {3:.0f}MB".format(gpu.memoryFree, gpu.memoryUsed, gpu.memoryUtil*100, gpu.memoryTotal))
#

if len(GPUs) >0: 
  gpu = GPUs[0]
  printm()
else:
  print ('no GPU. Are you sure the hardware accelerator is configured to GPU? To do this go to Runtime→Change runtime type and change the Hardware accelerator to GPU.') 


> To use the google colab in a GPU mode you have to make sure the hardware accelerator is configured to GPU. To do this go to Runtime→Change runtime type and change the Hardware accelerator to GPU. Sometimes, all GPUs are in use and there is no GPU available.

Une fois configuré le GPU, vérifiez l'état de la mémoire sur la carte en réexécutant le code "memory footprint" ci-dessus. Le message a-t-il changé favorablement ?


#### QUESTION
*  Réexécuter aussi toute l'installation et la configuration de l'environnement. Puis réexécuter la personnalisation de BERT. Le temps d'entraînement a-t-il diminué ? D'un facteur de combien diriez-vous  ? Interrompez l'exécution et passer à la suite


#### VOTRE REPONSE

**TODO**

## Modèle "à la bert" issu de hugging face

On va tester un modèle encore plus léger 'distilbert-base-uncased'. Exécutez toutes les cellules de code ci-dessous. Laissez tourner et répondez aux questions.

 

In [None]:
from csv import DictReader

DATA_PATH = 'data/allocine-train-10000.csv'

X = list()
Y = list()

# open file in read mode
with open(DATA_PATH, 'r') as read_obj:
    # pass the file object to reader() to get the reader object
    csv_dict_reader = DictReader(read_obj)
    # get column names from a csv file
    column_names = csv_dict_reader.fieldnames
    print(column_names)
    for row in csv_dict_reader:
        #print(row['review'], row['positive'], row['negative'])
        X.append(row['review'])
        Y.append(row['positive'])



In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.1, random_state=42)
print ('x_train', len(x_train), x_train[:10])
print ('y_train',  len(y_train), y_train[:10])
print ('x_train', len(x_test), x_test[:10])
print ('y_train',  len(y_test), y_test[:10])

# convert a list of string into lists of int then into np.array
import numpy as np
y_train = np.array(list(map(int, y_train)))
y_test = np.array(list(map(int, y_test)))

print ('x_train', len(x_train), x_train[:10])
print ('y_train',  len(y_train), y_train[:10])
print ('x_train', len(x_test), x_test[:10])
print ('y_train',  len(y_test), y_test[:10])

In [None]:
import ktrain
from ktrain import text
MODEL_NAME = 'distilbert-base-uncased'
#MODEL_NAME = 'albert-base-v2'
CLASS_NAMES = ["negative", "positive"]

t = text.Transformer(MODEL_NAME, maxlen=500, class_names=CLASS_NAMES)
trn = t.preprocess_train(x_train, y_train)
val = t.preprocess_test(x_test, y_test)
#print (type(trn))
#x_train, y_train = trn
#x_test, y_test = val  
model = t.get_classifier()
# batch_size (int):              Batch size to use in training. default:32  
#learner = ktrain.get_learner(model, train_data=trn, val_data=val, batch_size=6) # 128 dépend de la ram dispo 13 Go par défaut
learner = ktrain.get_learner(model, train_data=trn, val_data=val, batch_size=12)



In [None]:
learner.fit_onecycle(0.01, 1)
#learner.fit_onecycle(8e-5, 4)
#8e-5 = 8 + 10^(-5)



#### QUESTION
* Quelle performance j'obtiens comparativement aux 2 modèles précédents nbsvm et fasttext ?
* Quelles risques je prends à ne pas réaliser les mêmes prétraitements ou  normalisations (voire utiliser des outils différents pour réaliser les mêmes prétraitements ou normalisations supposées) que ceux réalisés sur les corpus ayant servis à construire les modèles ? 
* En résumé, en mettant dans la balance les questions de performance, les questions de taille de modèles, de temps de personnalisation... quelles conclusions faites-vous de l'usage des modèles simples vs les modèles plus complexes à la BERT ?

Si le code tourne toujours passez à la question suivante pour gagner du temps...

#### VOTRE REPONSE

**TODO**

La performance de BERT est très similaire. Le temps obtenu est beaucoup long.

# Génération de textes


#### QUESTION

* Parmi les ressources communautaires de hugging face, recherchez la ressource de génération de texte qui utilise le modèle `gpt-fr-cased-base` pour le français. Donnez le lien de la page et mettez en oeuvre le code mis à disposition en réduisant le paramètre `max_length` et `top_k` respectivement à `20` et `10`. Vous pouvez chercher à quoi servent ces paramètres...

Pour aller plus loin au sujet de [GPT2](https://huggingface.co/transformers/model_doc/gpt2.html)


#### VOTRE REPONSE

In [None]:
#TODO

Le code suivant encapsule la partie génération... _accidentellement_ le paramètre `top_k` est passé à 1.

In [None]:
def generate (input_sentence):
  input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
  beam_outputs = model.generate(
    input_ids, 
    max_length=20, 
    do_sample=True,   
    top_k=1, 
    top_p=0.95, 
    num_return_sequences=1
  )
  print("Output:\n" + 100 * '-')
  print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

... afin de pouvoir l'utiliser à votre guise : 

In [None]:
input_sentence = "Mon mari vient d'obtenir un nouveau poste en tant"
generate (input_sentence)

#### QUESTION

* Quels sont les professions que le modèle génère pour "Mon mari vient d'obtenir un nouveau poste en tant" ? "Ma femme vient d'obtenir un nouveau poste en tant" ? Si vous augmentez la valeur du paramètre `top_k` e.g. 5, 10 ou 20, observe-vous la même chose ?
* Essayez de trouver des phrases générées par le modèle qui témoignent de biais de sexe, de genre ou autre. Fournissez votre code. Que concluez-vous ?

#### VOTRE REPONSE

**TODO**

In [None]:
# TODO

# Références
* Text Classification Example: Sentiment Analysis with IMDb Movie Reviews¶ https://nbviewer.org/github/amaiya/ktrain/blob/master/tutorials/tutorial-04-text-classification.ipynb
* https://nbviewer.org/github/amaiya/ktrain/blob/master/examples/text/IMDb-BERT.ipynb
* ktrain examples of Binary text Classification (Sentiment Analysis with IMDb Movie Reviews) with a nbsvm model (also a bit of bert)  and 
Multi-Label Text Classification (toxic comments) with fasttext https://nbviewer.org/github/amaiya/ktrain/blob/master/tutorials/tutorial-04-text-classification.ipynb
* Text Classification with Hugging Face Transformers in ktrain https://github.com/amaiya/ktrain/blob/master/tutorials/tutorial-A3-hugging_face_transformers.ipynb
* ktrain api documentation https://amaiya.github.io/ktrain/
