# Projet  **<span style="color: #CC146C">Quiz generator </span>** üí° - Python pour le data-scientist

#### Auteurs : Adrien Servi√®re, M√©lissa Tamine.

L'objectif de ce notebook est de pr√©senter le projet que nous avons effectu√© dans le cadre de l'unit√© d'enseignement **Python pour le data-scientist** dispens√©e √† l'ENSAE. Ce projet a √©t√© √©labor√© de mani√®re libre et comporte, comme attendu, un **jeu de donn√©es** r√©cup√©r√© et trait√©, une partie **visualisation** et une partie **mod√©lisation**. 

# Probl√©matique

Notre projet s'articule autour de la probl√©matique suivante : **Comment cr√©er un syst√®me capable de g√©n√©rer un quiz (plusieurs paires de question/r√©ponse) sur un th√®me pr√©cis ?**

Dans la mesure o√π l'objectif principal d'un quiz est d‚Äô√©valuer les connaissances d‚Äôun participant, il nous a sembl√© qu'un tel syst√®me pourrait s'av√©rer tr√®s utile √† des enseignants afin de tester de mani√®re ludique les acquis de leurs √©l√®ves par exemple. 

C'est pourquoi nous avons mod√©lis√© la structure suivante afin que le syst√®me cr√©√© puisse r√©pondre au probl√®me :

![framework](./data/images/framework.png "Structure du syst√®me impl√©ment√©")

La structure est divis√©e en deux parties distinctes : 
1. Une partie **traitement des donn√©es** qui a principalement consist√© √† extraire et indexer dans ElasticSearch la base de donn√©es Wikip√©dia sur laquelle le mod√®le se fonde.
2. Une partie **mod√©lisation** fond√©e sur la mise en place d'une *pipeline* form√©e de plusieurs outils de traitement du langage et mod√®les de langages.

# Installations et recommandations pr√©alables

Avant d'ex√©cuter veuillez proc√©der aux installations de modules n√©cessaires au bon fonctionnement du code en ex√©cutant la cellule ci-dessous. 

In [55]:
!pip install elasticsearch
!pip install wordcloud
!pip install nltk
!pip install spacy
!python3 -m spacy download en
!pip install pywaffle
!pip install stanza
!pip install pytorch_lightning
!pip install sentencepiece
!pip install transformers
!pip install strsimpy

De m√™me, nous vous demanderons d'ex√©cuter les cellules de ce notebook au sein d'un **espace de travail muni d'un service ElasticSearch pr√©alablement ex√©cut√©** afin que la partie indexation puisse fonctionner. Nous vous conseillons d'utiliser **SSP Cloud** car la technologie ElasticSearch y est disponible.

# Importation des modules utiles

In [4]:
import os
import sys
import seaborn
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
from src.scripts.wikipedia_indexing import *
from src.data.constants import *
from src.data.visualisation import *
import stanza
from src.scripts.quiz_generator import *

# R√©cup√©ration et traitement des donn√©es üóÇÔ∏è

## Extraction des donn√©es textuelles provenant de l'encyclop√©die Wikip√©dia

La premi√®re √©tape de notre projet a √©t√© la **r√©cup√©ration** et le **traitement des donn√©es**. Dans notre cas, nous avons fait le choix de r√©cup√©rer des donn√©es textuelles provenant d'articles de l'encyclop√©die en ligne **Wikip√©dia**. 

Pour des raisons de volume, nous avons extrait les donn√©es brutes de la version en anglais simple de Wikip√©dia (en anglais : *Simple English Wikipedia*) plut√¥t que les versions en anglais ou en fran√ßais bien trop volumineuses. Il s'agit d'une encyclop√©die sp√©cialement fond√©e pour ¬´ des √©tudiants, des enfants ou des adultes ayant des difficult√©s de compr√©hension et pour ceux qui souhaiteraient apprendre l'anglais ¬ª. En novembre 2021, date √† laquelle nous avons extrait les donn√©es brutes, le site contenait plus de **200 000 pages** diff√©rentes.

Afin d'extraire ces donn√©es brutes et de les convertir en donn√©es textuelles pouvant √™tre exploit√©es, nous avons utilis√© l'outil ```Wikiextractor``` (https://attardi.github.io/wikiextractor/) de la mani√®re suivante dans un terminal :
```
>>> wget "http://download.wikimedia.org/simplewiki/latest/simplewiki-latest-pages-articles.xml.bz2"

>>> python -m wikiextractor.WikiExtractor -o "./quiz-generator/data/wikipedia/" --json --processes 12 "quiz-generator/data/wikipedia/simplewiki-latest-pages-articles.xml.bz2"

>>> rm "./quiz-generator/data/wikipedia/simplewiki-latest-pages-articles.xml.bz2"
```

Ces commandes nous ont permis d'obtenir les plus de 200 000 pages de donn√©es textuelles sous la forme de plusieurs fichiers .txt format√©s comme des donn√©es au format JSON que vous trouverez dans le dossier *data* du projet.

## Indexation des donn√©es textuelles dans ElasticSearch

Une fois les donn√©es r√©cup√©r√©es, il a ensuite fallu les traiter. Le traitement a principalement consist√© √† indexer ces donn√©es textuelles dans *ElasticSearch*. 

ElasticSearch c‚Äôest un logiciel qui fournit un moteur de recherche install√© sur un serveur (dans notre cas le serveur SSP Cloud) qu‚Äôil est possible de requ√™ter depuis un client (ce Notebook en l'occurence). C‚Äôest un moteur de recherche tr√®s performant, puissant et flexible sur donn√©es textuelles. L'objectif de l'utilisation d'un tel outil est de trouver, dans un corpus de grande dimension, un certain texte. **Dans notre cas, il s'agit de trouver les textes les plus pertinents sur un th√®me donn√© parmi l'ensemble des donn√©es textuelles comprises dans les 200 000 pages de donn√©es disponibles.**

Nous utilisons la librairie python ```elasticsearch``` pour dialoguer avec notre moteur de recherche Elastic. La ligne de code ci-dessous permet d'√©tablir la connexion avec le cluster Elastic que vous avez d√ª lancer dans votre session SSP Cloud lors de la phase de recommandation. 

In [5]:
es = set_es_client()

Maintenant que la connexion est √©tablie, nous pouvons passer √† l'√©tape **d'indexation**. Cette √©tape consiste √† envoyer les documents parmi lesquels nous souhaitons chercher des echos pertinents dans notre elastic. Un index est donc une collection de document. Dans notre cas, les documents sont les paragraphes qui composent les articles du *Simple English Wikipedia*. 

**Remarque :** L'ex√©cution de la ligne suivante qui permet l'indexation est relativement longue, veuillez compter environ 7 minutes.

In [40]:
run_indexing(client=es, args=fill_default_args())

## Ex√©cution d'une premi√®re requ√™te test

Maintenant que l'√©tape d'indexation est finalis√©e, il est d√©sormais possible de lancer notre premi√®re **requ√™te** c'est √† dire de chercher les documents les plus pertinents √† propos d'un th√®me (un certain mot). 

Pour cela, nous utilisons l'algorithme d'extraction d'information BM25 que nous avons impl√©ment√© et qui utilise simplement la m√©thode interne de pond√©ration des mots utilis√©e par ElasticSearch. La pertinence d‚Äôun mot pour notre recherche est construite sur une variante de la **TF-IDF**, consid√©rant qu‚Äôun terme est pertinent s‚Äôil est souvent pr√©sent dans le document (Term Frequency) alors qu‚Äôil est peu fr√©quent dans les autres document (inverse document frequency).

In [6]:
bm25 = BM25Retriever(client=es)

Nous d√©cidons par exemple de chercher les documents c'est √† dire les paragraphes inclus dans le *Simple English Wikipedia* les plus pertinents traitant du philosophe **Emmanuel Kant**.

In [7]:
contexts = bm25.retrieve(query='kant')
text_contexts = [context.text for context in contexts]

In [8]:
nl = ' \n ------ \n'
print(f"{nl}{nl.join(text_contexts)}")

Ces 10 paragraphes pertinents √† propos d'Emmanuel Kant pourront √™tre utilis√©s comme **"contextes"** dans la phase de mod√©lisation. Mais avant de nous y int√©resser, tentons de **visualiser les donn√©es** √† notre dispositions. 

# Visualisation des donn√©es üìä

Afin d'observer certains graphiques int√©ressants concernant nos donn√©es, nous allons utiliser pour l'exemple les paragraphes pertinents √† propos d'Emmanuel Kant extraits pr√©c√©demment.

## Pr√©paration pr√©alable des donn√©es

Nous commen√ßons par charger ces paragraphes dans un objet TextProcessing et par les "pr√©parer" (la pr√©paration consiste √† retirer les espaces superflus en d√©but et fin de paragraphe, √† passer le texte en minuscule et √† le diviser en *tokens*) afin que la visualisation soit plus ais√©e.

In [9]:
t_p = TextProcessing(retrieved_contexts = contexts)
t_p.load()
t_p.prepare()

Nous pouvons alors afficher les 10 premiers tokens ainsi obtenus par exemple.

In [10]:
t_p.text_split[:10]

## Fr√©quences de mots

Une fois les donn√©es charg√©es et pr√©par√©es, il est possible de s'int√©resser aux **fr√©quences des diff√©rents mots** (les 15 plus fr√©quents dans notre cas) dans l'ensemble des paragraphes pertinents √† propos d'Emmanuel Kant. 

In [11]:
sorted_cardinalities = cardinality_of_words(t_p.text_split)
common_words = list(sorted_cardinalities.items())[:N_MOST_COMMON]
common_words

Nous pouvons **afficher sous forme de graphique** ces diff√©rentes fr√©quences.

In [12]:
words = [w[0] for w in common_words]
counts = [w[1] for w in common_words]
plt.style.use('dark_background')
plt.figure(figsize=(15, 9))
seaborn.barplot(x = words, y = counts).set_title("Mots les plus fr√©quents dans l'ensemble des paragraphes extraits");

Nous pouvons constater que des mots tels que *the*, *of*, *and* ou encore *in* figurent parmis les termes les plus fr√©quents. En recherche d'information, de tels mots sont appel√©s **mots vides** (ou *stop words*, en anglais). Il s'agit de mots tellement communs qu'il est inutile de les utiliser dans une recherche car ils sont peu instructifs sur le contexte √©tudi√©.

Nous pouvons donc afficher les fr√©quences de mots mais cette fois-ci en **supprimant les mots vides** afin de mettre en lumi√®re les mots fr√©quents les plus pertinents et significatifs des paragraphes extraits.

In [13]:
text_without_stopwords = t_p.without_stopwords()
cardinalities = Counter(text_without_stopwords)
words = [cardinality[0] for cardinality in cardinalities.most_common(N_MOST_COMMON)]
counts = [cardinality[1] for cardinality in cardinalities.most_common(N_MOST_COMMON)]
plt.style.use('dark_background')
plt.figure(figsize=(15, 9))
seaborn.barplot(x = words, y = counts).set_title("Mots pleins les plus fr√©quents dans l'ensemble des paragraphes extraits");

Les mots ainsi affich√©s mettent en lumi√®re la pertinence des paragraphes extraits par l'algorithme BM25 vis √† vis du th√®me choisi √† savoir Emmanuel Kant, *kant* √©tant largement le mot le plus fr√©quent. Les autres mots fr√©quents tels que *critique* et *reason* faisant echo √† son oeuvre principale ou encore *philosophy* sont √©galement repr√©sentatifs du th√®me choisi. 

Il est √©galement possible de comparer la fr√©quence d'un m√™me mot selon les diff√©rents paragraphes extraits sur un m√™me th√®me. La cellule suivante permet d'afficher le nombre d'occurence du terme *kant* dans les 10 paragraphes extraits sous la forme d'un *waffle chart*.

In [14]:
fig = graph_occurrence("kant", contexts)

## Nuage de mots

Il est √©galement possible de repr√©senter les mots des paragraphes pertinents √† propos d'Emmanuel Kant sous la forme de nuage de mots cl√©s (ou *word clouds* en anglais). Le nuage de mots cl√©s est une sorte de condens√© s√©mantique d'un texte dans lequel les concepts clefs √©voqu√©s sont dot√©s d'une unit√© de taille (dans le sens du poids de la typographie utilis√©e) permettant de faire ressortir leur importance dans le texte.

In [16]:
wordcloud = WordCloud(width=800, height=500,
                      #random_state=21, max_font_size=110).generate(t_p.text)
plt.figure(figsize=(19, 12))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis('off');

Cette visualisation permet d'obtenir une sorte r√©sum√© des paragraphes pertinents dont on voit directement appara√Ætre les id√©es cl√©s et donc importantes.

## Word embedding (vectorisation des mots) et visualisation

Le **word embedding** est une m√©thode d'apprentissage d'une repr√©sentation de mots utilis√©e en traitement automatique des langues. Cette technique permet de repr√©senter chaque mot d'un corpus de textes par un vecteur de nombres r√©els. Cette nouvelle repr√©sentation a ceci de particulier que **les mots apparaissant dans des contextes similaires poss√®dent des vecteurs correspondants qui sont relativement proches**. Par exemple, on pourrait s'attendre √† ce que les mots ¬´ chien ¬ª et ¬´ chat ¬ª soient repr√©sent√©s par des vecteurs relativement peu distants dans l'espace vectoriel o√π sont d√©finis ces vecteurs.

Nous pouvons donc utiliser un mod√®le de vectorisation de mots d√©j√† entra√Æn√© puis des m√©thodes de r√©duction de dimmensions afin de visualiser dans l'espace latent des mots anglais, les mots fr√©quents des paragraphes extraits √† propos d'Emmanuel Kant.

**Remarque** : Nous choisissons de ne vectoriser et repr√©senter que quelques mots seulement dans un soucis de lisibilit√© du graphique.

In [17]:
e = Embedding(MODEL_NAME)
e.embedding(t_p.text[:301])
words_embedding_dim_2 = e.pca()

In [18]:
seaborn.set()
plt.style.use('dark_background')
plt.figure(figsize = (15, 9))
plt.plot(words_embedding_dim_2[:,0], words_embedding_dim_2[:,1], 'b', label = 'Vecteurs de mots', linewidth=0, marker = '*')
plt.title('Word Embedding sur les premiers mots des paragraphes extraits')
plt.xlabel('Premi√®re dimension')
plt.ylabel('Deuxi√®me dimension')
plt.legend()
for i, w in enumerate(e.words):
    plt.annotate(w, xy=(words_embedding_dim_2[i, 0], words_embedding_dim_2[i, 1]))

plt.show()

Il appara√Æt par exemple que les termes *philosophers*, *kant* et *ideas* sont proches dans l'espace latent de mots ce qui est coh√©rent avec la s√©mantique. 

# Mod√©lisation üîç

√Ä pr√©sent, nous pouvons nous int√©resser √† la v√©ritable motivation de ce projet √† savoir l'impl√©mentation d'une *pipeline* permettant de **g√©n√©rer un quiz** (paires de questions/r√©ponses) sur un th√®me donn√©. 

Les diff√©rentes composantes de la *pipeline* permettent de r√©aliser les √©tapes suivantes :

1. √Ä partir des contextes (paragraphes) pertinents sur le th√®me donn√© (ici Emmanuel Kant) extraits de notre base textuelle initiale gr√¢ce au **BM25 Retriever**, nous pouvons extraire gr√¢ce √† un outil de **Name Entity Recognition**, des noms propres, dates, lieux ou organisations susceptibles de consistuer des r√©ponses potentielles √† des questions.
2. Un g√©n√©rateur de questions appel√© **T5** d√©j√† pr√©-entra√Æn√© et *fine-tun√©* nous permet de g√©n√©rer, en prenant en entr√©e un contexte et une r√©ponse, une question coh√©rente.
3. La s√©rie de questions/r√©ponses ainsi obtenue est ensuite filtr√©e pour ne conserver que les paires les plus pertinentes et correctes gr√¢ce √† une m√©thode de filtrage appel√©e *Roundtrip* pens√©e et expliqu√©e dans l'article suivant : https://aclanthology.org/P19-1620.pdf

## Extraction de r√©ponses par reconnaissance d'entit√©s nomm√©es (Name Entity Recognition)

L'id√©e de cette premi√®re √©tape est d'extraire des r√©ponses potentielles aux futures questions g√©n√©r√©es √† partir des contextes pertinents sur le th√®me choisi (ici Kant en l'occurence).

Nous utilisons pour cela l'outil de reconnaissance d'entit√©s nomm√©es de l'Universit√© de Standford appel√© ```stanza``` que nous commen√ßons par t√©l√©charger.

In [None]:
project_dir = os.getcwd().split('src')[0]
sys.path.append(project_dir)
stanza.download('en', model_dir="data/stanza")

Puis √† l'aide de la fonction impl√©ment√©e ```extract_answers_from_contexts()```nous pouvons extraire des r√©ponses potentielles dans les contextes pertinents sur Emmanuel Kant.

In [19]:
questions = [Question(retrieved_contexts = [context]) for context in contexts]
qca = QuestionContextAnswer(questions = questions)
qca = extract_answers_from_contexts(qca, "data/stanza")

En voici quelques exemples :

In [20]:
all_answers = [answer.text for answer in qca.get_all_answers()]
all_answers[:15]

## G√©n√©ration de questions √† partir des contextes et r√©ponses

√Ä partir des contextes et r√©ponses extraites, nous pouvons g√©n√©rer √† l'aide du mod√®le de langage **T5**, des questions coh√©rentes avec ces contextes/r√©ponses. Pour ce faire nous utilisons un mod√®le pr√©-entra√Æn√© et *fine-tun√©* disponible en open source (https://huggingface.co/Narrativa/mT5-base-finetuned-tydiQA-question-generation) utilis√© dans notre fonction impl√©ment√©e ```generate_questions()```.

In [21]:
qca = generate_questions(qca, 15, model_path="Narrativa/mT5-base-finetuned-tydiQA-question-generation")

Nous obtenons au final 67 paires de questions r√©ponses diff√©rents √† partir des diff√©rents contextes et r√©ponses en entr√©e. 

In [22]:
print(f'Un exemple de paire de question/r√©ponse pertinente : \n{qca.questions[15].text} / {qca.questions[15].predicted_answers[0].text}')

Au vue de la paire de question/r√©ponse pr√©c√©dente, nous pourrions croire que l'ensemble des questions g√©n√©r√©es par le mod√®le **T5** sont aussi pertinentes. N√©anmoins, ce mod√®le de langage comme tous les autres est loin d'√™tre infaillible. Il peut g√©n√©rer des questions incoh√©rentes avec la r√©ponse extraite, en voici un exemple :

In [23]:
print(f'Un exemple de paire de question/r√©ponse incorrecte : \n{qca.questions[1].text} / {qca.questions[1].predicted_answers[0].text}')

C'est pourquoi il est n√©cessaire de **filtrer les questions/r√©ponses** ainsi obtenues afin de ne conserver que les plus correctes dans le quiz final.

## Filtrage des questions/r√©ponses incorrectes

Le principe de cette √©tape de filtrage est de conserver uniquement les paires de questions/r√©ponses les plus pertinentes dans le quiz final. Pour cela, nous appliquons un algorithme de filtrage dont les √©tapes sont les suivantes :
1. En prenant en entr√©e le contexte **C** et la question g√©n√©r√©e **Q**, un mod√®le de langage BERT fine-tun√© pour la t√¢che de Question Answering (disponible en open-source au lien suivant https://huggingface.co/csarron/roberta-base-squad-v1) va "lire" la r√©ponse √† la question la plus vraissemblable au sein du contexte. Nous nommons cette nouvelle r√©ponse **R'**.
2. Si la r√©ponse **R** extraite par Name Entity Recognition et la r√©ponse **R'** lue par le mod√®le BERT sont suffisamment proches (au sens de la distance Leveinshtein) alors nous consid√©rons que la paire de question/r√©ponse **Q/R** est pertinente. En effet, cela signifie vraissemblablement que la question **Q** est suffisamment coh√©rente pour que le mod√®le BERT ait pu lire une r√©ponse similaire √† celle initialement associ√©e √† cette question.

La cellule suivante permet d'appliquer ce filtre. 

In [24]:
qca = roundtrip_filter(qca, model_path="csarron/roberta-base-squad-v1")

In [25]:
print(f'Nouvelle paire de question r√©ponse au rang 1 :\n{qca.questions[1].text} / {qca.questions[1].predicted_answers[0].text}')

Nous constatons que la paire de question/r√©ponse incorrecte du rang 1 que nous avions pr√©cedemment affich√©e : 
> What was Kant's first philosophy? / Kant

a √©t√© remplac√©e par la paire suivante :
> Who is the most powerful philosopher? / Kant

Cela signifie que la premi√®re paire de question r√©ponse a √©t√© filtr√©e ce qui laisse penser que le filtre est relativement performant pour √©liminer les questions s√©mantiquement incorrectes vis √† vis de leurs r√©ponses.

# G√©n√©ration d'un quiz üí°

Nous vous avons ainsi pr√©sent√© les diff√©rentes √©tapes, algorithmes et mod√®les de langage utilis√© dans ce projet. Nous pouvons √† pr√©sent vous pr√©senter **l'outil de g√©n√©ration de quiz** que nous avons √©labor√© et qui reprend l'ensemble des √©tapes que nous avons √©nonc√© pr√©c√©demment. Il permet de cr√©er **un quiz de 10 questions/r√©ponses** sur un th√®me choisi (ou moins si les circonstances ont fait que l'outil n'a pas pu g√©n√©rer 10 questions r√©ponses (pauvret√© des contextes, filtrage etc.) 

N'h√©sitez pas √† changer le th√®me du quiz pour comparer les performances de notre outil et cr√©er les quiz de votre choix.

In [26]:
quiz_generator(theme="kant")

# Pistes d'am√©lioration du projet

1. Notre objectif initial √©tait de g√©n√©rer des paires de questions r√©ponses en fran√ßais. Pour cela nous aurions d√ª fonder notre mod√®le sur la version fran√ßaise de encyclop√©die Wikip√©dia. Cependant, celle-ci √©tant trop volumineuse, elle n'√©tait pas transferable sur le serveur GitHub ce qui rendait notre travail difficilement reproductible. C'est pourquoi nous nous sommes tourn√©s vers la version *Simple English* moins riche linguistiquement mais suffisante pour utiliser les outils que nous avions impl√©ment√©s. 

2. Nous souhaitions √©galement *fine-tuner* nous-m√™me les mod√®les de langages **T5** et **BERT** afin d'avoir une meilleure id√©e des performances finales de ces outils. Dans notre cas, nous avons utilis√© ces mod√®les d√©j√† *fine-tun√©* par d'autres d√©veloppeurs et disponibles en open-source. L'avantage a √©t√© un gain de temps consid√©rable car l'entra√Ænement d'un mod√®le de langage peut s'av√©rer tr√®s long mais en contre partie nous ne savons pas exactement comment ces mod√®les ont √©t√© entra√Æn√©s et quelles sont leurs performances sur un dataset test : nous pouvons seulement √©valuer leur robustesse √† travers notre outil.