# Projet  **<span style="color: #CC146C">Quiz generator </span>** üí° - Python pour le data-scientist

#### Auteurs : Adrien Servi√®re, M√©lissa Tamine.

L'objectif de ce notebook est de pr√©senter le projet que nous avons effectu√© dans le cadre de l'unit√© d'enseignement **Python pour le data-scientist** dispens√©e √† l'ENSAE. Ce projet a √©t√© √©labor√© de mani√®re libre et comporte, comme attendu, un **jeu de donn√©es** r√©cup√©r√© et trait√©, une partie **visualisation** et une partie **mod√©lisation**. 

# Probl√©matique

Notre projet s'articule autour de la probl√©matique suivante : **Comment cr√©er un syst√®me capable de g√©n√©rer un quiz (plusieurs paires de question/r√©ponse) sur un th√®me pr√©cis ?**

Dans la mesure o√π l'objectif principal d'un quiz est d‚Äô√©valuer les connaissances d‚Äôun participant, il nous a sembl√© qu'un tel syst√®me pourrait s'av√©rer tr√®s utile √† des enseignants afin de tester de mani√®re ludique les acquis de leurs √©l√®ves par exemple. 

C'est pourquoi nous avons mod√©lis√© la structure suivante afin que le syst√®me cr√©√© puisse r√©pondre au probl√®me :

![framework](./data/images/framework.png "Structure du syst√®me impl√©ment√©")

La structure est divis√©e en deux parties distinctes : 
1. Une partie **traitement des donn√©es** qui a principalement consist√© √† extraire et indexer dans ElasticSearch la base de donn√©es Wikip√©dia sur laquelle le mod√®le se fonde.
2. Une partie **mod√©lisation** fond√©e sur la mise en place d'une *pipeline* form√©e de plusieurs outils de traitement du langage et mod√®les de langages.

# Installations et recommandations pr√©alables

Avant d'ex√©cuter veuillez proc√©der aux installations de modules n√©cessaires au bon fonctionnement du code en ex√©cutant la cellule ci-dessous. 

In [1]:
#!pip install elasticsearch
#!pip install wordcloud
#!pip install torch

De m√™me, nous vous demanderons d'ex√©cuter les cellules de ce notebook au sein d'un **espace de travail muni d'un service ElasticSearch pr√©alablement ex√©cut√©** afin que la partie indexation puisse fonctionner. Nous vous conseillons d'utiliser **SSP Cloud** car la technologie ElasticSearch y est disponible.

# Importation des modules utiles

In [2]:
import os
import sys
import seaborn
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
from src.models.bm25_retriever import *
from src.scripts.wikipedia_indexing import *

# R√©cup√©ration et traitement des donn√©es üóÇÔ∏è

## Extraction des donn√©es textuelles provenant de l'encyclop√©die Wikip√©dia

La premi√®re √©tape de notre projet a √©t√© la **r√©cup√©ration** et le **traitement des donn√©es**. Dans notre cas, nous avons fait le choix de r√©cup√©rer des donn√©es textuelles provenant d'articles de l'encyclop√©die en ligne **Wikip√©dia**. 

Pour des raisons de volume, nous avons extrait les donn√©es brutes de la version en anglais simple de Wikip√©dia (en anglais : *Simple English Wikipedia*). Il s'agit d'une encyclop√©die sp√©cialement fond√©e pour ¬´ des √©tudiants, des enfants ou des adultes ayant des difficult√©s de compr√©hension et pour ceux qui souhaiteraient apprendre l'anglais ¬ª. En novembre 2021, date √† laquelle nous avons extrait les donn√©es brutes, le site contenait plus de **200 000 pages** diff√©rentes.

Afin d'extraire ces donn√©es brutes et de les convertir en donn√©es textuelles pouvant √™tre exploit√©es, nous avons utilis√© l'outil ```Wikiextractor``` (https://attardi.github.io/wikiextractor/) de la mani√®re suivante dans un terminal :
```
>>> wget "http://download.wikimedia.org/simplewiki/latest/simplewiki-latest-pages-articles.xml.bz2"

>>> python -m wikiextractor.WikiExtractor -o "./quiz-generator/data/wikipedia/" --json --processes 12 "quiz-generator/data/wikipedia/simplewiki-latest-pages-articles.xml.bz2"

>>> rm "./quiz-generator/data/wikipedia/simplewiki-latest-pages-articles.xml.bz2"
```

Ces commandes nous ont permis d'obtenir les plus de 200 000 pages de donn√©es textuelles sous la forme de plusieurs fichiers .txt format√©s comme des donn√©es au format JSON que vous trouverez dans le dossier *data* du projet.

## Indexation des donn√©es textuelles dans ElasticSearch

Une fois les donn√©es r√©cup√©r√©es, il a ensuite fallu les traiter. Le traitement a principalement consist√© √† indexer ces donn√©es textuelles dans *ElasticSearch*. 

ElasticSearch c‚Äôest un logiciel qui fournit un moteur de recherche install√© sur un serveur (dans notre cas le serveur SSP Cloud) qu‚Äôil est possible de requ√™ter depuis un client (ce Notebook en l'occurence). C‚Äôest un moteur de recherche tr√®s performant, puissant et flexible sur donn√©es textuelles. L'objectif de l'utilisation d'un tel outil est de trouver, dans un corpus de grande dimension, un certain texte. Dans notre cas, il s'agit de trouver les textes les plus pertinents sur un th√®me donn√© parmi l'ensemble des donn√©es textuelles comprises dans les 200 000 pages de donn√©es disponibles.

In [2]:
es = set_es_client()

In [3]:
run_indexing(client=es, args=fill_default_args())

Index wikipedia_english already exists, deleting the index.
Processing wikipedia folder AA: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [06:43<00:00, 201.87s/it]


In [4]:
bm25 = BM25Retriever(client=es)

In [14]:
contexts = bm25.retrieve(query='kant')

In [16]:
contexts[0].text

'In the early 20th century Kant\'s ideas were very influential on one group of German philosophers. They became known as the new-Kantians. One of them, Windelband, said, "every philosophy before Kant poured into Kant, and every philosophy after Kant pours from Kant".'

# Visualisation des donn√©es üìä

# Mod√©lisation üîç