# Projet  **<span style="color: #DC143C">Quiz generator </span>** 💡 - Python pour le data-scientist

#### Auteurs : Adrien Servière, Mélissa Tamine.

L'objectif de ce notebook est de présenter le projet que nous avons effectué dans le cadre de l'unité d'enseignement **Python pour le data-scientist** dispensée à l'ENSAE. Ce projet a été élaboré de manière libre et comporte, comme attendu, un **jeu de données** récupéré et traité, une partie **visualisation** et une partie **modélisation**. 

# Problématique

Notre projet s'articule autour de la problématique suivante : **Comment créer un système capable de générer un quiz (plusieurs paires de question/réponse) sur un thème précis ?**

Dans la mesure où l'objectif principal d'un quiz est d’évaluer les connaissances d’un participant, il nous a semblé qu'un tel système pourrait s'avérer très utile à des enseignants afin de tester de manière ludique les acquis de leurs élèves par exemple. 

C'est pourquoi nous avons modélisé la structure suivante afin que le système créé puisse répondre au problème :

![framework](./data/images/framework.png "Structure du système implémenté")

La structure est divisée en deux parties distinctes : 
1. Une partie **traitement des données** qui a principalement consisté à extraire et indexer dans ElasticSearch la base de données Wikipédia sur laquelle le modèle se fonde.
2. Une partie **modélisation** fondée sur la mise en place d'une *pipeline* formée de plusieurs outils de traitement du langage et modèles de langages.

# Installations et recommandations préalables

Avant d'exécuter veillez procéder aux installations de modules nécessaires au bon fonctionnement du code en exécutant la cellule ci-dessous. 

In [21]:
#!pip install elasticsearch
#!pip install wordcloud
#!pip install pytorch_lightening

De même, nous vous demanderons d'exécuter les cellules de ce notebook au sein d'un **espace de travail muni d'un service ElasticSearch préalablement exécuté** afin que la partie indexation puisse fonctionner. Nous vous conseillons d'utiliser **SSP Cloud** car la technologie ElasticSearch y est disponible est disponible.

# Importation des modules utiles

In [20]:
import os
import sys
import seaborn
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
from src.models.bm25_retriever import *
from src.scripts.wikipedia_indexing import *

# Récupération et traitement des données 🗂️

In [2]:
es = set_es_client()

In [3]:
run_indexing(client=es, args=fill_default_args())

Index wikipedia_english already exists, deleting the index.
Processing wikipedia folder AA: 100%|██████████| 2/2 [06:43<00:00, 201.87s/it]


In [4]:
bm25 = BM25Retriever(client=es)

In [14]:
contexts = bm25.retrieve(query='kant')

In [16]:
contexts[0].text

'In the early 20th century Kant\'s ideas were very influential on one group of German philosophers. They became known as the new-Kantians. One of them, Windelband, said, "every philosophy before Kant poured into Kant, and every philosophy after Kant pours from Kant".'

# Visualisation des données 📊

# Modélisation 🔍