## Téléchargement du corpus Wikipédia  

In [None]:
! wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-meta-current.xml.bz2

Nous ouvrons l'archive avec l'option k afin de garder le fichier d'origine.

In [4]:
! bzip2 -dk /store/dyfar/enwiki-latest-pages-meta-current.xml.bz2

Il faut maintenant nettoyer le fichier xml. Pour ce faire nous utilisons wikiextractor.

Beaucoup d'options sont disponibles et vous pouvez les changer si vous le voulez. Le bloc suivant installe wikiextractor, créé ensuite un dossier dans lequel le script va ajouter les fichiers une fois nettoyer. 

In [None]:
! pip install wikiextractor
! mkdir /store/dyfar/wikipedia_dump
! python3 -m wikiextractor.WikiExtractor /store/dyfar/enwiki-latest-pages-meta-current.xml -o /store/dyfar/wikipedia_dump --json --quiet

In [8]:
! ls /store/dyfar/wikipedia_dump
! ls /store/dyfar/wikipedia_dump/AA
! head -c 400 /store/dyfar/wikipedia_dump/AA/wiki_00

AA  AI	AQ  AY	BG  BO	BW  CE	CM  CU	DC  DK	DS  EA	EI  EQ	EY  FG
AB  AJ	AR  AZ	BH  BP	BX  CF	CN  CV	DD  DL	DT  EB	EJ  ER	EZ  FH
AC  AK	AS  BA	BI  BQ	BY  CG	CO  CW	DE  DM	DU  EC	EK  ES	FA  FI
AD  AL	AT  BB	BJ  BR	BZ  CH	CP  CX	DF  DN	DV  ED	EL  ET	FB  FJ
AE  AM	AU  BC	BK  BS	CA  CI	CQ  CY	DG  DO	DW  EE	EM  EU	FC  FK
AF  AN	AV  BD	BL  BT	CB  CJ	CR  CZ	DH  DP	DX  EF	EN  EV	FD
AG  AO	AW  BE	BM  BU	CC  CK	CS  DA	DI  DQ	DY  EG	EO  EW	FE
AH  AP	AX  BF	BN  BV	CD  CL	CT  DB	DJ  DR	DZ  EH	EP  EX	FF
wiki_00  wiki_12  wiki_24  wiki_36  wiki_48  wiki_60  wiki_72  wiki_84	wiki_96
wiki_01  wiki_13  wiki_25  wiki_37  wiki_49  wiki_61  wiki_73  wiki_85	wiki_97
wiki_02  wiki_14  wiki_26  wiki_38  wiki_50  wiki_62  wiki_74  wiki_86	wiki_98
wiki_03  wiki_15  wiki_27  wiki_39  wiki_51  wiki_63  wiki_75  wiki_87	wiki_99
wiki_04  wiki_16  wiki_28  wiki_40  wiki_52  wiki_64  wiki_76  wiki_88
wiki_05  wiki_17  wiki_29  wiki_41  wiki_53  wiki_65  wiki_77  wiki_89
wiki_06  wiki_18  wiki_30  wiki_42  wiki_54  wiki_

Comme vous pouvez le voir, nous avons maintenant un ensemble de dossiers contenant des fichiers qui eux sont composés de 1 article Wikipédia par ligne. Nous montrons aussi les 400 premiers charactères d'un fichier.

## Peuplement de la basse de données

In [1]:
import argparse
import sqlite3
import json
import os
import logging
import importlib.util
import uuid
import regex
from tqdm.auto  import tqdm
from multiprocessing import Pool as ProcessPool

logger = logging.getLogger()
logger.setLevel(logging.INFO)
fmt = logging.Formatter('%(asctime)s: [ %(message)s ]', '%m/%d/%Y %I:%M:%S %p')
console = logging.StreamHandler()
console.setFormatter(fmt)
logger.addHandler(console)

In [2]:
def iter_files(path):
    """Walk through all files located under a root path."""
    if os.path.isfile(path):
        yield path
    elif os.path.isdir(path):
        for dirpath, _, filenames in os.walk(path):
            for f in filenames:
                yield os.path.join(dirpath, f)
    else:
        raise RuntimeError('Path %s is invalid' % path)

La fonction split_document comporte une implémentation naîve et c'est à vous d'implémenter une meilleure fonction. 

In [3]:
def preprocess_doc(doc):
    """Preprocess a document for exemple if you want to remove stop words"""
    return doc

def split_document(doc):
    """Split a doc on each "." character
    
    Split un document en de plus petites entités et génère un uuid pour 
    chaque split.
    """
    return [(str(uuid.uuid4()), text) for text in doc.split('.')]

In [4]:
def get_contents(filename):
    """Parse the contents of a file. Each line is a JSON encoded document."""
    documents = []
    with open(filename, encoding='utf-8') as f:
        for line in f:
            # Parse document
            doc = json.loads(line)
            # Maybe preprocess the document with custom function
            preprocess_doc(doc)
            # Skip if it is empty or None
            if not doc:
                continue
                
                
            # Add the document
            doc = doc['text']
            docs = split_document(doc)
            documents += docs
    return documents

In [5]:
def store_contents(data_path, save_path, num_workers=1):
    """Preprocess and store a corpus of documents in sqlite.
    Args:
        data_path: Root path to directory (or directory of directories) of files
          containing json encoded documents (must have `id` and `text` fields).
        save_path: Path to output sqlite db.
        preprocess: Path to file defining a custom `preprocess` function. Takes
          in and outputs a structured doc.
        num_workers: Number of parallel processes to use when reading docs.
        
    Pour ajouter un document à la BD il faut ajouter une paire <PK, doc> ou PK 
    est un idenifiant unique et doc le texte du document. Pour générer les PK
    nous utilisons un uuid.
    """
    if os.path.isfile(save_path):
        raise RuntimeError('%s already exists! Not overwriting.' % save_path)

    logger.info('Reading into database...')
    conn = sqlite3.connect(save_path)
    c = conn.cursor()
    c.execute("CREATE TABLE documents (id PRIMARY KEY, text);")

    workers = ProcessPool(num_workers)
    files = [f for f in iter_files(data_path)]
    count = 0
    with tqdm(total=len(files)) as pbar:
        for pairs in workers.imap_unordered(get_contents, files):
            count += len(pairs)
            c.executemany("INSERT INTO documents VALUES (?,?)", pairs)
            pbar.update()
    logger.info('Read %d docs.' % count)
    logger.info('Committing...')
    conn.commit()
    conn.close()

In [None]:
store_contents("/store/dyfar/wikipedia_dump/", "/store/dyfar/doc_test.db", 19)

## Wrapper de la bd

In [8]:
import unicodedata
def normalize(text):
    """Resolve different type of unicode encodings."""
    return unicodedata.normalize('NFD', text)

In [9]:
class DocDB(object):
    """Sqlite backed document storage.
    Implements get_doc_text(doc_id).
    """

    def __init__(self, db_path=None):
        self.path = db_path
        self.connection = sqlite3.connect(self.path, check_same_thread=False)

    def __enter__(self):
        return self

    def __exit__(self, *args):
        self.close()

    def path(self):
        """Return the path to the file that backs this database."""
        return self.path

    def close(self):
        """Close the connection to the database."""
        self.connection.close()

    def get_doc_ids(self):
        """Fetch all ids of docs stored in the db."""
        cursor = self.connection.cursor()
        cursor.execute("SELECT id FROM documents")
        results = [r[0] for r in cursor.fetchall()]
        cursor.close()
        return results

    def get_doc_text(self, doc_id):
        """Fetch the raw text of the doc for 'doc_id'."""
        cursor = self.connection.cursor()
        cursor.execute(
            "SELECT text FROM documents WHERE id = ?",
            (utils.normalize(doc_id),)
        )
        result = cursor.fetchone()
        cursor.close()
        return result if result is None else result[0]

## Construction de la représentation

### Fonctions utiles pour la construction de représentation sparse

In [None]:
from sklearn.utils import murmurhash3_32

def hash(token, vocab_size):
    """Unsigned 32 bit murmurhash for feature hashing."""
    return murmurhash3_32(token, positive=True) % vocab_size

## Recherche de documents & Ordonnancement 

## Extraction des candidats de réponse

## Sélection de la réponse