In [1]:
DATA_PATH = '.\Data'

In [2]:
import os
import json
from tqdm import tqdm
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
class wikiCategory():
    def __init__(self, data_path=DATA_PATH):
        with open(os.path.join(DATA_PATH,'info.json'),'r') as infoFP:
            self.info = json.load(infoFP)
        self.wordProbs = self.returnWordProbabilities()
    
    def returnArticle(self, articleNameKey):
        articlePath = self.info[articleNameKey]['path']
        with open(articlePath,'r',encoding="utf-8") as articleFP:
            article = ''.join(articleFP.readlines())
        return article

    def returnArticles(self):
        articles = []
        vocab = {}
        print('Building vocabulary by reading articles...')
        for articleNameKey in tqdm(self.info.keys()):
            articles.append(self.returnArticle(articleNameKey))
        articles = ''.join(articles)
        return articles
    
    def returnVocabulary(self):
        vectorizer = CountVectorizer()
        vectorizer.fit([self.returnArticles()])
        return vectorizer.vocabulary_

    def returnWordProbabilities(self):
        vocab = self.returnVocabulary()
        totalWordCount = sum(vocab.values())
        wordProbs = {}
        for word in vocab.keys():
            wordProbs[word] = vocab[word]/totalWordCount
        return wordProbs

robotique = wikiCategory()

Building vocabulary by reading articles...


100%|██████████████████████████████████████████████████████████████████████████████| 740/740 [00:00<00:00, 5051.71it/s]


In [4]:
print(robotique.returnArticle('WALL-E'))

WALL-E est un film d'animation américain en images de synthèse réalisé par Andrew Stanton et sorti sur les écrans en 2008. Le scénario co-signé par Stanton et par Jim Reardon est basé sur une histoire originale de Stanton et de Pete Docter. C’est le neuvième des studios Pixar. Le film, qui se place dans le futur, suit l'histoire d'un robot cubique nommé WALL-E, conçu avec une myriade d'autres robots du même genre pour nettoyer la Terre de ses déchets. Il devient au fil des ans le dernier à fonctionner. Il va tomber sous le charme d'un autre robot tout à son opposé dans son allure et ses manières, nommée EVE, et la suivre dans l'espace pour une aventure qui va changer le destin de l'Humanité.
Après avoir réalisé Le Monde de Nemo, Andrew Stanton a senti que Pixar était capable de créer des simulations réalistes de la physique sous-marine et a donc voulu réaliser un film se déroulant en grande partie dans l'espace. La plupart des personnages ne disposent pas de voix humaines réelles, mais

In [5]:
robotique.returnVocabulary()

Building vocabulary by reading articles...


100%|██████████████████████████████████████████████████████████████████████████████| 740/740 [00:00<00:00, 4758.54it/s]


{'la': 23980,
 'recherche': 34240,
 'de': 12002,
 'saint': 36906,
 'aquin': 4370,
 'titre': 41380,
 'original': 29893,
 'the': 41090,
 'quest': 33601,
 'for': 17454,
 'est': 15862,
 'une': 42752,
 'nouvelle': 28983,
 'science': 37330,
 'fiction': 16956,
 'anthony': 3999,
 'boucher': 7025,
 'parutions': 30586,
 'modifier': 27185,
 'le': 24339,
 'code': 9382,
 'aux': 5483,
 'états': 45718,
 'unis': 42793,
 'parue': 30580,
 'initialement': 21753,
 'dans': 11879,
 'new': 28640,
 'tales': 40537,
 'of': 29430,
 'space': 38960,
 'and': 3774,
 'time': 41308,
 'en': 15084,
 'novembre': 29000,
 '1951': 577,
 'elle': 14870,
 'par': 30324,
 'suite': 39774,
 'été': 45805,
 'publiée': 33229,
 'nombreuses': 28848,
 'reprises': 34950,
 'divers': 12910,
 'recueils': 34377,
 'ou': 30025,
 'anthologies': 3998,
 'france': 17680,
 '1960': 587,
 '78': 1743,
 'sous': 38905,
 'dialogue': 12476,
 'avec': 5528,
 'robot': 35617,
 '1974': 603,
 'anthologie': 3997,
 'histoires': 20153,
 'robots': 35668,
 'rééditio

In [6]:
robotique.returnWordProbabilities()

Building vocabulary by reading articles...


100%|██████████████████████████████████████████████████████████████████████████████| 740/740 [00:00<00:00, 4789.26it/s]


{'la': 2.21353530537766e-05,
 'recherche': 3.16061087807052e-05,
 'de': 1.1078753434171256e-05,
 'saint': 3.406702834873558e-05,
 'aquin': 4.033840402210331e-06,
 'titre': 3.8196868614064876e-05,
 'original': 2.7593499117453874e-05,
 'the': 3.792917668806007e-05,
 'quest': 3.101626346788772e-05,
 'for': 1.6111361643061582e-05,
 'est': 1.4641825276855898e-05,
 'une': 3.9463328346749676e-05,
 'nouvelle': 2.6753500315162935e-05,
 'science': 3.445841240606674e-05,
 'fiction': 1.565166999081885e-05,
 'anthony': 3.691379352045564e-06,
 'boucher': 6.484606138564662e-06,
 'parutions': 2.8233190513044667e-05,
 'modifier': 2.5093810373933148e-05,
 'le': 2.2466737196658408e-05,
 'code': 8.660295344058885e-06,
 'aux': 5.061223552704633e-06,
 'états': 4.2201170596853983e-05,
 'unis': 3.950117444663311e-05,
 'parue': 2.8227652059403186e-05,
 'initialement': 2.0079663677181082e-05,
 'dans': 1.0965215134520944e-05,
 'new': 2.6436885381991737e-05,
 'tales': 3.7418715877437116e-05,
 'of': 2.716611511145