# Wiki Corpus Analysis

## 1. Импортируем необходимые модули

In [1]:
from gensim.corpora.wikicorpus import WikiCorpus
import os

## 2. Функция для парсинга xml файла дампа и создания своего корпуса документов

In [1]:
number_of_files = 40000

In [2]:
def Make_Wiki_Corpus_Single(in_file:str,out_file:str)-> (list,dict):
    """
    Парсит указанный архив(дамп), собирает общую статистику и записывает все в файл
    --------------
    Params
    -------
        in_file:str
            Путь к файлу(архиву),содержимое которого необходимо распарсить
        out_file: str
            Путь в файлу для записи распарсенного содержимого
    Returns
    -------
        all_words:list
            Список слов, содержащийся во всех документах
        statistic_dict:dict
            Словарь со статистикой по документам
            
    Exceptions
    ----------
        FileNotFoundError
    """
    statistic_dict = dict()
    all_words = list()
    statistic_dict["Число документов"] = 0
    statistic_dict["Максимальное число слов"] = -1
    statistic_dict["Минимальное число слов"] = 99999999
    statistic_dict["Общее число слов"] = 0
    wiki = WikiCorpus(in_file)
    if not os.path.exists(in_file):
        raise FileNotFoundError("Файла в указанной директории нет")
    with open(out_file,'w') as stream:
        for article in wiki.get_texts():
            statistic_dict["Максимальное число слов"] = len(article) if len(article) >= statistic_dict["Максимальное число слов"] else statistic_dict["Максимальное число слов"] 
            statistic_dict["Минимальное число слов"]  = len(article) if len(article) <= statistic_dict["Минимальное число слов"] else statistic_dict["Минимальное число слов"]
            statistic_dict["Общее число слов"] += len(article)
            text = " ".join(article)
            stream.write(bytes(text,'utf-8').decode('utf-8') + "\n")
            all_words.extend(article)
            statistic_dict["Число документов"]+=1
            
    statistic_dict["Среднее число слов"] = statistic_dict["Общее число слов"]/statistic_dict["Число документов"]
    return all_words,statistic_dict

def Make_Wiki_Corpus_Multiple(in_file:str,out_file_prefix:str)-> (list,dict):
    statistic_dict = dict()
    all_words = list()
    statistic_dict["Число документов"] = 0
    statistic_dict["Максимальное число слов"] = -1
    statistic_dict["Минимальное число слов"] = 999999
    statistic_dict["Общее число слов"] = 0
    wiki = WikiCorpus(in_file,dictionary = False)
    if not os.path.exists(in_file):
        raise FileNotFoundError("Файла в указанной директории нет")
    for article in wiki.get_texts():
        out_file_idx = "{0}{1}{2}".format(out_file.split(".")[0],str(statistic_dict["Число документов"]),".txt")
        with open(out_file_idx,"w",encoding= 'utf-8') as stream:
            statistic_dict["Максимальное число слов"] = len(article) if len(article) >= statistic_dict["Максимальное число слов"] else statistic_dict["Максимальное число слов"]
            statistic_dict["Минимальное число слов"]  = len(article) if len(article) <= statistic_dict["Минимальное число слов"] else statistic_dict["Минимальное число слов"]
            statistic_dict["Общее число слов"] += len(article)
            text = " ".join(article)
            stream.write(bytes(text,'utf-8').decode('utf-8') + "\n")
            all_words.extend(article)
            statistic_dict["Число документов"]+=1
        if(statistic_dict["Число документов"] > 40000):
            break
    statistic_dict["Среднее число слов"] = statistic_dict["Общее число слов"]/statistic_dict["Число документов"]
    return all_words,statistic_dict

def Plot_File_Len_Distribution(file_prefix):
    for idx in range(number_of_files + 1):
        with open("{0}{1}{2}".format()
    

In [21]:
word_list,stats = Make_Wiki_Corpus_Multiple("data/ruwiki-20181120-pages-articles-multistream.xml.bz2","data/corpora/wiki.txt")



In [22]:
print(stats)

{'Число документов': 40001, 'Максимальное число слов': 27416, 'Минимальное число слов': 50, 'Общее число слов': 37004806, 'Среднее число слов': 925.0970225744356}
