In [1]:
from bs4 import BeautifulSoup
import re

import json
import os

In [42]:
WIKI_XML = "../wiki.xml"
WIKIEXTRACTOR_FOLDER = "../wikiextractor/"
WIKITEXTS_JSON_FOLDER = "../wikitexts_json/"

WIKI_COLLECTION = "../collection/"
COLLOCS_FILE = "../collocs.txt"

SYNTAXNET_INPUT = "../sentences.txt"
SYNTAXNET_OUTPUT = "../syntaxnet_out.txt"

# Сборка датасета

## Коллокации

**Выделяем текст статьи из xml файла**

In [3]:
with open(WIKI_XML, "r") as f:
    data_xml = f.read().replace('\n', ' ')

In [4]:
soup = BeautifulSoup(data_xml, "xml")

In [5]:
texts = [tmp.text for tmp in soup.find_all('text')]

**Выделяем гиперссылки**

In [6]:
hyperlinks = []
for text in texts:
    for open_brackets, close_brackets in zip(re.finditer('\[\[', text), re.finditer('\]\]', text)):
        start_ind = open_brackets.span()[1]
        close_ind = close_brackets.span()[0]
        hyperlinks.append(text[start_ind:close_ind])

**Фильтруем теги, разбиваем ссылки с множественными словами**

In [7]:
filtered_hyperlinks = []
for hl in hyperlinks:
    # --- Теги ---
    # Игнорируем, если тег File:
    if re.match("File:", hl) and (re.match("File:", hl).span()[0] == 0):
        continue
    # Добавляем имя категории из тега Category:
    if re.match("Category:", hl) and (re.match("Category:", hl).span()[0] == 0):
        filtered_hyperlinks.append(hl[re.match("Category:", hl).span()[1]:])
        continue
    
    # --- НеТеги ---
    # Убираем все что в скобках
    hl = re.sub("\(.+\)", "", hl)
    # Разделяем мультиназвания (через | или and) на раздельные коллокации
    sub_hl = list(re.split("\|| and ", hl))
    
    filtered_hyperlinks += sub_hl

**Окончательная обработка, получаем коллокации**

In [8]:
collocs = []
for hl in filtered_hyperlinks:
    hl = hl.strip()
    hl = hl.lower()
    
    # Если это инициалы -> не добавляем
    if re.match("(.\. .\. .+)|(.+ .\. .+)", hl) and (len(hl.split(' ')) == 3):
        continue
        
    hl = re.sub(" +", " ", hl)
    hl = re.sub("[^ A-Za-z-]+", "", hl)
    hl = hl.strip()
    
    flag = (hl not in collocs) and \
           (len(hl.split(' ')) > 1) and \
           (len(hl.split(' ')) < 5)
    if flag:
        collocs.append(hl)

In [9]:
collocs

['computer scientist',
 'mikhail moiseevich bongard',
 'pattern recognition',
 'gdel escher bach',
 'douglas hofstadter',
 'harry foundalis',
 'fluid concepts',
 'creative analogies',
 'artificial intelligence',
 'machine learning',
 'cognitive science',
 'cognitive psychology',
 'computer-related introductions in',
 'statistical classification',
 'classification rule',
 'statistical model',
 'observable variable',
 'target variable',
 'joint probability distribution',
 'discriminative model',
 'conditional probability',
 'linear classifier',
 'naive bayes classifier',
 'linear discriminant analysis',
 'logistic regression',
 'support vector machine',
 'continuous variable',
 'discrete variable',
 'target function',
 'marginal distribution',
 'probability distribution',
 'bayes rule',
 'regression analysis',
 'gaussian mixture model',
 'mixture model',
 'hidden markov model',
 'stochastic context-free grammar',
 'probabilistic context-free grammar',
 'naive bayes',
 'averaged one-depen

**Записываем полученные коллокации в файл**

In [10]:
with open(COLLOCS_FILE, "w") as f:
    f.write('\n'.join(collocs))

**Статистика**

In [11]:
print("hyperlinks:\t{}".format(len(hyperlinks)))
print("filtered hl:\t{}".format(len(filtered_hyperlinks)))
print("collocations:\t{}".format(len(collocs)))

hyperlinks:	9200
filtered hl:	11375
collocations:	3651


## Документы

**Обрабатываем текст с помощью [wikiextractor](https://github.com/attardi/wikiextractor). Получаем json файлы**

In [18]:
os.system(WIKIEXTRACTOR_FOLDER + "/WikiExtractor.py " + "--json " + "-o " + WIKITEXTS_JSON_FOLDER + " " + WIKI_XML)

0

**Читаем их**

In [19]:
texts_str = ""
for subdir in os.listdir(WIKITEXTS_JSON_FOLDER):
    for file in os.listdir(WIKITEXTS_JSON_FOLDER + "/" + subdir):
        with open(WIKITEXTS_JSON_FOLDER + subdir + "/" + file, "r") as f:
            texts_str += f.read()

In [20]:
texts = []
for text in texts_str.split('\n'):
    if text != '':  # in case of double \n
        texts.append(json.loads(text))

**Сохраняем полученные документы в коллекцию + миниобработка**

In [31]:
for text in texts:
    filename = text["title"]
    filename = re.sub("[^A-Za-zА-Яа-я0-9 ]", "", filename)
    filename = re.sub(" +", "_", filename)
    article = '\n'.join(text["text"].split('\n')[2:])  # remove name of article at the start
    with open(WIKI_COLLECTION + filename + ".txt", "w") as f:
        f.write(article)

# Запуск SyntaxNet

**Загружаем коллекцию, удаляем пунктуацию и переводим в нижний регистр. Получаем список предложений**

In [64]:
sentences = []

for doc_id, filename in enumerate(os.listdir(WIKI_COLLECTION)):
    with open(WIKI_COLLECTION + filename, "r") as f:
        sentences_raw = f.read().split('.')
    
    for sentence in sentences_raw:
        sentence_nopunct = re.sub("[^A-Za-zА-Яа-я ]", '', sentence)
        sentence_nopunct = sentence_nopunct.lower().strip()
        if len(sentence_nopunct) > 1:
            sentences.append(sentence_nopunct)

**Запишем в файл каждое предложение в отдельной строке**

In [65]:
with open(SYNTAXNET_INPUT, "w") as f:
    for sentence in sentences:
        f.write("{}\n".format(sentence))

In [63]:
len(sentences)

8833