In [1]:
from gensim.corpora import Dictionary, WikiCorpus, MmCorpus

In [2]:
import sys
import time
sys.path.append('/Users/v.khodyreva/anaconda3/envs/py36/lib/python3.6/site-packages/gensim/corpora/')
import itertools

from wikicorpus import *

In [3]:
def extract_pages(f, filter_namespaces=False, filter_articles=None):
    """Extract pages from a MediaWiki database dump.

    Parameters
    ----------
    f : file
        File-like object.
    filter_namespaces : list of str or bool
         Namespaces that will be extracted.

    Yields
    ------
    tuple of (str or None, str, str)
        Title, text and page id.

    """
    elems = (elem for _, elem in iterparse(f, events=("end",)))

    # We can't rely on the namespace for database dumps, since it's changed
    # it every time a small modification to the format is made. So, determine
    # those from the first element we find, which will be part of the metadata,
    # and construct element paths.
    elem = next(elems)
    namespace = get_namespace(elem.tag)
    ns_mapping = {"ns": namespace}
    page_tag = "{%(ns)s}page" % ns_mapping
    text_path = "./{%(ns)s}revision/{%(ns)s}text" % ns_mapping
    title_path = "./{%(ns)s}title" % ns_mapping
    ns_path = "./{%(ns)s}ns" % ns_mapping
    pageid_path = "./{%(ns)s}id" % ns_mapping
    parentid_path = "./{%(ns)s}revision/{%(ns)s}parentid" % ns_mapping
    timestamp_path = "./{%(ns)s}revision/{%(ns)s}timestamp" % ns_mapping
    
    for elem in elems:
        if elem.tag == page_tag:
            title = elem.find(title_path).text
            text = elem.find(text_path).text
            parentid_res = elem.find(parentid_path)
            try:
                parentid = parentid_res.text
            except:
                parentid = ''
            timestamp_res = elem.find(timestamp_path)
            try:
                timestamp = timestamp_res.text
            except:
                timestamp = ''

            if filter_namespaces:
                ns = elem.find(ns_path).text
                if ns not in filter_namespaces:
                    text = None

            if filter_articles is not None:
                if not filter_articles(
                        elem, namespace=namespace, title=title,
                        text=text, page_tag=page_tag,
                        text_path=text_path, title_path=title_path,
                        ns_path=ns_path, pageid_path=pageid_path):
                    text = None

            pageid = elem.find(pageid_path).text
            yield title, text or "", pageid, parentid, timestamp  # empty page will yield None

            # Prune the element tree, as per
            # http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
            # except that we don't need to prune backlinks from the parent
            # because we don't use LXML.
            # We do this only for <page>s, since we need to inspect the
            # ./revision/text element. The pages comprise the bulk of the
            # file, so in practice we prune away enough.
            elem.clear()

def tokenize(content):
    # override original method in wikicorpus.py
    return [token for token in utils.tokenize(content, lower=True, errors='ignore')
            if len(token) <= 15 and not token.startswith('_')]

def process_article(args):
   # override original method in wikicorpus.py
    text, lemmatize, title, pageid, parentid, timestamp = args
    text = filter_wiki(text)
    result = text
#     result = pipeline.fit_transform([text])[0]
#     if lemmatize:
#         result = utils.lemmatize(text)
#     else:
#         result = tokenize(text)
    return result, title, pageid, parentid, timestamp


class MyWikiCorpus(WikiCorpus):
    def __init__(self, fname, processes=None, lemmatize=utils.has_pattern(), dictionary=None, 
                 filter_namespaces=('0',), tokenizer_func=tokenize, article_min_tokens=ARTICLE_MIN_WORDS):
        WikiCorpus.__init__(self, fname, processes, lemmatize, dictionary, filter_namespaces, 
                            tokenizer_func, article_min_tokens)
        self.metadata = True

    def get_texts(self):
        articles, articles_all = 0, 0
        positions, positions_all = 0, 0
        texts = ((text, self.lemmatize, title, pageid, parentid, timestamp) 
                 for title, text, pageid, parentid, timestamp in 
                 extract_pages(bz2.BZ2File(self.fname), self.filter_namespaces))
        pool = multiprocessing.Pool(self.processes)
        # process the corpus in smaller chunks of docs, because multiprocessing.Pool
        # is dumb and would load the entire input into RAM at once...
        for group in utils.chunkize(texts, chunksize=10 * self.processes, maxsize=1):
            for tokens, title, pageid, parentid, timestamp in pool.imap(process_article, group):  # chunksize=10):
                articles_all += 1
                positions_all += len(tokens)
                # article redirects and short stubs are pruned here
                if len(tokens) < ARTICLE_MIN_WORDS or any(title.startswith(ignore + ':') for ignore in IGNORED_NAMESPACES):
                    continue
                articles += 1
                positions += len(tokens)
                if self.metadata:
                    yield (tokens, (pageid, title, parentid, timestamp))
                else:
                    yield tokens
        pool.terminate()

        logger.info(
            "finished iterating over Wikipedia corpus of %i documents with %i positions"
            " (total %i articles, %i positions before pruning articles shorter than %i words)",
            articles, positions, articles_all, positions_all, ARTICLE_MIN_WORDS)
        self.length = articles  # cache corpus length

In [4]:
import sys
import warnings
import pandas as pd

sys.path.append('../src')
warnings.simplefilter('ignore')

from preprocessing import *
from sklearn.pipeline import Pipeline as sklearn_pipeline

chars_map = {'\xad': ' ',
             '\n': ' ',
             '…': '...',
             '«': '', '»': '',
             '"': '', '\'': '',
             '’': '', '‘': '',
             '”': '', '“': '', '„': '',
             '`': '', '*': '', '_': '',
             'http://':'', 'https://':''}
upos_set={'ADJ', 'ADV', 'INTJ', 'NOUN', 'PROPN', 'VERB'}

pipeline = sklearn_pipeline([('replace_chars', ReplaceChars(chars_map)),
                             ('sub_code', RegExprSub(r'\{.*\}', ' ')),
                             ('sub_colon', RegExprSub(r'\d*\:\d*', ' ')),
                             ('sub_spaces', RegExprSub(r' +', ' ')),
                             ('strip', Strip()),
                             ('sent_tokenize', RusSentTokenizer()),
#                              ('spell', Yandex_Speller()),
                             ('word_tokenize', Spacy_RusWordTokenizer()),
                             ('space_detect', SpaceDetecter()),
                             ('morph_predict', MorphPredictor()),
                             ('morph_filtration', MorphFilter(upos_set=upos_set)),
                             ('vowpal_wabbit_encode', VowpalWabbitFormatEncoder())])
#                              ('conllu_encode', CoNLLUFormatEncoder()),
#                              ('syntax_parse', SyntaxParser('../models/parser_model.udpipe'))])

Using TensorFlow backend.


In [5]:
dump_file = '../../../Desktop/Wiki/wikidump/ruwiki-20190820-pages-articles-multistream.xml.bz2'

dictionary = Dictionary()
wiki = MyWikiCorpus(dump_file, dictionary=dictionary)
wiki_texts = wiki.get_texts()

In [None]:
http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/
https://kodingnotes.wordpress.com/2014/12/03/parsing-wikipedia-page-hierarchy/

In [None]:
start = time.time()
res = []
with open('../../../Desktop/Wiki/wiki_log_3.txt', 'a') as f:
    for i, t in enumerate(wiki_texts):
        if i<842400:
            continue
        wv_line = pipeline.fit_transform([t[0]])[0]
        f.write(wv_line + '|||' + '|||'.join(t[1]) + '\n')
        if i % 100 == 0:
            print(i, t[1])
end = time.time()

842400 ('3622723', 'Число Воббе', '89483853', '2019-07-02T00:29:48Z')
842500 ('3623917', 'БГПИ — БГПА — БНТУ', '', '2011-12-18T14:29:22Z')
842600 ('3624846', 'Бивер (Фолклендские острова)', '76205512', '2017-09-20T05:47:23Z')
842700 ('3625771', 'Анна Каренина (МХАТ)', '101612144', '2019-08-15T04:46:45Z')
842800 ('3626267', 'Валюта Евразийского экономического союза', '98087312', '2019-02-13T13:21:44Z')
842900 ('3627080', 'Братья Чудновские', '98662448', '2019-07-21T15:10:23Z')
843000 ('3627621', 'Хронологический список католических блаженных и святых XVII века', '93138197', '2019-01-16T04:30:59Z')
843100 ('3628015', '50-й отдельный дивизион бронепоездов', '93833647', '2018-07-09T11:23:53Z')
843200 ('3628448', 'Польская академия литературы', '76572908', '2016-07-09T18:22:17Z')
843300 ('3628876', 'Юные чапаевцы (отряд)', '89052705', '2018-05-04T10:24:14Z')
843400 ('3629407', 'Изумрудный квартал', '98815032', '2019-03-24T10:10:12Z')
843500 ('3629923', 'PocketStudio', '92669202', '2019-07-0

852800 ('3670498', 'Международный теннисный турнир в Аделаиде 2008', '93011215', '2019-03-17T17:59:28Z')
852900 ('3670968', 'Водяной скорпион обыкновенный', '56071629', '2014-08-10T01:15:20Z')
853000 ('3671396', 'Полевая улица (Самара)', '85729098', '2019-05-28T21:02:07Z')
853100 ('3671753', 'Сандерс, Георгий', '89416484', '2019-06-05T10:35:03Z')
853200 ('3672269', 'Логёйа', '98070478', '2019-05-10T09:15:05Z')
853300 ('3672649', 'Гаврилин, Николай Митрофанович', '94926468', '2019-04-16T21:54:15Z')
853400 ('3673149', 'Моргхан', '58165408', '2017-09-30T11:45:12Z')
853500 ('3673676', 'Образование в Сербии', '97490578', '2019-07-26T17:48:38Z')
853600 ('3674210', 'Федотовская дорожка', '79655386', '2017-09-10T22:10:17Z')
853700 ('3674728', '133 км (платформа Рижского направления)', '85277865', '2019-08-13T18:39:14Z')
853800 ('3675268', 'Ню-Фрисланд', '61146722', '2016-04-16T20:33:56Z')
853900 ('3675681', 'Болотница (растение)', '90605717', '2018-02-12T21:33:02Z')
854000 ('3676165', 'Ички (Р

863000 ('3721141', 'После нашей эры', '98693935', '2019-05-29T15:10:25Z')
863100 ('3721556', 'Ренар, Эрве', '101322232', '2019-07-29T21:24:04Z')
863200 ('3722064', 'Мама Люба', '101435290', '2019-08-11T17:51:23Z')
863300 ('3722465', 'Степанов, Георгий Юрьевич', '100431305', '2019-06-15T21:40:12Z')
863400 ('3722908', 'Кларамунт, Хосе', '93788918', '2018-07-06T16:17:55Z')
863500 ('3723374', 'Бирмингемские беспорядки', '87751425', '2019-04-25T12:46:45Z')
863600 ('3723858', 'Во власти золота', '93085259', '2018-09-14T01:04:00Z')
863700 ('3724332', 'Вестландский буревестник', '68580547', '2017-01-01T23:40:52Z')
863800 ('3724798', 'Голям-Извор', '68443107', '2016-02-23T08:07:44Z')
863900 ('3725264', 'Патентное право Украины', '100044601', '2019-06-10T11:44:18Z')
864000 ('3725658', 'Российский союз ректоров', '94061406', '2019-02-04T08:23:01Z')
864100 ('3726110', 'Баласма', '92891666', '2018-06-10T19:04:22Z')
864200 ('3726595', 'Керан (Чехармехаль и Бахтиария)', '58166148', '2017-09-30T02:45:

873400 ('3766377', 'Кршивицкий, Николай Фаддеевич', '81258361', '2017-01-25T17:45:21Z')
873500 ('3766778', 'Очаровательный листолаз', '89427540', '2018-11-02T00:26:36Z')
873600 ('3767206', 'Тромбофилия', '100737152', '2019-07-07T14:44:30Z')
873700 ('3767582', 'Музей обороны Туапсе', '100446349', '2019-08-15T18:07:54Z')
873800 ('3768021', 'Жундия', '53955606', '2016-02-23T08:52:37Z')
873900 ('3768379', 'Памятник Льву Ошанину', '95005447', '2018-11-02T13:27:46Z')
874000 ('3768680', 'Марисоль (телесериал)', '93965629', '2018-07-24T23:04:52Z')
874100 ('3769066', 'Джилкс, Мэттью', '101201464', '2019-07-23T10:39:20Z')
874200 ('3769518', 'Морозовский', '68909282', '2016-02-23T11:29:04Z')
874300 ('3770018', 'Гарни, Уолтер', '83019843', '2017-09-30T03:37:11Z')
874400 ('3770463', 'Спасо-Преображенский Новгород-Северский мужской монастырь', '42605957', '2012-07-26T06:31:20Z')
874500 ('3770948', 'Mark 54 (торпеда)', '81927587', '2017-09-08T23:42:01Z')
874600 ('3771264', 'Бумеранг (колёсная платфор

884100 ('3816230', 'Мария Антония Испанская', '99372180', '2019-06-02T10:23:15Z')
884200 ('3816803', 'Национальный музей Индии', '91344705', '2019-06-16T07:22:44Z')
884300 ('3817287', 'Первая лига Латвии по футболу 2007', '101175590', '2019-08-13T20:07:18Z')
884400 ('3817764', 'Square Kilometre Array', '99356886', '2019-07-13T07:47:28Z')
884500 ('3818097', 'Польский Вудсток', '101376847', '2019-08-01T19:35:43Z')
884600 ('3818423', 'Borderlands 2', '101409929', '2019-08-09T17:02:44Z')
884700 ('3818907', 'Лолойские языки', '87038992', '2018-06-08T12:31:01Z')
884800 ('3819391', 'Бороздин, Андрей Михайлович', '99062051', '2019-04-25T12:43:52Z')
884900 ('3819988', 'Палмотич, Джунье', '79853244', '2019-02-24T16:36:23Z')
885000 ('3820342', 'Цриевич Туберон, Людовик', '63374840', '2015-12-23T21:45:06Z')
885100 ('3820816', 'Сельское поселение Подгорное (Борский район Самарской области)', '47987191', '2012-09-08T22:03:54Z')
885200 ('3821297', '85-я инженерная бригада', '81600171', '2019-04-13T00

894100 ('3878475', 'Васильев, Владимир Петрович', '100133655', '2019-05-31T03:34:30Z')
894200 ('3878920', 'Львовская архиепархия УГКЦ', '94580602', '2019-07-15T09:18:19Z')
894300 ('3879366', 'Виды Рыб (группа)', '97335457', '2019-05-19T17:57:21Z')
894400 ('3879693', 'Картман находит любовь', '87724567', '2018-06-30T16:13:05Z')
894500 ('3880246', 'Газпроминвестхолдинг', '93850506', '2018-07-25T00:18:59Z')
894600 ('3880698', 'Грачи (приток Паньшинки)', '44110061', '2013-01-03T05:43:14Z')
894700 ('3881128', 'Флорицоая-Веке', '98795491', '2019-03-22T21:25:41Z')
894800 ('3881511', 'Африкан Фабий Максим', '78182853', '2017-06-20T15:13:33Z')
894900 ('3882007', 'Астрономическая обсерватория Казанского государственного университета', '', '2012-05-04T18:15:32Z')
895000 ('3882493', 'Панкратова, Анна', '94340955', '2018-08-03T20:56:43Z')
895100 ('3882923', 'Чидаоба', '94513641', '2019-07-01T21:10:24Z')
895200 ('3883294', 'Туганова, Дзерасса Михайловна', '90396724', '2019-02-09T06:37:53Z')
895300 (

904400 ('3926956', 'Еремеево (Кирилловский район)', '66746693', '2018-06-24T07:30:40Z')
904500 ('3927351', 'VESA Digital Flat Panel', '78577890', '2018-05-18T13:20:35Z')
904600 ('3927838', 'Дом полковой канцелярии (Чернигов)', '95000626', '2019-02-19T18:29:40Z')
904700 ('3928291', 'Герб Зубцова', '91983255', '2018-04-08T16:30:36Z')
904800 ('3928738', 'Иванов, Николай Петрович (артиллерист)', '84838698', '2018-03-20T12:09:57Z')
904900 ('3929060', 'Тарновский, Ян Феликс', '83576655', '2019-07-23T18:24:47Z')
905000 ('3929488', 'Объединенный конвент Золотого Берега', '', '2012-05-30T08:45:07Z')
905100 ('3929906', 'Герб Весьегонска', '99281044', '2019-06-10T21:40:18Z')
905200 ('3930354', 'Новосеребряковский сельсовет', '91997939', '2019-04-05T13:34:46Z')
905300 ('3931181', 'Алма-Атинская улица (Киев)', '96016964', '2019-02-05T15:11:38Z')
905400 ('3931613', 'Николай Степанович Петров', '44904357', '2013-10-10T19:07:22Z')
905500 ('3932074', 'Вёшки (Марёвский район)', '79355484', '2017-09-29T1

914700 ('3971000', 'Список культурных ценностей национального значения Лозанны', '89435420', '2019-06-12T11:43:28Z')
914800 ('3971456', 'Дэвис, Гари', '96219043', '2019-04-24T02:42:21Z')
914900 ('3971891', 'Кайус, Джон', '99739567', '2019-05-18T19:20:58Z')
915000 ('3972249', 'Юри (посёлок)', '96541377', '2019-07-06T12:12:03Z')
915100 ('3972734', 'Научная библиотека им. М.Максимовича', '', '2012-06-24T14:44:51Z')
915200 ('3973163', 'Стародворцовский', '100984902', '2019-08-10T09:41:11Z')
915300 ('3973615', 'Галкин, Иван Алексеевич', '83435532', '2018-06-11T16:35:17Z')
915400 ('3974122', 'Setl Group', '98584629', '2019-07-13T01:51:12Z')
915500 ('3974662', 'Козловичский сельсовет', '56165690', '2016-02-22T19:42:55Z')
915600 ('3975112', 'Тирмизи', '70725137', '2015-05-11T16:00:10Z')
915700 ('3975532', 'Бледноногий певун', '69447665', '2017-10-29T06:44:19Z')
915800 ('3975941', 'Бундесвидение-2013', '87558248', '2019-01-18T17:36:50Z')
915900 ('3976351', 'Алобэнь', '86852710', '2018-07-05T01:

925100 ('4015724', 'Университет Мурсии', '81480422', '2016-10-23T07:02:53Z')
925200 ('4016156', 'Флорентина из Картахены', '96355409', '2019-06-25T22:57:58Z')
925300 ('4016654', 'Военный Регистр', '93340319', '2019-02-19T05:59:52Z')
925400 ('4017152', 'Ярославский филиал Военно-космической академии', '46276484', '2016-09-30T20:16:15Z')
925500 ('4017514', 'Ружомберок (значения)', '', '2012-07-20T05:54:24Z')
925600 ('4017939', 'Махлуф, Хафиз', '88592921', '2018-07-26T07:10:20Z')
925700 ('4018469', 'Сонода, Такахиро', '97034657', '2019-03-05T10:48:38Z')
925800 ('4018891', 'Фахардо-и-Чакон, Педро', '86870169', '2017-12-23T20:45:37Z')
925900 ('4019368', 'Blah Blah Blah (песня)', '95257678', '2019-03-30T17:43:29Z')
926000 ('4019740', 'Грачёв, Вадим Геннадьевич', '101084875', '2019-07-17T15:22:55Z')
926100 ('4020196', 'Гренье, Эдуар', '94049077', '2019-07-10T14:19:15Z')
926200 ('4020657', 'Волосковые клетки', '100993966', '2019-07-20T03:12:27Z')
926300 ('4021092', 'Чэмпион, Джордж', '94039292

935500 ('4060598', 'Systemd', '100185323', '2019-07-13T11:54:51Z')
935600 ('4061056', 'Пуртале, Эрман де', '54669397', '2015-06-03T08:10:00Z')
935700 ('4061533', 'Национальная республиканская армия (Италия)', '93862821', '2018-10-24T06:58:23Z')
935800 ('4062026', 'Брегу', '84071990', '2019-04-24T04:10:34Z')
935900 ('4062376', 'Ново-Петергофское военно-политическое училище имени К. Е. Ворошилова', '48335811', '2018-06-07T23:32:09Z')
936000 ('4062810', 'Шаторедон', '99027320', '2019-07-02T23:53:28Z')
936100 ('4063203', 'Лабуре', '', '2012-08-17T17:59:56Z')
936200 ('4063474', 'Савич-Заблоцкий Войнислав', '', '2012-08-17T22:04:56Z')
936300 ('4063844', 'Икскуль фон Гильденбанд', '95822980', '2018-10-26T14:16:21Z')
936400 ('4064222', 'Louvre: L’Ultime Malédiction', '101432936', '2019-08-04T18:47:56Z')
936500 ('4064551', 'Тупрунка', '50745293', '2013-03-18T02:34:55Z')
936600 ('4064820', 'Эццолид', '70695214', '2015-07-31T19:13:45Z')
936700 ('4065168', 'Октябрьское (сельское поселение, Глазовс

946600 ('4093425', 'Стодолище (Могилёвская область)', '100435706', '2019-07-22T00:16:53Z')
946700 ('4093665', 'Горницы', '76662891', '2018-02-02T16:49:42Z')
946800 ('4093924', 'Большой Енгиш (приток Чусреки)', '47829759', '2013-01-03T05:05:44Z')
946900 ('4094145', 'Чертовое', '61137244', '2016-02-23T16:12:19Z')
947000 ('4094268', 'Забусово', '71468164', '2016-02-23T08:54:08Z')
947100 ('4094442', 'Такоев', '47936851', '2016-01-14T08:30:05Z')
947200 ('4094641', 'Зелёный Куст', '65466142', '2016-02-23T09:03:46Z')
947300 ('4094872', 'Логовой', '93041961', '2018-07-19T15:56:15Z')
947400 ('4095150', 'Лыковская', '47850663', '2016-02-23T10:49:39Z')
947500 ('4095339', 'Лугинино', '47855079', '2016-02-23T10:46:19Z')
947600 ('4095548', 'Галичино', '47861361', '2016-02-23T07:59:40Z')
947700 ('4095940', 'Маложма', '49583512', '2017-08-26T09:36:35Z')
947800 ('4096133', 'Мартинково', '47882685', '2016-02-23T11:06:31Z')
947900 ('4096343', 'Джонс, Уильям Эдмондсон', '91387581', '2019-03-16T08:12:26Z')

957500 ('4124607', 'Кстищи', '48345910', '2016-02-23T10:11:40Z')
957600 ('4124756', 'Новая Петровка', '69845823', '2016-02-23T11:49:23Z')
957700 ('4124945', 'Кужурлуг Хову', '48349278', '2016-02-23T10:12:55Z')
957800 ('4125202', 'Капустяны', '76667917', '2016-07-13T01:51:01Z')
957900 ('4125389', 'Лора (имя)', '67358490', '2015-06-15T18:18:01Z')
958000 ('4125607', 'Кленно', '76668722', '2016-07-09T14:44:34Z')
958100 ('4125768', 'Колечково', '48361231', '2016-02-23T09:45:03Z')
958200 ('4125956', 'Красница 1 (Могилёвский район)', '88542669', '2018-10-06T19:41:17Z')
958300 ('4126287', 'Louise', '87517938', '2018-07-16T23:59:52Z')
958400 ('4126610', 'Ченыкаев, Николай Сергеевич', '99025673', '2019-04-04T11:26:30Z')
958500 ('4126850', 'Ла-Шапель-ан-Вальгодемар', '94815656', '2018-10-10T14:38:12Z')
958600 ('4127218', 'Тобольский автобус', '97994058', '2019-02-10T18:33:16Z')
958700 ('4127670', 'Чемпионат Европы по дзюдо', '98756624', '2019-03-20T18:26:52Z')
958800 ('4128006', 'Схенкевелд, Барт

967800 ('4164980', 'Католический университет Лиона', '93897047', '2018-09-26T10:43:03Z')
967900 ('4165371', 'Кригхаммер, Эдмунд фон', '89483834', '2018-05-07T16:23:26Z')
968000 ('4165825', 'Метельник (значения)', '', '2012-10-16T01:23:24Z')
968100 ('4166222', 'Макколл, Давина', '99460462', '2019-04-28T11:43:47Z')
968200 ('4167075', 'Боровиков, Владимир Валерьевич', '78728106', '2019-04-17T09:53:36Z')
968300 ('4167753', 'Расширение Европейского союза (2007)', '96167910', '2019-06-02T12:35:56Z')
968400 ('4168222', 'Бурый мангуст', '93066882', '2018-06-07T12:34:11Z')
968500 ('4168794', 'Махаму', '84824017', '2017-09-10T20:38:14Z')
968600 ('4169177', 'Чинета', '56874478', '2013-11-16T14:55:36Z')
968700 ('4169898', 'Шевелев, Владимир Кузьмич', '86932093', '2019-08-08T09:26:58Z')
968800 ('4170428', 'Позы дефекации у человека', '83534117', '2019-05-28T18:01:01Z')
968900 ('4170851', 'Helly Hansen', '94532586', '2019-02-16T11:29:35Z')
969000 ('4171233', 'Кхер, Анупам', '99361235', '2019-06-14T1

978100 ('4206673', 'Пупышево (садоводческий массив)', '94289671', '2019-05-31T23:16:51Z')
978200 ('4207161', 'Кедра', '', '2012-11-09T10:57:33Z')
978300 ('4207700', 'Метод лактационной аменореи', '99804965', '2019-07-16T01:44:20Z')
978400 ('4208163', 'Дигейл, Джеймс', '98311266', '2019-02-24T21:04:27Z')
978500 ('4208636', 'Дворников, Александр Владимирович', '98661589', '2019-06-02T20:34:40Z')
978600 ('4209107', 'Парадокс Эпименида', '65580610', '2014-09-16T16:36:31Z')
978700 ('4209448', 'Вильчевский', '49747118', '2013-03-17T09:20:28Z')
978800 ('4209920', 'Цианид палладия(II)', '64398611', '2016-08-22T04:22:35Z')
978900 ('4210420', 'Лез-Ольер-сюр-Эрьё', '94039686', '2019-05-09T00:17:18Z')
979000 ('4210753', 'Седановское муниципальное образование', '51000743', '2017-12-05T05:18:45Z')
979100 ('4211035', 'Боро-холл (линия Истерн-Паркуэй, Ай-ар-ти)', '', '2012-11-11T13:16:43Z')
979200 ('4211296', 'Тимошкино (Дедовичский район)', '76438155', '2017-06-03T21:50:32Z')
979300 ('4211665', 'Алех

988500 ('4247058', 'Оксалат серебра', '80367172', '2018-06-30T10:25:34Z')
988600 ('4247344', 'Экономическая интеграция', '', '2012-12-02T20:03:28Z')
988700 ('4247816', 'Driving Rain', '97850229', '2019-02-24T07:40:00Z')
988800 ('4248160', 'Коленки', '50369409', '2016-02-23T09:44:42Z')
988900 ('4248482', 'Пронский, Семён Глебович', '96203464', '2018-11-10T09:18:22Z')
989000 ('4248733', 'Лябзы', '76435130', '2016-11-21T20:33:58Z')
989100 ('4248978', 'НЕЦЕЗИУДИК', '50380994', '2017-04-01T16:39:04Z')
989200 ('4249310', 'Фунес Мори, Рамиро', '100206330', '2019-07-06T21:15:31Z')
989300 ('4249737', 'Большая аллея (Санкт-Петербург)', '92130810', '2019-02-06T15:20:25Z')
989400 ('4250056', 'Флад, Марк', '97503132', '2019-02-26T23:04:33Z')
989500 ('4250386', 'Калашников, Виталий Анатольевич (оператор, режиссёр)', '', '2012-12-04T17:08:16Z')
989600 ('4250778', 'Лакретель (фамилия)', '50409792', '2015-08-13T08:07:56Z')
989700 ('4251243', 'Участок особого научного значения', '89811476', '2019-06-24T

998700 ('4288953', 'Арцимович (лунный кратер)', '76128405', '2016-07-12T15:52:12Z')
998800 ('4289425', 'Роузен, Беатрис', '94493892', '2018-11-10T13:41:13Z')
998900 ('4290150', 'Эрелиус, Стив', '99161618', '2019-07-05T20:50:20Z')
999000 ('4290533', 'Второй дивизион Испании по футболу 2000/2001', '93295845', '2019-08-19T09:39:59Z')
999100 ('4290902', 'Жулио', '76642224', '2017-05-17T21:32:01Z')
999200 ('4291160', 'Зырянская', '51162110', '2014-08-31T16:57:40Z')
999300 ('4291519', '72-я стрелковая дивизия (значения)', '66026223', '2016-02-23T19:51:29Z')
999400 ('4291841', 'Liparis bautingensis', '76347254', '2016-08-15T17:02:08Z')
999500 ('4292429', 'Мотэги, Тосимицу', '99685317', '2019-05-18T03:25:50Z')
999600 ('4292861', 'Шурово', '51061617', '2016-02-23T16:37:41Z')
999700 ('4293264', 'Уэстерн Форс', '93063144', '2019-06-24T03:17:41Z')
999800 ('4293568', 'U-35 (1914)', '91498475', '2018-09-01T08:43:42Z')
999900 ('4293870', 'Кекур (значения)', '70625120', '2016-02-23T09:31:25Z')
1000000

1008800 ('4332265', 'Citi Open 2012 — женский одиночный разряд', '67523403', '2015-03-21T21:50:53Z')
1008900 ('4332558', 'Наумовская (Верховское сельское поселение)', '69461436', '2018-10-24T01:58:48Z')
1009000 ('4332680', 'Милогорская', '86421893', '2018-07-28T16:55:37Z')
1009100 ('4332801', 'Малаховский Бор', '94214582', '2019-05-08T07:42:24Z')
1009200 ('4333178', 'Орловский уезд (древний)', '', '2013-01-16T13:40:19Z')
1009300 ('4333533', 'Атенино', '87242896', '2018-01-02T08:12:41Z')
1009400 ('4333820', 'Японская зарянка', '79282569', '2017-10-27T03:38:23Z')
1009500 ('4334261', 'Toutes les femmes en moi', '97272921', '2019-02-03T09:00:09Z')
1009600 ('4334576', 'Узбекистан на летних Паралимпийских играх 2012', '91552586', '2018-06-27T06:55:49Z')
1009700 ('4335062', 'Пиреноид', '97489130', '2019-04-13T23:53:48Z')
1009800 ('4335376', 'МИД Грузии', '', '2013-01-17T21:28:11Z')
1009900 ('4335691', 'Голдрайх', '51738395', '2013-03-18T03:59:10Z')
1010000 ('4336084', 'Любятово (значения)', '

1019100 ('4368700', 'Ростов-на-Дону (значения)', '74997170', '2019-04-03T17:02:57Z')
1019200 ('4368956', 'Немоловский', '71617664', '2019-01-15T18:19:01Z')
1019300 ('4369370', 'Наментенга', '89409438', '2018-10-23T11:22:42Z')
1019400 ('4369693', 'Image-Line Software', '101453838', '2019-08-06T05:44:24Z')
1019500 ('4369949', 'Список умерших в 1124 году', '73772185', '2017-02-28T14:41:31Z')
1019600 ('4370160', 'Покахонтас 2: Путешествие в Новый Свет', '95329833', '2018-12-23T17:50:31Z')
1019700 ('4370475', 'Список депутатов Верховного Совета БАССР 3-го созыва', '92176421', '2018-11-23T02:14:31Z')
1019800 ('4370896', 'Противопожарные разрывы', '90735556', '2018-02-27T13:47:00Z')
1019900 ('4371212', 'Террористический акт на острове Утойя', '69031406', '2015-12-18T23:00:13Z')
1020000 ('4371560', 'Епархия Минделу', '67732081', '2016-08-04T05:16:28Z')
1020100 ('4372059', 'Гетто в Осиповичском районе', '52358053', '2013-06-19T11:27:03Z')
1020200 ('4372402', 'Гришин, Виктор Иванович (ректор)', 

1029300 ('4404427', 'Штайнмец, Миклош', '92812172', '2019-02-15T13:24:08Z')
1029400 ('4404739', 'Гурзаул', '88570288', '2018-02-12T20:54:09Z')
1029500 ('4405017', 'Братская улица (Екатеринбург)', '85435943', '2019-07-20T23:44:45Z')
1029600 ('4405316', 'Каратал (Ерейментауский район)', '87620070', '2017-10-18T05:03:58Z')
1029700 ('4405585', 'Stigmella satarensis', '75949543', '2018-05-17T01:53:11Z')
1029800 ('4406039', 'Гандольфи, Хавьер', '96739368', '2019-01-16T00:38:35Z')
1029900 ('4406380', 'Гарфилд, Ричард', '99566776', '2019-05-03T12:38:01Z')
1030000 ('4406694', 'Бразилия за Христа', '', '2013-03-01T17:50:07Z')
1030100 ('4406932', 'Список глав государств в 402 году', '82209456', '2017-05-19T15:56:36Z')
1030200 ('4407248', 'Евсеев, Николай Иванович', '98047623', '2019-07-20T12:11:22Z')
1030300 ('4407442', 'HD 197037', '52940537', '2013-03-03T20:30:16Z')
1030400 ('4407774', 'Айгерим Жексембинова', '52929838', '2014-11-20T16:54:04Z')
1030500 ('4407988', 'Байтерек (Акмолинская область

1039800 ('4443444', 'Хаслох (значения)', '54187260', '2016-02-22T20:44:14Z')
1039900 ('4443707', 'Краденое солнце (мультфильм)', '100046648', '2019-07-06T02:48:18Z')
1040000 ('4443890', 'Alfa Corse', '87426977', '2018-01-09T06:03:59Z')
1040100 ('4444267', 'Сокуров, Сергей Анатольевич', '100329745', '2019-07-26T17:26:36Z')
1040200 ('4444679', 'Хейнясенмаа (значения)', '', '2013-03-25T12:24:55Z')
1040300 ('4444953', 'Ганахлеба (Гальский район)', '86131606', '2017-08-21T11:13:53Z')
1040400 ('4445406', 'Dynasty Warriors 8', '93882843', '2019-06-22T13:16:36Z')
1040500 ('4445840', 'Ясотхон (провинция)', '62920175', '2018-07-23T08:15:02Z')
1040600 ('4446109', 'Прачуапкхирикхан (значения)', '54231946', '2013-04-04T18:37:13Z')
1040700 ('4446403', 'Блошница', '84414520', '2018-01-30T16:59:06Z')
1040800 ('4446722', 'Де Кадене, Аманда', '97051283', '2019-03-16T08:11:19Z')
1040900 ('4447109', 'Подхоз ПЧ-45', '66705168', '2017-11-24T02:00:20Z')
1041000 ('4447474', 'Власов, Трофим Леонтьевич', '91121

1050100 ('4481623', 'Лачинов, Михаил Фёдорович', '58141146', '2019-01-12T22:32:20Z')
1050200 ('4482155', 'Осада Мангупа', '86145499', '2017-09-10T21:00:43Z')
1050300 ('4482517', 'Удмурт-Сада', '89437978', '2019-06-22T00:32:03Z')
1050400 ('4483132', 'The Rubens', '93691264', '2018-09-01T01:15:00Z')
1050500 ('4483598', 'Шпаль, Милан', '80646608', '2016-12-03T16:54:41Z')
1050600 ('4484057', 'Ордена Приднестровской Молдавской Республики', '', '2013-04-19T16:07:21Z')
1050700 ('4484416', 'Dinoponera snellingi', '68545254', '2018-07-09T16:50:21Z')
1050800 ('4484810', 'Клыковская', '91461728', '2018-07-07T03:31:18Z')
1050900 ('4485249', 'Калливере', '100519095', '2019-06-20T19:30:23Z')
1051000 ('4485663', 'Пеи-де-Бюш', '86245918', '2019-05-09T08:20:07Z')
1051100 ('4486109', 'Масонский запон', '96549926', '2019-07-17T07:53:54Z')
1051200 ('4486527', 'HD 120084', '55780203', '2016-07-12T19:32:22Z')
1051300 ('4486888', 'Эзна (значения)', '', '2013-04-21T16:47:49Z')
1051400 ('4487229', 'Улица Мёдов

In [9]:
data = []
with open('../../../Desktop/Wiki/wiki_log.txt', 'r') as f:
    for i, line in enumerate(f):
        parts = line.strip().split('|||')
        data.append(parts)
        if i % 1000 == 0:
            print(i)

0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
19000
20000
21000
22000
23000
24000
25000
26000
27000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
38000
39000
40000
41000
42000
43000
44000
45000
46000
47000
48000
49000
50000
51000
52000
53000
54000
55000
56000
57000
58000
59000
60000
61000
62000
63000
64000
65000
66000
67000
68000
69000
70000
