In [2]:
import sys

import numpy as np
import pandas as pd

from tqdm import tqdm
tqdm.pandas()

from nltk import sent_tokenize
from nltk.tokenize.toktok import ToktokTokenizer
from rnnmorph.predictor import RNNMorphPredictor
from ufal.udpipe import Model, Pipeline, ProcessingError

sys.path.append('../src')
from encode import *

In [3]:
articles = pd.read_csv('../data/interim/articles.csv')
articles.head()

Unnamed: 0,id,hr_level_0,hr_level_1,hr_level_2,hr_level_3,hr_level_4,publication,time,title,snippet,text
0,0,0,0,,152.0,,Финмаркет,2018-03-29T14:13:00,В этом году на льготные автокредиты и лизинг б...,FINMARKET.RU - Премьер России Дмитрий Медведев...,В этом году на льготные автокредиты и лизинг б...
1,1,0,0,,152.0,,ТАСС,2018-03-29T14:16:00,Медведев: около 50 тыс. машин продадут в 2018 ...,Около 50 тыс. автомашин будет продано в текуще...,Около 50 тыс. автомашин будет продано в текуще...
2,2,0,0,,152.0,,Российская газета,2018-03-29T14:30:00,Кабмин выделит 7 миллиардов рублей на льготное...,Правительство выделяет 7 миллиардов рублей на ...,Названы ставки по ипотеке и автокредитам в 201...
3,3,0,0,,152.0,,Телеканал 360°,2018-03-29T14:43:00,Правительство РФ выделит порядка 7 млрд на льг...,Из указанной суммы около семи миллиардов напра...,Правительством России предусмотрено свыше 12 м...
4,4,0,0,,152.0,,Интерфакс,2018-03-29T15:38:00,Правительство выделит в 2018 г. около 7 млрд р...,Правительство РФ выделит в 2018 году около 7 м...,Правительство РФ выделит в 2018 году около 7 м...


#### Разбиение на предложения

Используем nltk.tokenize.sent_tokenize и модель для русского языкак https://github.com/Mottl/ru_punkt

In [4]:
sent_tokenizer = lambda text: sent_tokenize(text, language='russian')

articles['title_sents'] = articles.title.progress_apply(sent_tokenizer)
articles['snippet_sents'] = articles.snippet.progress_apply(sent_tokenizer)
articles['text_sents'] = articles.text.progress_apply(sent_tokenizer)

articles['title_preproc'] = articles.title_sents
articles['snippet_preproc'] = articles.snippet_sents
articles['text_preproc'] = articles.text_sents

100%|██████████| 11127/11127 [00:00<00:00, 42221.82it/s]
100%|██████████| 11127/11127 [00:01<00:00, 8863.57it/s]
100%|██████████| 11127/11127 [00:04<00:00, 2634.34it/s]


#### Разбиение на токены

Используем nltk.tokenize.toktok.ToktokTokenizer

In [5]:
toktok = ToktokTokenizer()
word_tokenizer = lambda text: [toktok.tokenize(sent) for sent in text]

articles.title_preproc = articles.title_preproc.progress_apply(word_tokenizer)
articles.snippet_preproc = articles.snippet_preproc.progress_apply(word_tokenizer)
articles.text_preproc = articles.text_preproc.progress_apply(word_tokenizer)

100%|██████████| 11127/11127 [00:00<00:00, 34070.81it/s]
100%|██████████| 11127/11127 [00:01<00:00, 5719.32it/s]
100%|██████████| 11127/11127 [00:06<00:00, 1734.47it/s]


#### Морфологический анализ

Используем RNNMorph

In [6]:
rnnmorph = RNNMorphPredictor(language='ru')
morph_predictor = rnnmorph.predict_sentences

articles.title_preproc = articles.title_preproc.progress_apply(morph_predictor)
articles.snippet_preproc = articles.snippet_preproc.progress_apply(morph_predictor)
articles.text_preproc = articles.text_preproc.progress_apply(morph_predictor)

100%|██████████| 11127/11127 [04:20<00:00, 42.64it/s]
100%|██████████| 11127/11127 [12:17<00:00, 15.09it/s]
100%|██████████| 11127/11127 [29:16<00:00,  6.33it/s]


#### Построение синтаксического дерева для каждого предложения

Используем UDPipe

In [7]:
articles.title_preproc = articles[['title_sents', 'title_preproc']].apply(lambda x: zip(*x), axis=1)
articles.title_preproc = articles.title_preproc.apply(rnnmorph_encoder).apply(conllu_decoder)
articles = articles.drop(columns=['title_sents'])

articles.snippet_preproc = articles[['snippet_sents', 'snippet_preproc']].apply(lambda x: zip(*x), axis=1)
articles.snippet_preproc = articles.snippet_preproc.apply(rnnmorph_encoder).apply(conllu_decoder)
articles = articles.drop(columns=['snippet_sents'])

articles.text_preproc = articles[['text_sents', 'text_preproc']].apply(lambda x: zip(*x), axis=1)
articles.text_preproc = articles.text_preproc.apply(rnnmorph_encoder).apply(conllu_decoder)
articles = articles.drop(columns=['text_sents'])

parser_model = Model.load('../models/parser_model.udpipe')
parser_pipeline = Pipeline(parser_model, 'conllu', Pipeline.NONE, Pipeline.DEFAULT, 'conllu')
syntax_parser = lambda x: parser_pipeline.process(x, ProcessingError())

articles.title_preproc = articles.title_preproc.progress_apply(syntax_parser)
articles.snippet_preproc = articles.snippet_preproc.progress_apply(syntax_parser)
articles.text_preproc = articles.text_preproc.progress_apply(syntax_parser)

articles.to_csv('../data/interim/articles_preproc.csv', index=False)

100%|██████████| 11127/11127 [00:15<00:00, 731.74it/s]
100%|██████████| 11127/11127 [01:28<00:00, 125.97it/s]
100%|██████████| 11127/11127 [07:26<00:00, 34.43it/s]


Сделано по мотивам https://habr.com/company/sberbank/blog/418701/