In [1]:
import sys
sys.path.append('../')

### Предобработка

Для предобработки текста потребуются токенизация - разделение строки на отдельные составляющие - и лемматизация - приведение к нормальной форме. 

Одним из лучших токенизаторов для русского языка является `SpacyTokenizer`, однако вы можете дополнительно исследовать и изменить принципы разделения токенов.

Для лемматизации можно использовать `pymorphy2` или `pymystem`.


### DELETE
Дополнительно вам может потребоваться отфильтровать ссылки, названия на английском, номера и прочие лишние по вашему мнению элементы.

In [2]:
from lib import SpacyRulesRussianTokenizer
from lib import Pymorphy2Tagger
from lib import Pymorphy2Lemmatizer

In [3]:
tokenizer = SpacyRulesRussianTokenizer()
tokenized = tokenizer.transform_element('Сможете ли вы написать новую модель без копипаста?')

print(tokenized)

['Сможете', 'ли', 'вы', 'написать', 'новую', 'модель', 'без', 'копипаста', '?']


In [4]:
tagger = Pymorphy2Tagger()
tagged_1 = [tagger.transform_token(word) for word in tokenized]
# or
tagged_2 = tagger.transform_string(tokenized)
# or
tagged_3 = tagger.transform([tokenized])

print(tagged_1)
print()
print(tagged_2)
print()
print(tagged_3)

[{'initial_form': 'сможете', 'normal_form': 'смочь', 'pos_tag': 'VERB', 'ner_tag': None}, {'initial_form': 'ли', 'normal_form': 'ли', 'pos_tag': 'PRCL', 'ner_tag': None}, {'initial_form': 'вы', 'normal_form': 'вы', 'pos_tag': 'NPRO', 'ner_tag': None}, {'initial_form': 'написать', 'normal_form': 'написать', 'pos_tag': 'INFN', 'ner_tag': None}, {'initial_form': 'новую', 'normal_form': 'новый', 'pos_tag': 'ADJF', 'ner_tag': None}, {'initial_form': 'модель', 'normal_form': 'модель', 'pos_tag': 'NOUN', 'ner_tag': None}, {'initial_form': 'без', 'normal_form': 'без', 'pos_tag': 'PREP', 'ner_tag': None}, {'initial_form': 'копипаста', 'normal_form': 'копипаста', 'pos_tag': 'NOUN', 'ner_tag': None}, {'initial_form': '?', 'normal_form': '?', 'pos_tag': None, 'ner_tag': None}]

[{'initial_form': 'сможете', 'normal_form': 'смочь', 'pos_tag': 'VERB', 'ner_tag': None}, {'initial_form': 'ли', 'normal_form': 'ли', 'pos_tag': 'PRCL', 'ner_tag': None}, {'initial_form': 'вы', 'normal_form': 'вы', 'pos_tag

In [5]:
lemmatizer = Pymorphy2Lemmatizer()
lemmatized_1 = [lemmatizer.transform_token(word) for word in tokenized]
# or
lemmatized_2 = lemmatizer.transform_string(tokenized)
# or
lemmatized_3 = lemmatizer.transform([tokenized])

print(lemmatized_1)
print()
print(lemmatized_2)
print()
print(lemmatized_3)

['смочь', 'ли', 'вы', 'написать', 'новый', 'модель', 'без', 'копипаста', '?']

['смочь', 'ли', 'вы', 'написать', 'новый', 'модель', 'без', 'копипаста', '?']

[['смочь', 'ли', 'вы', 'написать', 'новый', 'модель', 'без', 'копипаста', '?']]


Обратите внимание, что `pymorphy2` выдаёт несколько вариантов разбора слова:

In [6]:
tagger.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

### Валидация

Валидацию можно осуществить с помощью моделей из модуля `sklearn.ensemble`.

#### Удачи!