# Лемматизация

Наши предложения на сегодня:

In [55]:
sent = 'ВКС 27 июля обнаружили и уничтожили запущенный с территории боевиков беспилотник, приближавшийся к авиабазе.'
unkn_sent = 'Я пофиксил баг в продакшене.' # предложение с незнакомыми словами

# омонимия
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'

## [mystem](https://tech.yandex.ru/mystem/)
Как запускать:
* можно скачать mystem и вызывать его [из командной строки с разными параметрами](https://tech.yandex.ru/mystem/doc/)
* можно исполнять команды из пункта выше через питон (см. модуль `subprocess`)
* [pymystem3](https://pythonhosted.org/pymystem3/pymystem3.html) - обертка для питона, работает медленнее, но это удобно.

Сегодня мы будем работать с pymystem3.


In [1]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Сейчас мы запустили Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, можно не указывать.
* grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Несколько моментов:
* В Mystem нужно подавать строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.
* По возможности Mystem (и любые другие вещи этого рода) нужно инициализировать один раз, потому что инициализация занимает время и память.

Можно просто лемматизировать текст.

In [36]:
print(mystem_analyzer.lemmatize(sent))

['ВКС', ' ', '27', ' ', 'июль', ' ', 'обнаруживать', ' ', 'и', ' ', 'уничтожать', ' ', 'запущенный', ' ', 'с', ' ', 'территория', ' ', 'боевик', ' ', 'беспилотник', ', ', 'приближаться', ' ', 'к', ' ', 'авиабаза', '.', '\n']


А можно получить грамматическую информацию.

In [19]:
mystem_analyzer.analyze(sent)

[{'analysis': [], 'text': 'ВКС'},
 {'text': ' '},
 {'text': '27'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,муж,неод=род,ед', 'lex': 'июль'}], 'text': 'июля'},
 {'text': ' '},
 {'analysis': [{'gr': 'V,пе=прош,мн,изъяв,сов', 'lex': 'обнаруживать'}],
  'text': 'обнаружили'},
 {'text': ' '},
 {'analysis': [{'gr': 'CONJ=', 'lex': 'и'}], 'text': 'и'},
 {'text': ' '},
 {'analysis': [{'gr': 'V,пе=прош,мн,изъяв,сов', 'lex': 'уничтожать'}],
  'text': 'уничтожили'},
 {'text': ' '},
 {'analysis': [{'gr': 'A=(вин,ед,полн,муж,неод|им,ед,полн,муж)',
    'lex': 'запущенный'}],
  'text': 'запущенный'},
 {'text': ' '},
 {'analysis': [{'gr': 'PR=', 'lex': 'с'}], 'text': 'с'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,жен,неод=(пр,ед|вин,мн|дат,ед|род,ед|им,мн)',
    'lex': 'территория'}],
  'text': 'территории'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,муж,од=(вин,мн|род,мн)', 'lex': 'боевик'}],
  'text': 'боевиков'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,муж,од=им,ед',
    'lex': 'беспилотник',
    

### Задание.

Попробуйте инициализировать Mystem с разными параметрами и посмотреть, что выходит с морфологическим анализом предложения. Конкретные вопросы:
1. Что происходит с дизамбигуацией?
2. Как хранится грамматическая информация?


In [None]:
# YOUR CODE HERE

### Другие фичи
Незнакомые слова:

In [30]:
mystem_analyzer.analyze(unkn_sent)

[{'analysis': [{'gr': 'SPRO,ед,1-л=им', 'lex': 'я'}], 'text': 'Я'},
 {'text': ' '},
 {'analysis': [{'gr': 'V,несов,пе=прош,ед,изъяв,муж',
    'lex': 'пофиксить',
    'qual': 'bastard'}],
  'text': 'пофиксил'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,гео,муж,неод=(вин,ед|им,ед)',
    'lex': 'баг',
    'qual': 'bastard'}],
  'text': 'баг'},
 {'text': ' '},
 {'analysis': [{'gr': 'PR=', 'lex': 'в'}], 'text': 'в'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,муж,неод=пр,ед',
    'lex': 'продакшень',
    'qual': 'bastard'}],
  'text': 'продакшене'},
 {'text': '.'},
 {'text': '\n'}]

## [pymorphy2](http://pymorphy2.readthedocs.io/en/latest/)
Это модуль на питоне (то есть всё организовано через ООП), довольно быстрый и с кучей функций.

Как запускать:

In [5]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, тк не понимает.

In [20]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(sent)
tokens

['ВКС',
 '27',
 'июля',
 'обнаружили',
 'и',
 'уничтожили',
 'запущенный',
 'с',
 'территории',
 'боевиков',
 'беспилотник',
 ',',
 'приближавшийся',
 'к',
 'авиабазе',
 '.']

In [39]:
terra = pymorphy2_analyzer.parse(tokens[8])
terra

[Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='территория', score=0.714285, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 6),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='территория', score=0.095238, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 1),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='территория', score=0.095238, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 2),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='территория', score=0.047619, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 7),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='территория', score=0.047619, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 10),))]

In [40]:
print(terra[0].normal_form) # лемма
print(terra[0].tag) # тэг
print(terra[0].tag.POS) # часть речи

территория
NOUN,inan,femn sing,loct
NOUN


### Задание.
Напишите лемматизацию предложения `sent` через pymorphy2. На выходе должен быть массив лемм.
Сравните лемматизацию с предложенной mystem.

In [None]:
# YOUR CODE HERE

## Другие фичи

Незнакомые слова:

In [35]:
lemmata = []
for token in word_tokenize(unkn_sent):
    ana = pymorphy2_analyzer.parse(token)[0]
    lemmata.append((ana.normal_form, ana.tag, ana.methods_stack))
lemmata

[('я',
  OpencorporaTag('NPRO,1per sing,nomn'),
  ((<DictionaryAnalyzer>, 'я', 3100, 0),)),
 ('пофиксила',
  OpencorporaTag('NOUN,inan,femn plur,gent'),
  ((<DictionaryAnalyzer>, 'сил', 55, 8), (<UnknownPrefixAnalyzer>, 'пофик'))),
 ('баг',
  OpencorporaTag('NOUN,inan,masc sing,accs'),
  ((<DictionaryAnalyzer>, 'баг', 19, 3),)),
 ('в', OpencorporaTag('PREP'), ((<DictionaryAnalyzer>, 'в', 375, 0),)),
 ('продакшен',
  OpencorporaTag('NOUN,inan,masc,Geox sing,loct'),
  ((<FakeDictionary>, 'продакшене', 32, 5), (<KnownSuffixAnalyzer>, 'шене'))),
 ('.', OpencorporaTag('PNCT'), ((<PunctuationAnalyzer>, '.'),))]

Склонение слов и согласование слов с числительными:

In [54]:
loc_terra = terra[0]
print('inflection:', loc_terra.inflect({'accs'}).word)
print('locative + 1:', loc_terra.make_agree_with_number(1).word)
print('locative + 3:', loc_terra.make_agree_with_number(3).word)
print('locative + 5:', loc_terra.make_agree_with_number(5).word)

nom_terra = loc_terra.inflect({'nomn'})
print('nominative + 1:',nom_terra.make_agree_with_number(1).word)
print('nominative + 3:',nom_terra.make_agree_with_number(3).word)
print('nominative + 5:',nom_terra.make_agree_with_number(5).word)

inflection: территорию
locative + 1: территории
locative + 3: территориях
locative + 5: территориях
nominative + 1: территория
nominative + 3: территории
nominative + 5: территорий


### Снятие омонимии
mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту.

In [60]:
mystem_analyzer = Mystem() # инициализирую объект снова, потому что было задание на разные параметры, я хочу дефолтные

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

{'text': 'сорока', 'analysis': [{'gr': 'NUM=(пр|дат|род|твор)', 'lex': 'сорок'}]}
{'text': 'Сорока', 'analysis': [{'gr': 'S,жен,од=им,ед', 'lex': 'сорока'}]}


In [62]:
ana1 = pymorphy2_analyzer.parse(homonym1.split(' ')[-2])
ana2 = pymorphy2_analyzer.parse(homonym2.split(' ')[0])
print(ana1 == ana2)
print(ana1[0])

True
Parse(word='сорока', tag=OpencorporaTag('NUMR loct'), normal_form='сорок', score=0.285714, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 5),))


# Стоп-слова
Списки стоп-слов для русского есть разные, можно погуглить, а можно взять из nltk. Может быть, вы посчитаете нужным что-то в него добавить.

In [49]:
from nltk.corpus import stopwords
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

# Знаки препинания
Списки знаков препинания тоже уже есть в питоне. Но этот список тоже может понадобиться пополнить.

In [51]:
from string import punctuation
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

# Домашнее задание

## Задание 1.
Напишите функцию, предобрабатывающую текст. Она вам пригодится для проекта. В предобработку входит:
* токенизация
* лемматизация (при которой произойдет lowercase)
* удаление знаков препинания и стоп-слов

In [None]:
def preprocessing(text):
    """
    Processes input text for further use in search engine.
    :param text: str: input text.
    :return: list[str]: lemmata list
    """
    # YOUR CODE HERE
    pass

## Задание 2.

Это часть вашего проекта.

Прочитайте корпус, предобработайте каждый документ и сделайте (и сохраните в формате json) обратный индекс. Обратный индекс - словарь, где для каждого слова из корпуса есть список документов, в которых оно есть. Также подумайте, какую информацию по корпусу вам нужно сохранить (вспомните, что нужно для подсчета Okapi BM25) и сохраните ее тоже.