# Лемматизация

Наши предложения на сегодня:

In [4]:
sent = 'ВКС 27 июля обнаружили и уничтожили запущенный с территории боевиков беспилотник, приближавшийся к авиабазе.'
unkn_sent = 'Я пофиксил баг в продакшене.' # предложение с незнакомыми словами

# омонимия
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'

## [mystem](https://tech.yandex.ru/mystem/)
Как запускать:
* можно скачать mystem и вызывать его [из командной строки с разными параметрами](https://tech.yandex.ru/mystem/doc/)
* можно исполнять команды из пункта выше через питон (см. модуль `subprocess`)
* [pymystem3](https://pythonhosted.org/pymystem3/pymystem3.html) - обертка для питона, работает медленнее, но это удобно.

Сегодня мы будем работать с pymystem3.


In [12]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Сейчас мы запустили Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, можно не указывать.
* grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Несколько моментов:
* В Mystem нужно подавать строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.
* По возможности Mystem (и любые другие вещи этого рода) нужно инициализировать один раз, потому что инициализация занимает время и память.

Можно просто лемматизировать текст.

In [20]:
print(mystem_analyzer.lemmatize(sent))

['ВКС', ' ', '27', ' ', 'июль', ' ', 'обнаруживать', ' ', 'и', ' ', 'уничтожать', ' ', 'запущенный', ' ', 'с', ' ', 'территория', ' ', 'боевик', ' ', 'беспилотник', ', ', 'приближаться', ' ', 'к', ' ', 'авиабаза', '.', '\n']


А можно получить грамматическую информацию.

In [19]:
mystem_analyzer.analyze(sent)

[{'analysis': [], 'text': 'ВКС'},
 {'text': ' '},
 {'text': '27'},
 {'text': ' '},
 {'analysis': [{'lex': 'июль', 'wt': 0.9979341289, 'gr': 'S,муж,неод=род,ед'},
   {'lex': 'июль',
    'wt': 0.002065871066,
    'gr': 'S,имя,муж,од=(вин,ед|род,ед)'}],
  'text': 'июля'},
 {'text': ' '},
 {'analysis': [{'lex': 'обнаруживать',
    'wt': 1,
    'gr': 'V,пе=прош,мн,изъяв,сов'}],
  'text': 'обнаружили'},
 {'text': ' '},
 {'analysis': [{'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='},
   {'lex': 'и', 'wt': 1.020511514e-05, 'gr': 'INTJ='},
   {'lex': 'и',
    'wt': 6.379604644e-06,
    'gr': 'S,сокр=(пр,мн|пр,ед|вин,мн|вин,ед|дат,мн|дат,ед|род,мн|род,ед|твор,мн|твор,ед|им,мн|им,ед)'},
   {'lex': 'и', 'wt': 6.37957056e-06, 'gr': 'PART='}],
  'text': 'и'},
 {'text': ' '},
 {'analysis': [{'lex': 'уничтожать', 'wt': 1, 'gr': 'V,пе=прош,мн,изъяв,сов'}],
  'text': 'уничтожили'},
 {'text': ' '},
 {'analysis': [{'lex': 'запущенный',
    'wt': 0.991625177,
    'gr': 'A=(вин,ед,полн,муж,неод|им,ед,полн,му

### Задание.

Попробуйте инициализировать Mystem с разными параметрами и посмотреть, что выходит с морфологическим анализом предложения. Конкретные вопросы:
1. Что происходит с дизамбигуацией?
2. Как хранится грамматическая информация?


In [30]:
# YOUR CODE HERE

mystem_analyzer = Mystem(disambiguation=False)
mystem_analyzer.analyze(sent)

[{'analysis': [], 'text': 'ВКС'},
 {'text': ' '},
 {'text': '27'},
 {'text': ' '},
 {'analysis': [{'lex': 'июль', 'wt': 0.9979341289, 'gr': 'S,муж,неод=род,ед'},
   {'lex': 'июль',
    'wt': 0.002065871066,
    'gr': 'S,имя,муж,од=(вин,ед|род,ед)'}],
  'text': 'июля'},
 {'text': ' '},
 {'analysis': [{'lex': 'обнаруживать',
    'wt': 1,
    'gr': 'V,пе=прош,мн,изъяв,сов'}],
  'text': 'обнаружили'},
 {'text': ' '},
 {'analysis': [{'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='},
   {'lex': 'и', 'wt': 1.020511514e-05, 'gr': 'INTJ='},
   {'lex': 'и',
    'wt': 6.379604644e-06,
    'gr': 'S,сокр=(пр,мн|пр,ед|вин,мн|вин,ед|дат,мн|дат,ед|род,мн|род,ед|твор,мн|твор,ед|им,мн|им,ед)'},
   {'lex': 'и', 'wt': 6.37957056e-06, 'gr': 'PART='}],
  'text': 'и'},
 {'text': ' '},
 {'analysis': [{'lex': 'уничтожать', 'wt': 1, 'gr': 'V,пе=прош,мн,изъяв,сов'}],
  'text': 'уничтожили'},
 {'text': ' '},
 {'analysis': [{'lex': 'запущенный',
    'wt': 0.991625177,
    'gr': 'A=(вин,ед,полн,муж,неод|им,ед,полн,му

In [24]:
mystem_analyzer = Mystem(disambiguation=True)
mystem_analyzer.analyze(homonym1)

[{'analysis': [{'lex': 'за', 'wt': 1, 'gr': 'PR='}], 'text': 'За'},
 {'text': ' '},
 {'analysis': [{'lex': 'время', 'wt': 1, 'gr': 'S,сред,неод=(вин,ед|им,ед)'}],
  'text': 'время'},
 {'text': ' '},
 {'analysis': [{'lex': 'обучение',
    'wt': 1,
    'gr': 'S,сред,неод=(вин,мн|род,ед|им,мн)'}],
  'text': 'обучения'},
 {'text': ' '},
 {'analysis': [{'lex': 'я', 'wt': 0.9999716281, 'gr': 'SPRO,ед,1-л=им'}],
  'text': 'я'},
 {'text': ' '},
 {'analysis': [{'lex': 'прослушивать',
    'wt': 1,
    'gr': 'V,пе=прош,ед,изъяв,муж,сов'}],
  'text': 'прослушал'},
 {'text': ' '},
 {'analysis': [{'lex': 'много', 'wt': 0.0002164204767, 'gr': 'ADV=срав'}],
  'text': 'больше'},
 {'text': ' '},
 {'analysis': [{'lex': 'сорок',
    'wt': 0.8710292664,
    'gr': 'NUM=(пр|дат|род|твор)'}],
  'text': 'сорока'},
 {'text': ' '},
 {'analysis': [{'lex': 'курс', 'wt': 0.6284122441, 'gr': 'S,муж,неод=род,мн'}],
  'text': 'курсов'},
 {'text': '.'},
 {'text': '\n'}]

In [28]:
mystem_analyzer = Mystem(disambiguation=False)
mystem_analyzer.analyze(homonym2)

[{'analysis': [{'lex': 'сорок',
    'wt': 0.8710292664,
    'gr': 'NUM=(пр|дат|род|твор)'},
   {'lex': 'сорока', 'wt': 0.1210970041, 'gr': 'S,жен,од=им,ед'},
   {'lex': 'сорока', 'wt': 0.00787372947, 'gr': 'S,жен,неод=им,ед'}],
  'text': 'Сорока'},
 {'text': ' '},
 {'analysis': [{'lex': 'своровать',
    'wt': 1,
    'gr': 'V,сов,пе=прош,ед,изъяв,жен'}],
  'text': 'своровала'},
 {'text': ' '},
 {'analysis': [{'lex': 'блестящий',
    'wt': 0.6831493248,
    'gr': 'A=(вин,ед,полн,сред|им,ед,полн,сред|срав)'},
   {'lex': 'блестеть',
    'wt': 0.3168506752,
    'gr': 'V,несов,нп=(непрош,вин,ед,прич,полн,сред,действ|непрош,им,ед,прич,полн,сред,действ)'}],
  'text': 'блестящее'},
 {'text': ' '},
 {'analysis': [{'lex': 'украшение',
    'wt': 1,
    'gr': 'S,сред,неод=(вин,ед|им,ед)'}],
  'text': 'украшение'},
 {'text': ' '},
 {'analysis': [{'lex': 'со', 'wt': 1, 'gr': 'PR='}], 'text': 'со'},
 {'text': ' '},
 {'analysis': [{'lex': 'стол', 'wt': 1, 'gr': 'S,муж,неод=род,ед'}],
  'text': 'стола'}

In [29]:

mystem_analyzer = Mystem(disambiguation=True)
mystem_analyzer.analyze(homonym2)

[{'analysis': [{'lex': 'сорока', 'wt': 0.1210970041, 'gr': 'S,жен,од=им,ед'}],
  'text': 'Сорока'},
 {'text': ' '},
 {'analysis': [{'lex': 'своровать',
    'wt': 1,
    'gr': 'V,сов,пе=прош,ед,изъяв,жен'}],
  'text': 'своровала'},
 {'text': ' '},
 {'analysis': [{'lex': 'блестящий',
    'wt': 0.6831493248,
    'gr': 'A=(вин,ед,полн,сред|им,ед,полн,сред|срав)'}],
  'text': 'блестящее'},
 {'text': ' '},
 {'analysis': [{'lex': 'украшение',
    'wt': 1,
    'gr': 'S,сред,неод=(вин,ед|им,ед)'}],
  'text': 'украшение'},
 {'text': ' '},
 {'analysis': [{'lex': 'со', 'wt': 1, 'gr': 'PR='}], 'text': 'со'},
 {'text': ' '},
 {'analysis': [{'lex': 'стол', 'wt': 1, 'gr': 'S,муж,неод=род,ед'}],
  'text': 'стола'},
 {'text': '.'},
 {'text': '\n'}]

### Другие фичи
Незнакомые слова:

In [33]:
mystem_analyzer = Mystem(disambiguation=True)
mystem_analyzer.analyze(unkn_sent)

[{'analysis': [{'lex': 'я', 'wt': 0.9999716281, 'gr': 'SPRO,ед,1-л=им'}],
  'text': 'Я'},
 {'text': ' '},
 {'analysis': [{'lex': 'пофиксить',
    'wt': 0.6996286204,
    'qual': 'bastard',
    'gr': 'V,несов,пе=прош,ед,изъяв,муж'}],
  'text': 'пофиксил'},
 {'text': ' '},
 {'analysis': [{'lex': 'баг',
    'wt': 1,
    'qual': 'bastard',
    'gr': 'S,гео,муж,неод=(вин,ед|им,ед)'}],
  'text': 'баг'},
 {'text': ' '},
 {'analysis': [{'lex': 'в', 'wt': 0.9999917878, 'gr': 'PR='}], 'text': 'в'},
 {'text': ' '},
 {'analysis': [{'lex': 'продакшень',
    'wt': 0.2241225571,
    'qual': 'bastard',
    'gr': 'S,муж,неод=пр,ед'}],
  'text': 'продакшене'},
 {'text': '.'},
 {'text': '\n'}]

## [pymorphy2](http://pymorphy2.readthedocs.io/en/latest/)
Это модуль на питоне (то есть всё организовано через ООП), довольно быстрый и с кучей функций.

Как запускать:

In [34]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, тк не понимает.

In [63]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(sent)
tokens

['ВКС',
 '27',
 'июля',
 'обнаружили',
 'и',
 'уничтожили',
 'запущенный',
 'с',
 'территории',
 'боевиков',
 'беспилотник',
 ',',
 'приближавшийся',
 'к',
 'авиабазе',
 '.']

In [36]:
terra = pymorphy2_analyzer.parse(tokens[8])
terra

[Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='территория', score=0.714285, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 6),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='территория', score=0.095238, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 1),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='территория', score=0.095238, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 2),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='территория', score=0.047619, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 7),)),
 Parse(word='территории', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='территория', score=0.047619, methods_stack=((<DictionaryAnalyzer>, 'территории', 40, 10),))]

In [37]:
print(terra[0].normal_form) # лемма
print(terra[0].tag) # тэг
print(terra[0].tag.POS) # часть речи

территория
NOUN,inan,femn sing,loct
NOUN


### Задание.
Напишите лемматизацию предложения `sent` через pymorphy2. На выходе должен быть массив лемм.
Сравните лемматизацию с предложенной mystem.

In [64]:
# YOUR CODE HERE
for i in range(len(tokens)):
    word = pymorphy2_analyzer.parse(tokens[i])
    print(word[0].normal_form)

вкс
27
июль
обнаружить
и
уничтожить
запустить
с
территория
боевик
беспилотник
,
приближаться
к
авиабаза
.


## Другие фичи

Незнакомые слова:

In [35]:
lemmata = []
for token in word_tokenize(unkn_sent):
    ana = pymorphy2_analyzer.parse(token)[0]
    lemmata.append((ana.normal_form, ana.tag, ana.methods_stack))
lemmata

[('я',
  OpencorporaTag('NPRO,1per sing,nomn'),
  ((<DictionaryAnalyzer>, 'я', 3100, 0),)),
 ('пофиксила',
  OpencorporaTag('NOUN,inan,femn plur,gent'),
  ((<DictionaryAnalyzer>, 'сил', 55, 8), (<UnknownPrefixAnalyzer>, 'пофик'))),
 ('баг',
  OpencorporaTag('NOUN,inan,masc sing,accs'),
  ((<DictionaryAnalyzer>, 'баг', 19, 3),)),
 ('в', OpencorporaTag('PREP'), ((<DictionaryAnalyzer>, 'в', 375, 0),)),
 ('продакшен',
  OpencorporaTag('NOUN,inan,masc,Geox sing,loct'),
  ((<FakeDictionary>, 'продакшене', 32, 5), (<KnownSuffixAnalyzer>, 'шене'))),
 ('.', OpencorporaTag('PNCT'), ((<PunctuationAnalyzer>, '.'),))]

Склонение слов и согласование слов с числительными:

In [54]:
loc_terra = terra[0]
print('inflection:', loc_terra.inflect({'accs'}).word)
print('locative + 1:', loc_terra.make_agree_with_number(1).word)
print('locative + 3:', loc_terra.make_agree_with_number(3).word)
print('locative + 5:', loc_terra.make_agree_with_number(5).word)

nom_terra = loc_terra.inflect({'nomn'})
print('nominative + 1:',nom_terra.make_agree_with_number(1).word)
print('nominative + 3:',nom_terra.make_agree_with_number(3).word)
print('nominative + 5:',nom_terra.make_agree_with_number(5).word)

inflection: территорию
locative + 1: территории
locative + 3: территориях
locative + 5: территориях
nominative + 1: территория
nominative + 3: территории
nominative + 5: территорий


### Снятие омонимии
mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту.

In [60]:
mystem_analyzer = Mystem() # инициализирую объект снова, потому что было задание на разные параметры, я хочу дефолтные

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

{'text': 'сорока', 'analysis': [{'gr': 'NUM=(пр|дат|род|твор)', 'lex': 'сорок'}]}
{'text': 'Сорока', 'analysis': [{'gr': 'S,жен,од=им,ед', 'lex': 'сорока'}]}


In [62]:
ana1 = pymorphy2_analyzer.parse(homonym1.split(' ')[-2])
ana2 = pymorphy2_analyzer.parse(homonym2.split(' ')[0])
print(ana1 == ana2)
print(ana1[0])

True
Parse(word='сорока', tag=OpencorporaTag('NUMR loct'), normal_form='сорок', score=0.285714, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 5),))


# Стоп-слова
Списки стоп-слов для русского есть разные, можно погуглить, а можно взять из nltk. Может быть, вы посчитаете нужным что-то в него добавить.

In [17]:
from nltk.corpus import stopwords
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

# Знаки препинания
Списки знаков препинания тоже уже есть в питоне. Но этот список тоже может понадобиться пополнить.

In [16]:
from string import punctuation
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [67]:
punctuation + '^'

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~^'

# Домашнее задание

## Задание 1.
Напишите функцию, предобрабатывающую текст. Она вам пригодится для проекта. В предобработку входит:
* токенизация
* лемматизация (при которой произойдет lowercase)
* удаление знаков препинания и стоп-слов

In [50]:
from nltk.tokenize import word_tokenize
from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords
from string import punctuation
pymorphy2_analyzer = MorphAnalyzer()


def preprocessing(text):
    """
    Processes input text for further use in search engine.
    :param text: str: input text.
    :return: list[str]: lemmata list
    """
    # YOUR CODE HERE
    
    prepr = []
    tokens = word_tokenize(text)
    for i in range(len(tokens)):
        if tokens[i] not in stopwords.words('russian') and tokens[i] not in punctuation:
            word = pymorphy2_analyzer.parse(tokens[i])
            prepr.append(word[0].normal_form)
    return prepr

In [51]:
text='ВКС 27 июля обнаружили и уничтожили запущенный с территории боевиков беспилотник, приближавшийся к авиабазе.'
preprocessing(text)

['вкс',
 '27',
 'июль',
 'обнаружить',
 'уничтожить',
 'запустить',
 'территория',
 'боевик',
 'беспилотник',
 'приближаться',
 'авиабаза']

## Задание 2.

Это часть вашего проекта.

Прочитайте корпус, предобработайте каждый документ и сделайте (и сохраните в формате json) обратный индекс. Обратный индекс - словарь, где для каждого слова из корпуса есть список документов, в которых оно есть. Также подумайте, какую информацию по корпусу вам нужно сохранить (вспомните, что нужно для подсчета Okapi BM25) и сохраните ее тоже.

In [53]:
"""
    Computes Okapi BM25 for a particular document and one word in a query.
    NB: min IDF 0 (use built-in max function)
    :param n: number of docs with a word                 
    :param qf: raw word frequence in doc                
    :param N: number of docs in a collection
    :param dl: doc length (in words)                    
    :param avdl: average doc length in a collection     
    :return: float: BM25 score
    """
from nltk.tokenize import word_tokenize
from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords
from string import punctuation
pymorphy2_analyzer = MorphAnalyzer()
import json
import os

def preprocessing(text):
    prepr = []
    tokens = word_tokenize(text)
    for i in range(len(tokens)):
        if tokens[i] not in stopwords.words('russian') and tokens[i] not in punctuation:
            word = pymorphy2_analyzer.parse(tokens[i])
            prepr.append(word[0].normal_form)
    return prepr

In [54]:
def inverted_index(docs):
    d={}
    for i in docs:
        value = docs[i]
        for j in value:
            if j in d:
                if i in d[j]:
                    d[j][i] += 1
                else:
                    d[j][i] = 1
            else:
                d[j]={i:1}
    return d

In [65]:
lens = {}
ind = {}
for path in os.listdir('rus_corpus'):
    if os.path.isfile('./rus_corpus/' + path):
        with open('./rus_corpus/' + path, encoding='utf-8-sig') as f:
            text = preprocessing(f.read())
            lens[path] = len(text)
            ind[path] = text
inv_ind = {}            
inv_ind = inverted_index(ind)

json.dump(inv_ind, open('inv_index.txt','w', encoding='utf-8-sig'), ensure_ascii=False, indent=2)
json.dump(lens, open('lens.txt','w', encoding='utf-8-sig'), ensure_ascii=False, indent=2)
