## Семинар 1 Индекс

## __Задача__: 

**Data:** Коллекция субтитров сезонов Друзей. Одна серия - один документ.

**To do:** Постройте небольшой модуль поискового движка, который сможет осуществлять поиск по коллекции документов.
На входе запрос и проиндексированная коллекция (в том виде, как посчитаете нужным), на выходе отсортированный по релевантности с запросом список документов коллекции. 

Релизуйте:
    - функцию препроцессинга данных
    - функцию индексирования данных
    - функцию метрики релевантности 
    - собственно, функцию поиска

[download_friends_corpus](https://yadi.sk/d/yVO1QV98CDibpw)

Напоминание про defaultdict: 
> В качестве multiple values словаря рекомендую использовать ``` collections.defaultdict ```                          
> Так можно избежать конструкции ``` dict.setdefault(key, default=None) ```

С помощью обратного индекса посчитайте:  


a) какое слово является самым частотным

b) какое самым редким

c) какой набор слов есть во всех документах коллекции

d) какой сезон был самым популярным у Чендлера? у Моники?

e) кто из главных героев статистически самый популярный? 


In [356]:
import os
import re
import numpy as np
import pandas as pd
from collections import Counter, defaultdict
from pymystem3 import Mystem
from sklearn.feature_extraction.text import CountVectorizer


mystem = Mystem()
cv = CountVectorizer()

In [357]:
def collecting_files():
    list_of_files = []
    curr_dir = 'friends'
    for root, dirs, files in os.walk(curr_dir):
        for d in dirs:
            for file in os.listdir('.' + os.sep + curr_dir + os.sep + d):
                if file.endswith('.txt'):
                    path = curr_dir + os.sep + d + os.sep + file
                    list_of_files.append(path)
    return list_of_files

In [358]:
latin = re.compile("[a-z]+")
num = re.compile("[0-9]+")
punct = re.compile("[«–»—!\$%&'()*+,./:;<=>?@^_`{|}~']*")
episode = re.compile("[0-9]x[0123456789-]+")
word = re.compile("[А-ЯЁа-яё]+(?:(?:-[А-ЯЁа-яё]+)*)?")
other = set(["", "\n", "-", " "])

In [359]:
def preproc(text):
    text = text.lower().replace("\n", " ")
    text = latin.sub("", text)
    text = num.sub("", text)
    text = punct.sub("", text)
    return text

In [362]:
texts_done = []
episodes = []


list_of_files = collecting_files()
for path in list_of_files:
    with open(path, "r", encoding="utf-8") as f:
        text = f.read()
    
    words = re.findall(word, preproc(text))
    
    lemmas = []
    for w in words:
        lemma = mystem.lemmatize(w)
        lemmas += [l for l in lemma[:-1] if l not in other]
    lemmas_done.append(lemmas)
    text_lem = " ".join(lemmas)
    texts_done.append(text_lem)
   
    ep = re.search(episode, path).group(0)
    episodes.append(ep)

In [363]:
term_doc_matrix = pd.DataFrame(cv.fit_transform(texts_done).A, columns=cv.get_feature_names(), index=None)
term_doc_matrix["episode"] = episodes
term_doc_matrix = term_doc_matrix.set_index(term_doc_matrix["episode"])
del term_doc_matrix["episode"]
term_doc_matrix.head()

Unnamed: 0_level_0,аа,ааа,ааааа,ааааааа,аааааау,ааааах,аарон,аббатство,абонемент,абрикос,...,ярмарка,ярость,ясмин,ясно,ясность,ясный,яхта,ящерица,ящик,ящичек
episode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2x08,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x20,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x24,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
2x16,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x07,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0


In [364]:
def inverted_index(texts_done, episodes) -> dict:
    inv_index = defaultdict(dict)
    for i, text in enumerate(texts_done):
        ep = episodes[i]
        count = Counter(mystem.lemmatize(text))
        for data in count.most_common():
            lemma, res = data
            if lemma not in other:
                inv_index[lemma][ep] = res
    return inv_index

In [365]:
inv_index = inverted_index(texts_done, episodes)

a) какое слово является самым частотным

In [366]:
max_freq = 0
word = ""
for lemma in inv_index:
    freq = sum(inv_index[lemma].values())
    if freq > max_freq:
        max_freq = freq
        word = lemma
print(word, max_freq)

я 18212


b) какое самым редким

In [367]:
words = []
for lemma in inv_index:
    if sum(inv_index[lemma].values()) == 1:
        words.append(lemma)
print(words)

['программный', 'модем', 'килобит', 'половый', 'заострять', 'некий', 'луль', 'гарный', 'муй', 'импресибо', 'впечатляющий', 'исп', 'растаттер', 'синтетический', 'сертификат', 'абы', 'доминировать', 'пасха', 'усякий', 'пузыриться', 'ненно', 'послевкусие', 'отчего', 'заживать', 'влазить', 'брюлик', 'амур', 'детруа', 'систематически', 'столбец', 'село', 'неасфальтировать', 'дума', 'толстоватый', 'стружка', 'вселенский', 'вскричать', 'впадать', 'гениально', 'долбогрыз', 'карма', 'навозный', 'смело', 'моколатно', 'столовый', 'лабораторный', 'хитросплетение', 'шип', 'эверь', 'арыбахис', 'перерабатывать', 'занюханый', 'тренажерка', 'прауер', 'проблемный', 'ден', 'спайк', 'дырявить', 'свеженький', 'стойкий', 'поползти', 'заготавливать', 'убиственный', 'обеденный', 'порулить', 'кузнечка', 'лопатка', 'са', 'соперничать', 'поняньчить', 'нассау', 'кофей', 'сеть', 'взбадриваться', 'прекрасность', 'янки', 'янковская', 'костыль', 'разгребать', 'вассар', 'столетие', 'космо', 'распланировать', 'рид', 'у

c) какой набор слов есть во всех документах коллекции

In [370]:
words = []
for lemma in inv_index:
    if len(inv_index[lemma]) == len(set(episodes)):
        words.append(lemma)
print(words)

['я', 'не', 'ты', 'и', 'что', 'это', 'а', 'как', 'на', 'быть', 'он', 'в', 'она', 'нет', 'с', 'так', 'хорошо', 'мы', 'все', 'у', 'ну', 'давать', 'мой', 'но', 'весь', 'просто', 'то', 'еще', 'о', 'да', 'такой', 'ладно', 'знать', 'же', 'мочь', 'хотеть', 'они', 'этот', 'если', 'думать']


d) какой сезон был самым популярным у Чендлера?

In [413]:
def task_d(char):
    seasons = {str(num): 0 for num in range(1,8)}
    char = char.lower()
    char = mystem.lemmatize(char)[0]
    for ep in inv_index[char]:
        seasons[ep[0]] += inv_index[char][ep]
#    print(seasons)
    return max(seasons, key=seasons.get)

In [414]:
task_d("Чендлер")

'6'

у Моники?

In [415]:
task_d("Моника")

'7'

e) кто из главных героев статистически самый популярный? 

In [418]:
max_freq = 0
character = ""
for char in ["Чендлер", "Моника", "Росс", "Фиби", "Джоуи", "Рейчел"]:
    char = char.lower()
    char = mystem.lemmatize(char)[0]
    freq = sum(inv_index[char].values())
    if freq > max_freq:
        max_freq = freq
        character = char
print(character.capitalize())

Росс
