# Семинар 1: _Индекс_

## 0. Intro

### 0.1 &emsp; Чтение файла 
- конструкция __with open__ (recommended)
- конструкция __open + close__

```python
fpath = "fpath.txt"

# одним массивом  
with open(fpath, "r") as f:  
    text = f.read() 

# по строкам, в конце каждой строки \n  
with open(fpath, "r") as f:   
    text = f.readlines() 

# по строкам, без \n   
with open(fpath, "r") as f:   
    text = f.read().splitlines() 
    
# not recommended  
file = open(txt_fpath, "r")  
text = file.read()    
file.close() 
```

### 0.2 &emsp; Работа с файлами и папками
#### os.path  
Путь до файла:

```python
import os

# возвращает полный путь до папки/файла по имени файла / папки
print(os.path.abspath("fpath.txt"))

# возвращает имя файла / папки по полному пути до него
print(os.path.basename("/your/path/to/folder/with/fpath.txt"))

# проверить существование директории - True / False
print(os.path.exists("your/path/to/any/folder/"))
```

#### os.listdir  
* Возвращает список файлов в данной директории:

```python
main_dir = "/your/path/to/folder/with/folders/"
os.listdir(main_dir)
```

* Сделаем пути абсолютными, чтобы наш код не зависел от того, где лежит этот файл:
```python
[main_dir + fpath for fpath in os.listdir(main_dir)]
```

* Не забывайте исключать системные директории, такие как `.DS_Store`
```python
[main_dir + fpath for fpath in os.listdir(main_dir) if not ".DS_Store" in fpath]
```

#### os.walk
`root` — начальная директория  
`dirs` — список поддиректорий (папок)   
`files` — список файлов в этих поддиректориях  

```python
main_dir = "/your/path/to/folder/with/folders/"

for root, dirs, files in os.walk(main_dir):
    for name in files:
        print(os.path.join(root, name))
```

> __os.walk__ возвращает генератор. Это значит, что получить его элементы можно, только проитерировавшись по нему, но его легко можно превратить в `list` и увидеть все его значения

```python
list(os.walk(main_dir))
```

##  1. &emsp; Обратный индекс 

Сам по себе обратный индекс не может осуществлять поиск, для этого необходимо добавить к нему определенную метрику. Это не совсем очевидная задача, поэтому немного отложим ее. А сейчас посмотрим, что полезного можно вытащить из индекса.    
По сути, индекс - это информация о частоте встречаемости слова в каждом документе.   
Из этого можно понять, например:
1. какое слово является самым часто употребимым / редким
2. какие слова встречаются всегда вместе. Так можно парсить твиттер, fb, форумы и отлавливать новые устойчивые выражения в речи
3. какой документ является самым большим / маленьким (очень изощренный способ, когда есть _len_)

### 1.1 &emsp; __Задача__: 

**Получите обратный индекс для коллекции документов.**
Перед этим постройте матрицу терм-документ и сделайте функцию булева поиска, которая по запросу будет возвращать 5 релевантных документов.   
В качестве коллекции возьмите сценарий сезонов сериала Друзья. Одна серия — один документ.

Скачать корпус можно [тут](https://yadi.sk/d/k_M7n63A3adGSz).

Этапы:   

1. получить коллекцию документов
2. для каждого файла коллекции сделать необходимую на ваш взгляд предобработку
3. получить матрицу терм-документ, написать функцию поиска по ней
4. получить обратный индекс в виде словаря, где ключ — нормализованное слово, значение — список файлов, в которых это слово встречается
5. вывести кусочек индекса в виде таблицы 
6. сделать анализ обратного индекса. Это задание принимается в виде кода и ответов на вопросы

Напоминание:    
> При итерации по списку вы можете помимо самого элемента получить его порядковый номер    
```python 
for i, element in enumerate(your_list): 
    ... 
```    
Иногда для получения элемента делают так — `your_list[i]`, старайтесь этого избегать.

In [1]:
import os

In [2]:
main_dir = "./Friends"
files_list = []

### пройдитесь по всем папкам коллекции и соберите все пути .txt файлов
for root, dirs, files in os.walk(main_dir):
    for season_dir in dirs:
        half_path = root + "/" + season_dir
        files_list += [half_path + "/" + fpath for fpath in os.listdir(half_path) if not ".DS_Store" in fpath]

In [3]:
### _check : в коллекции должно быть 165 файлов
len(files_list)

165

### 1.1.1 &emsp; Терм-документ

In [4]:
import pandas as pd
import numpy as np
import re
import string
from pymorphy2.tokenizers import simple_word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

In [5]:
reg_punct = re.compile("[" + string.punctuation + "]")
reg_num = re.compile("[0-9]+")
reg_latin = re.compile("[a-z]+")

In [6]:
def preprocessing(text):
    text = text.lower()
    text = text.replace("\n", " ")
    text = text.replace("\ufeff", "")
    text = reg_punct.sub("", text)
    text = reg_num.sub("", text)
    text = reg_latin.sub("", text)
    return text

In [7]:
cv = CountVectorizer(min_df=0, max_df=1)
reg_episode = re.compile("[0-9]x[0123456789-]+")

texts = []
episodes = []
term_doc_matrix = []

In [8]:
for script_path in files_list:
    with open(script_path, "r", encoding="utf-8") as f:
        text_raw = f.read()
    episode = re.search(reg_episode, script_path).group(0)
    episodes.append(episode)
    text = preprocessing(text_raw)
    texts.append(text)

In [9]:
term_doc_matrix = pd.DataFrame(cv.fit_transform(texts).A , columns=cv.get_feature_names(), index=None)
term_doc_matrix["episode"] = episodes
term_doc_matrix = term_doc_matrix.set_index(term_doc_matrix["episode"])
del term_doc_matrix["episode"]
term_doc_matrix.head()

Unnamed: 0_level_0,ааааааа,аааааау,ааааах,аарон,аббатстве,аббатство,абонемент,абрикосы,абсурд,абсурдная,...,ёй,ёкнуло,ёлками,ёлке,ёлки,ёлочных,ёпэрэсотэ,ёрл,ёрш,ёще
episode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2x08,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x20,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x24,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x16,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2x07,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 1.1.2 &emsp; Булев поиск

In [None]:
# это простой поиск по одному токену
def simple_boolean_search(query) -> list:
    """
    Produces a Boolean search according with the term-document matrix
    :return: list of first 5 relevant documents
    """
    try:
        result = term_doc_matrix[query]
    except:
        print("Такого слова не нашлось.")
        result = None
    return result

In [None]:
#запросы 
input_text = [
    "Моника & Фиби & Рэйчел & Чендлер & Джои & Росс",
    "(Моника ИЛИ Фиби) & Рэйчел & (Чендлер ИЛИ Джои) & Росс", 
    "(НЕ Моника) & Фиби & Рэйчел & Чендлер & Джои & (НЕ Росс)"
]

In [None]:
queries = input_text[0].split(" & ")
result = set(boolean_search(queries[0], term_doc_matrix))
for query in queries[1:]:
    res = set(boolean_search(query, term_doc_matrix))
    result = result.intersection(res)

Совет для построения обратного индекса: 
> В качестве словаря используйте ``` defaultdict ``` из модуля collections   
Так можно избежать конструкции ``` dict.setdefault(key, default=None) ```

In [None]:
from collections import defaultdict

In [None]:
def inverted_index() -> dict:
    """
    Create inverted index by input doc collection
    :return: inverted index
    """
    inv_index = defaultdict()
    inv_index = inv_index.setdefault([])
    return

С помощью обратного индекса произведите следующую аналитику:  

1) общая аналитика
- какое слово является самым частотным?
- какое самым редким?
- какой набор слов есть во всех документах коллекции?

2) частота встречаемости имен главных героев в каждом сезоне      
- какой сезон был самым популярным у Чендлера? у Моники?   
- кто из главных героев статистически самый популярный? 


## Функция ранжирования Okapi BM25

Для обратного индекса есть общепринятая формула для ранжирования *Okapi best match 25* ([Okapi BM25](https://ru.wikipedia.org/wiki/Okapi_BM25)).    
Пусть дан запрос $Q$, содержащий слова  $q_1, ... , q_n$, тогда функция BM25 даёт следующую оценку релевантности документа $D$ запросу $Q$:

$$ score(D, Q) = \sum_{i}^{n} \text{IDF}(q_i)*\frac{(k_1+1)*f(q_i,D)}{f(q_i,D)+k_1(1-b+b\frac{|D|}{avgdl})} $$ 
где   
>$f(q_i,D)$ - частота слова $q_i$ в документе $D$ (TF)       
$|D|$ - длина документа (количество слов в нём)   
*avgdl* — средняя длина документа в коллекции    
$k_1$ и $b$ — свободные коэффициенты, обычно их выбирают как $k_1$=2.0 и $b$=0.75   
$$$$
$\text{IDF}(q_i)$ есть обратная документная частота (IDF) слова $q_i$: 
$$\text{IDF}(q_i) = \log\frac{N-n(q_i)+0.5}{n(q_i)+0.5},$$
>> где $N$ - общее количество документов в коллекции   
$n(q_i)$ — количество документов, содержащих $q_i$

In [None]:
### реализуйте эту функцию ранжирования 
from math import log

k1 = 2.0
b = 0.75

def score_BM25(qf, dl, avgdl, k1, b, N, n) -> float:
    """
    Compute similarity score between search query and documents from collection
    :return: score
    """
    return 

### __Задача__:    
напишите функцию, которая сортирует поисковую выдачу для любого входящего запроса согласно метрике *Okapi BM25*.    
Выведите 10 первых результатов и их скор по запросу **рождественские каникулы**. 

In [None]:
def compute_sim() -> float:
    """
    Compute similarity score between search query and documents from collection
    :return: score
    """
    return 


def get_search_result() -> list:
    """
    Compute sim score between search query and all documents in collection
    Collect as pair (doc_id, score)
    :param query: input text
    :return: list of lists with (doc_id, score)
    """
    return 