# ДЗ 1 Индекс

# Intro
### работа с файлами и папками

In [1]:
import os

curr_dir = os.getcwd()
filepath = os.path.join(curr_dir, 'test.txt')

### os.path  
путь до файла

In [25]:
# возвращает полный путь до папки/файла по имени файла / папки
print(os.path.abspath(filepath))


# возвращает имя файла / папки по полному пути до него
print(os.path.basename(filepath))


# проверить существование директории - True / False
print(os.path.exists(curr_dir))

### os.listdir  
возвращает список файлов в данной директории

In [24]:
os.listdir(curr_dir)

При обходе файлов не забывайте исключать системные директории, такие как .DS_Store

### os.walk
root - начальная директория  
dirs - список поддиректорий (папок)   
files - список файлов в этих поддиректориях  

In [21]:
for root, dirs, files in os.walk(curr_dir):
    for name in files:
        print(os.path.join(root, name))

> __os.walk__ возвращает генератор, это значит, что получить его элементы можно только проитерировавшись по нему  
но его легко можно превратить в list и увидеть все его значения

In [23]:
list(os.walk(curr_dir))

### чтение файла 

In [1]:
filepath = 'test.txt'


# одним массивом  
with open(fpath, 'r') as f:  
    text = f.read() 

    
#по строкам, в конце каждой строки \n  
with open(fpath, 'r') as f:   
    text = f.readlines() 

    
#по строкам, без \n   
with open(fpath, 'r') as f:   
    text = f.read().splitlines() 

### Пример реализации обратного индекса через CountVectorizer

In [30]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
 
# инициализируем
vectorizer = CountVectorizer(analyzer='word')

# составляем корпус документов
corpus = [
  'слово1 слово2 слово3',
  'слово2 слово3',
  'слово1 слово2 слово1',
  'слово4'
]

# считаем
X = vectorizer.fit_transform(corpus)
 
# получится следующая структура:
#        | слово1 | слово2 | слово3 | слово4
# текст1 |   1    |    1   |   1    |   0
# текст2 |   0    |    1   |   1    |   0
# текст3 |   2    |    1   |   0    |   0
# текст4 |   0    |    0   |   0    |   1

# показать матрицу
print('X:\n', X.toarray(), '\n')

 
# чтобы получить сгенерированный словарь, из приведенной структуры CountVectorizer
# порядок совпадает с матрицей
print('get_feature_names:', vectorizer.get_feature_names(), '\n')  # ['слово1', 'слово2', 'слово3', 'слово4']
 
    
# чтобы узнать индекс токена в словаре
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово1')) # вернет 0
print('vocabulary_.get:', vectorizer.vocabulary_.get('слово4'), '\n') # вернет 3

 
# теперь можно быстро подсчитать вектор для нового документа
print('transform:', vectorizer.transform(['слово1 слово4 слово4']).toarray())  # результат [[1 0 0 2]]
print('transform:', vectorizer.transform(['слово5']).toarray(), '\n')

 
# чтобы узнать количественное вхождение каждого слова:
matrix_freq = np.asarray(X.sum(axis=0)).ravel()
print('matrix_freq:', matrix_freq, '\n')  # результат [3 3 2 1] 

final_matrix = np.array([np.array(vectorizer.get_feature_names()), matrix_freq])
print('final_matrix:', final_matrix, '\n')  # результат [['слово1' 'слово2' 'слово3' 'слово4'], ['3' '3' '2' '1']] 

X:
 [[1 1 1 0]
 [0 1 1 0]
 [2 1 0 0]
 [0 0 0 1]] 

get_feature_names: ['слово1', 'слово2', 'слово3', 'слово4'] 

vocabulary_.get: 0
vocabulary_.get: 3 

transform: [[1 0 0 2]]
transform: [[0 0 0 0]] 

matrix_freq: [3 3 2 1] 

final_matrix: [['слово1' 'слово2' 'слово3' 'слово4']
 ['3' '3' '2' '1']] 



In [18]:
vectorizer.transform(['слово1 слово4 слово4']).toarray()

array([[1, 0, 0, 2]])

#  Индекс 

Сам по себе индекс - это просто формат хранения данных, он не может осуществлять поиск. Для этого необходимо добавить к нему определенную метрику. Это может быть что-то простое типа булева поиска, а может быть что-то более специфическое или кастомное под задачу.

Давайте посмотрим, что полезного можно вытащить из самого индекса.    
Например, индекс - это информация о частоте встречаемости слова в каждом документе.   
Из этого можно понять, например:
1. какое слово является самым часто употребимым / редким
2. какие слова встречаются всегда вместе - так можно парсить твиттер, fb, форумы и отлавливать новые устойчивые выражения в речи
3. как эти документы кластеризуются по N тематикам согласно словам, которые в них упоминаются 

## __Задача__: 

**Data:** Коллекция субтитров сезонов Друзей. Одна серия - один документ.

**To do:** 

**1 Создайте обратный индекс этой базы в двух форматах: словарь и матрица.**

Компоненты вашей реализации:
    - Функция препроцессинга данных. Включите туда лемматизацию, приведение к одному регистру, удаление пунктуации и стоп-слов.
    - Функция индексирования данных. На выходе создает обратный индекс.

**2 С помощью обратного индекса в каждом формате посчитайте:** 


a) какое слово является самым частотным

b) какое самым редким

c) какой набор слов есть во всех документах коллекции

d) кто из главных героев статистически самый популярный (упонимается чаще всего)? Имена героев:
- Моника, Мон
- Рэйчел, Рейч
- Чендлер, Чэндлер, Чен
- Фиби, Фибс
- Росс
- Джоуи, Джои, Джо

**На что направлены эти задачи:** 
1. Навык построения обратного индекса
2. Навык работы с этим индексом

[download_friends_corpus](https://yadi.sk/d/4wmU7R8JL-k_RA?w=1)

In [31]:
### _check : в коллекции должно быть 165 файлов