# Считаем IDFы слов коллекции

В этом тюториале мы научимся самостоятельно вычислять IDFы слов.

На входе нам будет дана небольшая коллекция из нескольких текстовых документов.

Нам будет нужно посчитать IDFы всех слов, которые содержатся в этой коллекции.

Импортируем модули которые нам понадобятся впоследствии:

In [3]:
import math
from collections import defaultdict
from nltk import tokenize
import numpy as np

Список документов (названия институтов):

In [4]:
texts = [
    "Московская государственная академия хореографии",
    "Московский государственный университет им. М.В. Ломоносова (Университет МГУ)",
    "Московский физико-технический институт (национальный исследовательский университет)",
    "Национальный исследовательский университет «МИЭТ»",
    "Национальный исследовательский университет ИТМО",
]
print(texts)

['Московская государственная академия хореографии', 'Московский государственный университет им. М.В. Ломоносова (Университет МГУ)', 'Московский физико-технический институт (национальный исследовательский университет)', 'Национальный исследовательский университет «МИЭТ»', 'Национальный исследовательский университет ИТМО']


Определим функцию, которую будем использовать для предобработки текста:

In [5]:
def preprocess(text):
    # Tokenize
    tokenizer = tokenize.RegexpTokenizer(r'\w\w+')
    tokens = tokenizer.tokenize(text)

    # Normalize
    return [token.lower() for token in tokens]

Проверим, что она работает:

In [6]:
print(preprocess(texts[1]))

['московский', 'государственный', 'университет', 'им', 'ломоносова', 'университет', 'мгу']


Видим, что эта функция удаляет пунктуацию и оставляет только слова длиной в 2 и более символов.

Теперь объявим шаблон для нашего класса-векторизатора, который вам предстоит реализовать:

In [7]:
class ManualTfidfVectorizer:
    """Replicates sklearn logic.

    Uses IDF definition: IDF(t) = 1 + ln((N + 1) / (DF(t) + 1))
    """
    def __init__(self):
        pass

    def fit(self, texts):
        pass

    def get_idf(self, word):
        return 0

Вам нужно реализовать функцию _fit()_, в которой вы должны рассчитать и запомнить IDFы всех слова коллекции.

IDF определим по формуле, которая используется классом _TfidfVectorizer_ из библиотеки _scikit-learn_, а именно:

**IDF(t) = 1 + ln((N + 1) / (DF(t) + 1))**

тут:
- **N** -- полное число документов в коллекции
- **DF(t)** -- документная частота, т.е. число документов, в которых содержится слово **t**

Создадим наш векторизатор и "обучим" его на нашей коллекции документов:

In [8]:
vectorizer = ManualTfidfVectorizer()
vectorizer.fit(texts)

Распечатаем IDFы отдельных слов:

In [9]:
print(vectorizer.get_idf("академия"))
print(vectorizer.get_idf("университет"))

0
0


Проверим, что эти IDFы соответствуют тем, которые выдает библиотека _scikit-learn_:

In [10]:
idfs = [vectorizer.get_idf("академия"), vectorizer.get_idf("университет")]
np.testing.assert_allclose([2.09861229, 1.18232156], idfs, rtol=1e-03, atol=1e-03)

AssertionError: 
Not equal to tolerance rtol=0.001, atol=0.001

Mismatched elements: 2 / 2 (100%)
Max absolute difference among violations: 2.09861229
Max relative difference among violations: inf
 ACTUAL: array([2.098612, 1.182322])
 DESIRED: array([0, 0])