In [2]:
!pip install nltk



Импортируем необходимые библиотеки

In [1]:
import pandas as pd
from IPython.display import display, Math

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
import numpy as np
import scipy.sparse as sp

from nltk.text import TextCollection

Инициализируем массив ```texts```, который содержит в себе 3 элемента - 3 'синтетических' текста

In [2]:
texts = [u'мама мама мама мыла рама',
         u'рама это рама все просто',
         u'очень просто']

# Считаем частотность

Без использования дополнительных библиотек посчитаем частотность каждого слова по всем текстам

In [3]:
word_to_number = {}
for text in texts:
    for word in text.split():
        word_to_number[word] = word_to_number.get(word, 0) + 1

Для красивой визуализации используем pandas, не обязательно, но наглядно

In [4]:
pd.DataFrame(list(word_to_number.items()))

Unnamed: 0,0,1
0,мама,3
1,мыла,1
2,рама,3
3,это,1
4,все,1
5,просто,2
6,очень,1


Без использования дополнительных библиотек посчитаем частотность каждого слова по каждому тексту

In [5]:
word_to_number_for_each_texts = {}
for text in texts:
    word_to_number_for_each_texts[text] = {}
    for word in text.split():
        if word_to_number_for_each_texts[text].get(word):
            word_to_number_for_each_texts[text][word] += 1
        else:
            word_to_number_for_each_texts[text][word] = 1

In [6]:
word_to_number_for_each_texts

{'мама мама мама мыла рама': {'мама': 3, 'мыла': 1, 'рама': 1},
 'рама это рама все просто': {'рама': 2, 'это': 1, 'все': 1, 'просто': 1},
 'очень просто': {'очень': 1, 'просто': 1}}

Для красивой визуализации использум pandas, не обязательно, но наглядно (в этот раз для красивой визуализации нужно заморочиться, но мы не будем заморачиваться)

In [7]:
pd.DataFrame(list(word_to_number_for_each_texts.items()))

Unnamed: 0,0,1
0,мама мама мама мыла рама,"{'мама': 3, 'мыла': 1, 'рама': 1}"
1,рама это рама все просто,"{'рама': 2, 'это': 1, 'все': 1, 'просто': 1}"
2,очень просто,"{'очень': 1, 'просто': 1}"


In [9]:
pd.DataFrame(list(word_to_number_for_each_texts.values()))

Unnamed: 0,все,мама,мыла,очень,просто,рама,это
0,,3.0,1.0,,,1.0,
1,1.0,,,,1.0,2.0,1.0
2,,,,1.0,1.0,,


А теперь воспользуемся библиотекой ```sklearn```

In [10]:
count_vect = CountVectorizer()
temp_matrix = count_vect.fit_transform(texts) # temp_matrix эта промежуточная матрица, понадобится в следующем кейсе,
                                              # для вычисления tf-idf
matrix_counts = temp_matrix.toarray()         # в данной матрице хранятся 

In [11]:
pd.DataFrame(temp_matrix.toarray())

Unnamed: 0,0,1,2,3,4,5,6
0,0,3,1,0,0,1,0
1,1,0,0,0,1,2,1
2,0,0,0,1,1,0,0


In [12]:
count_vect.vocabulary_

{'мама': 1, 'мыла': 2, 'рама': 5, 'это': 6, 'все': 0, 'просто': 4, 'очень': 3}

Визуализируем красиво ```matrix_counts```

In [13]:
words = [x[0] for x in sorted(count_vect.vocabulary_.items(), key=lambda x: x[1])] # список слов, 
                                                                                   # чтобы сделать красивую шапку
pd.DataFrame(matrix_counts, columns=words)  # при создании DataFrame передадим подготовленный список слов

Unnamed: 0,все,мама,мыла,очень,просто,рама,это
0,0,3,1,0,0,1,0
1,1,0,0,0,1,2,1
2,0,0,0,1,1,0,0


In [20]:
#tf-idf слово ПРОСТО
import math
1*math.log(3/2)

0.4054651081081644

# Что такое TF-IDF?

## TF - term frequency

1) Просто частотность, что мы считали выше (https://en.wikipedia.org/wiki/Tf–idf)

In [39]:
display(Math(r'f_{t,d}'))

<IPython.core.display.Math object>

2) TF по версии российской википедии (https://ru.wikipedia.org/wiki/TF-IDF) (!!!)

In [40]:
display(Math(r'\mathrm{tf}(t,d) = \frac{f_{t,d}}{\sum_k f_{t_k,d}}'))

<IPython.core.display.Math object>

3) Бинарная встречаемость. *0 - не было слова в тексте, 1 - было слово в тексте*

In [167]:
display(Math(r'\mathrm{tf}(t,d) = \left\{ \begin{matrix} 0, f_{t,d} = 0 \\ 1, f_{t,d} ≥ 1 \end{matrix} \right.'))

<IPython.core.display.Math object>

4) Логарифм от частоты +1

In [168]:
display(Math(r'\mathrm{tf}(t,d) = \log(1 + f_{t,d})'))

<IPython.core.display.Math object>

5) Нормированная частота (double normalization)

In [169]:
display(Math(r'K + (1 - K) \frac { f_{t,d} }{\max({f_{t_i,d}})}'))

<IPython.core.display.Math object>

Подробности https://en.wikipedia.org/wiki/Tf–idf

## IDF - inverse document frequency

1) 'Стандарт', логарифм отношения числа всех документов к числу документов, содержащих данное слово

In [41]:
display(Math(r'\mathrm{idf}(t,D)=\log\frac{N}{|\{d\in D:t\in d\}|}\
             =\log\frac{|D|}{|(d_{i}\supset t_{i})|}=\log\frac{N}{n_t}'))

<IPython.core.display.Math object>

2) Сглаженный IDF

In [172]:
display(Math(r'\mathrm{idf}(t,D)=\log(1+\frac{N}{n_t})'))

<IPython.core.display.Math object>

3) IDF с использованием максимального значения DF

In [174]:
display(Math(r'\log\left(1 + \frac {\max_t n_t} {n_t}\right)'))

<IPython.core.display.Math object>

4) Вероятностная обратная встречаемость

In [175]:
display(Math(r'\log\frac {N - n_t} {n_t}'))

<IPython.core.display.Math object>

# Вычислим TF-IDF

## sklearn

Документация http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer

Исходный код https://github.com/scikit-learn/scikit-learn/blob/bb592f3865f02f1d6bf9dedce1a2554fa0ada800/sklearn/feature_extraction/text.py#L901

In [None]:
idf = (log(N/(n)+ 1) + 1)

In [30]:
tfidf_transformer = TfidfTransformer()
matrix_tfidf = tfidf_transformer.fit_transform(temp_matrix).toarray()
df_index = pd.DataFrame(matrix_tfidf, columns=words)
df_index

Unnamed: 0,все,мама,мыла,очень,просто,рама,это
0,0.0,0.922383,0.307461,0.0,0.0,0.233832,0.0
1,0.452123,0.0,0.0,0.0,0.343851,0.687703,0.452123
2,0.0,0.0,0.0,0.795961,0.605349,0.0,0.0


In [23]:
pd.DataFrame([tfidf_transformer.idf_]*3, columns=words)  # построим только ```idf```

Unnamed: 0,все,мама,мыла,очень,просто,рама,это
0,1.693147,1.693147,1.693147,1.693147,1.287682,1.287682,1.693147
1,1.693147,1.693147,1.693147,1.693147,1.287682,1.287682,1.693147
2,1.693147,1.693147,1.693147,1.693147,1.287682,1.287682,1.693147


In [28]:
index.loc[0][q_words[0]]

0.922382964646063

In [32]:
q_words

['мама', 'рама']

In [34]:
[df_index.loc[0][wrd] for wrd in q_words]

[0.922382964646063, 0.2338320064840948]

In [47]:
import nltk
query = 'просто мама'
q_words = nltk.word_tokenize(query, language='russian')

arr =[np.asarray([df_index.loc[i][wrd] for wrd in q_words]).sum() for i in range(len(df_index))]
pd.DataFrame(data = np.asarray([texts, arr]).T, columns = ['text', 'rel']).sort_values(by='rel', ascending=False)

Unnamed: 0,text,rel
0,мама мама мама мыла рама,0.922382964646063
2,очень просто,0.6053485081062916
1,рама это рама все просто,0.3438514296174854


## NLTK

Исходный код https://github.com/nltk/nltk/blob/7ba46b9d52ed0c03bf806193f38d8c0e9bd8a9b4/nltk/text.py#L531

In [24]:
import nltk

In [44]:
a = nltk.text.TextCollection(texts)

In [45]:
a.tf('и', 'лавировали лавировали да не вылавировались')

0.14285714285714285

In [64]:
3/len('корабли лавировали лавировали да не вылавировали')

0.0625

In [35]:
'корабли лавировали лавировали да не вылавировали'.count('лави')

3

In [42]:
mytexts = nltk.TextCollection(texts)

In [43]:
mytexts.tf(u'ли', 'корабли лавировали лавировали да не вылавировали')

0.08333333333333333

## ---

## Будьте внимательны