![](http://sigdelta.com/assets/images/sages-sd-logo.png)

# Analiza danych i uczenie maszynowe w Python

Autor notebooka: Jakub Nowacki.

## TF-IDF

[Term Frequency–Inverse Document Frequency (TF-IDF)](https://en.wikipedia.org/wiki/Tf%E2%80%93idf) jest popularnym algorytmem do analizy danych tekstowych, używany dość często w pozyskiwaniu danych (data mining).

Pierwszym elementem algorytmu jest komponent Term Frequency, czyli częstość wystąpień terminów dla danego dokumentu. Definiowany jest on wzorem:

$$
TF = \frac{n_w}{n_d},
$$

gdzie: $n_w$ - liczba danego słowa/terminu, $n_d$ - liczba słów/terminów w dokumencie. 

Drugi element to Inverse Document Frequency, który pokazuje jak charakterystyczny jest dany termin dla dokumentu. Obliczany jest on za pomocą następującego wzoru:

$$
IDF = \log \left( \frac{c_d}{i_d} \right),
$$

gdzie: $c_d$ - liczba wszystkich dokunemtów, $i_d$ - liczba dokumentów zawierających dane słowo.

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import os
import glob
import matplotlib as mpl

# Parametry wykresów
mpl.style.use('ggplot')
mpl.rcParams['figure.figsize'] = (8,6)
mpl.rcParams['font.size'] = 12

In [None]:
books = glob.glob('data/books/*.txt')
d = list()
for book_file in books:
    with open(book_file, encoding='utf-8') as f:
        book = os.path.basename(book_file.split('.')[0])
        d.append(pd.DataFrame({'book': book, 'lines': f.readlines()}))
doc = pd.concat(d)
doc.head()

In [None]:
doc.groupby('book').count()

In [None]:
doc.groupby('book').count().plot.barh();

### Zadanie

1. Używając Pandas (i narzędzi Python) obliczyć TF-IDF dla książek.
    1. Policz TF
    1. Policz IDF
    1. Połącz oba wyniki.
1. Co może wpłynąć na wynik?
1. ★ Wypisz 10 charakterystycznych słów (z najwyższym TF-IDF) dla każdej ksiązki.