# Term Frequency Inverse Document Frequency

Também muito conhecido por **TF-IDF**, é uma **métrica de originalidade** de uma palavra ao comparar o número de vezes que uma palavra aparece em um documento com o número de documentos que a palavra está presente.

**TF-IDF** é uma técnica de recuperação de informações que pesa a frequência de um termo (TF) e sua frequência de documento inversa (IDF). Cada palavra ou termo tem sua respectiva pontuação de TF e IDF. O produto das pontuações TF e IDF de um termo é chamado de peso TF * IDF desse termo.

Simplificando, quanto maior a pontuação TF * IDF (peso), mais raro o termo e vice-versa.

O algoritmo TF * IDF é usado para pesar uma palavra-chave em qualquer conteúdo e atribuir a importância a essa palavra-chave com base no número de vezes que aparece no documento. 

Para um termo **t** em um documento **d**, o peso **W(t,d)** do termo **t** em um documento **d** é dado por:

`W(t,d) = TF(t,d) x log (N/DF(t))` 

Onde:

- TF(t,d) é o número de ocorrências de **t** em um documento **d**
- DF(t) é o número de documentos contendo o termo **t**
- **N** é o número total de documentos no corpus

In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

### Criando Dados Textuais

In [2]:
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

In [6]:
# Criando a matriz de características tf-idf
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# Apresentando a matriz de características tf-idf
feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [4]:
# Show tf-idf feature matrix
tfidf.get_feature_names()

['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love', 'sweden']

### Visualizando a Matriz de Características como um DataFrame

In [5]:
# Create data frame
pd.DataFrame(feature_matrix.toarray(), columns=tfidf.get_feature_names())

Unnamed: 0,beats,best,both,brazil,germany,is,love,sweden
0,0.0,0.0,0.0,0.894427,0.0,0.0,0.447214,0.0
1,0.0,0.57735,0.0,0.0,0.0,0.57735,0.0,0.57735
2,0.57735,0.0,0.57735,0.0,0.57735,0.0,0.0,0.0
