# TF-IDF

# 01 - Conceitos & Teoria
>Antes de entrarmos de fato nos estudos sobre **TF-IDF** vamos aprender (ou revisar) alguns conceitos teóricos.

---

## 01.1 - Term Frequency (TF)
**Frequência de termos (TF)** é frequentemente usada em:
 - Mineração de Texto;
 - PNL;
 - Recuperação de Informações...

> O objetivo principal do **Term Frequency (TF)** é informa a frequência com que um termo ocorre em um documento (amostra).

**Exemplo:**  
Para entender melhor o **Term Frequency (TF)** vamos seguir a seguinte analogia, suponha que nós temos as seguintes frases (documentos/amostras):

```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```

Agora suponha que nós aplicamos um *Pré-Processamento* com **stop words**. No fim, nossas frases ficaram da seguinte maneira:

![images](images/tf-01.png)  

Ok, mas como nós podemos calcular o nosso **Term Frequency (TF)**? Simples, a fórmula é a seguinte:


![img](images/tf-idf-01.png)  


Seguindo a fórmula acima para as nossas frases nós vamos ter a seguinte situação:

![images](images/tf-02.png)  
![images](images/tf-03.png)  

**Interpretando a tabela acima nós temos:**
 - **Numerador:**
   - O número de vezes que o termo (palavra) aparece no documento (amostra) em questão.
 - **Denominador:**
   - O número total de termos (palavras) no documento (amostra) em questão.

---

## 01.2 - Document Frequency (DF)
Para entender como funciona a lógica do **Document Frequency (DF)** vamos primeira analisar 5 amostras em um DataFrame:

![img](images/df-01.png)  

**Analisando o DataFrame acima nós temos que:**
 - A palavra **cent** tem frequência de documento de 1. Embora tenha aparecido 3 vezes, apareceu 3 vezes em apenas um documento.
 - A palavra **all**, por outro lado, tem uma frequência de documentos de 5. Embora tenha aparecido uma vez em cada documento, apareceu em 5 documentos distintos.

**NOTE:**  
Ou seja, o foco do **Document Frequency (DF)** é contabilizar quantas vezes uma palavra aparece em documentos (amostras) distintos.

---

## 01.3 - Inverse Document Frequency (IDF)

> O **Inverse Document Frequency (IDF)** analisa o quão comum *(ou incomum)* uma palavra é no corpus (documento/amostra).

O objetivo do **Inverse Document Frequency (IDF)** é penalizar as palavras que tem mais ocorrências entre todos os documentos (amostras).

Ou seja:

 - Quanto mais frequente seu uso em documentos (amostras), menor a pontuação da palavra.
 - Quanto menor a pontuação da palavra, menos importante a palavra se torna.
 - Ou seja, quanto mais a palavra aparece entre todas as amostras, menos importante é ela.

Tradicionalmente, o **IDF** é calculado como:

![img](images/IDF-01.gif)  

Onde **N** é o número total de documentos (amostras) em sua coleção de textos; E **DF<sub>t</sub>** é o número de documentos contendo o termo **t**; E **t** é qualquer palavra em seu vocabulário.

**Continuando com o nosso exemplo anterior para calcular o *Inverse Document Frequency (IDF)* nós teríamos a seguinte situação:**

```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```
Depois de um *Pré-Processamento* com **stop words**:

![images](images/tf-01.png)  

![img](images/idf-sample-01.png)  

**Interpretando a tabela acima nós temos:**

 - **Logarítmo:**
   - **Numerador:**
     - O número total de documentos (amostras).
   - **Denominador:**
     - O número de vezes que um termo 't' aparece em documentos distintos.

---

## 01.4 - TF-IDF

> O produto do **TF** e **IDF** é o nós conhecemos como **TF-IDF**.

 - O **TF-IDF** geralmente é uma das melhores *métricas* para determinar se um termo (palavra) é significativo para um texto.
 - Outro objetivo de usar **TF-IDF** é reduzir o impacto de tokens (palavras) que ocorrem com muita frequência em um determinado documento (corpus/amostra).

Existem algumas maneiras de interpretar a fórmula do **TF-IDF**, mas eu vou focar em uma que seja fácil de entender e computar:

![img](images/new-formula.png)  

**NOTE:**  
Quanto maior a pontuação do **TF-IDF**, mais importante ou relevante é o termo; À medida que um termo se torna menos relevante, sua pontuação **TF-IDF** se aproximará de **0**.

**Continuando com os nossos exemplos anteriores para calcular nosso TF-IDF nós teríamos o seguinte:**

**Frases (documentos/amostras) originais**
```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```

**Depois de um *Pré-Processamento* com *stop words*:**

![images](images/tf-01.png)  

**Calculando o *Term Frequency (TF)*:**

![img](images/tf-idf-01.png)  

![images](images/tf-02.png)  
![images](images/tf-03.png)  

**Calculando o *Inverse Document Frequency (IDF)*:**

![img](images/idf-sample-01.png)  

**Por fim, calculando o *TF-IDF*:**

![img](images/tf-idf-001.png)  
![img](images/tf-idf-002.png)

**NOTE:**  
Vejam que para cada documento (amostra) nós temos uma relação entre termo (palavra) e seu, respectivo, **TF-IDF**. Ou seja, qual importante é um termo (palavra) para determinado documento (amostra).

**NOTE:**  
Outra observação é que essa relação é entre **documento (amostra)** > **termo (palavra)**.

---

# 02 - TF-IDF com Scikit-Learn

---

## 02.1 - Vetorizando os textos (amostras) com CountVectorizer

> Inicialmente nós vamos aplicar **TF-IDF** com a classe **TfidfTransforme** da biblioteca **Scikit-Learn*. 

Para trabalhar com a classe **"TfidfTransforme"**, primeiro, nós devemos *vetorizar* os textos (amostras). Para isso nós vamos utilizar a classe **CountVectorizer**:

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer = CountVectorizer(stop_words='english') # Instance with StopWords.
df_vectorized = vectorizer.fit_transform(docs_samples)

In [2]:
df.head()

Unnamed: 0,Text
0,the house had a tiny little mouse
1,the cat saw the mouse
2,the mouse ran away from the house
3,the cat finally ate the mouse
4,the end of the mouse story


**NOTE:**  
A primeira observação aqui é que nessa parte de *vetorização* nós já aplicamos um *Pré-Processamento* definindo o parâmetro **"stop_words='english'"**. Ou seja, automaticamente o objeto **CountVectorizer** irá remover *palavras irrelevantes (StopWords)* do Inglês.

Agora vamos analisar as dimensões desse vetor com o atributo **shape**.

In [3]:
df_vectorized.shape

(5, 12)

**NOTE:**  
O que isso significa?
 - Que nós temos 5 amostras (linhas);
 - 12 colunas (palavras únicas entre as 5 amostras).

**NOTE:**  
Para finalizar nossas observações nós devemos lembrar que a saída da nossa *vetorização* é uma **Matriz Esparsa**:

In [4]:
print(df_vectorized)

  (0, 5)	1
  (0, 11)	1
  (0, 6)	1
  (0, 7)	1
  (1, 7)	1
  (1, 2)	1
  (1, 9)	1
  (2, 5)	1
  (2, 7)	1
  (2, 8)	1
  (2, 1)	1
  (3, 7)	1
  (3, 2)	1
  (3, 4)	1
  (3, 0)	1
  (4, 7)	1
  (4, 3)	1
  (4, 10)	1


---

## 02.2 - Visualizando o Term Frequency (TF)
Como nós sabemos o **TF-IDF** é o produto entre **TF** *&* **IDF**. Sabendo disso, primeiro vamos analisar o **Term Frequency (TF)** de forma visual, para que fique mais claro o que está acontecendo.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

df = pd.DataFrame(docs_samples, columns=["Text"])

tf_vectorizer = CountVectorizer(stop_words='english') # Instance with StopWords.
df_tf_vectorized = tf_vectorizer.fit_transform(docs_samples)

**NOTE:**  
Visto que nós já vetorizamos nossas amostras, vamos agora pegar as palavras únicas que vão ser nossas features, uma em cada coluna:

In [6]:
feature_names = tf_vectorizer.get_feature_names_out()
feature_names

array(['ate', 'away', 'cat', 'end', 'finally', 'house', 'little', 'mouse',
       'ran', 'saw', 'story', 'tiny'], dtype=object)

Agora nós vamos criar um DataFrame com Pandas, onde:
 - As linhas vão ser nossas amostras **(Lembrando que as palavras irrelevantes foram removidas e não vão ter features para relacionar)**;
 - E as colunas vão ser as palavras únicas.
 - Por fim, nós vamos ter a frequência com que cada palavra aparece em determinado documento (amostra).

In [7]:
df_tf = pd.DataFrame(
  df_tf_vectorized.todense(), # TF.
  index=docs_samples, # Docs/Samples.
  columns=feature_names # Unique words.
)

df_tf.head() # Print TF relationship values.

Unnamed: 0,ate,away,cat,end,finally,house,little,mouse,ran,saw,story,tiny
the house had a tiny little mouse,0,0,0,0,0,1,1,1,0,0,0,1
the cat saw the mouse,0,0,1,0,0,0,0,1,0,1,0,0
the mouse ran away from the house,0,1,0,0,0,1,0,1,1,0,0,0
the cat finally ate the mouse,1,0,1,0,1,0,0,1,0,0,0,0
the end of the mouse story,0,0,0,1,0,0,0,1,0,0,1,0


**NOTE:**  
Outra abordagem, menos limpa *(sem Pré-Processamento)* seria **não utilizar** o argumento **"stop_words='english'"**. Onde, nós teríamos todas as palavras únicas, para ver quão frequente elas aparecem.

Vejam o exemplo completo abaixo:

In [8]:
vectorizer_w_stopwords = CountVectorizer() # Instance without StopWords.
df_vectorized_w_stopwords = vectorizer_w_stopwords.fit_transform(docs_samples)

df_tf = pd.DataFrame(
  df_vectorized_w_stopwords.todense(), # TF.
  index=docs_samples, # Docs/Samples.
  columns=vectorizer_w_stopwords.get_feature_names_out() # Unique words.
)

df_tf.head() # Print TF values.

Unnamed: 0,ate,away,cat,end,finally,from,had,house,little,mouse,of,ran,saw,story,the,tiny
the house had a tiny little mouse,0,0,0,0,0,0,1,1,1,1,0,0,0,0,1,1
the cat saw the mouse,0,0,1,0,0,0,0,0,0,1,0,0,1,0,2,0
the mouse ran away from the house,0,1,0,0,0,1,0,1,0,1,0,1,0,0,2,0
the cat finally ate the mouse,1,0,1,0,1,0,0,0,0,1,0,0,0,0,2,0
the end of the mouse story,0,0,0,1,0,0,0,0,0,1,1,0,0,1,2,0


**NOTE:**  
Vejam que agora nós não removemos nenhuma palavra e temos com que frequência cada uma aparece em cada documento (amostra).

---

## 02.3 - Calculando o IDF do Vetor
Ótimo, agora que nós já vetorizamos nossos textos chegou a hora de calcular o **Inverse Document Frequency (IDF)** que vai dar um ***peso*** específico para cada uma das palavras únicas, onde:

 - Quanto mais frequente seu uso em documentos (amostras), menor a pontuação da palavra.
 - Quanto menor a pontuação da palavra, menos importante a palavra se torna.
 - Ou seja, quanto mais a palavra aparece entre todas as amostras, menos importante é ela.

Agora de fato nós vamos utilizar a classe **TfidfTransformer** com os seguintes argumentos:
 - **smooth_idf=True:**
   - Suavize (Smooth) os pesos (weights) IDF adicionando um (1) às frequências do documento, como se um documento extra fosse visto contendo todos os termos da coleção exatamente uma vez. Impede zero divisões.
 - **use_idf=True:**
   - Habilita a reponderação de frequência de documento inversa.
   - Esse argumento também é necessário se você desejar utilizar o atributo **idf_**.

In [9]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer = CountVectorizer(stop_words='english') # Instance with StopWords.
df_vectorized = vectorizer.fit_transform(docs_samples)


tfidftransformer_instance = TfidfTransformer(smooth_idf=True, use_idf=True) # Instance.
idf_weights = tfidftransformer_instance.fit(df_vectorized) # Training/fit() the vectorized docs (samples).

Ok, agora nós já temos um objeto *(TfidfTransformer)* com as palavras com maior ou menor pontuação (pesos). Para visualizar isso agora nós vamos:

 - **Criar um DataFrame Pandas**:
   - Passar como argumento:
     - O atributo **.idf_**, responsável por exibir as pontuações (pesos) de cada palavra:
       - Lembrando que, esse atributo só estarar disponível se você utilizar o parâmetro **use_idf=True**.
     - Cada palavra (feature) única com o método **get_feature_names_out()** da instância **CountVectorizer**.
     - Por fim, nomear uma coluna com o nome **"IDF_Weights"**.
 - **Depois de criado o DataFrame nós vamos exibi-lo ordenado:**
   - Do maior (palavras menos frequentes = mais relevantes = mais longe de zero).
   - Para o menor (palavras mais frequentes = menos relevantes = mais próximas de zero).

In [10]:
# Print IDF values. 
df_idf = pd.DataFrame(
  idf_weights.idf_, # IDF values return.
  index=vectorizer.get_feature_names_out(), #
  columns=["IDF_Weights"]
)

# Sort ascending = Flase, that is, descending.
df_idf.sort_values(by=["IDF_Weights"], ascending=False)

Unnamed: 0,IDF_Weights
ate,2.098612
away,2.098612
end,2.098612
finally,2.098612
little,2.098612
ran,2.098612
saw,2.098612
story,2.098612
tiny,2.098612
cat,1.693147


**NOTE:**  
Observe que as palavras **'mouse'** e **'the'** têm os menores valores de **IDF**. Isso é esperado, pois essas palavras aparecem em todos os documentos de nossa coleção. Quanto menor o valor **IDF** de uma palavra, menos exclusiva (ou importante) ela será para qualquer documento específico.

---

## 02.4 - Calculando o TF-IDF do Vetor
Agora que nós já temos as pontuações (ou pesos) de **IDF** para cada palavra única podemos calcular as pontuações de **TF-IDF** para qualquer documento ou conjunto de documentos para esse nosso exemplo.

Vamos calcular as pontuações de **TF-IDF** para os 5 documentos (amostras) da nossa coleção:

In [11]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer = CountVectorizer(stop_words='english') # Instance with StopWords.
df_vectorized = vectorizer.fit_transform(docs_samples)


tfidftransformer_instance = TfidfTransformer(smooth_idf=True, use_idf=True) # Instance.
idf_weights = tfidftransformer_instance.fit(df_vectorized) # Training/fit() the vectorized docs (samples).

In [12]:
# Count matrix.
count_vector = vectorizer.transform(docs_samples) 

# TF-IDF Scores.
tf_idf_vector = tfidftransformer_instance.transform(count_vector)

**NOTE:**  
 - **count_vector = vectorizer.transform(docs)**
   - A linha acima obtém a contagem de palavras para os documentos em uma forma de matriz esparsa.
 - **tf_idf_vector = tfidftransformer_instance.transform(count_vector)**
   - Ao invocar, **tfidf_transformer.transform(count_vector)** você finalmente estará computando as pontuações do **TF-IDF** para seus documentos (amostras).
     - Internamente, isso está computando a **TF * IDF**  multiplicação em que sua frequência de termo é ponderada por seus valores **IDF**.

Agora, vamos imprimir os valores **TF-IDF** do nosso primeiro documento (amostra) para ver se faz sentido. O que estamos fazendo abaixo é colocar as pontuações **TF-IDF** do primeiro documento (amostra) em um DataFrame de dados Pandas e classificá-lo em ordem decrescente de pontuações.

In [13]:
# Get words like feature names.
feature_names = vectorizer.get_feature_names_out()

# Get TF-IDF vector for first document (sample).
first_document_vector = tf_idf_vector[0]

# Create TF-IDF DataFrame.
df = pd.DataFrame(
  first_document_vector.T.todense(),
  index=feature_names, # Rows will be the feature names.
  columns=["TF-IDF"] # Colum will be TF-IDF values.
)

# Print the TF-IDF scores for each word.
df.sort_values(by=["TF-IDF"], ascending=False)

Unnamed: 0,TF-IDF
little,0.589463
tiny,0.589463
house,0.475575
mouse,0.280882
ate,0.0
away,0.0
cat,0.0
end,0.0
finally,0.0
ran,0.0


Observe que apenas algumas palavras têm pontuação. Isso ocorre porque nosso primeiro documento (amostra) é:

> the house had a tiny little mouse” 

Todas as palavras neste documento (amostra) têm uma pontuação **TF-IDF** e todo o resto aparece como zeros. 

**NOTE:**  
Observe que a palavra **“a”** está faltando nesta lista. Isso se deve possivelmente ao **Pré-Processamento** interno do **CountVectorizer**, onde ele removeu *palavras irrelevantes (stop_words='english')*.

**As pontuações acima fazem sentido...**  
Quanto mais comum a palavra nos documentos (amostras), menor sua pontuação e quanto mais exclusiva uma palavra é para o nosso primeiro documento (por exemplo, 'had' e 'tiny'), maior a pontuação. Então está funcionando como esperado, exceto pelo misterioso **"a"** que foi cortado.

## 02.5 - Calculando TF-IDF com a TfidfVectorizer

Com o **TfidfVectorizer** você calcula, sem precisar utilizar antes a classe **CountVectorizer**:

 - A contagem de palavras *(vetorização das palavras)*;
 - Os valores IDF e TF-IDF de uma só vez.

Vejam o exemplo abaixo:

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer 

docs = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

tfidf_vectorizer_instance = TfidfVectorizer(use_idf=True) # Instance.
tfidf_vectorizer_vectors = tfidf_vectorizer_instance.fit_transform(docs)

Agora vamos imprimir os valores **TF-IDF** para o primeiro documento (amostra) da nossa coleção. Observe que esses valores vão ser idênticos aos do **Tfidftransformer**, só que isso é feito em apenas dois passos.

In [15]:
# Get the first vector out (for the first document/sample).
first_vector_tfidfvectorizer = tfidf_vectorizer_vectors[0]

# Place TF-IDF values in a Pandas DataFrame.
df = pd.DataFrame(
  first_vector_tfidfvectorizer.T.todense(),
  index = tfidf_vectorizer_instance.get_feature_names_out(),
  columns = ["TF-IDF"]
)

df.sort_values(by=["TF-IDF"], ascending=False)

Unnamed: 0,TF-IDF
had,0.493562
little,0.493562
tiny,0.493562
house,0.398203
mouse,0.235185
the,0.235185
ate,0.0
away,0.0
cat,0.0
end,0.0


**Ué, deu diferente por que? Nós não tinhamos a palavra "had" e os valores estão diferentes de antes...**  
Lembram, que o objeto **CountVectorizer** fazia um Pré-Processamento removendo *palavras irrelevantes (stop_words='english')*? Então, também podemos fazer isso com a classe **TfidfVectorizer**:

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer 

docs = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

tfidf_vectorizer_instance = TfidfVectorizer(stop_words='english', use_idf=True) # Instance.
tfidf_vectorizer_vectors = tfidf_vectorizer_instance.fit_transform(docs)

# Get the first vector out (for the first document/sample).
first_vector_tfidfvectorizer = tfidf_vectorizer_vectors[0]

# Place TF-IDF values in a Pandas DataFrame.
df = pd.DataFrame(
  first_vector_tfidfvectorizer.T.todense(),
  index = tfidf_vectorizer_instance.get_feature_names_out(),
  columns = ["TF-IDF"]
)

df.sort_values(by=["TF-IDF"], ascending=False)

Unnamed: 0,TF-IDF
little,0.589463
tiny,0.589463
house,0.475575
mouse,0.280882
ate,0.0
away,0.0
cat,0.0
end,0.0
finally,0.0
ran,0.0


**NOTE:**  
Vejam que agora nós temos o mesmo resultado de antes, só devemos tomar cuidado na hora de escolher os parâmetros corretos para o nosso objeto **TfidfVectorizer**.

## 02.6 - Tfidftransformer vs. Tfidfvectorizer
Em resumo, as principais diferenças entre os dois módulos são as seguintes:

 - **Tfidftransformer:**
   - Com o **Tfidftransformer**, você calculará sistematicamente:
     - As contagens de palavras usando o **CountVectorizer**;
     - Em seguida, calculará as pontuações de **IDF** para cada palavra única;
     - E por fim, calculará o **TF-IDF**.
 - **Tfidfvectorizer:**
   - Com **Tfidfvectorizer**, pelo contrário, você fará todas as três etapas de uma só vez. Ele calcula as contagens de palavras, pontuações de **IDF** e por fim, o **TF-IDF**, todos usando o mesmo conjunto de dados.

### Quando usar o Tfidftransformer ou Tfidfvectorizer?

Então agora você pode estar se perguntando, por que você deve usar mais etapas do que o necessário se você pode fazer tudo em duas etapas. Bem, há casos em que você deseja usar o **Tfidftransformer** sobre o **Tfidfvectorizer** e às vezes não é tão óbvio.

Aqui estão algumas orientações:

 - Se você precisar dos vetores de frequência de termos (contagem de termos) para tarefas diferentes, use **Tfidftransformer**;
 - Se você precisar calcular pontuações **TF-IDF** em documentos dentro de seu conjunto de dados de *“treinamento”*, use **Tfidfvectorizer**;
 - Se você precisar calcular pontuações **TF-IDF** em documentos fora do seu conjunto de dados de *“treinamento”*, use qualquer um deles, ambos funcionarão.

---

# Resumos
Coming soon...

---

---

**REFERÊNCIAS:**  
[How to Use Tfidftransformer & Tfidfvectorizer?](https://kavita-ganesan.com/tfidftransformer-tfidfvectorizer-usage-differences/#.YiU8u3XMLeS)  
[]()  
[]()  
[]()  
[]()  