# TF-IDF

# 01 - Conceitos & Teoria
>Antes de entrarmos de fato nos estudos sobre **TF-IDF** vamos aprender (ou revisar) alguns conceitos teóricos.

## 01.1 - Term Frequency (TF)
**Frequência de termos (TF)** é frequentemente usada em:
 - Mineração de Texto;
 - PNL;
 - Recuperação de Informações...

> O objetivo principal do **Term Frequency (TF)** é informa a frequência com que um termo ocorre em um documento (amostra).

**Exemplo:**  
Para entender melhor o **Term Frequency (TF)** vamos seguir a seguinte analogia, suponha que nós temos as seguintes frases (documentos/amostras):

```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```

Agora suponha que nós aplicamos um *Pré-Processamento* com **stop words**. No fim, nossas frases ficaram da seguinte maneira:

![images](images/tf-01.png)  

Ok, mas como nós podemos calcular o nosso **Term Frequency (TF)**? Simples, a fórmula é a seguinte:


![img](images/tf-idf-01.png)  


Seguindo a fórmula acima para as nossas frases nós vamos ter a seguinte situação:

![images](images/tf-02.png)  
![images](images/tf-03.png)  

**Interpretando a tabela acima nós temos:**
 - **Numerador:**
   - O número de vezes que o termo (palavra) aparece no documento (amostra) em questão.
 - **Denominador:**
   - O número total de termos (palavras) no documento (amostra) em questão.

---

## 01.2 - Document Frequency (DF)
Para entender como funciona a lógica do **Document Frequency (DF)** vamos primeira analisar 5 amostras em um DataFrame:

![img](images/df-01.png)  

**Analisando o DataFrame acima nós temos que:**
 - A palavra **cent** tem frequência de documento de 1. Embora tenha aparecido 3 vezes, apareceu 3 vezes em apenas um documento.
 - A palavra **all**, por outro lado, tem uma frequência de documentos de 5. Embora tenha aparecido uma vez em cada documento, apareceu em 5 documentos distintos.

**NOTE:**  
Ou seja, o foco do **Document Frequency (DF)** é contabilizar quantas vezes uma palavra aparece em documentos (amostras) distintos.

---

## 01.3 - Inverse Document Frequency (IDF)

> O **Inverse Document Frequency (IDF)** analisa o quão comum *(ou incomum)* uma palavra é no corpus (documento/amostra).

O objetivo do **Inverse Document Frequency (IDF)** é penalizar as palavras que tem mais ocorrências entre todos os documentos (amostras).

Ou seja:

 - Quanto mais frequente seu uso em documentos (amostras), menor a pontuação da palavra.
 - Quanto menor a pontuação da palavra, menos importante a palavra se torna.
 - Ou seja, quanto mais a palavra aparece entre todas as amostras, menos importante é ela.

Tradicionalmente, o **IDF** é calculado como:

![img](images/IDF-01.gif)  

Onde **N** é o número total de documentos (amostras) em sua coleção de textos; E **DF<sub>t</sub>** é o número de documentos contendo o termo **t**; E **t** é qualquer palavra em seu vocabulário.

**Continuando com o nosso exemplo anterior para calcular o *Inverse Document Frequency (IDF)* nós teríamos a seguinte situação:**

```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```
Depois de um *Pré-Processamento* com **stop words**:

![images](images/tf-01.png)  

![img](images/idf-sample-01.png)  

**Interpretando a tabela acima nós temos:**

 - **Logarítmo:**
   - **Numerador:**
     - O número total de documentos (amostras).
   - **Denominador:**
     - O número de vezes que um termo 't' aparece em documentos distintos.

---

## 01.4 - TF-IDF

> O produto de **TF** e **IDF** é o nós conhecemos como **TF-IDF**.

 - O **TF-IDF** geralmente é uma das melhores *métricas* para determinar se um termo (palavra) é significativo para um texto.
 - Outro objetivo de usar **TF-IDF** é reduzir o impacto de tokens (palavras) que ocorrem com muita frequência em um determinado documento (corpus/amostra).

Existem algumas maneiras de interpretar a fórmula do **TF-IDF**, mas eu vou focar em uma que seja fácil de entender e computar:

![img](images/new-formula.png)  

**NOTE:**  
Quanto maior a pontuação do **TF-IDF**, mais importante ou relevante é o termo; À medida que um termo se torna menos relevante, sua pontuação **TF-IDF** se aproximará de **0**.

**Continuando com os nossos exemplos anteriores para calcular nosso TF-IDF nós teríamos o seguinte:**

**Frases (documentos/amostras) originais**
```python
He is eating Veg
She is eating NonVeg
Both are eating Food
```

**Depois de um *Pré-Processamento* com *stop words*:**

![images](images/tf-01.png)  

**Calculando o *Term Frequency (TF)*:**

![img](images/tf-idf-01.png)  

![images](images/tf-02.png)  
![images](images/tf-03.png)  

**Calculando o *Inverse Document Frequency (IDF)*:**

![img](images/idf-sample-01.png)  

**Por fim, calculando o *TF-IDF*:**

![img](images/tf-idf-001.png)  
![img](images/tf-idf-002.png)

**NOTE:**  
Vejam que para cada documento (amostra) nós temos uma relação entre termo (palavra) e seu, respectivo, TF-IDF. Ou seja, qual importante é um termo (palavra) para determinado documento (amostra).

**NOTE:**  
Outra observação é que essa relação é entre **documento (amostra)** > **termo (palavra)**.

---

# 02 - TF-IDF com TfidfTransformer

## 02.1 - Problema inicial
Para o nosso problem inicial, vamos imagina que nós temos os seguintes textos (que vão representar 5 amostras):

In [37]:
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

df = pd.DataFrame(docs, columns=["Text"])
df.head()

Unnamed: 0,Text
0,the house had a tiny little mouse
1,the cat saw the mouse
2,the mouse ran away from the house
3,the cat finally ate the mouse
4,the end of the mouse story


---

## 02.2 - Vetorizando os textos com CountVectorizer
Para trabalhar com a classe **"TfidfTransforme"**, primeiro, nós devemos *vetorizar* os textos. Para isso nós vamos utilizar a classe **CountVectorizer**:

In [38]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english') # Instance.
df_vectorized = vectorizer.fit_transform(docs_samples)

**NOTE:**  
A primeira observação aqui é que nessa parte de *vetorização* nós já aplicamos um *Pré-Processamento* definindo o parâmetro **"stop_words='english'"**. Ou seja, automaticamente o objeto **CountVectorizer** irá remover *palavras irrelevantes (StopWords)* do Inglês.

Agora vamos analisar as dimensões desse vetor com o atributo **shape**.

In [39]:
df_vectorized.shape

(5, 12)

**NOTE:**  
O que isso significa?
 - Que nós temos 5 amostras (linhas);
 - 12 colunas (palavras únicas entre as 5 amostras).

**NOTE:**  
Para finalizar nossas observações nós devemos lembrar que a saída da nossa *vetorização* é uma **Matriz Esparsa**:

In [41]:
print(df_vectorized)

  (0, 5)	1
  (0, 11)	1
  (0, 6)	1
  (0, 7)	1
  (1, 7)	1
  (1, 2)	1
  (1, 9)	1
  (2, 5)	1
  (2, 7)	1
  (2, 8)	1
  (2, 1)	1
  (3, 7)	1
  (3, 2)	1
  (3, 4)	1
  (3, 0)	1
  (4, 7)	1
  (4, 3)	1
  (4, 10)	1


---

## 02.3 - Visualizando o Term Frequency (TF)

> Como nós sabemos o **TF-IDF** é o produto entre **TF** *&* **IDF**. Logo, primeiro nós precisamos calcular o **Term Frequency (TF)** das nossas amostras.

Visto que nós já vetorizamos nossas amostras, vamos primeiro pegar as palavras únicas que vão ser nossas features, uma em cada coluna:

In [62]:
feature_names = vectorizer.get_feature_names_out()
feature_names

array(['ate', 'away', 'cat', 'end', 'finally', 'house', 'little', 'mouse',
       'ran', 'saw', 'story', 'tiny'], dtype=object)

Agora nós vamos criar um DataFrame com Pandas, onde:
 - As linhas vão ser nossas amostras **(Lembrando que as palavras irrelevantes foram removidas e não vão ter features para relacionar)**;
 - E as colunas vão ser as palavras únicas.
 - Por fim, nós vamos ter a frequência com que cada palavra aparece em determinado documento (amostra).

In [61]:
df_tf = pd.DataFrame(
  df_vectorized.todense(), # TF.
  index=docs_samples, # Docs/Samples.
  columns=feature_names # Unique words.
)

df_tf.head() # Print TF values.

Unnamed: 0,ate,away,cat,end,finally,house,little,mouse,ran,saw,story,tiny
the house had a tiny little mouse,0,0,0,0,0,1,1,1,0,0,0,1
the cat saw the mouse,0,0,1,0,0,0,0,1,0,1,0,0
the mouse ran away from the house,0,1,0,0,0,1,0,1,1,0,0,0
the cat finally ate the mouse,1,0,1,0,1,0,0,1,0,0,0,0
the end of the mouse story,0,0,0,1,0,0,0,1,0,0,1,0


**NOTE:**  
Outra abordagem, menos limpa *(sem Pré-Processamento)* seria não utilizar o argumento **"stop_words='english'"**. Onde, nós teríamos todas as palavras únicas, para ver quão frequente elas aparecem.

Vejam o exemplo completo abaixo:

In [65]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

tf_sample = [
  "the house had a tiny little mouse", 
  "the cat saw the mouse", 
  "the mouse ran away from the house", 
  "the cat finally ate the mouse", 
  "the end of the mouse story"
]

tf_vectorizer = CountVectorizer() # Instance.
tf_docs_samples_vectorized = tf_vectorizer.fit_transform(tf_sample)


df_tf = pd.DataFrame(
  tf_docs_samples_vectorized.todense(), # TF.
  index=tf_sample, # Docs/Samples.
  columns=tf_vectorizer.get_feature_names_out() # Unique words.
)

df_tf.head() # Print TF values.

Unnamed: 0,ate,away,cat,end,finally,from,had,house,little,mouse,of,ran,saw,story,the,tiny
the house had a tiny little mouse,0,0,0,0,0,0,1,1,1,1,0,0,0,0,1,1
the cat saw the mouse,0,0,1,0,0,0,0,0,0,1,0,0,1,0,2,0
the mouse ran away from the house,0,1,0,0,0,1,0,1,0,1,0,1,0,0,2,0
the cat finally ate the mouse,1,0,1,0,1,0,0,0,0,1,0,0,0,0,2,0
the end of the mouse story,0,0,0,1,0,0,0,0,0,1,1,0,0,1,2,0


**NOTE:**  
Vejam que agora nós não removemos nenhuma palavra e temos com que frequência cada uma aparece em cada documento (amostra).

---

## 02.3 - Calculando o IDF do Vetor
Ótimo, agora que nós já vetorizamos nossos textos chegou a hora de calcular o **Inverse Document Frequency (IDF)** que vai dar um ***peso*** específico para cada uma das palavras únicas, onde:

 - Quanto mais frequente seu uso em documentos (amostras), menor a pontuação da palavra.
 - Quanto menor a pontuação da palavra, menos importante a palavra se torna.
 - Ou seja, quanto mais a palavra aparece entre todas as amostras, menos importante é ela.

Agora de fato nós vamos utilizar a classe **TfidfTransformer** com os seguintes argumentos:
 - **smooth_idf=True:**
   - Suavize (Smooth) os pesos (weights) IDF adicionando um (1) às frequências do documento, como se um documento extra fosse visto contendo todos os termos da coleção exatamente uma vez. Impede zero divisões.
 - **use_idf=True:**
   - Habilita a reponderação de frequência de documento inversa.

In [67]:
from sklearn.feature_extraction.text import TfidfTransformer

idf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True) # Instance.
idf_transformer.fit(df_vectorized)

TfidfTransformer()

**NOTE:**  
Ok, já temos um objeto com as palavras com maior ou menor pontuação (pesos).

Mas, de nada adianta quantificar essas palavras se não analisar elas e decidir quais podem ou não ser removidas. Por isso, vamos utilizar o Pandas para criar um DataFrame e ver isso tudo de forma visual:

In [7]:
# Print IDF values. 
df_idf = pd.DataFrame(
  tfidf_transformer.idf_, # IDF values return.
  index=vectorizer.get_feature_names_out(), #
  columns=["IDF_Weights"]
)

# Sort ascending = Flase, that is, descending.
df_idf.sort_values(by=["IDF_Weights"], ascending=False)

Unnamed: 0,IDF_Weights
ate,2.098612
away,2.098612
end,2.098612
finally,2.098612
from,2.098612
had,2.098612
little,2.098612
of,2.098612
ran,2.098612
saw,2.098612


**NOTE:**  
Observe que as palavras **'mouse'** e **'the'** têm os menores valores de **IDF**. Isso é esperado, pois essas palavras aparecem em todos os documentos de nossa coleção. Quanto menor o valor **IDF** de uma palavra, menos exclusiva (ou importante) ela será para qualquer documento específico.

## 02.3 - Calculando o TF-IDF do Vetor
Agora que nós já temos as pontuações (ou pesos) de **IDF** para cada palavra única podemos calcular as pontuações de **TF-IDF** para qualquer documento ou conjunto de documentos para esse nosso exemplo.

Vamos calcular as pontuações de **TF-IDF** para os 5 documentos (amostras) da nossa coleção:

In [16]:
# Count matrix.
count_vector = vectorizer.transform(docs) 

# TF-IDF Scores. 
tf_idf_vector = tfidf_transformer.transform(count_vector)

**NOTE:**  
 - **count_vector = vectorizer.transform(docs)**
   - A linha acima obtém a contagem de palavras para os documentos em uma forma de matriz esparsa.
 - **tf_idf_vector = tfidf_transformer.transform(count_vector)**
   - Ao invocar, **tfidf_transformer.transform(count_vector)** você finalmente estará computando as pontuações do **TF-IDF** para seus documentos (amostras).
     - Internamente, isso está computando a **TF * IDF**  multiplicação em que sua frequência de termo é ponderada por seus valores **IDF**.

Agora, vamos imprimir os valores **TF-IDF** do nosso primeiro documento (amostra) para ver se faz sentido. O que estamos fazendo abaixo é colocar as pontuações **TF-IDF** do primeiro documento (amostra) em um DataFrame de dados Pandas e classificá-lo em ordem decrescente de pontuações.

In [19]:
# Get words like feature names.
feature_names = vectorizer.get_feature_names_out()

# get TF-IDF vector for first document (sample).
first_document_vector=tf_idf_vector[0]

# Print the TF-IDF scores for each word.
df = pd.DataFrame(first_document_vector.T.todense(), index=feature_names, columns=["TF-IDF"]) 
df.sort_values(by=["TF-IDF"],ascending=False)

Unnamed: 0,TF-IDF
had,0.493562
little,0.493562
tiny,0.493562
house,0.398203
mouse,0.235185
the,0.235185
ate,0.0
away,0.0
cat,0.0
end,0.0


Observe que apenas algumas palavras têm pontuação. Isso ocorre porque nosso primeiro documento (amostra) é:

> the house had a tiny little mouse” 

Todas as palavras neste documento (amostra) têm uma pontuação **TF-IDF** e todo o resto aparece como zeros. 

**NOTE:**  
Observe que a palavra **“a”** está faltando nesta lista. Isso se deve possivelmente ao **Pré-Processamento** interno do **CountVectorizer**, onde ele remove caracteres únicos.

**As pontuações acima fazem sentido...**  
Quanto mais comum a palavra nos documentos (amostras), menor sua pontuação e quanto mais exclusiva uma palavra é para o nosso primeiro documento (por exemplo, 'had' e 'tiny'), maior a pontuação. Então está funcionando como esperado, exceto pelo misterioso **"a"** que foi cortado.

## 02.4 - Calculando TF-IDF com Tfidfvectorizer
Com o **Tfidfvectorizer** você calcula:

 - A contagem de palavras;
 - Os valores IDF e TF-IDF de uma só vez.

Vejam o exemplo abaixo:

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer 

tfidf_vectorizer = TfidfVectorizer(use_idf=True) # Instance.
tfidf_vectorizer_vectors = tfidf_vectorizer.fit_transform(docs)

Agora vamos imprimir os valores **TF-IDF** para o primeiro documento (amostra) da nossa coleção. Observe que esses valores vão ser idênticos aos do **Tfidftransformer**, só que isso é feito em apenas dois passos.

In [34]:
# Get the first vector out (for the first document/sample).
first_vector_tfidfvectorizer = tfidf_vectorizer_vectors[0]

# Place TF-IDF values in a Pandas DataFrame.
df = pd.DataFrame(
  first_vector_tfidfvectorizer.T.todense(),
  index=tfidf_vectorizer.get_feature_names_out(),
  columns=["TF-IDF"]
)

df.sort_values(by=["TF-IDF"], ascending=False)

Unnamed: 0,TF-IDF
had,0.493562
little,0.493562
tiny,0.493562
house,0.398203
mouse,0.235185
the,0.235185
ate,0.0
away,0.0
cat,0.0
end,0.0


## 02.5 - Tfidftransformer vs. Tfidfvectorizer
Em resumo, as principais diferenças entre os dois módulos são as seguintes:

 - **Tfidftransformer:**
   - Com o **Tfidftransformer**, você calculará sistematicamente:
     - As contagens de palavras usando o **CountVectorizer**;
     - Em seguida, calculará as pontuações de **IDF** para cada palavra única;
     - E por fim, calculará o **TF-IDF**.
 - **Tfidfvectorizer:**
   - Com **Tfidfvectorizer**, pelo contrário, você fará todas as três etapas de uma só vez. Ele calcula as contagens de palavras, pontuações de **IDF** e por fim, o **TF-IDF**, todos usando o mesmo conjunto de dados.

### Quando usar o Tfidftransformer ou Tfidfvectorizer?

Então agora você pode estar se perguntando, por que você deve usar mais etapas do que o necessário se você pode fazer tudo em duas etapas. Bem, há casos em que você deseja usar o **Tfidftransformer** sobre o **Tfidfvectorizer** e às vezes não é tão óbvio.

Aqui estão algumas orientações:

 - Se você precisar dos vetores de frequência de termos (contagem de termos) para tarefas diferentes, use **Tfidftransformer**;
 - Se você precisar calcular pontuações **TF-IDF** em documentos dentro de seu conjunto de dados de *“treinamento”*, use **Tfidfvectorizer**;
 - Se você precisar calcular pontuações **TF-IDF** em documentos fora do seu conjunto de dados de *“treinamento”*, use qualquer um deles, ambos funcionarão.

# Resumos
 - **Problemas:**  
O problema com esses *métodos (TF, IDF e TF-IDF)* é que eles não podem entender sinônimos, semântica e outros aspectos emocionais da linguagem. Por exemplo, **"large"** e **"big"** são sinônimos, mas esses métodos não conseguem identificar isso.

**NOTE:**  
Pode ser possível que um termo não apareça no corpus, o que pode resultar em um erro de divisão por zero. Uma maneira de lidar com isso é pegar a contagem existente e adicionar 1. Fazendo assim o denominador (1 + contagem). Um exemplo de como a popular biblioteca scikit-learn lida com isso pode ser visto abaixo.

![img](images/tf-idf-sklearn-01.webp)  

A razão pela qual precisamos do IDF é para ajudar a corrigir palavras como “of”, “as”, “the”, etc., pois elas aparecem com frequência em um corpus em inglês. Assim, tomando a frequência inversa do documento, podemos minimizar a ponderação dos termos frequentes enquanto fazemos com que os termos infrequentes tenham um impacto maior.


Prós e contras de usar o TF-IDF
Prós de usar TF-IDF
As maiores vantagens do TF-IDF vêm de quão simples e fácil de usar é. É simples de calcular, é computacionalmente barato e é um ponto de partida simples para cálculos de similaridade (via vetorização TF-IDF + similaridade de cosseno).

Contras de usar o TF-IDF
Algo para estar ciente é que o TF-IDF não pode ajudar a carregar significado semântico. Considera a importância das palavras pela forma como as pesa, mas não pode necessariamente derivar os contextos das palavras e compreender a importância dessa forma.

Outra desvantagem é que ele pode sofrer de ineficiência de memória, já que o TF-IDF pode sofrer com a maldição da dimensionalidade. Lembre-se de que o comprimento dos vetores TF-IDF é igual ao tamanho do vocabulário. Em alguns contextos de classificação, isso pode não ser um problema, mas em outros contextos, como clustering, isso pode ser complicado à medida que o número de documentos aumenta. Assim, pode ser necessário examinar algumas das alternativas nomeadas acima (BERT, Word2Vec).




**NOTE:**  
Por exemplo, a palavra **"the"** aparece em quase todos os textos em inglês e, portanto, teria uma pontuação de **IDF** muito baixa, pois carrega muito pouca informação de “tópico”. Por outro lado, se você pegar a palavra **coffee**, embora seja comum, ela não é usada tão amplamente quanto a palavra **"the"**. Assim, **"coffee"** teria uma pontuação **IDF** maior do que **"the"**.





**NOTE:**  
O **IDF** é normalmente usado para aumentar as pontuações de palavras exclusivas de um documento com a esperança de que você exiba palavras de alta informação que caracterizem seu documento (amostra) e suprima palavras que não tenham muito peso em um documento (amostra).

**Vamos dar 2 exemplos...**  
 - Imagine que em um determinado documento (amostra), se a palavra **"the"** aparecesse 10 vezes e seu peso **IDF** fosse **0.1**, sua pontuação resultante seria  **1 (já que 10*0.1=1)**.
 - Agora, se a palavra  **"coffee"** também aparecesse 10 vezes e seu peso **IDF** fosse **0.5**, a pontuação resultante seria **5**. Quando você classifica as palavras pelas pontuações resultantes *(em ordem decrescente, claro!)*, **"coffee"** apareceria antes de **"the"**, indicando que **"coffee"** é mais importante que a palavra **"the"**.

**NOTE:**  
Em resumo, o **IDF** é uma pequena fórmula útil que você pode usar para:
 - Criar uma lista de Stopword Removal (Remoção de palavras irrelevantes);
 - Usar para ponderação de recursos em classificadores de texto;
 - Para extração de palavras... Etc.

---

**REFERÊNCIAS:**  
[How to Use Tfidftransformer & Tfidfvectorizer?](https://kavita-ganesan.com/tfidftransformer-tfidfvectorizer-usage-differences/#.YiU8u3XMLeS)  
[]()  
[]()  
[]()  
[]()  

In [12]:
text = [
    "kolkata big city india trade",
    "mumbai financial capital india",
    "delhi capital india",
    "kolkata capital colonial times",
    "bangalore tech hub india software",
    "mumbai hub trade commerce stock exchange",
    "kolkata victoria memorial","delhi india gate",
    "mumbai gate way india trade business",
    "delhi red fort india",
    "kolkata metro oldest india",
    "delhi metro largest metro network india"
]

In [13]:
import pandas as pd
import numpy as np 
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

In [14]:
vectorizer = CountVectorizer() # Instance
word_count = vectorizer.fit_transform(text)
print(word_count)

  (0, 14)	1
  (0, 1)	1
  (0, 4)	1
  (0, 13)	1
  (0, 26)	1
  (1, 13)	1
  (1, 18)	1
  (1, 9)	1
  (1, 3)	1
  (2, 13)	1
  (2, 3)	1
  (2, 7)	1
  (3, 14)	1
  (3, 3)	1
  (3, 5)	1
  (3, 25)	1
  (4, 13)	1
  (4, 0)	1
  (4, 24)	1
  (4, 12)	1
  (4, 22)	1
  (5, 26)	1
  (5, 18)	1
  (5, 12)	1
  (5, 6)	1
  :	:
  (6, 14)	1
  (6, 27)	1
  (6, 16)	1
  (7, 13)	1
  (7, 7)	1
  (7, 11)	1
  (8, 13)	1
  (8, 26)	1
  (8, 18)	1
  (8, 11)	1
  (8, 28)	1
  (8, 2)	1
  (9, 13)	1
  (9, 7)	1
  (9, 21)	1
  (9, 10)	1
  (10, 14)	1
  (10, 13)	1
  (10, 17)	1
  (10, 20)	1
  (11, 13)	1
  (11, 7)	1
  (11, 17)	2
  (11, 15)	1
  (11, 19)	1


acima nós temos a frequẽncia com que cada palavra aparece

In [15]:
tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True) # Instance with IDF.

tfidf_transformer.fit(word_count) # Apply IDF.

df_idf = pd.DataFrame(
    tfidf_transformer.idf_,
    index=vectorizer.get_feature_names_out(),
    columns=["IDF_Weights"]
)

In [16]:
df_idf.sort_values(by=["IDF_Weights"], ascending=False)

Unnamed: 0,IDF_Weights
bangalore,2.871802
big,2.871802
victoria,2.871802
times,2.871802
tech,2.871802
stock,2.871802
software,2.871802
red,2.871802
oldest,2.871802
network,2.871802


In [17]:
#tfidf
tf_idf_vector = tfidf_transformer.transform(word_count)
feature_names = vectorizer.get_feature_names_out()

In [18]:
first_document_vector = tf_idf_vector[1] 
df_tfifd= pd.DataFrame(
    first_document_vector.T.todense(),
    index=feature_names,
    columns=["tfidf"]
)

In [19]:
df_tfifd.sort_values(by=["tfidf"],ascending=False)

Unnamed: 0,tfidf
financial,0.653123
capital,0.495483
mumbai,0.495483
india,0.287095
bangalore,0.0
memorial,0.0
victoria,0.0
trade,0.0
times,0.0
tech,0.0
