<a href="https://colab.research.google.com/github/esashika/Data-Science-Machine-Learning/blob/main/TF_IDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Esashika Academy**

**Autor:** Rhedson Esashika

**Linkedin:** https://www.linkedin.com/in/esashika/

# **O que é TF-IDF?**

**TF-IDF (Term Frequency - Inverse Document Frequency)** é uma técnica amplamente utilizada em **Processamento de Linguagem Natural (NLP)** para representar textos numericamente. Ele mede a **importância de um termo** dentro de um documento e em um conjunto de documentos (corpus).

## Como funciona?
**TF-IDF combina duas métricas:**

1. **Term Frequency (TF)** – Mede a frequência de um termo em um documento.  

2. **Inverse Document Frequency (IDF)** – Mede a raridade de um termo no corpus.  

3. **TF-IDF Final**  

> TF-IDF é um método poderoso e interpretável, sendo amplamente utilizado mesmo com o avanço de técnicas mais sofisticadas, como **word embeddings (Word2Vec, BERT)**.

## **Pontos Fortes e Limitações do TF-IDF**

### **Pontos Fortes**  
✔ **Simples e eficiente** – Fácil de implementar e rápido de calcular, tornando-se uma ótima opção inicial para modelagem de texto.  
✔ **Filtra palavras comuns** – Palavras irrelevantes (como "o", "de", "e") recebem pontuações baixas, melhorando a qualidade da análise.  
✔ **Interpretação intuitiva** – Atribui peso maior a termos relevantes e menor a palavras frequentes no corpus, facilitando a análise de importância.  
✔ **Boa base para NLP** – Utilizado em motores de busca, classificação de textos e análise de sentimentos antes do uso de modelos mais avançados.  

### **Limitações**  
**Não considera a ordem das palavras** – “O gato gosta de peixe” e “Peixe gosta do gato” terão representações similares, ignorando o contexto.  
**Vetores esparsos** – Em vocabulários grandes, a maioria das posições da matriz será preenchida com zeros, impactando a eficiência em grandes volumes de dados.  
**Não capta significado semântico** – Palavras com significados diferentes em contextos distintos ("banco" de sentar vs. "banco" financeiro) são tratadas como iguais.  
**Sensível a sinônimos** – "Carro" e "automóvel" são tratados como palavras diferentes, sem capturar a relação entre elas.

## **1. Implementando um TF-IDF** *na mão*.

In [1]:
import numpy as np
from collections import Counter
import math

class TFIDFCalculator:
    def __init__(self):
        self.documents = []
        self.vocabulary = set()

    def add_document(self, doc):
        """Adiciona um documento ao corpus"""
        tokens = doc.lower().split()
        self.documents.append(tokens)
        self.vocabulary.update(tokens)

    def term_frequency(self, term, doc):
        """Calcula a frequência do termo (TF) em um documento"""
        count = Counter(doc)
        return count[term] / len(doc)

    def document_frequency(self, term):
        """Calcula em quantos documentos o termo aparece (DF)"""
        return sum(1 for doc in self.documents if term in doc)

    def inverse_document_frequency(self, term):
        """Calcula o IDF do termo"""
        df = self.document_frequency(term)
        return math.log(len(self.documents) / (df + 1))  # +1 para evitar divisão por zero

    def tf_idf(self, term, doc):
        """Calcula o TF-IDF de um termo em um documento"""
        return self.term_frequency(term, doc) * self.inverse_document_frequency(term)

    def get_document_vector(self, doc):
        """Retorna o vetor TF-IDF para um documento"""
        vector = {}
        for term in self.vocabulary:
            vector[term] = self.tf_idf(term, doc)
        return vector

# Exemplo de uso
documentos = [
    "O gato é um animal doméstico",
    "O cachorro é um animal doméstico",
    "Gatos e cachorros são animais de estimação populares",
    "Alguns animais são selvagens"
]

# Criando e populando o calculador
calculator = TFIDFCalculator()
for doc in documentos:
    calculator.add_document(doc)

# Calculando TF-IDF para o primeiro documento
doc_tokens = documentos[0].lower().split()
vector = calculator.get_document_vector(doc_tokens)

# Exibindo os 5 termos mais relevantes
sorted_terms = sorted(vector.items(), key=lambda x: x[1], reverse=True)[:5]
print("\nTermos mais relevantes no primeiro documento:")
for term, score in sorted_terms:
    print(f"{term}: {score:.4f}")


Termos mais relevantes no primeiro documento:
gato: 0.1155
animal: 0.0479
um: 0.0479
é: 0.0479
doméstico: 0.0479


# **2. Exemplo usando a biblioteca scikit-learn, que é muito utilizada na prática.**

## Principais vantagens de usar o scikit-learn:

1. Facilidade de uso:
   - Poucas linhas de código para implementar
   - Interface consistente com outros algoritmos do scikit-learn
   - Integração fácil com pipelines de machine learning

2. Recursos avançados:
   - Manipulação eficiente de matriz esparsa
   - Normalização automática dos vetores
   - Várias opções de pré-processamento
   - Alta performance com grandes volumes de dados

3. Parâmetros importantes do TfidfVectorizer:
   ```python
   TfidfVectorizer(
       min_df=1,              # Ignora termos que aparecem em menos documentos que min_df
       max_df=1.0,           # Ignora termos que aparecem em mais % de documentos que max_df
       ngram_range=(1, 1),   # Range de n-gramas a considerar
       stop_words=None,      # Lista de stop words ou None
       norm='l2',            # Tipo de normalização
       smooth_idf=True,      # Adiciona 1 ao df para evitar divisão por zero
       sublinear_tf=False    # Aplica 1 + log(tf) em vez de tf
   )
   ```

4. Diferenças principais da implementação manual:
   - Usa matrizes esparsas para eficiência
   - Implementa normalização por padrão
   - Oferece mais opções de pré-processamento
   - Mais rápido e otimizado para grandes volumes de dados

Você pode usar ambas as implementações na aula para mostrar tanto o funcionamento interno do algoritmo (com a implementação manual) quanto a forma prática de uso em projetos reais (com scikit-learn). Gostaria que eu expandisse algum aspecto específico?

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import numpy as np

# Corpus de exemplo
documentos = [
    "O gato é um animal doméstico",
    "O cachorro é um animal doméstico",
    "Gatos e cachorros são animais de estimação populares",
    "Alguns animais são selvagens"
]

# Criando e treinando o vetorizador
vectorizer = TfidfVectorizer(
    min_df=1,              # Frequência mínima do termo
    lowercase=True,        # Converter para minúsculas
    strip_accents='ascii', # Remover acentos
    stop_words=None,       # Não remover stopwords
    norm='l2'             # Normalização dos vetores
)

# Transformando os documentos em matriz TF-IDF
matriz_tfidf = vectorizer.fit_transform(documentos)

# Obtendo o vocabulário
vocabulario = vectorizer.get_feature_names_out()

# Convertendo a matriz esparsa para um DataFrame para melhor visualização
df_tfidf = pd.DataFrame(
    matriz_tfidf.toarray(),
    columns=vocabulario,
    index=['Doc 1', 'Doc 2', 'Doc 3', 'Doc 4']
)

# Exibindo os resultados
print("Dimensões da matriz TF-IDF:", matriz_tfidf.shape)
print("\nVocabulário completo:", vocabulario)
print("\nMatriz TF-IDF:")
print(df_tfidf)

# Exemplo de análise: encontrando as palavras mais importantes em cada documento
for i, doc_name in enumerate(['Doc 1', 'Doc 2', 'Doc 3', 'Doc 4']):
    # Pegando os índices ordenados dos valores TF-IDF
    tfidf_ordenado = np.argsort(matriz_tfidf[i].toarray()[0])[::-1]

    # Pegando as 3 palavras mais importantes
    palavras_importantes = [vocabulario[idx] for idx in tfidf_ordenado[:3]]
    valores_tfidf = [matriz_tfidf[i].toarray()[0][idx] for idx in tfidf_ordenado[:3]]

    print(f"\nPalavras mais importantes em {doc_name}:")
    for palavra, valor in zip(palavras_importantes, valores_tfidf):
        print(f"{palavra}: {valor:.4f}")

# Exemplo de como usar para um novo documento
novo_documento = ["O gato branco é um animal muito bonito"]
vetor_novo = vectorizer.transform(novo_documento)

print("\nTF-IDF para novo documento:")
df_novo = pd.DataFrame(
    vetor_novo.toarray(),
    columns=vocabulario,
    index=['Novo Doc']
)
print(df_novo)

Dimensões da matriz TF-IDF: (4, 14)

Vocabulário completo: ['alguns' 'animais' 'animal' 'cachorro' 'cachorros' 'de' 'domestico'
 'estimacao' 'gato' 'gatos' 'populares' 'sao' 'selvagens' 'um']

Matriz TF-IDF:
         alguns   animais    animal  cachorro  cachorros        de  domestico  \
Doc 1  0.000000  0.000000  0.465809  0.000000   0.000000  0.000000   0.465809   
Doc 2  0.000000  0.000000  0.465809  0.590819   0.000000  0.000000   0.465809   
Doc 3  0.000000  0.315537  0.000000  0.000000   0.400218  0.400218   0.000000   
Doc 4  0.555283  0.437791  0.000000  0.000000   0.000000  0.000000   0.000000   

       estimacao      gato     gatos  populares       sao  selvagens        um  
Doc 1   0.000000  0.590819  0.000000   0.000000  0.000000   0.000000  0.465809  
Doc 2   0.000000  0.000000  0.000000   0.000000  0.000000   0.000000  0.465809  
Doc 3   0.400218  0.000000  0.400218   0.400218  0.315537   0.000000  0.000000  
Doc 4   0.000000  0.000000  0.000000   0.000000  0.437791   0.