### üìÇ 1. Carregando os dados

In [4]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [5]:
# Carregar o dataset
df = pd.read_csv("data/noticias_sinteticas.csv")

# Visualizar as primeiras linhas
df.head()

Unnamed: 0,texto,category
0,O ministro anunciou cortes no or√ßamento federal.,pol√≠tica
1,A equipe conquistou o campeonato estadual.,esporte
2,O t√©cnico anunciou a escala√ß√£o para o pr√≥ximo ...,esporte
3,Houve protestos contra a nova legisla√ß√£o aprov...,pol√≠tica
4,Houve protestos contra a nova legisla√ß√£o aprov...,pol√≠tica


### üßπ 2. Pr√©-processamento de texto

In [6]:
nltk.download('stopwords')
stopwords_pt = set(stopwords.words('portuguese'))

def preprocessar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^\w\s]', '', texto)  # Remove pontua√ß√£o
    palavras = texto.split()
    palavras = [p for p in palavras if p not in stopwords_pt]
    return ' '.join(palavras)

# Aplicar o pr√©-processamento
df['texto_limpo'] = df['texto'].apply(preprocessar_texto)

# Visualizar resultado
df[['texto', 'texto_limpo']].head()

[nltk_data] Downloading package stopwords to C:\Users\Jorge
[nltk_data]     Maques/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,texto,texto_limpo
0,O ministro anunciou cortes no or√ßamento federal.,ministro anunciou cortes or√ßamento federal
1,A equipe conquistou o campeonato estadual.,equipe conquistou campeonato estadual
2,O t√©cnico anunciou a escala√ß√£o para o pr√≥ximo ...,t√©cnico anunciou escala√ß√£o pr√≥ximo jogo
3,Houve protestos contra a nova legisla√ß√£o aprov...,protestos contra nova legisla√ß√£o aprovada
4,Houve protestos contra a nova legisla√ß√£o aprov...,protestos contra nova legisla√ß√£o aprovada


### üßÆ 3. Vetoriza√ß√£o com Bag of Words (BoW)

In [7]:
# Criar o vetor de contagem (BoW)
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(df['texto_limpo'])

print(f"Dimens√£o da matriz BoW: {X_bow.shape}")

# Exemplo: mostrar as 10 primeiras palavras do vocabul√°rio
print("Primeiras 10 palavras do vocabul√°rio BoW:")
print(list(vectorizer_bow.get_feature_names_out())[:10])

Dimens√£o da matriz BoW: (500, 85)
Primeiras 10 palavras do vocabul√°rio BoW:
['acr√©scimos', 'adiada', 'alta', 'anunciaram', 'anunciou', 'aplicativo', 'apresentou', 'aprovada', 'aprovou', 'ator']


### üìä 4. Vetoriza√ß√£o com TF-IDF

In [8]:
# Criar o vetor TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(df['texto_limpo'])

print(f"Dimens√£o da matriz TF-IDF: {X_tfidf.shape}")

# Exemplo: mostrar os scores TF-IDF das 10 primeiras palavras do vocabul√°rio
print("Primeiras 10 palavras do vocabul√°rio TF-IDF:")
print(list(vectorizer_tfidf.get_feature_names_out())[:10])

Dimens√£o da matriz TF-IDF: (500, 85)
Primeiras 10 palavras do vocabul√°rio TF-IDF:
['acr√©scimos', 'adiada', 'alta', 'anunciaram', 'anunciou', 'aplicativo', 'apresentou', 'aprovada', 'aprovou', 'ator']


### üîç 5. Compara√ß√£o entre Bag of Words e TF-IDF

In [9]:
# Escolher um √≠ndice para exemplo
idx = 0

print("Texto original:")
print(df.loc[idx, 'texto'])

print("\nTexto pr√©-processado:")
print(df.loc[idx, 'texto_limpo'])

# Obter vocabul√°rio das palavras para BoW e TF-IDF
voc_bow = vectorizer_bow.get_feature_names_out()
voc_tfidf = vectorizer_tfidf.get_feature_names_out()

# Vetor BoW do documento escolhido (esparso para denso)
vec_bow = X_bow[idx].toarray().flatten()

# Vetor TF-IDF do documento escolhido
vec_tfidf = X_tfidf[idx].toarray().flatten()

# Mostrar palavras com valor > 0 e seus respectivos scores BoW e TF-IDF
print("\nPalavras e valores BoW:")
for palavra, valor in zip(voc_bow, vec_bow):
    if valor > 0:
        print(f"{palavra}: {valor}")

print("\nPalavras e valores TF-IDF:")
for palavra, valor in zip(voc_tfidf, vec_tfidf):
    if valor > 0:
        print(f"{palavra}: {valor:.4f}")

Texto original:
O ministro anunciou cortes no or√ßamento federal.

Texto pr√©-processado:
ministro anunciou cortes or√ßamento federal

Palavras e valores BoW:
anunciou: 1
cortes: 1
federal: 1
ministro: 1
or√ßamento: 1

Palavras e valores TF-IDF:
anunciou: 0.3496
cortes: 0.4684
federal: 0.4684
ministro: 0.4684
or√ßamento: 0.4684


### ‚úÖ Conclus√£o: Bag of Words vs. TF-IDF

Neste estudo, comparamos duas das principais t√©cnicas de vetoriza√ß√£o de texto:

- **Bag of Words (BoW)** representa cada documento por meio da contagem de palavras, sem considerar o contexto ou a relev√¢ncia dos termos no corpus.
- **TF-IDF** (Term Frequency‚ÄìInverse Document Frequency) vai al√©m, atribuindo pesos que refletem a import√¢ncia das palavras, penalizando termos comuns e valorizando termos raros.

### Exemplo pr√°tico

- No texto: *"O ministro anunciou cortes no or√ßamento federal"*, todas as palavras receberam valor 1 no BoW, pois cada uma aparece apenas uma vez.
- J√° no TF-IDF, a palavra "anunciou" teve um peso menor, indicando que ela aparece com mais frequ√™ncia no conjunto de documentos. Por outro lado, termos como "or√ßamento" e "federal" tiveram pesos maiores, indicando que s√£o mais informativos para esse texto.

### Conclus√£o

- **BoW** √© simples, r√°pido e pode ser suficiente para modelos mais b√°sicos.
- **TF-IDF** geralmente oferece melhores resultados em tarefas como classifica√ß√£o e busca textual, por capturar a relev√¢ncia dos termos.
