In [1]:
import json
import gdown
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import numpy as np
import json
import nltk
import re
from nltk.corpus import stopwords


In [2]:
# ID do arquivo do Drive (JSON do corpus final)
file_id = "1ej2uGwFvjeIoUgL6c_aem2348yYzLtIZ"  # https://drive.google.com/file/d/1ej2uGwFvjeIoUgL6c_aem2348yYzLtIZ/view?usp=drive_link

# Baixar o arquivo
gdown.download(f"https://drive.google.com/uc?id={file_id}", "/content/corpus_SBIE.json", quiet=False)

# Carregar o JSON
with open('/content/corpus_SBIE.json', 'r', encoding='utf-8') as f:
    corpus = json.load(f)

print(f"✅ Corpus carregado! Número de artigos: {len(corpus)}")


Downloading...
From: https://drive.google.com/uc?id=1ej2uGwFvjeIoUgL6c_aem2348yYzLtIZ
To: /content/corpus_SBIE.json
100%|██████████| 13.2M/13.2M [00:00<00:00, 65.3MB/s]


✅ Corpus carregado! Número de artigos: 30


In [None]:
#sem preprocessamento
# 1. Carregar o corpus
with open("/content/corpus_SBIE.json", "r", encoding="utf-8") as f:
    corpus = json.load(f)

# 2. Obter os textos (limitar a 3 ou 5 documentos curtos para visualização clara)
documentos = [art["artigo_completo_PT"] for art in corpus[:30]]  # puedes ajustar [:5]

# 3. ONE-HOT ENCODING
onehot = CountVectorizer(binary=True)
onehot_matrix = onehot.fit_transform(documentos).toarray()
print("🔹 One-Hot Encoding (presença binária)")
print(onehot_matrix)
print(onehot.get_feature_names_out())

# 4. BAG-OF-WORDS
bow = CountVectorizer()
bow_matrix = bow.fit_transform(documentos).toarray()
print("\n🔹 Bag-of-Words (frequência bruta)")
print(bow_matrix)
print(bow.get_feature_names_out())


# 5. TF-IDF
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(documentos).toarray()
print("\n🔹 TF-IDF")
print(np.round(tfidf_matrix, 3))
print(tfidf.get_feature_names_out())
#print(TfidfVectorizer.get_feature_names_out())


In [None]:
# Baixar stopwords se necessário
nltk.download('stopwords')
stopwords_pt = stopwords.words('portuguese')

# 1. Carregar o corpus
with open("/content/corpus_SBIE.json", "r", encoding="utf-8") as f:
    corpus = json.load(f)

# 2. Selecionar os textos
documentos = [art["artigo_completo_PT"] for art in corpus[:30]]

# 3. Pré-processamento simples
documentos_preprocessados = [re.sub(r'[^\w\s]', '', doc.lower()) for doc in documentos]

# 4. One-Hot Encoding
print("🔹 One-Hot Encoding (presença binária)")
onehot_vectorizer = CountVectorizer(binary=True, stop_words=stopwords_pt)
onehot_matrix = onehot_vectorizer.fit_transform(documentos_preprocessados).toarray()
print(onehot_matrix[:5, :10])  # Mostra as 5 primeiras linhas e 10 primeiras colunas
print(onehot_vectorizer.get_feature_names_out()[:10])


In [None]:
# Baixar as stopwords em português
nltk.download('stopwords')
stopwords_pt = stopwords.words('portuguese')

# 1. Carregar o corpus
with open("/content/corpus_SBIE.json", "r", encoding="utf-8") as f:
    corpus = json.load(f)

# 2. Selecionar os textos (ex: 30 artigos)
documentos = [art["artigo_completo_PT"] for art in corpus[:30]]

# 3. Pré-processamento: minúsculas, remove números, pontuação e stopwords
def preprocessar(texto):
    texto = texto.lower()
    texto = re.sub(r'\d+', '', texto)
    texto = re.sub(r'[^\w\s]', '', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto

documentos_limpos = [preprocessar(doc) for doc in documentos]

# 🔹 One-Hot Encoding (presença binária)
print("🔹 One-Hot Encoding (presença binária)")
onehot = CountVectorizer(binary=True, stop_words=stopwords_pt, min_df=2)
onehot_matrix = onehot.fit_transform(documentos_limpos).toarray()
print(onehot_matrix[:5, :10])  # Exibe parte da matriz
print(onehot.get_feature_names_out()[:10],"...")

# 🔹 Bag-of-Words (frequência bruta)
print("\n🔹 Bag-of-Words (frequência bruta)")
bow = CountVectorizer(stop_words=stopwords_pt, min_df=2)
bow_matrix = bow.fit_transform(documentos_limpos).toarray()
print(bow_matrix[:5, :10])  # Exibe parte da matriz
print(bow.get_feature_names_out()[:10],"...")

# 🔹 TF-IDF
print("\n🔹 TF-IDF (Term Frequency - Inverse Document Frequency)")
tfidf = TfidfVectorizer(stop_words=stopwords_pt, min_df=2)
tfidf_matrix = tfidf.fit_transform(documentos_limpos).toarray()
print(np.round(tfidf_matrix[:5, :10], 3))  # Exibe parte da matriz arredondada
print(tfidf.get_feature_names_out()[:10],"...")


In [None]:
print("📌 Número de palavras no vocabulário (One-Hot):", len(onehot.get_feature_names_out()))
print("📌 Número de palavras no vocabulário (BoW):", len(bow.get_feature_names_out()))
print("📌 Número de palavras no vocabulário (TF-IDF):", len(tfidf.get_feature_names_out()))


In [None]:
# Verificar outras colunas (por exemplo, de 10 a 20)
print(onehot_matrix[:, 10:20])
print(bow_matrix[:, 10:20])
print(tfidf_matrix[:, 10:20])
