# 01 - Prepara√ß√£o de Dados

Este notebook carrega e prepara as bases de dados PT-6 e 20NG-6.


In [1]:
import sys
from pathlib import Path

# Adicionar src ao path
project_root = Path().resolve().parent
sys.path.append(str(project_root))

import pandas as pd
import numpy as np
from sklearn.datasets import fetch_20newsgroups
from src.config import RAW_DATA_DIR, TWENTY_NG_CATEGORIES, PT6_CLASS_COLUMN_CANDIDATES
from src.utils import detect_class_column


## 1. Carregar 20NG-6 (20 Newsgroups - 6 categorias)


In [2]:
# Carregar 20 Newsgroups com 6 categorias selecionadas
newsgroups = fetch_20newsgroups(
    subset='all',
    categories=TWENTY_NG_CATEGORIES,
    remove=('headers', 'footers', 'quotes'),
    shuffle=True,
    random_state=42
)

print(f"Total de documentos: {len(newsgroups.data)}")
print(f"N√∫mero de classes: {len(newsgroups.target_names)}")
print(f"Classes: {newsgroups.target_names}")

# Criar DataFrame
df_20ng = pd.DataFrame({
    'text': newsgroups.data,
    'class': newsgroups.target,
    'class_name': [newsgroups.target_names[i] for i in newsgroups.target]
})

print(f"\nDistribui√ß√£o de classes:")
print(df_20ng['class_name'].value_counts())


Total de documentos: 5906
N√∫mero de classes: 6
Classes: ['comp.graphics', 'comp.sys.mac.hardware', 'rec.autos', 'rec.sport.hockey', 'sci.crypt', 'sci.med']

Distribui√ß√£o de classes:
class_name
rec.sport.hockey         999
sci.crypt                991
rec.autos                990
sci.med                  990
comp.graphics            973
comp.sys.mac.hardware    963
Name: count, dtype: int64


## 2. Carregar PT-6 (CSV)


In [3]:
# Carregar e pr√©-processar PT-6
pt6_file = RAW_DATA_DIR / "pt6.csv"
pt6_preprocessed_file = RAW_DATA_DIR / "pt6_preprocessed.csv"

# Fun√ß√£o para limpar textos (remover NaN e valores vazios)
def clean_texts(df, text_column):
    """Remove linhas com NaN ou valores vazios na coluna de texto."""
    original_len = len(df)
    
    # Criar c√≥pia para n√£o modificar o original
    df_clean = df.copy()
    
    # Converter para string e tratar NaN explicitamente
    df_clean[text_column] = df_clean[text_column].astype(str)
    
    # Remover linhas onde o texto √© 'nan' (string), 'None', ou vazio
    mask = (
        (df_clean[text_column] != 'nan') &
        (df_clean[text_column] != 'None') &
        (df_clean[text_column].str.strip() != '') &
        (df_clean[text_column].notna())
    )
    df_clean = df_clean[mask].copy()
    
    # Garantir que s√£o strings v√°lidas e remover espa√ßos extras
    df_clean[text_column] = df_clean[text_column].str.strip()
    
    # Remover qualquer linha que ainda tenha NaN (verifica√ß√£o final)
    df_clean = df_clean[df_clean[text_column].notna()].copy()
    
    cleaned_len = len(df_clean)
    
    if original_len != cleaned_len:
        print(f"‚ö†Ô∏è Removidos {original_len - cleaned_len} documentos inv√°lidos")
    
    # Resetar √≠ndice
    df_clean = df_clean.reset_index(drop=True)
    
    # Verifica√ß√£o final: garantir que n√£o h√° NaN
    nan_count = df_clean[text_column].isna().sum()
    if nan_count > 0:
        print(f"‚ö†Ô∏è ATEN√á√ÉO: Ainda h√° {nan_count} valores NaN ap√≥s limpeza!")
        df_clean = df_clean[df_clean[text_column].notna()].reset_index(drop=True)
    
    return df_clean

if pt6_file.exists():
    print(f"üì• Carregando {pt6_file}...")
    df_pt6 = pd.read_csv(pt6_file, encoding='utf-8')
    print(f"   Total inicial: {len(df_pt6)} documentos")
    
    # Detectar coluna de classe dinamicamente
    class_col = detect_class_column(df_pt6, PT6_CLASS_COLUMN_CANDIDATES)
    
    if class_col:
        print(f"   Coluna de classe detectada: {class_col}")
        
        # Detectar coluna de texto (priorizar 'Texto Expandido')
        text_col = 'Texto Expandido' if 'Texto Expandido' in df_pt6.columns else 'Texto Original'
        print(f"   Coluna de texto detectada: {text_col}")
        
        # Limpar dados
        print(f"\\nüßπ Pr√©-processando dados...")
        df_pt6 = clean_texts(df_pt6, text_col)
        
        # Salvar CSV pr√©-processado
        df_pt6.to_csv(pt6_preprocessed_file, index=False, encoding='utf-8-sig')
        print(f"   ‚úÖ CSV pr√©-processado salvo em: {pt6_preprocessed_file}")
        
        print(f"\\nüìä Total ap√≥s limpeza: {len(df_pt6)} documentos")
        print(f"\\nDistribui√ß√£o de classes:")
        print(df_pt6[class_col].value_counts())
    else:
        print("ERRO: N√£o foi poss√≠vel detectar a coluna de classe!")
        print(f"Colunas dispon√≠veis: {df_pt6.columns.tolist()}")
else:
    print(f"Arquivo n√£o encontrado: {pt6_file}")
    print("Por favor, adicione o arquivo CSV do PT-6 em data/raw/")


üì• Carregando C:\nlp-clustering-benchmark\data\raw\pt6.csv...
   Total inicial: 319 documentos
   Coluna de classe detectada: Categoria
   Coluna de texto detectada: Texto Expandido
\nüßπ Pr√©-processando dados...
‚ö†Ô∏è Removidos 4 documentos inv√°lidos
   ‚úÖ CSV pr√©-processado salvo em: C:\nlp-clustering-benchmark\data\raw\pt6_preprocessed.csv
\nüìä Total ap√≥s limpeza: 315 documentos
\nDistribui√ß√£o de classes:
Categoria
Turismo                   58
Pol√≠cia e Direitos        55
Esportes                  53
Economia                  53
Pol√≠tica                  51
Variedades e Sociedade    45
Name: count, dtype: int64


## 3. Carregar Dados Pr√©-processados (Opcional)

Se voc√™ j√° executou a c√©lula anterior, pode carregar diretamente o CSV pr√©-processado.


In [4]:
# Carregar dados pr√©-processados se necess√°rio
if 'df_pt6' not in locals() or df_pt6 is None:
    pt6_preprocessed_file = RAW_DATA_DIR / "pt6_preprocessed.csv"
    if pt6_preprocessed_file.exists():
        print("üì• Carregando PT-6 pr√©-processado...")
        df_pt6 = pd.read_csv(pt6_preprocessed_file, encoding='utf-8-sig')
        class_col = detect_class_column(df_pt6, PT6_CLASS_COLUMN_CANDIDATES)
        print(f"   ‚úÖ {len(df_pt6)} documentos carregados")
    else:
        print("‚ö†Ô∏è Arquivo pr√©-processado n√£o encontrado. Execute a c√©lula anterior primeiro.")

print("\\n" + "=" * 60)
print("RESUMO DOS DADOS")
print("=" * 60)
print(f"\\nüìä 20NG-6: {len(df_20ng)} documentos, {df_20ng['class'].nunique()} classes")
if 'df_pt6' in locals() and 'class_col' in locals() and class_col:
    print(f"üìä PT-6: {len(df_pt6)} documentos, {df_pt6[class_col].nunique()} classes")
    print("\\n‚úÖ Dados prontos para gera√ß√£o de embeddings!")
else:
    print("\\n‚ùå PT-6 n√£o est√° dispon√≠vel. Execute a c√©lula anterior primeiro.")


RESUMO DOS DADOS
\nüìä 20NG-6: 5906 documentos, 6 classes
üìä PT-6: 315 documentos, 6 classes
\n‚úÖ Dados prontos para gera√ß√£o de embeddings!
