# üßπ Notebook 2: Pr√©-processamento de Dados

Este notebook demonstra o processo de pr√©-processamento dos dados coletados do Reddit, incluindo limpeza de texto, lematiza√ß√£o e prepara√ß√£o para an√°lise de sentimento.

## üéØ Objetivos
- Carregar dados brutos coletados
- Aplicar limpeza e normaliza√ß√£o de texto
- Realizar lematiza√ß√£o usando SpaCy
- Filtrar dados por qualidade e relev√¢ncia
- Salvar dados processados para pr√≥ximas etapas
- Gerar estat√≠sticas de processamento

## üìã Pr√©-requisitos
- Dados coletados na etapa anterior
- Modelo SpaCy PT-BR instalado: `python -m spacy download pt_core_news_sm`
- Bibliotecas de processamento de texto instaladas

In [None]:
# Imports e configura√ß√£o inicial
import sys
import os
import pandas as pd
import numpy as np
import yaml
from datetime import datetime
from pathlib import Path
import logging
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Adicionar src ao path
sys.path.append('../src')

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Configurar visualiza√ß√µes
plt.style.use('default')
sns.set_palette("husl")

# Verificar estrutura do projeto
project_root = Path("..").resolve()
print(f"üìÅ Diret√≥rio do projeto: {project_root}")
print(f"üìÇ Estrutura principal:")
for item in ["config", "src", "data", "scripts"]:
    path = project_root / item
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"  {status} {item}/")

print("\nüîß Python path:")
for p in sys.path[-3:]:
    print(f"  - {p}")

In [None]:
# Carregar configura√ß√£o
config_path = project_root / "config" / "topic.yaml"

try:
    with open(config_path, 'r', encoding='utf-8') as f:
        config = yaml.safe_load(f)
    
    print("üìã Configura√ß√£o carregada:")
    print(f"  üéØ T√≥pico: {config['topic']}")
    print(f"  üîç Keywords: {config['keywords'][:5]}...")  # Mostrar apenas primeiras 5
    print(f"  üîß Filtros:")
    print(f"    - Comprimento: {config['filters']['min_length']}-{config['filters']['max_length']}")
    print(f"    - Idioma: {config['filters']['language']}")
    print(f"    - Score m√≠nimo: {config['filters']['min_score']}")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo de configura√ß√£o n√£o encontrado: {config_path}")
    print("üí° Execute: cp config/topic.yaml.example config/topic.yaml")
except Exception as e:
    print(f"‚ùå Erro ao carregar configura√ß√£o: {e}")

In [None]:
# Testar importa√ß√£o das bibliotecas de preprocessamento
print("üîç Testando importa√ß√£o das bibliotecas de pr√©-processamento:")

try:
    from preprocessing.cleaner import TextCleaner
    print("‚úÖ TextCleaner importado com sucesso")
except ImportError as e:
    print(f"‚ùå Erro ao importar TextCleaner: {e}")

try:
    import spacy
    # Testar se o modelo PT-BR est√° dispon√≠vel
    nlp = spacy.load("pt_core_news_sm")
    print("‚úÖ SpaCy PT-BR dispon√≠vel")
except OSError:
    print("‚ùå Modelo SpaCy PT-BR n√£o encontrado")
    print("üí° Instale com: python -m spacy download pt_core_news_sm")
except ImportError as e:
    print(f"‚ùå Erro ao importar SpaCy: {e}")
    print("üí° Instale com: pip install spacy")

try:
    from langdetect import detect
    print("‚úÖ langdetect dispon√≠vel")
except ImportError as e:
    print(f"‚ùå Erro ao importar langdetect: {e}")
    print("üí° Instale com: pip install langdetect")

# Verificar se DuckDB est√° dispon√≠vel para otimiza√ß√£o de parquet
try:
    import duckdb
    print("‚úÖ DuckDB dispon√≠vel (otimiza√ß√£o de parquet)")
except ImportError:
    print("‚ö†Ô∏è  DuckDB n√£o dispon√≠vel - usar√° pandas para parquet")
    print("üí° Para melhor performance: pip install duckdb")

## üìä Explora√ß√£o dos Dados Brutos

Vamos primeiro examinar os dados coletados para entender sua estrutura e qualidade.

In [None]:
# Descobrir arquivos de dados brutos
raw_data_dir = project_root / "data" / "raw"

print(f"üìÅ Buscando dados em: {raw_data_dir}")

if not raw_data_dir.exists():
    print("‚ùå Diret√≥rio de dados brutos n√£o encontrado")
    print("üí° Execute primeiro o notebook de coleta (01_coleta.ipynb)")
else:
    # Buscar por arquivos CSV
    csv_files = list(raw_data_dir.rglob("*.csv"))
    
    if not csv_files:
        print("‚ùå Nenhum arquivo CSV encontrado")
        print("üí° Execute primeiro a coleta de dados")
    else:
        print(f"üìÑ Encontrados {len(csv_files)} arquivo(s) CSV:")
        
        for i, file in enumerate(csv_files, 1):
            size_mb = file.stat().st_size / (1024*1024)
            modified = datetime.fromtimestamp(file.stat().st_mtime)
            print(f"  {i}. {file.name}")
            print(f"     üìè Tamanho: {size_mb:.2f} MB")
            print(f"     üìÖ Modificado: {modified}")
            
        # Selecionar arquivo mais recente por padr√£o
        latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
        print(f"\nüéØ Usando arquivo mais recente: {latest_file.name}")
        
        # Carregar preview dos dados
        try:
            df_preview = pd.read_csv(latest_file, nrows=5)
            print(f"\nüìä Preview dos dados ({latest_file.name}):")
            print(f"Colunas: {list(df_preview.columns)}")
            
            # Mostrar informa√ß√µes do dataset completo
            df_full = pd.read_csv(latest_file)
            print(f"\nüìà Estat√≠sticas do dataset:")
            print(f"  üìä Total de registros: {len(df_full):,}")
            print(f"  üìù Comprimento m√©dio do texto: {df_full['text'].str.len().mean():.1f} caracteres")
            print(f"  üìÖ Per√≠odo dos dados: {df_full['timestamp'].min()} at√© {df_full['timestamp'].max()}")
            
            if 'subreddit' in df_full.columns:
                subreddit_counts = df_full['subreddit'].value_counts().head(5)
                print(f"  üîó Top 5 subreddits: {subreddit_counts.to_dict()}")
                
            selected_file = latest_file
            
        except Exception as e:
            print(f"‚ùå Erro ao carregar dados: {e}")
            selected_file = None

In [None]:
# An√°lise explorat√≥ria dos dados brutos
if 'selected_file' in locals() and selected_file:
    print("üîç Realizando an√°lise explorat√≥ria dos dados...")
    
    # Carregar dados completos
    df_raw = pd.read_csv(selected_file)
    
    print(f"\nüìä Informa√ß√µes gerais:")
    print(f"  Registros: {len(df_raw):,}")
    print(f"  Colunas: {len(df_raw.columns)}")
    print(f"  Mem√≥ria usada: {df_raw.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
    
    # An√°lise de qualidade dos dados
    print(f"\nüîç Qualidade dos dados:")
    print(f"  Valores nulos por coluna:")
    null_counts = df_raw.isnull().sum()
    for col in null_counts.index:
        if null_counts[col] > 0:
            print(f"    {col}: {null_counts[col]} ({null_counts[col]/len(df_raw)*100:.1f}%)")
    
    # An√°lise de comprimento de texto
    text_lengths = df_raw['text'].str.len()
    print(f"\nüìè Distribui√ß√£o do comprimento do texto:")
    print(f"  M√≠nimo: {text_lengths.min()} caracteres")
    print(f"  M√©dio: {text_lengths.mean():.1f} caracteres")
    print(f"  Mediano: {text_lengths.median():.1f} caracteres")
    print(f"  M√°ximo: {text_lengths.max()} caracteres")
    
    # Visualiza√ß√£o da distribui√ß√£o de comprimento
    plt.figure(figsize=(12, 4))
    
    plt.subplot(1, 2, 1)
    plt.hist(text_lengths, bins=50, alpha=0.7, color='skyblue')
    plt.xlabel('Comprimento do texto (caracteres)')
    plt.ylabel('Frequ√™ncia')
    plt.title('Distribui√ß√£o do Comprimento do Texto')
    plt.axvline(text_lengths.mean(), color='red', linestyle='--', label=f'M√©dia: {text_lengths.mean():.0f}')
    plt.legend()
    
    plt.subplot(1, 2, 2)
    if 'score' in df_raw.columns:
        plt.scatter(text_lengths, df_raw['score'], alpha=0.5, s=1)
        plt.xlabel('Comprimento do texto')
        plt.ylabel('Score do post')
        plt.title('Comprimento vs Score')
    
    plt.tight_layout()
    plt.show()
    
    # Exemplos de texto
    print(f"\nüìù Exemplos de textos:")
    sample_texts = df_raw['text'].sample(3).tolist()
    for i, text in enumerate(sample_texts, 1):
        print(f"\n  Exemplo {i} ({len(text)} chars):")
        print(f"  {text[:200]}{'...' if len(text) > 200 else ''}")
        
else:
    print("‚ùå Nenhum arquivo de dados selecionado")

## üßπ Pr√©-processamento com TextCleaner

Agora vamos aplicar o pr√©-processamento usando a classe TextCleaner.

In [None]:
# Inicializar o TextCleaner e processar uma amostra
if 'df_raw' in locals() and len(df_raw) > 0:
    try:
        # Inicializar TextCleaner
        text_cleaner = TextCleaner(config)
        print("‚úÖ TextCleaner inicializado com sucesso")
        
        # Testar processamento com uma amostra pequena primeiro
        print("\nüß™ Testando processamento com amostra de 10 textos...")
        sample_df = df_raw.sample(n=min(10, len(df_raw))).copy()
        
        # Processar amostra
        processed_sample = text_cleaner.process_dataframe(sample_df, 'text')
        
        print(f"‚úÖ Processamento de amostra conclu√≠do")
        print(f"  üìä Registros originais: {len(sample_df)}")
        print(f"  üìä Registros v√°lidos: {len(processed_sample)}")
        
        # Mostrar exemplo de processamento
        if len(processed_sample) > 0:
            print("\nüìù Exemplo de processamento:")
            example = processed_sample.iloc[0]
            print(f"\n  Original: {example['original'][:200]}...")
            print(f"\n  Limpo: {example['cleaned'][:200]}...")
            print(f"\n  Lematizado: {example['lemmatized'][:200]}...")
            print(f"\n  Comprimento: Original={len(example['original'])}, Limpo={len(example['cleaned'])}, Lematizado={len(example['lemmatized'])}")
        
        # Estat√≠sticas do processamento
        stats = text_cleaner.get_processing_stats(processed_sample)
        print(f"\nüìà Estat√≠sticas do processamento:")
        for key, value in stats.items():
            print(f"  {key}: {value}")
            
    except Exception as e:
        print(f"‚ùå Erro no processamento: {e}")
        import traceback
        traceback.print_exc()
else:
    print("‚ùå Dados brutos n√£o dispon√≠veis")

In [None]:
# Processamento completo dos dados
if 'text_cleaner' in locals() and 'df_raw' in locals():
    print(f"üöÄ Iniciando processamento completo de {len(df_raw):,} registros...")
    print("‚è±Ô∏è  Este processo pode levar alguns minutos...")
    
    try:
        # Processar todo o dataset
        start_time = datetime.now()
        
        df_processed = text_cleaner.process_dataframe(df_raw, 'text')
        
        end_time = datetime.now()
        processing_time = (end_time - start_time).total_seconds()
        
        print(f"‚úÖ Processamento conclu√≠do em {processing_time:.1f} segundos")
        print(f"  üìä Registros processados: {len(df_raw):,}")
        print(f"  üìä Registros v√°lidos: {len(df_processed):,}")
        print(f"  üìä Taxa de aprova√ß√£o: {len(df_processed)/len(df_raw)*100:.1f}%")
        print(f"  ‚ö° Velocidade: {len(df_raw)/processing_time:.1f} textos/segundo")
        
        # Estat√≠sticas detalhadas
        final_stats = text_cleaner.get_processing_stats(df_processed)
        print(f"\nüìà Estat√≠sticas finais:")
        for key, value in final_stats.items():
            if isinstance(value, float):
                print(f"  {key}: {value:.1f}")
            else:
                print(f"  {key}: {value}")
        
        # Compara√ß√£o antes/depois
        print(f"\nüìä Compara√ß√£o antes/depois:")
        print(f"  Comprimento m√©dio original: {df_raw['text'].str.len().mean():.1f} ‚Üí {df_processed['cleaned'].str.len().mean():.1f}")
        print(f"  Registros: {len(df_raw):,} ‚Üí {len(df_processed):,} ({len(df_processed)/len(df_raw)*100:.1f}%)")
        
        # Visualiza√ß√£o da distribui√ß√£o de comprimentos processados
        plt.figure(figsize=(15, 5))
        
        plt.subplot(1, 3, 1)
        plt.hist(df_raw['text'].str.len(), bins=50, alpha=0.7, label='Original', color='lightcoral')
        plt.xlabel('Comprimento (caracteres)')
        plt.ylabel('Frequ√™ncia')
        plt.title('Texto Original')
        plt.legend()
        
        plt.subplot(1, 3, 2)
        plt.hist(df_processed['cleaned'].str.len(), bins=50, alpha=0.7, label='Limpo', color='lightgreen')
        plt.xlabel('Comprimento (caracteres)')
        plt.ylabel('Frequ√™ncia')
        plt.title('Texto Limpo')
        plt.legend()
        
        plt.subplot(1, 3, 3)
        plt.hist(df_processed['lemmatized'].str.len(), bins=50, alpha=0.7, label='Lematizado', color='lightblue')
        plt.xlabel('Comprimento (caracteres)')
        plt.ylabel('Frequ√™ncia')
        plt.title('Texto Lematizado')
        plt.legend()
        
        plt.tight_layout()
        plt.show()
        
    except Exception as e:
        print(f"‚ùå Erro no processamento completo: {e}")
        import traceback
        traceback.print_exc()
else:
    print("‚ùå TextCleaner ou dados brutos n√£o dispon√≠veis")

## üíæ Salvando Dados Processados

Vamos salvar os dados processados em formato Parquet para uso posterior.

In [None]:
# Salvar dados processados
if 'df_processed' in locals() and len(df_processed) > 0:
    # Criar diret√≥rio de dados processados
    processed_dir = project_root / "data" / "processed"
    processed_dir.mkdir(parents=True, exist_ok=True)
    
    # Gerar nome do arquivo com timestamp
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
    topic_slug = config['topic'].lower().replace(' ', '_').replace('-', '_')
    
    # Salvar em diferentes formatos
    parquet_file = processed_dir / f"processed_{topic_slug}_{timestamp}.parquet"
    csv_file = processed_dir / f"processed_{topic_slug}_{timestamp}.csv"
    
    try:
        print(f"üíæ Salvando dados processados...")
        
        # Salvar em Parquet (formato eficiente)
        df_processed.to_parquet(parquet_file, index=False, compression='snappy')
        parquet_size = parquet_file.stat().st_size / (1024*1024)
        print(f"‚úÖ Parquet salvo: {parquet_file.name} ({parquet_size:.2f} MB)")
        
        # Salvar em CSV (para compatibilidade)
        df_processed.to_csv(csv_file, index=False)
        csv_size = csv_file.stat().st_size / (1024*1024)
        print(f"‚úÖ CSV salvo: {csv_file.name} ({csv_size:.2f} MB)")
        
        print(f"\nüìä Compress√£o: CSV {csv_size:.1f} MB ‚Üí Parquet {parquet_size:.1f} MB ({parquet_size/csv_size*100:.1f}%)")
        
        # Salvar metadados
        metadata = {
            'processed_at': datetime.now().isoformat(),
            'original_file': str(selected_file.name) if 'selected_file' in locals() else 'unknown',
            'original_records': len(df_raw) if 'df_raw' in locals() else 0,
            'processed_records': len(df_processed),
            'processing_time_seconds': processing_time if 'processing_time' in locals() else 0,
            'config': config,
            'statistics': final_stats if 'final_stats' in locals() else {}
        }
        
        metadata_file = processed_dir / f"metadata_{topic_slug}_{timestamp}.yaml"
        with open(metadata_file, 'w', encoding='utf-8') as f:
            yaml.dump(metadata, f, default_flow_style=False, allow_unicode=True)
        
        print(f"‚úÖ Metadados salvos: {metadata_file.name}")
        
        print(f"\nüéØ Arquivos gerados:")
        print(f"  üìÑ {parquet_file.name} - Dados processados (recomendado)")
        print(f"  üìÑ {csv_file.name} - Dados processados (CSV)")
        print(f"  üìÑ {metadata_file.name} - Metadados do processamento")
        
        # Verificar integridade dos dados salvos
        print(f"\nüîç Verificando integridade...")
        df_test = pd.read_parquet(parquet_file)
        assert len(df_test) == len(df_processed), "Erro na verifica√ß√£o de integridade"
        print(f"‚úÖ Integridade verificada - {len(df_test):,} registros")
        
    except Exception as e:
        print(f"‚ùå Erro ao salvar dados: {e}")
        import traceback
        traceback.print_exc()
        
else:
    print("‚ùå Nenhum dado processado dispon√≠vel para salvar")

## üöÄ Execu√ß√£o via Script

Alternativamente, voc√™ pode executar todo o pr√©-processamento usando o script dedicado:

In [None]:
# Executar pr√©-processamento usando o script preprocess.py
import subprocess

if 'selected_file' in locals() and selected_file:
    # Diret√≥rio do arquivo selecionado
    input_dir = selected_file.parent
    
    # Comando para executar o script de preprocessamento
    cmd = [
        "python", 
        str(project_root / "scripts" / "preprocess.py"),
        "--config", str(project_root / "config" / "topic.yaml"),
        "--input-dir", str(input_dir),
        "--output-dir", str(project_root / "data" / "processed"),
        "--format", "parquet",
        "--hash-users",
        "--combine",
        "--verbose"
    ]
    
    print(f"üîß Comando do script:")
    print(f"   {' '.join(cmd)}")
    print("\n" + "="*50)
    print("üöÄ EXECUTANDO PR√â-PROCESSAMENTO VIA SCRIPT...")
    print("="*50)
    
    try:
        # Executar o comando
        result = subprocess.run(cmd, capture_output=True, text=True, cwd=str(project_root))
        
        print("üì§ SA√çDA:")
        print(result.stdout)
        
        if result.stderr:
            print("‚ö†Ô∏è  ERROS/AVISOS:")
            print(result.stderr)
        
        if result.returncode == 0:
            print("‚úÖ Pr√©-processamento conclu√≠do com sucesso!")
            
            # Verificar arquivos gerados
            processed_dir = project_root / "data" / "processed"
            if processed_dir.exists():
                files = list(processed_dir.glob("*.parquet"))
                print(f"üìÑ Arquivos processados gerados: {len(files)}")
                for file in files:
                    size_mb = file.stat().st_size / (1024*1024)
                    print(f"  - {file.name}: {size_mb:.2f} MB")
                    
                    # Verificar conte√∫do
                    try:
                        df_check = pd.read_parquet(file)
                        print(f"    üìä {len(df_check):,} registros processados")
                        if 'lemmatized' in df_check.columns:
                            avg_length = df_check['lemmatized'].str.len().mean()
                            print(f"    üìè Comprimento m√©dio (lematizado): {avg_length:.1f} caracteres")
                    except Exception as e:
                        print(f"    ‚ö†Ô∏è  Erro ao verificar arquivo: {e}")
        else:
            print(f"‚ùå Pr√©-processamento falhou com c√≥digo: {result.returncode}")
            
    except Exception as e:
        print(f"‚ùå Erro ao executar script: {e}")
    
    print("\n" + "="*50)
    
else:
    print("‚ùå Nenhum arquivo de dados selecionado para processar")
    print("üí° Execute primeiro as c√©lulas de descoberta de dados")

## üìä Resumo do Pr√©-processamento

Este notebook realizou as seguintes etapas de pr√©-processamento:

### ‚úÖ **Etapas Executadas:**
1. **Limpeza de texto**: Remo√ß√£o de URLs, mentions, hashtags e caracteres especiais
2. **Normaliza√ß√£o**: Convers√£o para min√∫sculas e remo√ß√£o de espa√ßos extras
3. **Lematiza√ß√£o**: Redu√ß√£o das palavras √†s suas formas b√°sicas usando SpaCy PT-BR
4. **Filtragem**: Aplica√ß√£o de filtros de comprimento, idioma e qualidade
5. **Valida√ß√£o**: Verifica√ß√£o de integridade e qualidade dos dados processados

### üìà **Pr√≥ximos Passos:**
- **An√°lise Explorat√≥ria**: Examine os dados processados em detalhes
- **Rotulagem**: Prepare dados para treinamento de modelos
- **Modelagem**: Treine modelos de an√°lise de sentimento
- **Avalia√ß√£o**: Teste e valide os modelos treinados

### üìÅ **Arquivos Gerados:**
- `processed_*.parquet`: Dados processados em formato eficiente
- `processed_*.csv`: Dados processados em formato CSV
- `metadata_*.yaml`: Metadados do processamento

Os dados est√£o prontos para as pr√≥ximas etapas do pipeline de an√°lise de sentimento! üéâ