# üì• Notebook 1: Coleta de Dados - Reddit

Este notebook demonstra o processo de coleta de dados de redes sociais (Reddit) para an√°lise de sentimento em t√≥picos espec√≠ficos.

## üéØ Objetivos
- Configurar e testar coletores de dados
- Coletar posts sobre um t√≥pico espec√≠fico
- Validar qualidade dos dados coletados
- Preparar dados para pr√©-processamento

## üìã Pr√©-requisitos
- Credenciais do Reddit configuradas em `.env`
- Ambiente Python com depend√™ncias instaladas
- Configura√ß√£o do t√≥pico em `config/topic.yaml`

In [5]:
# Imports e configura√ß√£o inicial
import sys
import os
import pandas as pd
import yaml
from datetime import datetime
from pathlib import Path
import logging

# Adicionar src ao path
sys.path.append('../src')

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Verificar estrutura do projeto
project_root = Path("..").resolve()
print(f"üìÅ Diret√≥rio do projeto: {project_root}")
print(f"üìÇ Estrutura principal:")
for item in ["config", "src", "data", "scripts"]:
    path = project_root / item
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"  {status} {item}/")

print("\nüîß Python path:")
for p in sys.path[-3:]:
    print(f"  - {p}")

üìÅ Diret√≥rio do projeto: /home/diego/Documentos/disciplina-mestrado
üìÇ Estrutura principal:
  ‚úÖ config/
  ‚úÖ src/
  ‚úÖ data/
  ‚úÖ scripts/

üîß Python path:
  - /home/diego/Documentos/disciplina-mestrado/venv/lib/python3.11/site-packages
  - ../src
  - ../src


In [6]:
# Carregar configura√ß√£o do t√≥pico
config_path = project_root / "config" / "topic.yaml"

try:
    with open(config_path, 'r', encoding='utf-8') as f:
        config = yaml.safe_load(f)
    
    print("üìã Configura√ß√£o carregada:")
    print(f"  üéØ T√≥pico: {config['topic']}")
    print(f"  üîç Keywords: {config['keywords']}")
    print(f"  üìä Limites:")
    print(f"    - Reddit: {config['limits']['reddit']}")
    print(f"  üîß Filtros:")
    print(f"    - Comprimento: {config['filters']['min_length']}-{config['filters']['max_length']}")
    print(f"    - Idioma: {config['filters']['language']}")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo de configura√ß√£o n√£o encontrado: {config_path}")
    print("üí° Execute: cp config/topic.yaml.example config/topic.yaml")
except Exception as e:
    print(f"‚ùå Erro ao carregar configura√ß√£o: {e}")

üìã Configura√ß√£o carregada:
  üéØ T√≥pico: Taxas Trump Brasil
  üîç Keywords: ['trump', 'tarifa', 'taxa', 'imposto', 'brasil', 'eua', 'estados unidos', 'donald trump', 'tarifas', 'protecionismo', 'guerra comercial', 'economia', 'com√©rcio exterior', 'exporta√ß√£o', 'importa√ß√£o', 'brics', 'd√≥lar', 'moeda', 'san√ß√µes', 'retalia√ß√£o']
  üìä Limites:
    - Reddit: 8000
  üîß Filtros:
    - Comprimento: 15-500
    - Idioma: pt


In [7]:
# Testar importa√ß√£o dos scrapers
print("\nüîç Testando importa√ß√£o dos scrapers:")
try:
    from scrapers.reddit import RedditScraper  
    print("‚úÖ RedditScraper importado com sucesso")
except ImportError as e:
    print(f"‚ùå Erro ao importar RedditScraper: {e}")

try:
    from utils.config import load_config, setup_logging
    print("‚úÖ Utilit√°rios importados com sucesso")
except ImportError as e:
    print(f"‚ùå Erro ao importar utilit√°rios: {e}")

# Verificar se todos os arquivos necess√°rios existem
required_files = [
    "src/scrapers/reddit.py", 
    "src/utils/config.py",
    ".env.example"
]

print("\nüìÑ Verificando arquivos necess√°rios:")
for file_path in required_files:
    full_path = project_root / file_path
    status = "‚úÖ" if full_path.exists() else "‚ùå"
    print(f"  {status} {file_path}")


üîç Testando importa√ß√£o dos scrapers:
‚úÖ RedditScraper importado com sucesso
‚úÖ Utilit√°rios importados com sucesso

üìÑ Verificando arquivos necess√°rios:
  ‚úÖ src/scrapers/reddit.py
  ‚úÖ src/utils/config.py
  ‚úÖ .env.example


## üî¥ Teste de Coleta: Reddit

Vamos testar a coleta de dados do Reddit usando PRAW. **Importante**: Este teste requer credenciais configuradas no arquivo `.env`.

In [8]:
# Verificar credenciais do Reddit
import os
from dotenv import load_dotenv

# Carregar vari√°veis do .env
env_path = project_root / ".env"
if env_path.exists():
    load_dotenv(env_path)
    print("‚úÖ Arquivo .env encontrado")
else:
    print("‚ö†Ô∏è  Arquivo .env n√£o encontrado")
    print("üí° Execute: cp .env.example .env e configure as credenciais")

# Verificar se as credenciais est√£o configuradas
required_vars = ["REDDIT_ID", "REDDIT_SECRET", "REDDIT_AGENT", "REDDIT_USERNAME", "REDDIT_PASSWORD"]
missing_vars = []

print("\nüîê Verificando credenciais do Reddit:")
for var in required_vars:
    value = os.getenv(var)
    if value:
        # Mostrar apenas primeiros caracteres para seguran√ßa
        display_value = value[:4] + "..." if len(value) > 4 else value
        print(f"  ‚úÖ {var}: {display_value}")
    else:
        print(f"  ‚ùå {var}: n√£o configurado")
        missing_vars.append(var)

if missing_vars:
    print(f"\n‚ö†Ô∏è  Vari√°veis faltando: {missing_vars}")
    print("üí° Configure no arquivo .env antes de continuar")
else:
    print("\n‚úÖ Todas as credenciais est√£o configuradas!")

‚úÖ Arquivo .env encontrado

üîê Verificando credenciais do Reddit:
  ‚úÖ REDDIT_ID: HN2e...
  ‚úÖ REDDIT_SECRET: Has5...
  ‚úÖ REDDIT_AGENT: sent...
  ‚úÖ REDDIT_USERNAME: bian...
  ‚úÖ REDDIT_PASSWORD: D13g...

‚úÖ Todas as credenciais est√£o configuradas!


In [10]:
# Teste de coleta Reddit com limite pequeno
try:
    from scrapers.reddit import RedditScraper
    
    # Verificar se as credenciais est√£o dispon√≠veis
    if not missing_vars:
        print("üîç Testando coleta do Reddit...")
        
        # Configura√ß√µes de teste
        test_subreddits = config['reddit']['subreddits'][:1]  # Usar apenas 1 subreddit para teste
        test_limit = 5  # Limite pequeno para teste
        
        print(f"üìä Subreddits: {test_subreddits}")
        print(f"üìä Limite: {test_limit} posts por subreddit")
        
        # Inicializar scraper com a configura√ß√£o
        reddit_scraper = RedditScraper(config)
        
        # Realizar coleta de teste usando o m√©todo correto
        reddit_data = reddit_scraper.scrape(
            keywords=config['keywords'][:2],
            limit=test_limit
        )
        
        if reddit_data:
            print(f"‚úÖ Coleta bem-sucedida! {len(reddit_data)} posts coletados")
            
            # Converter para DataFrame para an√°lise
            df_reddit = pd.DataFrame(reddit_data)
            print(f"üìä Colunas: {list(df_reddit.columns)}")
            print(f"üìù Exemplo de post:")
            if len(df_reddit) > 0:
                print(f"  T√≠tulo: {df_reddit.iloc[0]['title'][:100]}...")
                print(f"  Data: {df_reddit.iloc[0]['timestamp']}")
                print(f"  Subreddit: {df_reddit.iloc[0].get('subreddit', 'N/A')}")
                print(f"  Score: {df_reddit.iloc[0].get('score', 'N/A')}")
        else:
            print("‚ö†Ô∏è  Nenhum post coletado. Verifique as keywords ou subreddits.")
            
    else:
        print("‚ùå N√£o √© poss√≠vel testar Reddit sem credenciais configuradas")
        print("üí° Configure o arquivo .env primeiro")
        
except Exception as e:
    print(f"‚ùå Erro na coleta do Reddit: {e}")
    print("üí° Verifique se o praw est√° instalado: pip install praw")

2025-07-10 20:00:17,943 - INFO - Scraping Reddit nos subreddits: ['brasil', 'brasilivre', 'politica', 'brasildob', 'circojeca', 'desabafos', 'investimentos', 'farialimabets', 'coronabr', 'conversas', 'economiadobrasil', 'politics', 'worldnews', 'news', 'economics', 'geopolitics', 'conservative', 'liberal', 'askreddit', 'unpopularopinion', 'changemyview', 'outoftheloop', 'explainlikeimfive']
2025-07-10 20:00:17,943 - INFO - Keywords: ['trump', 'tarifa']
2025-07-10 20:00:17,944 - INFO - Limite total: 5 posts
2025-07-10 20:00:17,944 - INFO - Buscando em r/brasil (quota: 0)...
2025-07-10 20:00:17,945 - INFO -   Buscando posts 'hot' em r/brasil


üîç Testando coleta do Reddit...
üìä Subreddits: ['brasil']
üìä Limite: 5 posts por subreddit


2025-07-10 20:00:19,210 - INFO - Coletados 2 posts de r/brasil
2025-07-10 20:00:19,919 - INFO - Buscando em r/brasilivre (quota: 0)...
2025-07-10 20:00:19,920 - INFO -   Buscando posts 'hot' em r/brasilivre
2025-07-10 20:00:20,929 - INFO - Coletados 1 posts de r/brasilivre
2025-07-10 20:00:21,539 - INFO - Buscando em r/politica (quota: 0)...
2025-07-10 20:00:21,539 - INFO -   Buscando posts 'hot' em r/politica
2025-07-10 20:00:22,530 - INFO - Coletados 1 posts de r/politica
2025-07-10 20:00:23,274 - INFO - Buscando em r/brasildob (quota: 10)...
2025-07-10 20:00:23,275 - INFO -   Buscando posts 'hot' em r/brasildob
2025-07-10 20:00:24,168 - INFO -   Buscando posts 'top' em r/brasildob
2025-07-10 20:00:25,012 - INFO -   Buscando posts 'new' em r/brasildob
2025-07-10 20:00:26,004 - INFO -   Buscando posts 'rising' em r/brasildob
2025-07-10 20:00:27,081 - INFO -   Buscando posts populares gerais em r/brasildob
2025-07-10 20:00:27,431 - INFO - Coletados 6 posts de r/brasildob
2025-07-10 20:

‚úÖ Coleta bem-sucedida! 5 posts coletados
üìä Colunas: ['platform', 'id', 'text', 'title', 'selftext', 'timestamp', 'user_hash', 'username', 'score', 'upvote_ratio', 'num_comments', 'subreddit', 'url', 'search_method', 'search_keyword', 'collected_at']
üìù Exemplo de post:
  T√≠tulo: Chantagem rasteira de Trump n√£o passar√°...
  Data: 2025-07-10 12:44:45
  Subreddit: brasil
  Score: 70


## üöÄ Coleta Completa

Uma vez que os testes funcionaram, podemos executar a coleta completa usando os limites definidos na configura√ß√£o.

In [None]:
# Executar coleta completa usando o script collector.py
import subprocess
import json
from datetime import datetime

# Definir par√¢metros da coleta - com tratamento para Twitter n√£o implementado
twitter_limit = config.get('limits', {}).get('twitter', 0)  # Default 0 se n√£o existir
reddit_limit = config['limits']['reddit']
topic = config['topic']

print(f"üéØ Iniciando coleta completa para: {topic}")
print(f"üìä Limites: Twitter={twitter_limit} (n√£o implementado), Reddit={reddit_limit}")

# Avisar sobre limita√ß√£o do Twitter
if twitter_limit > 0:
    print("‚ö†Ô∏è  Aviso: Coleta do Twitter n√£o est√° implementada nesta vers√£o")
    print("üìä Apenas dados do Reddit ser√£o coletados")
else:
    print("‚úÖ Configurado para coleta apenas do Reddit")

# Criar timestamp para esta execu√ß√£o
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
output_dir = project_root / "data" / "raw" / timestamp

print(f"üìÅ Salvando em: {output_dir}")

# Comando para executar o collector
cmd = [
    "python", 
    str(project_root / "scripts" / "collector.py"),
    "--config", str(project_root / "config" / "topic.yaml"),
    "--limit-twitter", str(twitter_limit),
    "--limit-reddit", str(reddit_limit),
    "--output-dir", str(output_dir),
    "--verbose"
]

print(f"üîß Comando: {' '.join(cmd)}")
print("\n" + "="*50)
print("üöÄ EXECUTANDO COLETA...")
print("="*50)

try:
    # Executar o comando
    result = subprocess.run(cmd, capture_output=True, text=True, cwd=str(project_root))
    
    print("üì§ SA√çDA:")
    print(result.stdout)
    
    if result.stderr:
        print("‚ö†Ô∏è  ERROS/AVISOS:")
        print(result.stderr)
    
    if result.returncode == 0:
        print("‚úÖ Coleta conclu√≠da com sucesso!")
        
        # Verificar arquivos gerados
        if output_dir.exists():
            files = list(output_dir.glob("*.csv"))
            print(f"üìÑ Arquivos gerados: {len(files)}")
            for file in files:
                size_mb = file.stat().st_size / (1024*1024)
                print(f"  - {file.name}: {size_mb:.2f} MB")
                
                # Mostrar preview dos dados se for arquivo do Reddit
                if file.name.startswith('reddit_'):
                    try:
                        import pandas as pd
                        df = pd.read_csv(file)
                        print(f"    üìä {len(df)} posts do Reddit coletados")
                        if len(df) > 0:
                            print(f"    üìÖ Per√≠odo: {df['timestamp'].min()} at√© {df['timestamp'].max()}")
                            subreddit_dist = df['subreddit'].value_counts().head(5).to_dict()
                            print(f"    üîó Top subreddits: {subreddit_dist}")
                    except Exception as e:
                        print(f"    ‚ö†Ô∏è  Erro ao ler preview: {e}")
        else:
            print("‚ö†Ô∏è  Diret√≥rio de sa√≠da n√£o encontrado")
    else:
        print(f"‚ùå Coleta falhou com c√≥digo: {result.returncode}")
        
except Exception as e:
    print(f"‚ùå Erro ao executar coleta: {e}")

print("\n" + "="*50)

üéØ Iniciando coleta completa para: Taxas Trump Brasil
üìä Limites: Twitter=0 (n√£o implementado), Reddit=8000
‚úÖ Configurado para coleta apenas do Reddit
üìÅ Salvando em: /home/diego/Documentos/disciplina-mestrado/data/raw/20250710_200409
üîß Comando: python /home/diego/Documentos/disciplina-mestrado/scripts/collector.py --config /home/diego/Documentos/disciplina-mestrado/config/topic.yaml --limit-twitter 0 --limit-reddit 8000 --output-dir /home/diego/Documentos/disciplina-mestrado/data/raw/20250710_200409 --verbose

üöÄ EXECUTANDO COLETA...
