
# üöÄ Experimento Completo: Detec√ß√£o de Vi√©s no TwiBot-22

Este notebook executa a pipeline completa de detec√ß√£o de vi√©s em **escala real**, conforme o artigo[cite: 1]. Ele √© otimizado para um ambiente de alta performance (Colab Pro com A100/160GB RAM).

**Objetivo:** Comparar a **Heur√≠stica Corrigida (Enhanced Louvain)**  com o **Louvain Padr√£o** no dataset TwiBot-22 completo.

## ‚öôÔ∏è Passo 0: Configura√ß√£o do Ambiente

In [1]:
import os

# ‚ÄºÔ∏è ATEN√á√ÉO: Confirme se este √© o caminho para a pasta raiz do seu projeto
project_path_on_drive = '..'

os.chdir(project_path_on_drive)
print(f"‚úÖ Diret√≥rio de trabalho alterado para: {os.getcwd()}")

‚úÖ Diret√≥rio de trabalho alterado para: c:\Users\axlsa\Documents\bias-aware-community-detection


In [2]:
print("üì¶ Instalando depend√™ncias...")

# Passo 0: Atualizar pip
print("   Atualizando pip...")
!pip install --upgrade pip -q

# Passo 1: Instalar PyTorch (com CUDA) usando o URL especial
print("   Instalando PyTorch (CUDA)...")
!pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

# Passo 2: Instalar as outras bibliotecas (do reposit√≥rio padr√£o)
print("   Instalando networkx, pandas, transformers, etc...")
!pip install ipywidgets scikit-learn networkx python-louvain pandas tqdm psutil transformers[torch] matplotlib seaborn -q

print("‚úÖ Depend√™ncias instaladas!")

üì¶ Instalando depend√™ncias...
   Atualizando pip...
   Instalando PyTorch (CUDA)...



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip
ERROR: To modify pip, please run the following command:
c:\Users\axlsa\Documents\bias-aware-community-detection\.venv\Scripts\python.exe -m pip install --upgrade pip -q


Looking in indexes: https://download.pytorch.org/whl/cu130
   Instalando networkx, pandas, transformers, etc...



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


‚úÖ Depend√™ncias instaladas!



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
print("üîß Importando m√≥dulos e configurando ambiente...")

import sys
import time
import json
import torch
import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import community.community_louvain as louvain
import warnings
import random
from collections import defaultdict

# Adicionar 'src' ao sys.path para imports
project_dir_to_add = os.getcwd()
if project_dir_to_add not in sys.path:
    sys.path.append(project_dir_to_add)

# Importar nossos m√≥dulos
try:
    from src.config import Config
    from src.data_utils import TwiBotDataLoader
    from src.bias_calculator import BiasCalculator
    from src.heuristic import EnhancedLouvainWithBias # A vers√£o CORRIGIDA
    from src.evaluation import ComprehensiveEvaluator
except ImportError as e:
    print(f"‚ùå ERRO: N√£o foi poss√≠vel importar os m√≥dulos. Verifique se os arquivos .py est√£o corretos e o __init__.py existe.")
    print(f"Detalhe: {e}")
    raise e

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
np.random.seed(Config.RANDOM_STATE)
random.seed(Config.RANDOM_STATE)
cfg = Config()

# --- Verifica√ß√£o de Hardware (Ambiente Local Windows 11) ---
print("\n--- Verifica√ß√£o de Hardware (Local) ---")

if torch.cuda.is_available():
    print(f"‚úÖ GPU: {torch.cuda.get_device_name(0)}")
    print(f"   VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
else:
    print("‚ùå GPU NVIDIA (CUDA) N√ÉO DETECTADA. Usando CPU (ser√° lento).")

# cfg foi definido na c√©lula anterior (cfg = Config())
print(f"‚úÖ CPUs: {os.cpu_count()} (Config.NUM_WORKERS={cfg.NUM_WORKERS})")
print("‚úÖ Ambiente local pronto!")

üîß Importando m√≥dulos e configurando ambiente...

--- Verifica√ß√£o de Hardware (Local) ---
‚úÖ GPU: NVIDIA GeForce RTX 3060
   VRAM: 12.9 GB
‚úÖ CPUs: 12 (Config.NUM_WORKERS=12)
‚úÖ Ambiente local pronto!


## üìä Passo 2: Carregar Grafo Completo (Full Scale)

In [4]:
print("üìä Carregando/Construindo Grafo (Full Scale)...")
start_load = time.time()

data_loader = TwiBotDataLoader()

# Garantir que os diret√≥rios de cache existem
cfg.create_dirs()

# Passar max_nodes=None para carregar o grafo inteiro
G, bot_labels = data_loader.load_and_build_graph(max_nodes=None)

load_time = time.time() - start_load
print(f"   ‚Ü≥ Tempo total para carregar/construir grafo: {load_time:.2f}s")
print(f"\nüìà Grafo Carregado: {G.number_of_nodes():,} n√≥s, {G.number_of_edges():,} arestas")
print(f"üéØ Bots Identificados: {sum(bot_labels.values()):,} ({sum(bot_labels.values())/len(bot_labels):.1%})")

üìä Carregando/Construindo Grafo (Full Scale)...
‚úÖ Diret√≥rio criado: c:\Users\axlsa\Documents\bias-aware-community-detection\processed_data
‚úÖ Diret√≥rio criado: c:\Users\axlsa\Documents\bias-aware-community-detection\processed_data
üìä Fase 1: Carregando/Construindo Grafo (NetworkX)...
   In√≠cio Carga Grafo RAM Usada: 763.8 MB
   Arquivos n√£o encontrados. Construindo grafo do zero...
   ‚úÖ 1,000,000 labels carregados.
   üîó Carregando edge.csv em chunks...


1702it [33:24,  1.18s/it]


   Grafo inicial: 1,000,000 n√≥s, 3,301,025 arestas.
   Encontrando maior componente conectado...
   üìä Grafo final (maior CC): 693,759 n√≥s, 3,301,024 arestas.
   Ap√≥s construir grafo RAM Usada: 1,743.7 MB

   üíæ Salvando grafo processado e labels para uso futuro...
   ‚úÖ Arquivos salvos.
   ‚Ü≥ Tempo total para carregar/construir grafo: 2036.53s

üìà Grafo Carregado: 693,759 n√≥s, 3,301,024 arestas
üéØ Bots Identificados: 81,431 (11.7%)


## üß† Passo 3: Calcular Scores de Vi√©s (Full Scale)

Esta √© a etapa computacionalmente mais intensiva. Ela ir√°:
1.  Ler os arquivos de `/tmp/` (r√°pido).
2.  Processar **todos** os tweets relevantes (sem limite artificial).
3.  Usar todos os seus `NUM_WORKERS` e a A100.

**Esta c√©lula levar√° um tempo consider√°vel (talvez horas), mas a barra de progresso `tqdm` mostrar√° o status.**

In [5]:
from collections import defaultdict

print("üß† Calculando/Carregando Scores de Vi√©s (Full Scale)...")
start_bias = time.time()

bias_calculator = BiasCalculator()

# Esta fun√ß√£o agora est√° configurada para ler de /tmp/ e sem TWEET_LIMIT_PER_WORKER
bias_scores = bias_calculator.get_or_calculate_bias_scores(set(G.nodes()))

bias_time = time.time() - start_bias
print(f"   ‚Ü≥ Tempo total para calcular/carregar vi√©s: {bias_time:.2f}s")

# An√°lise explorat√≥ria dos scores reais
if bias_scores:
    bias_values = [s for s in bias_scores.values() if s != 0.0] # Ignorar n√≥s com 0.0 (sem tweets)
    if bias_values:
        print(f"\nüìä Estat√≠sticas do Vi√©s (N√≥s com tweets: {len(bias_values):,}):")
        print(f"   M√©dia={np.mean(bias_values):.3f}, Std={np.std(bias_values):.3f}")

        plt.figure(figsize=(10, 4))
        plt.hist(bias_values, bins=50, alpha=0.7, color='blue')
        plt.title('Distribui√ß√£o dos Scores de Vi√©s (Dataset Completo)')
        plt.xlabel('Score de Vi√©s (-1 Negativo, 1 Positivo)')
        plt.ylabel('Frequ√™ncia')
        plt.grid(True, alpha=0.3)
        plt.show()
    else:
        print("‚ö†Ô∏è Dicion√°rio de vi√©s foi criado, mas est√° vazio ou s√≥ cont√©m zeros.")
else:
    print("‚ö†Ô∏è Nenhum score de vi√©s foi calculado ou carregado.")

üß† Calculando/Carregando Scores de Vi√©s (Full Scale)...

üß† Fase 2: Calculando/Carregando Scores de Vi√©s...
   In√≠cio Vi√©s RAM Usada: 1,670.1 MB
üíæ Verificando se o arquivo final 'c:\Users\axlsa\Documents\bias-aware-community-detection\processed_data\bias_scores.json' j√° existe...
   Arquivo final n√£o encontrado. Calculando...

--- Iniciando c√°lculo de scores de vi√©s (Single-Pass Paralelo) ---
--- ATEN√á√ÉO WINDOWS: Lendo do caminho original c:\Users\axlsa\Documents\bias-aware-community-detection\data\TwiBot22 ---
   (Caminho C:\tmp\tweet_data n√£o encontrado)

--- Passagem √önica: Processando 2 arquivos em paralelo (12 workers) ---
   Iniciando 2 workers. Acompanhe o progresso:


   Progresso Workers: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [59:03<00:00, 1771.63s/it]



üìä Processamento paralelo conclu√≠do em 3543.89 segundos.
   Ap√≥s processamento paralelo: RAM Usada: 19.4 MB

‚öôÔ∏è Agregando resultados dos workers...
   ‚Ü≥ Total de tweets processados: 0
   ‚úÖ Agrega√ß√£o conclu√≠da em 3.05s para 0 usu√°rios.
   Ap√≥s agrega√ß√£o: RAM Usada: 868.6 MB

‚öôÔ∏è Calculando scores m√©dios de vi√©s por usu√°rio...

‚öôÔ∏è Garantindo scores...
   ‚Ü≥ 693,759 n√≥s sem tweets receberam score 0.0.

üíæ Salvando scores finais em 'c:\Users\axlsa\Documents\bias-aware-community-detection\processed_data\bias_scores.json'...
   ‚úÖ Scores finais salvos.

‚úÖ C√°lculo de vi√©s (Completo) conclu√≠do.
   Final: RAM Usada: 886.0 MB
   ‚Ü≥ Tempo total para calcular/carregar vi√©s: 3549.23s
‚ö†Ô∏è Dicion√°rio de vi√©s foi criado, mas est√° vazio ou s√≥ cont√©m zeros.


## üéØ Passo 4: Executar Heur√≠stica Corrigida (Enhanced Louvain)

Executamos o algoritmo principal do artigo (a heur√≠stica corrigida) , usando `alpha=0.5` [cite: 18, 217] para balancear estrutura e vi√©s.

In [6]:
print(f"\nüéØ Executando Enhanced Louvain com Vi√©s (Œ±={cfg.ALPHA})...")
start_enhanced = time.time()

# Usar a classe HEURISTIC.PY corrigida
detector = EnhancedLouvainWithBias(alpha=cfg.ALPHA, verbose=True)

# O artigo foca em parti√ß√£o bin√°ria (k=2) [cite: 68-71, 99-106]
detector.fit(G, bias_scores, num_communities=2)

communities_enhanced = detector.get_communities()
enhanced_time = time.time() - start_enhanced

print(f"\n avaliando resultados da Heur√≠stica...")
metrics_enhanced = ComprehensiveEvaluator.evaluate_communities(
    G, communities_enhanced, bias_scores, bot_labels
)
metrics_enhanced['runtime'] = enhanced_time

print(f"‚úÖ Heur√≠stica conclu√≠da em {enhanced_time:.2f}s")


üéØ Executando Enhanced Louvain com Vi√©s (Œ±=0.5)...
üéØ Executando Enhanced Louvain (Œ±=0.5)...
   Fase 1: Executando Louvain padr√£o para parti√ß√£o inicial...


KeyboardInterrupt: 

## ‚öñÔ∏è Passo 5: Executar Baseline (Louvain Padr√£o)

Comparamos com o algoritmo de Louvain padr√£o, que otimiza apenas a modularidade (estrutura)[cite: 50].

In [None]:
print("\n‚öñÔ∏è Executando Louvain Padr√£o (Baseline)...")
start_louvain = time.time()

communities_louvain = louvain.best_partition(G, random_state=cfg.RANDOM_STATE)

louvain_time = time.time() - start_louvain

print(f"... Louvain Padr√£o encontrou {len(set(communities_louvain.values()))} comunidades.")
print("   Avaliando resultados do Louvain Padr√£o...")

metrics_louvain = ComprehensiveEvaluator.evaluate_communities(
    G, communities_louvain, bias_scores, bot_labels
)
metrics_louvain['runtime'] = louvain_time

print(f"‚úÖ Louvain Padr√£o conclu√≠do em {louvain_time:.2f}s")

## üìà Passo 6: Resultados Finais e Compara√ß√£o

Aqui vemos se o nosso m√©todo (Enhanced) supera o Baseline (Padr√£o) nas m√©tricas-chave do artigo: **Separa√ß√£o de Vi√©s** e **Pureza de Vi√©s** [cite: 136-138].

In [None]:
print("\n" + "=" * 60)
print("üìä RESULTADOS FINAIS (Full Scale TwiBot-22)")
print("=" * 60)

ComprehensiveEvaluator.print_comparison(
    metrics_enhanced,
    metrics_louvain,
    "Enhanced Louvain (Œ±=0.5)",
    "Louvain Padr√£o (Œ±=0.0)"
)

print("\n--- M√©tricas Detalhadas ---")
df_results = pd.DataFrame({
    "Enhanced Louvain (Œ±=0.5)": metrics_enhanced,
    "Louvain Padr√£o (Œ±=0.0)": metrics_louvain
}).T

print(df_results[['modularity', 'bias_separation', 'bias_purity', 'bot_concentration_max', 'num_communities', 'runtime']].to_markdown(floatfmt=".4f"))

## üîç Passo 7: An√°lise Detalhada das Comunidades

Vamos inspecionar as duas comunidades que nosso m√©todo encontrou.

In [None]:
print("\nüîç An√°lise Detalhada (Enhanced Louvain)")

comm_nodes_map = defaultdict(list)
for node, comm in communities_enhanced.items():
    comm_nodes_map[comm].append(node)

for comm_id in sorted(comm_nodes_map.keys()):
    comm_nodes = comm_nodes_map[comm_id]
    comm_biases = [bias_scores.get(node, 0) for node in comm_nodes]
    comm_bots = [bot_labels.get(node, False) for node in comm_nodes]

    print(f"\nüè∑Ô∏è  Comunidade {comm_id}:")
    print(f"   ‚Ä¢ {len(comm_nodes):,} n√≥s ({len(comm_nodes) / G.number_of_nodes():.1%})")
    print(f"   ‚Ä¢ Vi√©s m√©dio: {np.mean(comm_biases):.3f} (¬±{np.std(comm_biases):.3f})")
    print(f"   ‚Ä¢ Bots: {sum(comm_bots):,}/{len(comm_bots):,} ({sum(comm_bots)/len(comm_bots):.1%})")

print("\n" + "=" * 60)
print("üéâ EXPERIMENTO COMPLETO CONCLU√çDO!")
print("=" * 60)