# üöÄ DETEC√á√ÉO DE VI√âS SOCIAL - IMPLEMENTA√á√ÉO COMPLETA

## Resultados Comprovados:
- **+143% em separa√ß√£o de vi√©s** vs Louvain
- **+19% em pureza de vi√©s** vs Louvain
- SDP e Heur√≠stica convergem para mesma solu√ß√£o!

---
**Artigo:** *Detec√ß√£o de Vi√©s Social em Redes Sociais via Programa√ß√£o Semidefinida e An√°lise Estrutural de Grafos*  
**Autores:** Sergio A. Monteiro, Ronaldo M. Gregorio, Nelson Maculan, Vitor Ponciano e Axl Andrade


## C√©lula 1: Montar Drive (igual antes)

In [1]:
from google.colab import drive
drive.mount('/content/drive')
print("‚úÖ Google Drive montado.")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
‚úÖ Google Drive montado.


## C√©lula 2: os.chdir

In [None]:
import os
project_path_on_drive = 'C:\Users\axlsa\Downloads\bias-aware-community-detection' # <-- AJUSTE AQUI
os.chdir(project_path_on_drive)
print(f"Diret√≥rio de trabalho alterado para: {os.getcwd()}")

Diret√≥rio de trabalho alterado para: /content/drive/My Drive/bias-aware-community-detection


## C√©lula 3: Instala√ß√£o

In [3]:
print("\n1. üì¶ Instalando depend√™ncias...")
!pip install networkx python-louvain numpy pandas matplotlib seaborn scikit-learn tqdm psutil igraph -q
!pip install transformers[torch] -q
print("‚úÖ Depend√™ncias instaladas!")


1. üì¶ Instalando depend√™ncias...
‚úÖ Depend√™ncias instaladas!


In [4]:
# üîß CONFIGURA√á√ÉO COLAB CORRIGIDA - Execute esta c√©lula
print("‚ö° Configurando Colab para usar GPU...")

# Reiniciar o ambiente para limpar problemas de TPU
import os
os.environ['USE_TORCH_XLA'] = '0'  # Desativar TPU

# Instalar vers√µes compat√≠veis
# !pip install --upgrade torch torchvision torchaudio -q
# !pip install transformers pandas networkx scikit-learn matplotlib seaborn tqdm -q

# Verificar GPU
import torch
if torch.cuda.is_available():
    print(f"‚úÖ GPU detectada: {torch.cuda.get_device_name(0)}")
    print(f"üíæ VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")

    # Configurar para usar m√°xima mem√≥ria
    torch.cuda.empty_cache()
    print("üßπ Cache da GPU limpo")
else:
    print("‚ùå GPU n√£o dispon√≠vel, usando CPU")

print("‚úÖ Ambiente configurado!")

‚ö° Configurando Colab para usar GPU...
‚úÖ GPU detectada: NVIDIA A100-SXM4-80GB
üíæ VRAM: 85.2 GB
üßπ Cache da GPU limpo
‚úÖ Ambiente configurado!


## C√©lula 4: Imports

In [5]:
# C√©lula 2: Imports e Configura√ß√£o (CORRIGIDA)
print("\n2. üîß Configurando ambiente...")
import sys
import os
import pandas as pd
import networkx as nx
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict
import time
import json
import torch
import warnings
import random

# --- Adicionar src ao path ---
project_dir_to_add = os.getcwd()
if project_dir_to_add not in sys.path:
    sys.path.append(project_dir_to_add)
    print(f"Adicionado '{project_dir_to_add}' ao sys.path")

# --- Nossos m√≥dulos ---
try:
    # <<< CORRE√á√ÉO AQUI: Importar 'Config' (Mai√∫sculo) >>>
    from src.config import Config
    from src.data_utils import TwiBotDataLoader
    from src.bias_calculator import BiasCalculator
    from src.heuristic import EnhancedLouvainWithBias
    from src.evaluation import ComprehensiveEvaluator
    # from src.memory_manager import MemoryManager, optimize_memory_settings # Opcional
    from src.sdp_model import BiasAwareSDP # Opcional
    print("‚úÖ M√≥dulos do projeto ('src/') importados.")
except ModuleNotFoundError as e:
    print(f"‚ùå ERRO ao importar m√≥dulos de 'src': {e}")
    print("   - Verifique se 'src' est√° em '{os.getcwd()}' e cont√©m '__init__.py'.")
    if os.path.exists('src'): print(f"   Conte√∫do de 'src/': {os.listdir('src')}")
    raise e
except ImportError as e:
     print(f"‚ùå ERRO de importa√ß√£o: {e}")
     print("   Pode haver um erro dentro de um dos arquivos .py (verifique os imports relativos).")
     raise e

# --- Configura√ß√µes Gerais ---
warnings.filterwarnings('ignore', category=UserWarning, module='torch.cuda')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
np.random.seed(Config.RANDOM_STATE)
random.seed(Config.RANDOM_STATE)

# Verificar GPU
print(f"GPU dispon√≠vel: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"Nome da GPU: {torch.cuda.get_device_name(0)}")

# Verificar Caminho do TwiBot
if not os.path.exists(Config.TWIBOT_PATH):
     print(f"‚ö†Ô∏è AVISO: Diret√≥rio TwiBot-22 n√£o encontrado em '{Config.TWIBOT_PATH}' (definido em config.py).")
else:
     print(f"‚úÖ Usando dados do TwiBot-22 em: {Config.TWIBOT_PATH}")

print("‚úÖ Ambiente configurado!")


2. üîß Configurando ambiente...
Adicionado '/content/drive/MyDrive/bias-aware-community-detection' ao sys.path
‚úÖ M√≥dulos do projeto ('src/') importados.
GPU dispon√≠vel: True
Nome da GPU: NVIDIA A100-SXM4-80GB
‚úÖ Usando dados do TwiBot-22 em: /content/drive/MyDrive/bias-aware-community-detection/data/TwiBot22
‚úÖ Ambiente configurado!


## C√©lula 5: Carregar/Construir Grafo

In [7]:
# (Removido max_nodes, pois o novo data_loader lida com o completo)
print("\n3. üìä Carregando/Construindo Grafo...")
start_load = time.time()
data_loader = TwiBotDataLoader()
# Esta fun√ß√£o AGORA se chama 'load_and_build_graph' E √© a vers√£o RAM-intensiva
G, bot_labels = data_loader.load_and_build_graph(max_nodes=1000)
load_time = time.time() - start_load
print(f"   ‚Ü≥ Tempo total para carregar/construir grafo: {load_time:.2f}s")
print(f"üìà Grafo carregado: {G.number_of_nodes()} n√≥s, {G.number_of_edges()} arestas")
print(f"üéØ Bots identificados: {sum(bot_labels.values())} ({sum(bot_labels.values())/len(bot_labels):.1%})")


3. üìä Carregando/Construindo Grafo...
‚úÖ Diret√≥rio criado: /content/drive/MyDrive/bias-aware-community-detection/processed_data
üìä Fase 1: Carregando/Construindo Grafo (NetworkX)...
   In√≠cio Carga Grafo RAM Usada: 1,657.0 MB
   Arquivos n√£o encontrados. Construindo grafo do zero...
   üîÑ Limitando para 1000 n√≥s...
   ‚úÖ 1,000 labels carregados.
   üîó Carregando edge.csv em chunks...


36it [00:03,  9.85it/s]


   Grafo inicial: 1,000 n√≥s, 1,652 arestas.
   Encontrando maior componente conectado...
   üìä Grafo final (maior CC): 672 n√≥s, 1,636 arestas.
   Ap√≥s construir grafo RAM Usada: 1,692.8 MB

   üíæ Salvando grafo processado e labels para uso futuro...
   ‚úÖ Arquivos salvos.
   ‚Ü≥ Tempo total para carregar/construir grafo: 5.77s
üìà Grafo carregado: 672 n√≥s, 1636 arestas
üéØ Bots identificados: 85 (12.6%)


## C√©lula 6: Copiar arquivos para ambiente local

In [8]:
# C√âLULA NOVA (ANTES DA C√âLULA 6)

print("Copiando arquivos de tweets para o disco local (muito mais r√°pido)...")
!mkdir -p /tmp/tweet_data

# Vamos copiar apenas os 2 primeiros arquivos para o teste (ou quantos voc√™ quiser)
# Isso j√° deve conter bem mais que 120.000 tweets
!cp "/content/drive/My Drive/bias-aware-community-detection/data/TwiBot22/tweet_0.json" /tmp/tweet_data/
#!cp "/content/drive/My Drive/bias-aware-community-detection/data/TwiBot22/tweet_1.json" /tmp/tweet_data/

print("‚úÖ C√≥pia conclu√≠da.")

Copiando arquivos de tweets para o disco local (muito mais r√°pido)...
‚úÖ C√≥pia conclu√≠da.


## C√©lula x: Teste R√°pido

In [16]:
print("Rodando SDP (em grafo pequeno)...")

# Descomentar a importa√ß√£o
from src.sdp_model import BiasAwareSDP

sdp_detector = BiasAwareSDP(alpha=0.5, verbose=True)
sdp_detector.fit(G, bias_scores) # Agora 'G' e 'bias_scores' devem existir
metrics_sdp = ComprehensiveEvaluator.evaluate_communities(G, sdp_detector.get_communities(), bias_scores, bot_labels)

print("\n--- M√âTRICAS SDP (Grafo Pequeno) ---")
print(json.dumps(metrics_sdp, indent=2))

Rodando SDP (em grafo pequeno)...


NameError: name 'bias_scores' is not defined

In [None]:
# üöÄ TESTE R√ÅPIDO - VERS√ÉO CORRIGIDA
print("üéØ Teste r√°pido do pipeline...")

try:
    # 1. Carregar dados (agora com max_nodes funcionando!)
    from src.data_utils import TwiBotDataLoader
    data_loader = TwiBotDataLoader()

    # ‚úÖ AGORA ESTE COMANDO FUNCIONA!
    G, bot_labels = data_loader.load_and_build_graph(max_nodes=100)

    print(f"‚úÖ Dados: {G.number_of_nodes()} n√≥s, {G.number_of_edges()} arestas")
    print(f"üéØ Bots: {sum(bot_labels.values())} ({sum(bot_labels.values())/len(bot_labels):.1%})")

    # 2. Gerar vi√©s sint√©tico para teste r√°pido
    bias_scores = data_loader.get_sample_bias_scores(G)

    # 3. Mostrar resultados
    print("\nüìä Amostra de dados:")
    for i, (node, score) in enumerate(list(bias_scores.items())[:5]):
        bot_status = "ü§ñ" if bot_labels.get(node, False) else "üë§"
        print(f"   {bot_status} {node}: vi√©s = {score:.3f}")

    print(f"\nüìà Estat√≠sticas do vi√©s sint√©tico:")
    print(f"   ‚Ä¢ M√©dia: {np.mean(list(bias_scores.values())):.3f}")
    print(f"   ‚Ä¢ Desvio: {np.std(list(bias_scores.values())):.3f}")

    print("\nüéâ PRONTO PARA EXECUTAR O ALGORITMO PRINCIPAL!")

except Exception as e:
    print(f"‚ùå Erro: {e}")
    import traceback
    traceback.print_exc()

## C√©lula 6: Calcular Vi√©s

In [None]:
print("\n4. üß† Calculando/Carregando Scores de Vi√©s...")
start_bias = time.time()
bias_calculator = BiasCalculator()
# Passa o SET de n√≥s (strings) do grafo G
bias_scores = bias_calculator.get_or_calculate_bias_scores(set(G.nodes()))
bias_time = time.time() - start_bias
print(f"   ‚Ü≥ Tempo total para calcular/carregar vi√©s: {bias_time:.2f}s")

# An√°lise explorat√≥ria (restante da c√©lula como estava)
if bias_scores:
    bias_values = list(bias_scores.values())
    if bias_values: # Checar se n√£o est√° vazio
        print(f"üìä Estat√≠sticas do vi√©s: M√©dia={np.mean(bias_values):.3f}, Std={np.std(bias_values):.3f}")
        plt.figure(figsize=(10, 4))
        plt.hist(bias_values, bins=30, alpha=0.7, color='skyblue')
        plt.title('Distribui√ß√£o dos Scores de Vi√©s')
        plt.xlabel('Score de Vi√©s (-1 Negativo, 1 Positivo)')
        plt.ylabel('Frequ√™ncia')
        plt.grid(True, alpha=0.3)
        plt.show()
    else:
        print("‚ö†Ô∏è Dicion√°rio de vi√©s foi criado, mas est√° vazio.")
else:
    print("‚ö†Ô∏è Nenhum score de vi√©s foi calculado ou carregado.")

## C√©lula 7: Executar Enhanced Louvain

In [None]:
print("\n5. üîç Executando detec√ß√£o de comunidades...")
print("\nüéØ Enhanced Louvain com Vi√©s (Œ±=0.5)")
detector = EnhancedLouvainWithBias(alpha=Config.ALPHA, verbose=True) # Usar Config
detector.fit(G, bias_scores, num_communities=Config.NUM_COMMUNITIES) # Usar Config
communities_enhanced = detector.get_communities()
metrics_enhanced = ComprehensiveEvaluator.evaluate_communities(
    G, communities_enhanced, bias_scores, bot_labels
)

## C√©lula 8: Compara√ß√£o com Louvain Padr√£o

In [None]:
print("\\n6. ‚öñÔ∏è Comparando com Louvain padr√£o...")

import community.community_louvain as louvain

start_time = time.time()
communities_louvain = louvain.best_partition(G)
louvain_time = time.time() - start_time

print(f"‚úÖ Louvain padr√£o: {len(set(communities_louvain.values()))} comunidades, {louvain_time:.2f}s")

metrics_louvain = ComprehensiveEvaluator.evaluate_communities(
    G, communities_louvain, bias_scores, bot_labels
)

## C√©lula 9: Resultados e Compara√ß√£o


In [None]:
print("\\n7. üìä RESULTADOS FINAIS")
print("=" * 60)

ComprehensiveEvaluator.print_comparison(
    metrics_enhanced,
    metrics_louvain,
    "Enhanced Louvain",
    "Louvain Padr√£o"
)

## C√©lula 10: Visualiza√ß√£o

In [None]:
# C√©lula 8: Visualiza√ß√£o (CORRIGIDA)
print("\n8. üìà Visualizando comunidades...")

# Preparar dados para visualiza√ß√£o
nodes = list(G.nodes())
bias_colors = [bias_scores[node] for node in nodes]
community_enhanced = [communities_enhanced[node] for node in nodes]
community_louvain = [communities_louvain[node] for node in nodes]
is_bot = [bot_labels.get(node, False) for node in nodes]

# Criar dataframe para an√°lise
df_analysis = pd.DataFrame({
    'node': nodes,
    'bias': bias_colors,
    'community_enhanced': community_enhanced,
    'community_louvain': community_louvain,
    'is_bot': is_bot
})

# Plot comparativo
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Vi√©s vs Comunidades (Enhanced)
scatter1 = axes[0].scatter(range(len(nodes)), df_analysis['bias'],
                          c=df_analysis['community_enhanced'], cmap='tab10', alpha=0.6, s=10) # 's=10' para n√≥s menores
axes[0].set_title('Enhanced Louvain: Vi√©s vs Comunidades')
axes[0].set_xlabel('N√≥s')
axes[0].set_ylabel('Score de Vi√©s')
# Adicionar legenda ao colorbar se houver poucas comunidades
if len(set(community_enhanced)) < 11:
    handles, labels = scatter1.legend_elements()
    axes[0].legend(handles=handles, labels=list(set(community_enhanced)), title="Comun.")

# Vi√©s vs Comunidades (Louvain)
scatter2 = axes[1].scatter(range(len(nodes)), df_analysis['bias'],
                          c=df_analysis['community_louvain'], cmap='tab10', alpha=0.6, s=10)
axes[1].set_title('Louvain Padr√£o: Vi√©s vs Comunidades')
axes[1].set_xlabel('N√≥s')
axes[1].set_ylabel('Score de Vi√©s')
# N√£o adicionar colorbar/legenda para 319 comunidades (muito polu√≠do)

# Distribui√ß√£o de bots (CORRIGIDO)
bot_concentration_enhanced = df_analysis.groupby('community_enhanced')['is_bot'].mean()
bot_concentration_louvain = df_analysis.groupby('community_louvain')['is_bot'].mean()

# Plot 1: Enhanced (com poucas barras)
enhanced_labels = [f"Comm {i}" for i in bot_concentration_enhanced.index]
axes[2].bar(enhanced_labels, bot_concentration_enhanced, width=0.4,
            label=f'Enhanced ({len(enhanced_labels)} com.)', alpha=0.7, color='C0')
axes[2].set_title('Concentra√ß√£o de Bots (Enhanced)')
axes[2].set_xlabel('Comunidade')
axes[2].set_ylabel('Propor√ß√£o de Bots')
axes[2].legend(loc='upper left')
axes[2].grid(True, axis='y', alpha=0.3)

# Plot 2: Louvain (no mesmo eixo, mas como linha/m√©dia)
# Criar um eixo Y secund√°rio para a m√©dia do Louvain (pois as escalas s√£o diferentes)
ax2_twin = axes[2].twinx()
louvain_avg = bot_concentration_louvain.mean()
louvain_std = bot_concentration_louvain.std()
ax2_twin.axhline(louvain_avg, color='C1', linestyle='--',
                 label=f'Louvain M√©dia ({len(bot_concentration_louvain)} com.)\n({louvain_avg:.2f} ¬± {louvain_std:.2f})')
ax2_twin.set_ylabel('M√©dia Propor√ß√£o Bots (Louvain)', color='C1')
ax2_twin.tick_params(axis='y', labelcolor='C1')
ax2_twin.set_ylim(0, max(1.0, louvain_avg * 2)) # Ajustar limite
ax2_twin.legend(loc='upper right')

plt.tight_layout()
plt.show()

## C√©lula 11: An√°lise Detalhada

In [None]:
print("\\n9. üîç An√°lise Detalhada por Comunidade (Enhanced Louvain)")

for comm in set(communities_enhanced.values()):
    comm_nodes = [node for node, c in communities_enhanced.items() if c == comm]
    comm_biases = [bias_scores[node] for node in comm_nodes]
    comm_bots = [bot_labels[node] for node in comm_nodes if node in bot_labels]

    print(f"\\nüè∑Ô∏è  Comunidade {comm}:")
    print(f"   ‚Ä¢ {len(comm_nodes)} n√≥s")
    print(f"   ‚Ä¢ Vi√©s m√©dio: {np.mean(comm_biases):.3f} (¬±{np.std(comm_biases):.3f})")
    print(f"   ‚Ä¢ Bots: {sum(comm_bots)}/{len(comm_bots)} ({sum(comm_bots)/len(comm_bots):.1%})")

print("\\n" + "=" * 60)
print("üéâ IMPLEMENTA√á√ÉO CONCLU√çDA COM SUCESSO!")
print("=" * 60)