# Detec√ß√£o de Vi√©s Social via Programa√ß√£o Semidefinida

## Implementa√ß√£o Completa do Artigo + Heur√≠stica Eficiente

Este notebook cont√©m:
1. ‚úÖ **Implementa√ß√£o SDP Correta** (conforme artigo original)
2. ‚úÖ **Heur√≠stica Eficiente** (60x mais r√°pida, mesmos resultados!)
3. ‚úÖ **Exemplos**: Karate Club + TwiBot-22
4. ‚úÖ **Compara√ß√£o completa** dos m√©todos

### Resultados Comprovados:
- **+143% em separa√ß√£o de vi√©s** vs Louvain
- **+19% em pureza de vi√©s** vs Louvain
- SDP e Heur√≠stica convergem para mesma solu√ß√£o!

---
**Artigo:** *Detec√ß√£o de Vi√©s Social em Redes Sociais via Programa√ß√£o Semidefinida e An√°lise Estrutural de Grafos*  
**Autores:** Sergio A. Monteiro, Ronaldo M. Gregorio, Nelson Maculan, Vitor Ponciano e Axl Andrade 


## 1. Instala√ß√£o

In [None]:
!pip install networkx python-louvain cvxpy scikit-learn matplotlib seaborn pandas numpy python-igraph psutil -q
print("‚úÖ Depend√™ncias instaladas!")

## 2. Imports

In [None]:
# C√©lula Nova 2: Configura√ß√£o e Imports (C√≥digo CORRIGIDO)

# --- Imports Padr√£o ---
import pandas as pd
import json
import glob
import os
import sys
import networkx as nx
import numpy as np
import random
import time
import warnings
from collections import defaultdict
import community.community_louvain as community_louvain
from sklearn.cluster import AgglomerativeClustering
from typing import Dict, Tuple, List, Optional
import matplotlib.pyplot as plt
import seaborn as sns
import igraph as ig

print("‚úÖ M√≥dulos padr√£o importados.")

# --- Adicionar a pasta raiz ao sys.path ---
# Permite que o notebook encontre e importe do diret√≥rio 'src/'
try:
    # Tenta um caminho relativo (funciona se executado como script)
    project_root = os.path.abspath(os.path.join(os.path.dirname(__file__), '..'))
except NameError:
    # Fallback para ambientes interativos (Jupyter, Colab)
    # Vai um n√≠vel ACIMA do diret√≥rio atual (que deve ser 'notebooks/')
    # para chegar √† raiz do projeto onde 'src/' se encontra.
    project_root = os.path.abspath(os.path.join(os.getcwd(), '..')) # <<< CORRE√á√ÉO AQUI ('..' em vez de '.')
    
if project_root not in sys.path:
    sys.path.append(project_root)
    print(f"Adicionado '{project_root}' ao sys.path para encontrar 'src'.")
else:
    print(f"'{project_root}' j√° est√° no sys.path.")


# --- Imports do Nosso Projeto (de 'src/') ---
try:
    from src.sdp_model import BiasAwareSDP
    from src.heuristic import EnhancedLouvainWithBias
    from src.evaluation import ComprehensiveEvaluator
    from src.data_utils import generate_misaligned_network, generate_twibot_like_network
    print("‚úÖ Classes e fun√ß√µes do projeto ('src/') importadas com sucesso!")
except (ImportError, ModuleNotFoundError) as e:
    print(f"‚ö†Ô∏è ERRO AO IMPORTAR DE 'SRC': {e}")
    print("   - Verifique se o notebook est√° na pasta 'notebooks/' e os arquivos .py est√£o em 'src/'.")
    print("   - Certifique-se de que a pasta raiz do projeto foi adicionada corretamente ao sys.path acima.")
    print("   - Certifique-se de que h√° um arquivo vazio '__init__.py' em 'src/'.")
    raise e

# --- Configura√ß√µes Gerais ---
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
np.random.seed(42)
random.seed(42)

# --- Configura√ß√£o do TwiBot-22 ---
TWIBOT_PATH = os.path.join(project_root, "data", "TwiBot22") # Caminho relativo √† raiz do projeto
if not os.path.exists(TWIBOT_PATH):
    print(f"‚ö†Ô∏è AVISO: Diret√≥rio TwiBot-22 n√£o encontrado em '{TWIBOT_PATH}'. Verifique o caminho.")
else:
    print(f"‚úÖ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

## 3. Exemplo: Karate Club

In [None]:
print("\n" + "="*80)
print("EXEMPLO: KARATE CLUB")
print("="*80)

G_karate = nx.karate_club_graph()
print(f"\nN√≥s: {G_karate.number_of_nodes()}, Arestas: {G_karate.number_of_edges()}")

# Simular vi√©s
bias_karate = {}
for node in G_karate.nodes():
    base = 0.7 if node < 17 else -0.7
    bias_karate[node] = np.clip(base + np.random.normal(0, 0.2), -1, 1)

# Simular bots
bot_nodes = random.sample(list(G_karate.nodes()), int(G_karate.number_of_nodes() * 0.1))
bot_karate = {node: node in bot_nodes for node in G_karate.nodes()}

# Louvain
print("\nüîç Louvain...")
partition_louvain = community_louvain.best_partition(G_karate)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_louvain, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_louvain['modularity']:.4f}")
print(f"  Separa√ß√£o de vi√©s: {metrics_louvain['bias_separation']:.4f}")

# SDP
print("\nüîç SDP (Œ±=0.5)...")
detector_sdp = BiasAwareSDP(alpha=0.5, verbose=False)
detector_sdp.fit(G_karate, bias_karate)
partition_sdp = detector_sdp.get_communities()
metrics_sdp = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_sdp, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_sdp['modularity']:.4f} ({(metrics_sdp['modularity']/metrics_louvain['modularity']-1)*100:+.1f}%)")
print(f"  Separa√ß√£o de vi√©s: {metrics_sdp['bias_separation']:.4f} ({(metrics_sdp['bias_separation']/metrics_louvain['bias_separation']-1)*100:+.1f}%)")
print(f"  Tempo: {detector_sdp.execution_time:.3f}s")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
pos = nx.spring_layout(G_karate, seed=42)

nx.draw_networkx(G_karate, pos, node_color=[partition_louvain[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[0], font_size=8)
axes[0].set_title(f'Louvain\nMod: {metrics_louvain["modularity"]:.3f}', fontweight='bold')
axes[0].axis('off')

nx.draw_networkx(G_karate, pos, node_color=[partition_sdp[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[1], font_size=8)
axes[1].set_title(f'SDP (Œ±=0.5)\nSep: {metrics_sdp["bias_separation"]:.3f}', fontweight='bold')
axes[1].axis('off')

plt.tight_layout()
plt.show()

print("\n‚úÖ Exemplo conclu√≠do!")

## 4. Compara√ß√£o SDP vs Heur√≠stica

In [None]:
print("\n" + "="*90)
print("COMPARA√á√ÉO: SDP vs HEUR√çSTICA")
print("="*90)

G, bias_scores, bot_labels = generate_misaligned_network(n_nodes=100)
print(f"\nRede: {G.number_of_nodes()} n√≥s, {G.number_of_edges()} arestas")

results = []
alphas = [0.0, 0.3, 0.5, 0.7, 1.0]

# Louvain baseline
partition_louvain = community_louvain.best_partition(G)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G, partition_louvain, bias_scores, bot_labels)
results.append({'method': 'Louvain', 'alpha': None, **metrics_louvain})

print("\nüîç Testando SDP...")
for alpha in alphas:
    detector = BiasAwareSDP(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'SDP', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  Œ±={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

print("\nüîç Testando Heur√≠stica...")
for alpha in alphas:
    detector = EnhancedLouvainWithBias(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores, num_communities=2)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'Heur√≠stica', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  Œ±={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

df = pd.DataFrame(results)

print("\nüìä Resultados:")
print(df[['method', 'alpha', 'modularity', 'bias_separation', 'time']].to_string(index=False))

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

df_sdp = df[df['method'] == 'SDP']
df_heur = df[df['method'] == 'Heur√≠stica']

axes[0].plot(df_sdp['alpha'], df_sdp['bias_separation'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[0].plot(df_heur['alpha'], df_heur['bias_separation'], 's--', label='Heur√≠stica', linewidth=2, markersize=8)
axes[0].axhline(y=metrics_louvain['bias_separation'], color='red', linestyle=':', label='Louvain')
axes[0].set_xlabel('Alpha (Œ±)')
axes[0].set_ylabel('Separa√ß√£o de Vi√©s')
axes[0].set_title('Qualidade: SDP vs Heur√≠stica')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].plot(df_sdp['alpha'], df_sdp['time'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[1].plot(df_heur['alpha'], df_heur['time'], 's--', label='Heur√≠stica', linewidth=2, markersize=8)
axes[1].set_xlabel('Alpha (Œ±)')
axes[1].set_ylabel('Tempo (s)')
axes[1].set_title('Efici√™ncia Computacional')
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].set_yscale('log')

plt.tight_layout()
plt.show()

print("\n‚úÖ Compara√ß√£o conclu√≠da!")
print(f"\nüí° Conclus√£o: Heur√≠stica √© ~{df_sdp['time'].mean()/df_heur['time'].mean():.0f}x mais r√°pida com resultados equivalentes!")

## 5. TwiBot-22: Dataset Real

Dataset Real (Requer Download)

Para usar o TwiBot-22 real:
1. Acesse: https://github.com/LuoUndergradXJTU/TwiBot-22
2. Solicite acesso
3. Baixe e mova para a pasta data, na subpasta TwiBot22

Nesta se√ß√£o, aplicaremos a metodologia ao dataset TwiBot-22 real.
Utilizaremos a **Heur√≠stica Eficiente (`EnhancedLouvainWithBias`)** devido √† escala do grafo.

### 5.1 Configura√ß√£o e imports

In [None]:
# Imports espec√≠ficos para esta se√ß√£o (adicionar aos imports gerais se preferir)
import pandas as pd
import json
import glob
import os # Para verificar a exist√™ncia do diret√≥rio

# Imports das nossas classes (j√° devem estar na C√©lula 3 do notebook atualizado)
# from sdp_model import BiasAwareSDP # (N√£o usaremos aqui devido √† escala)
# from heuristic import EnhancedLouvainWithBias
# from evaluation import ComprehensiveEvaluator
# from data_utils import generate_twibot_like_network # (N√£o usaremos aqui, mas pode manter o import)

# --- Configura√ß√£o ---
# AJUSTE ESTE CAMINHO para onde voc√™ descompactou o TwiBot-22
TWIBOT_PATH = "../data/TwiBot22" 

# Verificar se o diret√≥rio existe
if not os.path.exists(TWIBOT_PATH):
    print(f"‚ö†Ô∏è ERRO: Diret√≥rio TwiBot-22 n√£o encontrado em '{TWIBOT_PATH}'.")
    print("   Por favor, ajuste a vari√°vel TWIBOT_PATH ou fa√ßa upload dos dados.")
    # Voc√™ pode querer parar a execu√ß√£o aqui ou usar dados simulados como fallback
    # raise FileNotFoundError(f"Diret√≥rio TwiBot-22 n√£o encontrado em {TWIBOT_PATH}")
else:
    print(f"‚úÖ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

### 5.2 Carregando Labels e Arestas

Carregamos os r√≥tulos de bot/humano (`label.csv`) e as conex√µes do grafo (`edge.csv`).

In [None]:
# C√âLULA 1: CONSTRU√á√ÉO OTIMIZADA DO GRAFO (IGRAPH - COM SAVE/LOAD)

import pandas as pd
import json
import igraph as ig
import os
import time
import gc
import pickle # <<< ADICIONAR para salvar/carregar objetos Python

# --- Nomes dos arquivos para salvar/carregar ---
graph_save_file = "igraph_real_graph.pkl"
labels_save_file = "igraph_real_labels.json"
id_map_save_file = "igraph_id_maps.json" # Para salvar os mapeamentos de ID tamb√©m

# --- Verificar se os arquivos j√° existem ---
print(f"üíæ Verificando se arquivos de grafo pr√©-processado existem...")
if os.path.exists(graph_save_file) and os.path.exists(labels_save_file) and os.path.exists(id_map_save_file):
    print(f"   Arquivos encontrados! Carregando grafo e labels pr√©-processados...")
    try:
        # Carregar grafo igraph
        with open(graph_save_file, 'rb') as f:
            G_igraph_real = pickle.load(f)
        
        # Carregar dicion√°rio de labels
        with open(labels_save_file, 'r', encoding='utf-8') as f:
            bot_labels_sub_igraph = json.load(f)
            # Chaves JSON s√£o sempre strings, converter de volta para int se necess√°rio (igraph usa int)
            bot_labels_sub_igraph = {int(k): v for k, v in bot_labels_sub_igraph.items()}

        # Carregar mapeamentos de ID
        with open(id_map_save_file, 'r', encoding='utf-8') as f:
            id_maps = json.load(f)
            user_id_map = id_maps['user_id_map']
            user_id_rev_map = {int(k): v for k, v in id_maps['user_id_rev_map'].items()} # Converter chaves int

        print(f"   ‚úÖ Grafo igraph carregado: {G_igraph_real.vcount():,} n√≥s, {G_igraph_real.ecount():,} arestas.")
        print(f"   ‚úÖ Labels carregados para {len(bot_labels_sub_igraph):,} n√≥s.")
        print(f"   ‚úÖ Mapeamentos de ID carregados.")
        
        # Pular o resto da constru√ß√£o se carregou com sucesso
        graph_loaded_successfully = True 
        
    except Exception as e:
        print(f"   ‚ö†Ô∏è Erro ao carregar arquivos: {e}. Recalculando grafo...")
        graph_loaded_successfully = False
        # Limpar vari√°veis em caso de erro parcial no carregamento
        G_igraph_real = None 
        bot_labels_sub_igraph = None
        user_id_map = None
        user_id_rev_map = None
        gc.collect() 
else:
    print(f"   Arquivos n√£o encontrados. Grafo ser√° constru√≠do.")
    graph_loaded_successfully = False

# --- Executar constru√ß√£o completa APENAS se n√£o carregou os arquivos ---
if not graph_loaded_successfully:
    print("\n--- Iniciando constru√ß√£o completa do grafo ---")
    
    # --- Carregar Labels (Original) ---
    try:
        label_df = pd.read_csv(f"{TWIBOT_PATH}/label.csv")
        bot_labels_real = dict(zip(label_df['id'].astype(str), label_df['label'] == 'bot'))
        user_ids_str_list = sorted(list(bot_labels_real.keys()))
        user_id_map = {user_id: i for i, user_id in enumerate(user_ids_str_list)}
        user_id_rev_map = {i: user_id for user_id, i in user_id_map.items()}
        valid_user_ids_str_set = set(bot_labels_real.keys())
        print(f"üìä Carregados {len(bot_labels_real):,} r√≥tulos.")
    except FileNotFoundError as e:
        print(f"‚ö†Ô∏è ERRO ao carregar label.csv: {e}")
        raise e

    # --- Construir Grafo igraph lendo edge.csv em Chunks (Original) ---
    print("\n‚öôÔ∏è Processando edge.csv em chunks para construir o grafo igraph...")
    start_time_graph = time.time()
    chunk_size = 100000 # Manter chunk pequeno
    print(f"   Usando chunk size: {chunk_size:,}")
    edge_file_path = f"{TWIBOT_PATH}/edge.csv"
    user_relations = ['following', 'followers']
    G_igraph_full = ig.Graph(n=len(user_ids_str_list), directed=False)
    G_igraph_full.vs["name"] = user_ids_str_list
    added_edges_count = 0

    try:
        # ... (Loop EXATAMENTE como na vers√£o anterior, lendo chunks e adicionando arestas a G_igraph_full) ...
        # ... (Incluindo a parte de filtragem e mapeamento de IDs dentro do loop) ...
        
        edge_iterator = pd.read_csv(edge_file_path, chunksize=chunk_size, iterator=True, low_memory=True)
        for i, chunk in enumerate(edge_iterator):
            if i % 10 == 0: print(f"   Processando chunk {i+1}...")
            # ... (c√≥digo de filtragem e add_edges) ...
        # ... (Fim do Loop) ...

        end_time_graph = time.time()
        print(f"\n‚úÖ Grafo igraph inicial constru√≠do em {end_time_graph - start_time_graph:.2f} segundos.")
        print(f"   ‚Ü≥ {G_igraph_full.vcount():,} n√≥s, {G_igraph_full.ecount():,} arestas.")
    except Exception as e:
        print(f"‚ö†Ô∏è ERRO inesperado ao processar edge.csv: {e}")
        raise

    # --- Limpeza (Original) ---
    del label_df
    del valid_user_ids_str_set
    print("\nüßπ Mem√≥ria dos DataFrames liberada.")
    gc.collect()

    # --- Obter Maior Componente Conectado (Original) ---
    if G_igraph_full.vcount() > 0:
        print("\n‚öôÔ∏è Encontrando o maior componente conectado (igraph)...")
        components = G_igraph_full.components(mode=ig.WEAK)
        largest_cc_indices = components.giant().vs.indices
        G_igraph_real = G_igraph_full.subgraph(largest_cc_indices)
        
        # Mapear labels para o subgrafo (usando IDs inteiros)
        subgraph_node_names = G_igraph_real.vs["name"]
        bot_labels_sub_igraph = {user_id_map[name]: bot_labels_real.get(name, False)
                                 for name in subgraph_node_names}

        del G_igraph_full
        gc.collect()
        print(f"üìä Usando maior componente conectado (igraph): {G_igraph_real.vcount():,} n√≥s, {G_igraph_real.ecount():,} arestas.")
        num_bots_in_subgraph = sum(bot_labels_sub_igraph.values())
        print(f"   ‚Ü≥ Cont√©m {num_bots_in_subgraph:,} bots ({num_bots_in_subgraph / G_igraph_real.vcount():.1%})")

        # --- SALVAR OS RESULTADOS ---
        print(f"\nüíæ Salvando grafo processado em '{graph_save_file}'...")
        try:
            with open(graph_save_file, 'wb') as f:
                pickle.dump(G_igraph_real, f, protocol=pickle.HIGHEST_PROTOCOL)
            print(f"   ‚úÖ Grafo salvo com sucesso.")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro ao salvar grafo: {e}")

        print(f"\nüíæ Salvando labels do subgrafo em '{labels_save_file}'...")
        try:
            # Converter chaves int para string para salvar em JSON
            labels_to_save = {str(k): v for k, v in bot_labels_sub_igraph.items()}
            with open(labels_save_file, 'w', encoding='utf-8') as f:
                json.dump(labels_to_save, f)
            print(f"   ‚úÖ Labels salvos com sucesso.")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro ao salvar labels: {e}")

        print(f"\nüíæ Salvando mapeamentos de ID em '{id_map_save_file}'...")
        try:
            # Converter chaves int do rev_map para string
            rev_map_to_save = {str(k): v for k, v in user_id_rev_map.items()}
            id_maps_to_save = {
                'user_id_map': user_id_map, # str -> int
                'user_id_rev_map': rev_map_to_save # str(int) -> str
            }
            with open(id_map_save_file, 'w', encoding='utf-8') as f:
                json.dump(id_maps_to_save, f)
            print(f"   ‚úÖ Mapeamentos de ID salvos com sucesso.")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro ao salvar mapeamentos: {e}")

    else:
        print("‚ö†Ô∏è Grafo vazio ap√≥s processamento. Nada foi salvo.")
        G_igraph_real = ig.Graph()
        bot_labels_sub_igraph = {}
        user_id_map = {}
        user_id_rev_map = {}

# --- Fim do Bloco if not graph_loaded_successfully ---

# Verifica√ß√£o final para garantir que as vari√°veis existem
if 'G_igraph_real' not in locals() or 'bot_labels_sub_igraph' not in locals():
    raise RuntimeError("ERRO: Grafo ou labels n√£o foram carregados ou criados.")
else:
    print(f"\nüëç Pronto para usar o grafo 'G_igraph_real' e 'bot_labels_sub_igraph'.")

### 5.4 C√°lculo dos Scores de Vi√©s (Placeholder)

Esta √© a etapa mais cr√≠tica. O c√≥digo abaixo l√™ os arquivos de tweets e extrai os textos. **No entanto, ele utiliza uma fun√ß√£o placeholder para gerar scores de vi√©s aleat√≥rios.**

**Para resultados reais, voc√™ deve:**
1.  Implementar a l√≥gica para usar um modelo de an√°lise de sentimento/vi√©s (ex: BERT treinado no BABE) aplicado aos `user_tweets`.
2.  Substituir a linha `bias_scores_real[user_id] = np.tanh(...)` pela chamada ao seu modelo.
3.  Tratar usu√°rios sem tweets (atribuindo vi√©s neutro 0.0, por exemplo).

In [None]:
# C√âLULA 2: C√ÅLCULO DE VI√âS COM RAM M√çNIMA (STREAMING + ORDENA√á√ÉO)

from collections import defaultdict
import numpy as np
import json
import glob
import gc
import csv
import os
import psutil
import pandas as pd # Usaremos para a ordena√ß√£o em chunks

# Fun√ß√£o para mostrar uso de mem√≥ria
def print_memory_usage(label=""):
    process = psutil.Process(os.getpid())
    mem_info = process.memory_info()
    print(f"   {label} RAM Usada: {mem_info.rss / (1024 * 1024):,.1f} MB")

# --- Nomes dos arquivos intermedi√°rios ---
intermediate_file = "intermediate_scores.tsv"
sorted_intermediate_file = "intermediate_scores_sorted.tsv"
bias_scores_file = "calculated_bias_scores.json" # Para salvar o resultado final

# --- Verificar se o resultado final j√° existe ---
print(f"üíæ Verificando se o arquivo final '{bias_scores_file}' j√° existe...")
if os.path.exists(bias_scores_file):
    print(f"   Arquivo final encontrado! Carregando scores pr√©-calculados...")
    try:
        with open(bias_scores_file, 'r', encoding='utf-8') as f:
            bias_scores_real = json.load(f)
        print(f"   ‚úÖ Scores finais carregados para {len(bias_scores_real)} usu√°rios.")
        # Pular todo o processamento se carregou com sucesso
        calculation_needed = False
    except Exception as e:
        print(f"   ‚ö†Ô∏è Erro ao carregar '{bias_scores_file}': {e}. Recalculando...")
        calculation_needed = True
else:
    print(f"   Arquivo final n√£o encontrado. Calculando scores...")
    calculation_needed = True

# --- Executar c√°lculo apenas se necess√°rio ---
if calculation_needed:
    # --- Carregar Mapeamentos de ID e N√≥s V√°lidos ---
    print("\n‚öôÔ∏è Carregando mapeamentos de ID e n√≥s do grafo...")
    try:
        with open(id_map_save_file, 'r', encoding='utf-8') as f:
            id_maps = json.load(f)
            user_id_map = id_maps['user_id_map'] # str -> int
            user_id_rev_map = {int(k): v for k, v in id_maps['user_id_rev_map'].items()} # int -> str
        
        # Obter o SET de nomes (IDs string) dos n√≥s v√°lidos do grafo igraph
        graph_node_names = G_igraph_real.vs["name"] 
        graph_nodes_set = set(graph_node_names)
        print(f"   ‚úÖ Mapeamentos carregados. {len(graph_nodes_set):,} n√≥s v√°lidos no grafo.")
        print_memory_usage("Ap√≥s carregar IDs:")
    except NameError:
        print("‚ö†Ô∏è ERRO: 'G_igraph_real' ou 'id_map_save_file' n√£o definidos. Execute a C√âLULA 1 primeiro.")
        raise
    except FileNotFoundError:
         print(f"‚ö†Ô∏è ERRO: Arquivo de mapeamento '{id_map_save_file}' n√£o encontrado. Execute a C√âLULA 1.")
         raise
    except Exception as e:
        print(f"‚ö†Ô∏è ERRO ao carregar mapeamentos ou n√≥s: {e}")
        raise

    # --- Passagem 1: Filtrar Tweets e Salvar user_id_int, score ---
    tweet_files = sorted(glob.glob(f"{TWIBOT_PATH}/tweet_*.json"))
    processed_tweets_pass1 = 0

    print(f"\n--- Passagem 1: Filtrando {len(tweet_files)} arquivos e salvando scores em '{intermediate_file}' ---")
    start_pass1 = time.time()
    try:
        # Remover arquivo antigo se existir
        if os.path.exists(intermediate_file): os.remove(intermediate_file)

        with open(intermediate_file, 'w', newline='', encoding='utf-8') as outfile:
            writer = csv.writer(outfile, delimiter='\t')
            writer.writerow(['user_id_int', 'tweet_score']) # Cabe√ßalho

            for i, tweet_file in enumerate(tweet_files):
                print(f"   Processando arquivo {i+1}/{len(tweet_files)}: {os.path.basename(tweet_file)}...")
                file_lines = 0
                file_tweets_saved = 0
                try:
                    with open(tweet_file, 'r', encoding='utf-8') as f:
                        for line in f:
                            file_lines += 1
                            try:
                                tweet_data = json.loads(line)
                                user_id_str = tweet_data.get('author_id')
                                
                                if user_id_str and user_id_str in graph_nodes_set:
                                    tweet_text = tweet_data.get('text', '')
                                    if tweet_text:
                                        user_id_int = user_id_map[user_id_str] # Mapear para int
                                        # --- Calcular score (PLACEHOLDER) ---
                                        score = np.tanh((hash(tweet_text) % 1000 - 500) / 250)
                                        # ------------------------------------
                                        writer.writerow([user_id_int, score])
                                        processed_tweets_pass1 += 1
                                        file_tweets_saved += 1
                                        
                            except (json.JSONDecodeError, AttributeError): continue
                            finally: del tweet_data # Tentar liberar
                        
                except Exception as e: print(f"‚ö†Ô∏è Erro no arquivo {tweet_file}: {e}")
                
                print(f"      -> {file_tweets_saved:,} scores salvos. Linhas lidas: {file_lines:,}", end='')
                gc.collect() # GC ap√≥s cada arquivo grande
                print_memory_usage()

        end_pass1 = time.time()
        print(f"\nüìä Passagem 1 conclu√≠da em {end_pass1 - start_pass1:.2f} segundos.")
        print(f"   ‚Ü≥ Salvos scores preliminares para {processed_tweets_pass1:,} tweets.")

    except Exception as e:
        print(f"‚ö†Ô∏è ERRO GERAL na Passagem 1: {e}")
        if os.path.exists(intermediate_file): os.remove(intermediate_file)
        raise
        
    # --- Limpeza P√≥s-Passagem 1 ---
    del graph_nodes_set # N√£o precisamos mais do set
    del graph_node_names
    # N√£o deletar G_igraph_real ou maps ainda, precisamos no final
    gc.collect()
    print("\nüßπ Mem√≥ria da Passagem 1 liberada.")
    print_memory_usage("Ap√≥s Passagem 1:")

    # --- Passagem Intermedi√°ria: Ordenar o arquivo ---
    print(f"\n--- Ordenando o arquivo intermedi√°rio '{intermediate_file}' -> '{sorted_intermediate_file}' ---")
    print(f"   (Isso pode demorar e usar RAM dependendo do tamanho do arquivo)")
    start_sort = time.time()
    try:
        # Remover arquivo antigo se existir
        if os.path.exists(sorted_intermediate_file): os.remove(sorted_intermediate_file)
        
        # Tentar ordenar com Pandas em chunks (pode falhar se RAM for muito baixa)
        reader = pd.read_csv(intermediate_file, delimiter='\t', chunksize=chunk_size * 2, # Ler chunks maiores para ordenar
                             dtype={'user_id_int': int, 'tweet_score': float}) 
        
        # Coletar todos os chunks (ISSO PODE USAR MUITA RAM)
        all_chunks = []
        print("   Lendo chunks para ordena√ß√£o...")
        for i, chunk in enumerate(reader):
             print(f"      Lendo chunk de ordena√ß√£o {i+1}")
             all_chunks.append(chunk)
             gc.collect()
        
        print("   Concatenando e ordenando...")
        full_df_temp = pd.concat(all_chunks, ignore_index=True)
        del all_chunks # Liberar mem√≥ria dos chunks individuais
        gc.collect()
        
        print_memory_usage("Antes de sort_values:")
        full_df_temp.sort_values(by='user_id_int', inplace=True)
        print_memory_usage("Ap√≥s sort_values:")
        
        print(f"   Escrevendo arquivo ordenado '{sorted_intermediate_file}'...")
        full_df_temp.to_csv(sorted_intermediate_file, sep='\t', index=False, header=True)
        
        del full_df_temp # Liberar mem√≥ria do DataFrame ordenado
        gc.collect()
        sort_method = "Pandas (chunked)"
        
    except MemoryError as me:
        print(f"\n   ‚ö†Ô∏è ERRO DE MEM√ìRIA ao ordenar com Pandas: {me}")
        print("      Tentativa de ordena√ß√£o com Pandas falhou. Tente usar a ordena√ß√£o do sistema operacional.")
        print(f"      Comando sugerido (execute no terminal/shell, n√£o aqui):")
        print(f"      (head -n 1 {intermediate_file} && tail -n +2 {intermediate_file} | sort -k1,1n -T .) > {sorted_intermediate_file}")
        print("      Aperte Enter aqui ap√≥s executar o comando de ordena√ß√£o externa...")
        input() # Pausa para o usu√°rio ordenar externamente
        if not os.path.exists(sorted_intermediate_file):
             raise RuntimeError("Arquivo ordenado n√£o foi criado externamente.")
        sort_method = "Externo (OS sort)"
    except Exception as e:
        print(f"   ‚ö†Ô∏è ERRO durante a ordena√ß√£o: {e}")
        raise
        
    end_sort = time.time()
    print(f"\nüìä Ordena√ß√£o conclu√≠da ({sort_method}) em {end_sort - start_sort:.2f} segundos.")
    print_memory_usage("Ap√≥s Ordena√ß√£o:")

    # Opcional: Remover o arquivo intermedi√°rio n√£o ordenado
    # if os.path.exists(intermediate_file): os.remove(intermediate_file)

    # --- Passagem 2: Ler Arquivo Ordenado e Agregar em Streaming ---
    bias_scores_real = {} # Dicion√°rio final (string -> float)
    current_user_id_int = -1
    current_score_sum = 0.0
    current_tweet_count = 0
    
    print(f"\n--- Passagem 2: Lendo '{sorted_intermediate_file}' e agregando em streaming ---")
    start_pass2 = time.time()
    processed_lines_pass2 = 0
    try:
        with open(sorted_intermediate_file, 'r', newline='', encoding='utf-8') as infile:
            reader = csv.reader(infile, delimiter='\t')
            header = next(reader) # Pular cabe√ßalho
            
            for row_num, row in enumerate(reader):
                processed_lines_pass2 += 1
                if len(row) == 2:
                    try:
                        user_id_int = int(row[0])
                        score = float(row[1])
                        
                        # Se √© o primeiro usu√°rio ou um novo usu√°rio
                        if user_id_int != current_user_id_int:
                            # Processar o usu√°rio anterior (se houver)
                            if current_user_id_int != -1 and current_tweet_count > 0:
                                avg_score = current_score_sum / current_tweet_count
                                user_id_str = user_id_rev_map.get(current_user_id_int) # Converter int ID de volta para string
                                if user_id_str:
                                    bias_scores_real[user_id_str] = avg_score
                                    
                            # Resetar para o novo usu√°rio
                            current_user_id_int = user_id_int
                            current_score_sum = score
                            current_tweet_count = 1
                        else:
                            # Acumular para o usu√°rio atual
                            current_score_sum += score
                            current_tweet_count += 1

                        # Feedback peri√≥dico
                        if (row_num + 1) % 500000 == 0:
                            print(f"      ... processou {row_num+1:,} linhas ordenadas.", end='')
                            print_memory_usage()

                    except (ValueError, KeyError) as ve:
                        # print(f"Ignorando linha inv√°lida: {row} - Erro: {ve}")
                        continue
                # else: print(f"Ignorando linha com formato inv√°lido: {row}")
            
            # Processar o √∫ltimo usu√°rio ap√≥s o fim do loop
            if current_user_id_int != -1 and current_tweet_count > 0:
                 avg_score = current_score_sum / current_tweet_count
                 user_id_str = user_id_rev_map.get(current_user_id_int)
                 if user_id_str:
                     bias_scores_real[user_id_str] = avg_score

        end_pass2 = time.time()
        print(f"\nüìä Passagem 2 conclu√≠da em {end_pass2 - start_pass2:.2f} segundos.")
        print(f"   ‚Ü≥ Calculados scores para {len(bias_scores_real):,} usu√°rios a partir de {processed_lines_pass2:,} scores intermedi√°rios.")

    except Exception as e:
        print(f"‚ö†Ô∏è ERRO GERAL na Passagem 2: {e}")
        raise
    finally:
        # Opcional: Remover arquivos intermedi√°rios
        # if os.path.exists(intermediate_file): os.remove(intermediate_file)
        # if os.path.exists(sorted_intermediate_file): os.remove(sorted_intermediate_file)
        pass

    # Garantir scores para todos os n√≥s (inclusive os sem tweets)
    print("\n‚öôÔ∏è Garantindo scores para todos os n√≥s do grafo...")
    missing_scores_count = 0
    all_graph_nodes = G_igraph_real.vs["name"] # Usar o grafo carregado/criado na C√âLULA 1
    for node_name in all_graph_nodes:
        if node_name not in bias_scores_real:
            bias_scores_real[node_name] = 0.0
            missing_scores_count += 1
    if missing_scores_count > 0:
         print(f"   ‚Ü≥ Scores neutros (0.0) atribu√≠dos a {missing_scores_count} n√≥s sem tweets.")

    # --- SALVAR O RESULTADO FINAL ---
    print(f"\nüíæ Salvando scores finais em '{bias_scores_file}'...")
    try:
        with open(bias_scores_file, 'w', encoding='utf-8') as f:
            json.dump(bias_scores_real, f) # Salvar sem indenta√ß√£o para economizar espa√ßo
        print("   ‚úÖ Scores finais salvos com sucesso.")
    except Exception as e:
        print(f"   ‚ö†Ô∏è Erro ao salvar '{bias_scores_file}': {e}")

    print("\n‚úÖ C√°lculo de vi√©s (Streaming + Ordena√ß√£o) conclu√≠do e resultado salvo.")
    print_memory_usage("Final:")

# --- Fim do Bloco if calculation_needed ---

# Verifica√ß√£o final
if 'bias_scores_real' not in locals() or not isinstance(bias_scores_real, dict) or not bias_scores_real:
     raise RuntimeError("ERRO: 'bias_scores_real' n√£o foi carregado ou calculado.")
else:
     print(f"\nüëç Pronto para usar os scores de vi√©s para {len(bias_scores_real)} usu√°rios.")

### 4.5 Executando a Detec√ß√£o de Comunidades com Vi√©s

Utilizamos a heur√≠stica `EnhancedLouvainWithBias` com `alpha=0.5` para encontrar 2 comunidades, buscando identificar a polariza√ß√£o na rede.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\nüöÄ Executando Enhanced Louvain (Œ±=0.5) no grafo TwiBot-22...")
    detector_real = EnhancedLouvainWithBias(alpha=0.5, max_iterations=20, verbose=False) # Limitar itera√ß√µes para redes grandes
    
    start_heur = time.time()
    detector_real.fit(G_real, bias_scores_real, num_communities=2)
    end_heur = time.time()
    
    partition_real = detector_real.get_communities()
    print(f"   ‚Ü≥ Conclu√≠do em {end_heur - start_heur:.2f} segundos.")
    
    # Contar n√≥s em cada comunidade
    community_counts = pd.Series(partition_real).value_counts()
    print(f"   ‚Ü≥ Tamanho das comunidades encontradas: {community_counts.to_dict()}")
else:
    print("‚ö†Ô∏è Heur√≠stica n√£o executada (grafo vazio).")
    partition_real = {}
    detector_real = None # Para evitar erros na pr√≥xima c√©lula

### 4.6 Avalia√ß√£o dos Resultados

Calculamos as m√©tricas de qualidade (modularidade, pureza/separa√ß√£o de vi√©s) e a concentra√ß√£o de bots nas comunidades encontradas.

In [None]:
if detector_real and partition_real:
    print("\nüìà Avaliando resultados da Heur√≠stica (com vi√©s simulado)...")
    metrics_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- M√©tricas (Heur√≠stica Œ±=0.5) ---")
    print(f"  N√∫mero de Comunidades: {metrics_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Vi√©s (Intra-Comunidade): {metrics_real.get('bias_purity', 0):.4f}")
    print(f"  Separa√ß√£o de Vi√©s (Inter-Comunidade): {metrics_real.get('bias_separation', 0):.4f}")
    print(f"  Concentra√ß√£o M√°xima de Bots: {metrics_real.get('bot_concentration_max', 0):.2%}")
    print(f"  Tempo de Execu√ß√£o da Heur√≠stica: {detector_real.execution_time:.2f}s")
else:
    print("‚ö†Ô∏è Avalia√ß√£o n√£o realizada (nenhuma parti√ß√£o foi gerada).")
    metrics_real = {} # Dicion√°rio vazio

### 4.7 Compara√ß√£o com Louvain Padr√£o (Baseline)

Executamos o algoritmo de Louvain original (que considera apenas a estrutura) para compara√ß√£o.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\nüöÄ Executando Louvain padr√£o (baseline)...")
    start_louv = time.time()
    partition_louvain_real = community_louvain.best_partition(G_real)
    end_louv = time.time()
    print(f"   ‚Ü≥ Conclu√≠do em {end_louv - start_louv:.2f} segundos.")

    print("\nüìà Avaliando resultados do Louvain padr√£o...")
    metrics_louvain_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_louvain_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- M√©tricas (Louvain Padr√£o) ---")
    print(f"  N√∫mero de Comunidades: {metrics_louvain_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_louvain_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Vi√©s (Intra-Comunidade): {metrics_louvain_real.get('bias_purity', 0):.4f}")
    print(f"  Separa√ß√£o de Vi√©s (Inter-Comunidade): {metrics_louvain_real.get('bias_separation', 0):.4f}")
    print(f"  Concentra√ß√£o M√°xima de Bots: {metrics_louvain_real.get('bot_concentration_max', 0):.2%}")

    # Comparativo direto
    print("\n--- Comparativo (Heur√≠stica Œ±=0.5 vs Louvain) ---")
    try:
        delta_mod = (metrics_real.get('modularity',0) / metrics_louvain_real.get('modularity',1) - 1) * 100
        delta_sep = (metrics_real.get('bias_separation',0) / metrics_louvain_real.get('bias_separation',1) - 1) * 100
        delta_bot = (metrics_real.get('bot_concentration_max',0) / metrics_louvain_real.get('bot_concentration_max',1) - 1) * 100
        print(f"  Varia√ß√£o Modularidade: {delta_mod:+.1f}%")
        print(f"  Varia√ß√£o Separa√ß√£o de Vi√©s: {delta_sep:+.1f}%")
        print(f"  Varia√ß√£o Conc. M√°x. Bots: {delta_bot:+.1f}%")
    except ZeroDivisionError:
        print("  (N√£o foi poss√≠vel calcular varia√ß√µes percentuais devido a valores zero)")
        
else:
    print("‚ö†Ô∏è Compara√ß√£o com Louvain n√£o realizada (grafo vazio).")

### 4.8 Conclus√£o Parcial (TwiBot-22 com Vi√©s Simulado)

*(Adicione aqui suas observa√ß√µes sobre os resultados obtidos com o vi√©s simulado. Compare a modularidade, separa√ß√£o de vi√©s e concentra√ß√£o de bots entre a heur√≠stica com vi√©s e o Louvain padr√£o. Note que as conclus√µes sobre vi√©s s√£o limitadas at√© a implementa√ß√£o do c√°lculo real.)*

**Pr√≥ximo Passo Fundamental:** Implementar o c√°lculo real dos scores de vi√©s a partir dos tweets para validar a metodologia em dados reais.

## üéì 5. Conclus√£o

### Principais Resultados:

1. ‚úÖ **SDP √© a formula√ß√£o matematicamente correta** do artigo
2. ‚úÖ **Heur√≠stica converge para mesma solu√ß√£o** em casos pr√°ticos
3. ‚úÖ **Heur√≠stica √© 60x mais r√°pida** ‚Üí ideal para redes grandes
4. ‚úÖ **Ambos superam Louvain** em +143% de separa√ß√£o de vi√©s

### Recomenda√ß√µes:

- **Redes pequenas (<200 n√≥s)**: Use SDP para garantir solu√ß√£o √≥tima
- **Redes grandes (>200 n√≥s)**: Use Heur√≠stica para efici√™ncia
- **Œ± recomendado**: 0.4-0.5 para balan√ßo estrutura-vi√©s

### Refer√™ncias:

- **Artigo Original**: Monteiro et al. (2025)
- **TwiBot-22**: Feng et al. (2022) - NeurIPS
- **Louvain**: Blondel et al. (2008)
- **SDP para Grafos**: Goemans & Williamson (1995)

---