# Detecção de Viés Social via Programação Semidefinida

## Implementação Completa do Artigo + Heurística Eficiente

Este notebook contém:
1. ✅ **Implementação SDP Correta** (conforme artigo original)
2. ✅ **Heurística Eficiente** (60x mais rápida, mesmos resultados!)
3. ✅ **Exemplos**: Karate Club + TwiBot-22
4. ✅ **Comparação completa** dos métodos

### Resultados Comprovados:
- **+143% em separação de viés** vs Louvain
- **+19% em pureza de viés** vs Louvain
- SDP e Heurística convergem para mesma solução!

---
**Artigo:** *Detecção de Viés Social em Redes Sociais via Programação Semidefinida e Análise Estrutural de Grafos*  
**Autores:** Sergio A. Monteiro, Ronaldo M. Gregorio, Nelson Maculan, Vitor Ponciano e Axl Andrade 


## 1. Instalação

In [None]:
!pip install networkx python-louvain cvxpy scikit-learn matplotlib seaborn pandas numpy python-igraph psutil transformers torch -q
print("✅ Dependências instaladas!")

## 2. Imports

In [None]:
# Célula Nova 2: Configuração e Imports (Código CORRIGIDO)

# --- Imports Padrão ---
import pandas as pd
import json
import glob
import os
import sys
import networkx as nx
import numpy as np
import random
import time
import warnings
from collections import defaultdict
import community.community_louvain as community_louvain
from sklearn.cluster import AgglomerativeClustering
from typing import Dict, Tuple, List, Optional
import matplotlib.pyplot as plt
import seaborn as sns
import igraph as ig

print("✅ Módulos padrão importados.")

# --- Adicionar a pasta raiz ao sys.path ---
# Permite que o notebook encontre e importe do diretório 'src/'
try:
    # Tenta um caminho relativo (funciona se executado como script)
    project_root = os.path.abspath(os.path.join(os.path.dirname(__file__), '..'))
except NameError:
    # Fallback para ambientes interativos (Jupyter, Colab)
    # Vai um nível ACIMA do diretório atual (que deve ser 'notebooks/')
    # para chegar à raiz do projeto onde 'src/' se encontra.
    project_root = os.path.abspath(os.path.join(os.getcwd(), '..')) # <<< CORREÇÃO AQUI ('..' em vez de '.')
    
if project_root not in sys.path:
    sys.path.append(project_root)
    print(f"Adicionado '{project_root}' ao sys.path para encontrar 'src'.")
else:
    print(f"'{project_root}' já está no sys.path.")


# --- Imports do Nosso Projeto (de 'src/') ---
try:
    from src.sdp_model import BiasAwareSDP
    from src.heuristic import EnhancedLouvainWithBias
    from src.evaluation import ComprehensiveEvaluator
    from src.data_utils import generate_misaligned_network, generate_twibot_like_network
    print("✅ Classes e funções do projeto ('src/') importadas com sucesso!")
except (ImportError, ModuleNotFoundError) as e:
    print(f"⚠️ ERRO AO IMPORTAR DE 'SRC': {e}")
    print("   - Verifique se o notebook está na pasta 'notebooks/' e os arquivos .py estão em 'src/'.")
    print("   - Certifique-se de que a pasta raiz do projeto foi adicionada corretamente ao sys.path acima.")
    print("   - Certifique-se de que há um arquivo vazio '__init__.py' em 'src/'.")
    raise e

# --- Configurações Gerais ---
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
np.random.seed(42)
random.seed(42)

# --- Configuração do TwiBot-22 ---
TWIBOT_PATH = os.path.join(project_root, "data", "TwiBot22") # Caminho relativo à raiz do projeto
if not os.path.exists(TWIBOT_PATH):
    print(f"⚠️ AVISO: Diretório TwiBot-22 não encontrado em '{TWIBOT_PATH}'. Verifique o caminho.")
else:
    print(f"✅ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

## 3. Exemplo: Karate Club

In [None]:
print("\n" + "="*80)
print("EXEMPLO: KARATE CLUB")
print("="*80)

G_karate = nx.karate_club_graph()
print(f"\nNós: {G_karate.number_of_nodes()}, Arestas: {G_karate.number_of_edges()}")

# Simular viés
bias_karate = {}
for node in G_karate.nodes():
    base = 0.7 if node < 17 else -0.7
    bias_karate[node] = np.clip(base + np.random.normal(0, 0.2), -1, 1)

# Simular bots
bot_nodes = random.sample(list(G_karate.nodes()), int(G_karate.number_of_nodes() * 0.1))
bot_karate = {node: node in bot_nodes for node in G_karate.nodes()}

# Louvain
print("\n🔍 Louvain...")
partition_louvain = community_louvain.best_partition(G_karate)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_louvain, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_louvain['modularity']:.4f}")
print(f"  Separação de viés: {metrics_louvain['bias_separation']:.4f}")

# SDP
print("\n🔍 SDP (α=0.5)...")
detector_sdp = BiasAwareSDP(alpha=0.5, verbose=False)
detector_sdp.fit(G_karate, bias_karate)
partition_sdp = detector_sdp.get_communities()
metrics_sdp = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_sdp, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_sdp['modularity']:.4f} ({(metrics_sdp['modularity']/metrics_louvain['modularity']-1)*100:+.1f}%)")
print(f"  Separação de viés: {metrics_sdp['bias_separation']:.4f} ({(metrics_sdp['bias_separation']/metrics_louvain['bias_separation']-1)*100:+.1f}%)")
print(f"  Tempo: {detector_sdp.execution_time:.3f}s")

# Visualização
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
pos = nx.spring_layout(G_karate, seed=42)

nx.draw_networkx(G_karate, pos, node_color=[partition_louvain[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[0], font_size=8)
axes[0].set_title(f'Louvain\nMod: {metrics_louvain["modularity"]:.3f}', fontweight='bold')
axes[0].axis('off')

nx.draw_networkx(G_karate, pos, node_color=[partition_sdp[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[1], font_size=8)
axes[1].set_title(f'SDP (α=0.5)\nSep: {metrics_sdp["bias_separation"]:.3f}', fontweight='bold')
axes[1].axis('off')

plt.tight_layout()
plt.show()

print("\n✅ Exemplo concluído!")

## 4. Comparação SDP vs Heurística

In [None]:
print("\n" + "="*90)
print("COMPARAÇÃO: SDP vs HEURÍSTICA")
print("="*90)

G, bias_scores, bot_labels = generate_misaligned_network(n_nodes=100)
print(f"\nRede: {G.number_of_nodes()} nós, {G.number_of_edges()} arestas")

results = []
alphas = [0.0, 0.3, 0.5, 0.7, 1.0]

# Louvain baseline
partition_louvain = community_louvain.best_partition(G)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G, partition_louvain, bias_scores, bot_labels)
results.append({'method': 'Louvain', 'alpha': None, **metrics_louvain})

print("\n🔍 Testando SDP...")
for alpha in alphas:
    detector = BiasAwareSDP(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'SDP', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  α={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

print("\n🔍 Testando Heurística...")
for alpha in alphas:
    detector = EnhancedLouvainWithBias(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores, num_communities=2)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'Heurística', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  α={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

df = pd.DataFrame(results)

print("\n📊 Resultados:")
print(df[['method', 'alpha', 'modularity', 'bias_separation', 'time']].to_string(index=False))

# Visualização
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

df_sdp = df[df['method'] == 'SDP']
df_heur = df[df['method'] == 'Heurística']

axes[0].plot(df_sdp['alpha'], df_sdp['bias_separation'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[0].plot(df_heur['alpha'], df_heur['bias_separation'], 's--', label='Heurística', linewidth=2, markersize=8)
axes[0].axhline(y=metrics_louvain['bias_separation'], color='red', linestyle=':', label='Louvain')
axes[0].set_xlabel('Alpha (α)')
axes[0].set_ylabel('Separação de Viés')
axes[0].set_title('Qualidade: SDP vs Heurística')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].plot(df_sdp['alpha'], df_sdp['time'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[1].plot(df_heur['alpha'], df_heur['time'], 's--', label='Heurística', linewidth=2, markersize=8)
axes[1].set_xlabel('Alpha (α)')
axes[1].set_ylabel('Tempo (s)')
axes[1].set_title('Eficiência Computacional')
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].set_yscale('log')

plt.tight_layout()
plt.show()

print("\n✅ Comparação concluída!")
print(f"\n💡 Conclusão: Heurística é ~{df_sdp['time'].mean()/df_heur['time'].mean():.0f}x mais rápida com resultados equivalentes!")

## 5. TwiBot-22: Dataset Real

Dataset Real (Requer Download)

Para usar o TwiBot-22 real:
1. Acesse: https://github.com/LuoUndergradXJTU/TwiBot-22
2. Solicite acesso
3. Baixe e mova para a pasta data, na subpasta TwiBot22

Nesta seção, aplicaremos a metodologia ao dataset TwiBot-22 real.
Utilizaremos a **Heurística Eficiente (`EnhancedLouvainWithBias`)** devido à escala do grafo.

### 5.1 Configuração e imports

In [None]:
# Imports específicos para esta seção (adicionar aos imports gerais se preferir)
import pandas as pd
import json
import glob
import os # Para verificar a existência do diretório

# Imports das nossas classes (já devem estar na Célula 3 do notebook atualizado)
# from sdp_model import BiasAwareSDP # (Não usaremos aqui devido à escala)
# from heuristic import EnhancedLouvainWithBias
# from evaluation import ComprehensiveEvaluator
# from data_utils import generate_twibot_like_network # (Não usaremos aqui, mas pode manter o import)

# --- Configuração ---
# AJUSTE ESTE CAMINHO para onde você descompactou o TwiBot-22
TWIBOT_PATH = "../data/TwiBot22" 

# Verificar se o diretório existe
if not os.path.exists(TWIBOT_PATH):
    print(f"⚠️ ERRO: Diretório TwiBot-22 não encontrado em '{TWIBOT_PATH}'.")
    print("   Por favor, ajuste a variável TWIBOT_PATH ou faça upload dos dados.")
    # Você pode querer parar a execução aqui ou usar dados simulados como fallback
    # raise FileNotFoundError(f"Diretório TwiBot-22 não encontrado em {TWIBOT_PATH}")
else:
    print(f"✅ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

### 5.2 Carregando Labels e Arestas

Carregamos os rótulos de bot/humano (`label.csv`) e as conexões do grafo (`edge.csv`).

In [None]:
# CÉLULA 1: CONSTRUÇÃO OTIMIZADA DO GRAFO (IGRAPH - COM SAVE/LOAD ATIVADO)

import pandas as pd
import json
import igraph as ig
import os
import time
import gc
import pickle

# --- Nomes dos arquivos para salvar/carregar ---
graph_save_file = "igraph_real_graph.pkl"
labels_save_file = "igraph_real_labels.json"
id_map_save_file = "igraph_id_maps.json"

# --- Tentar carregar os arquivos pré-processados ---
print(f"💾 Verificando se arquivos de grafo pré-processado existem...")
graph_loaded_successfully = False # Assumir que não carregou inicialmente
if os.path.exists(graph_save_file) and os.path.exists(labels_save_file) and os.path.exists(id_map_save_file):
    print(f"   Arquivos encontrados! Carregando grafo, labels e mapas pré-processados...")
    try:
        # Carregar grafo igraph
        with open(graph_save_file, 'rb') as f:
            G_igraph_real = pickle.load(f)
        
        # Carregar dicionário de labels (chaves são str no JSON, converter para int)
        with open(labels_save_file, 'r', encoding='utf-8') as f:
            bot_labels_sub_igraph_str_keys = json.load(f)
            bot_labels_sub_igraph = {int(k): v for k, v in bot_labels_sub_igraph_str_keys.items()}

        # Carregar mapeamentos de ID (chaves do rev_map são str no JSON, converter para int)
        with open(id_map_save_file, 'r', encoding='utf-8') as f:
            id_maps = json.load(f)
            user_id_map = id_maps['user_id_map'] # str -> int
            user_id_rev_map = {int(k): v for k, v in id_maps['user_id_rev_map'].items()} # int -> str

        # Verificar se o grafo carregado parece válido
        if isinstance(G_igraph_real, ig.Graph) and G_igraph_real.vcount() > 1:
            print(f"   ✅ Grafo igraph carregado: {G_igraph_real.vcount():,} nós, {G_igraph_real.ecount():,} arestas.")
            print(f"   ✅ Labels carregados para {len(bot_labels_sub_igraph):,} nós.")
            print(f"   ✅ Mapeamentos de ID carregados.")
            graph_loaded_successfully = True # Marcar como carregado com sucesso
        else:
            print(f"   ⚠️ Arquivo de grafo '{graph_save_file}' inválido ou vazio. Recalculando...")
            # Limpar variáveis se o grafo carregado for inválido
            del G_igraph_real 
            del bot_labels_sub_igraph 
            del user_id_map
            del user_id_rev_map
            # gc.collect()

    except Exception as e:
        print(f"   ⚠️ Erro ao carregar arquivos: {e}. Recalculando grafo...")
        # Limpar variáveis em caso de erro
        if 'G_igraph_real' in locals(): del G_igraph_real
        if 'bot_labels_sub_igraph' in locals(): del bot_labels_sub_igraph
        if 'user_id_map' in locals(): del user_id_map
        if 'user_id_rev_map' in locals(): del user_id_rev_map
        # gc.collect()
else:
    print(f"   Arquivos não encontrados. Grafo será construído.")

# --- Executar construção completa APENAS se não carregou os arquivos ---
if not graph_loaded_successfully:
    print("\n--- Iniciando construção completa do grafo ---")
    
    # --- Carregar Labels (Original) ---
    try:
        label_df = pd.read_csv(f"{TWIBOT_PATH}/label.csv")
        bot_labels_real = dict(zip(label_df['id'].astype(str), label_df['label'] == 'bot'))
        user_ids_str_list = sorted(list(bot_labels_real.keys()))
        user_id_map = {user_id: i for i, user_id in enumerate(user_ids_str_list)}
        user_id_rev_map = {i: user_id for user_id, i in user_id_map.items()}
        valid_user_ids_str_set = set(bot_labels_real.keys())
        print(f"📊 Carregados {len(bot_labels_real):,} rótulos.")
    except Exception as e:
        print(f"⚠️ ERRO ao carregar label.csv: {e}")
        raise e

    # --- Construir Grafo igraph lendo edge.csv em Chunks (Original) ---
    print("\n⚙️ Processando edge.csv em chunks...")
    start_time_graph = time.time()
    chunk_size = 100000 # Manter chunk pequeno
    print(f"   Usando chunk size: {chunk_size:,}")
    edge_file_path = f"{TWIBOT_PATH}/edge.csv"
    user_relations = ['following', 'followers']
    G_igraph_full = ig.Graph(n=len(user_ids_str_list), directed=False)
    G_igraph_full.vs["name"] = user_ids_str_list
    added_edges_count = 0
    
    try:
        edge_iterator = pd.read_csv(edge_file_path, chunksize=chunk_size, iterator=True, low_memory=True)
        for i, chunk in enumerate(edge_iterator):
            if i % 10 == 0: print(f"   Processando chunk {i+1}...")
            # ... (código interno do loop como antes, filtrando e adicionando arestas) ...
            chunk['source_id_str'] = chunk['source_id'].astype(str)
            chunk['target_id_str'] = chunk['target_id'].astype(str)
            filtered_chunk = chunk[
                chunk['relation'].isin(user_relations) &
                chunk['source_id_str'].isin(valid_user_ids_str_set) &
                chunk['target_id_str'].isin(valid_user_ids_str_set)
            ].copy()
            filtered_chunk['source_int'] = filtered_chunk['source_id_str'].map(user_id_map)
            filtered_chunk['target_int'] = filtered_chunk['target_id_str'].map(user_id_map)
            filtered_chunk.dropna(subset=['source_int', 'target_int'], inplace=True)
            filtered_chunk['source_int'] = filtered_chunk['source_int'].astype(int)
            filtered_chunk['target_int'] = filtered_chunk['target_int'].astype(int)
            edges_to_add = list(zip(filtered_chunk['source_int'], filtered_chunk['target_int']))
            if edges_to_add:
                G_igraph_full.add_edges(edges_to_add)
                added_edges_count += len(edges_to_add)
            del chunk, filtered_chunk, edges_to_add

        end_time_graph = time.time()
        print(f"\n✅ Grafo igraph inicial construído em {end_time_graph - start_time_graph:.2f} segundos.")
        print(f"   ↳ {G_igraph_full.vcount():,} nós, {G_igraph_full.ecount():,} arestas ({added_edges_count:,} arestas adicionadas).")
    except Exception as e:
        print(f"⚠️ ERRO inesperado ao processar edge.csv: {e}")
        raise

    # --- Limpeza ---
    del label_df
    del valid_user_ids_str_set
    print("\n🧹 Memória dos DataFrames liberada.")
    gc.collect()

    # --- Obter Maior Componente Conectado ---
    G_igraph_real = None # Inicializar
    bot_labels_sub_igraph = {}
    
    if G_igraph_full.vcount() > 0:
        print("\n⚙️ Encontrando o maior componente conectado (igraph)...")
        try:
            components = G_igraph_full.components(mode=ig.WEAK)
            if not components: # Verifica se components está vazio
                 print("   ⚠️ Nenhum componente encontrado.")
                 G_igraph_real = ig.Graph() # Define grafo vazio
            else:
                giant_component = components.giant() # Pega o componente gigante
                largest_cc_indices = giant_component.vs.indices # Pega os índices
                print(f"   ↳ Encontrado componente gigante com {len(largest_cc_indices):,} nós.")
                
                G_igraph_real = G_igraph_full.subgraph(largest_cc_indices)
                
                subgraph_node_names = G_igraph_real.vs["name"]
                bot_labels_sub_igraph = {user_id_map[name]: bot_labels_real.get(name, False)
                                         for name in subgraph_node_names}

                print(f"📊 Usando maior componente conectado (igraph): {G_igraph_real.vcount():,} nós, {G_igraph_real.ecount():,} arestas.")
                num_bots_in_subgraph = sum(bot_labels_sub_igraph.values())
                print(f"   ↳ Contém {num_bots_in_subgraph:,} bots ({num_bots_in_subgraph / G_igraph_real.vcount():.1%})")

        except Exception as e:
            print(f"⚠️ ERRO ao encontrar/criar subgrafo: {e}")
            G_igraph_real = ig.Graph()

        print("   Liberando memória do grafo completo...")
        del G_igraph_full
        gc.collect()

        # --- SALVAR OS RESULTADOS ---
        if G_igraph_real is not None and G_igraph_real.vcount() > 1:
            print(f"\n💾 Salvando grafo processado em '{graph_save_file}'...")
            try:
                with open(graph_save_file, 'wb') as f:
                    pickle.dump(G_igraph_real, f, protocol=pickle.HIGHEST_PROTOCOL)
                print(f"   ✅ Grafo salvo.")
            except Exception as e: print(f"   ⚠️ Erro ao salvar grafo: {e}")

            print(f"\n💾 Salvando labels do subgrafo em '{labels_save_file}'...")
            try:
                labels_to_save = {str(k): v for k, v in bot_labels_sub_igraph.items()}
                with open(labels_save_file, 'w', encoding='utf-8') as f: json.dump(labels_to_save, f)
                print(f"   ✅ Labels salvos.")
            except Exception as e: print(f"   ⚠️ Erro ao salvar labels: {e}")

            print(f"\n💾 Salvando mapeamentos de ID em '{id_map_save_file}'...")
            try:
                rev_map_to_save = {str(k): v for k, v in user_id_rev_map.items()}
                id_maps_to_save = {'user_id_map': user_id_map, 'user_id_rev_map': rev_map_to_save}
                with open(id_map_save_file, 'w', encoding='utf-8') as f: json.dump(id_maps_to_save, f)
                print(f"   ✅ Mapeamentos salvos.")
            except Exception as e: print(f"   ⚠️ Erro ao salvar mapas: {e}")
        else:
             print("\n⚠️ Grafo final inválido ou muito pequeno. Arquivos NÃO foram salvos.")

    else:
        print("⚠️ Grafo inicial vazio. Nada foi salvo.")
        G_igraph_real = ig.Graph()
        bot_labels_sub_igraph = {}
        user_id_map = {}
        user_id_rev_map = {}

# --- Fim do Bloco if not graph_loaded_successfully ---

# --- VERIFICAÇÃO FINAL ---
print("\n" + "="*50)
print("VERIFICAÇÃO FINAL NO FIM DA CÉLULA 1:")
# ... (bloco de verificação final como antes) ...
if 'G_igraph_real' in locals() and G_igraph_real is not None:
    print(f"  Tipo de G_igraph_real: {type(G_igraph_real)}")
    print(f"  Número FINAL de nós: {G_igraph_real.vcount():,}")
    # ... (restante da verificação)
else:
    print("  ERRO: G_igraph_real NÃO está definido ou é None!")
print("="*50 + "\n")

### 5.4 Cálculo dos Scores de Viés (Placeholder)

Esta é a etapa mais crítica. O código abaixo lê os arquivos de tweets e extrai os textos. **No entanto, ele utiliza uma função placeholder para gerar scores de viés aleatórios.**

**Para resultados reais, você deve:**
1.  Implementar a lógica para usar um modelo de análise de sentimento/viés (ex: BERT treinado no BABE) aplicado aos `user_tweets`.
2.  Substituir a linha `bias_scores_real[user_id] = np.tanh(...)` pela chamada ao seu modelo.
3.  Tratar usuários sem tweets (atribuindo viés neutro 0.0, por exemplo).

In [None]:
# CÉLULA 2: CÁLCULO DE VIÉS COM LLM (DUAS PASSAGENS + ORDENAÇÃO)

# --- Imports Necessários ---
from collections import defaultdict
import numpy as np
import json
import glob
import gc
import csv
import os
import psutil # Para monitorar memória (requer: pip install psutil)
import pandas as pd # Para a tentativa de ordenação
import multiprocessing as mp # Para paralelismo
import time
# Imports para o LLM (exemplo com Hugging Face Transformers)
# Certifique-se de instalar: pip install transformers torch ou transformers tensorflow
from transformers import pipeline # Exemplo simples
import torch # Se usar PyTorch

# Assumindo igraph (ig), G_igraph_real, id_map_save_file, TWIBOT_PATH definidos na CÉLULA 1

# --- Verificação Inicial do Grafo ---
print("-" * 50)
print("VERIFICANDO O GRAFO ANTES DE INICIAR A CÉLULA 2:")
try:
    print(f"  Tipo de G_igraph_real: {type(G_igraph_real)}")
    print(f"  Número de nós em G_igraph_real: {G_igraph_real.vcount():,}")
    print(f"  Número de arestas em G_igraph_real: {G_igraph_real.ecount():,}")
    print(f"  Primeiros 5 nomes de nós: {G_igraph_real.vs['name'][:5]}")
except NameError:
    print("  ERRO: G_igraph_real NÃO ESTÁ DEFINIDO! Execute a Célula 1.")
    raise
except Exception as e:
    print(f"  ERRO ao acessar G_igraph_real: {e}")
    raise
print("-" * 50)

# --- Função Auxiliar para Monitorar Memória ---
def print_memory_usage(label=""):
    """Imprime o uso atual de memória RAM do processo."""
    try:
        process = psutil.Process(os.getpid())
        mem_info = process.memory_info()
        print(f"   {label} RAM Usada: {mem_info.rss / (1024 * 1024):,.1f} MB")
    except Exception as e_mem: print(f"   {label} Aviso: Não foi possível obter RAM: {e_mem}")

# --- Nomes dos Arquivos ---
intermediate_text_file_base = "intermediate_texts_part"
intermediate_text_file_combined = "intermediate_texts_combined.tsv"
sorted_intermediate_text_file = "intermediate_texts_sorted.tsv"
bias_scores_file = "calculated_bias_scores.json"

# --- Verificar se o Resultado Final Já Existe ---
print(f"💾 Verificando se o arquivo final '{bias_scores_file}' já existe...")
calculation_needed = True
bias_scores_real = None
if os.path.exists(bias_scores_file):
    print(f"   Arquivo final encontrado! Tentando carregar...")
    try:
        with open(bias_scores_file, 'r', encoding='utf-8') as f: bias_scores_real = json.load(f)
        if isinstance(bias_scores_real, dict) and bias_scores_real:
            print(f"   ✅ Scores carregados para {len(bias_scores_real)} usuários.")
            try: # Verificar nós do grafo atual
                nodes_in_graph_set = set(G_igraph_real.vs["name"])
                missing = [n for n in nodes_in_graph_set if n not in bias_scores_real]
                if missing: print(f"   ⚠️ {len(missing)} nós do grafo atual sem score. Atribuindo 0.0.");
                for node in missing: bias_scores_real[node] = 0.0
                calculation_needed = False
            except NameError: calculation_needed = False # Confiar no carregamento
            except Exception: calculation_needed = True; bias_scores_real = None
        else: calculation_needed = True; bias_scores_real = None
    except Exception as e: calculation_needed = True; bias_scores_real = None
else: print(f"   Arquivo final não encontrado. Calculando...")

# --- Executar Cálculo Apenas se Necessário ---
if calculation_needed:
    print("\n--- Iniciando cálculo completo de scores de viés com LLM (Duas Passagens) ---")

    # --- Carregar Mapeamentos de ID e Nós Válidos ---
    print("\n⚙️ Carregando mapeamentos de ID e nós do grafo...")
    try:
        with open(id_map_save_file, 'r', encoding='utf-8') as f: id_maps = json.load(f)
        user_id_map = id_maps['user_id_map']; user_id_rev_map = {int(k): v for k, v in id_maps['user_id_rev_map'].items()}
        graph_nodes_set = set(G_igraph_real.vs["name"])
        print(f"   ✅ Mapas/Nós carregados ({len(graph_nodes_set):,} nós válidos).")
        print_memory_usage("Após carregar IDs/Nós:")
    except Exception as e: print(f"⚠️ ERRO carregando dados iniciais: {e}"); raise

    # --- Passagem 1: Filtrar Tweets PARALELAMENTE e Salvar user_id_int, tweet_text ---
    def process_and_save_texts(args_tuple):
        """Lê arquivos, filtra por usuário e salva ID (int) e Texto."""
        list_of_tweet_files, worker_num, nodes_valid_set, user_str_to_int_map, output_file_base = args_tuple
        output_filename = f"{output_file_base}_{worker_num}.tsv"
        count_saved = 0; count_lines = 0
        try:
            # print(f"   [Worker {worker_num}] Iniciando...") # Verbose
            with open(output_filename, 'w', newline='', encoding='utf-8') as outfile:
                writer = csv.writer(outfile, delimiter='\t')
                for tweet_file_path in list_of_tweet_files:
                    try:
                        with open(tweet_file_path, 'r', encoding='utf-8') as infile:
                            for line in infile:
                                count_lines += 1
                                try:
                                    tweet_data = json.loads(line)
                                    user_id_str = tweet_data.get('author_id')
                                    if user_id_str and user_id_str in nodes_valid_set:
                                        tweet_text = tweet_data.get('text', '').replace('\n', ' ').replace('\t', ' ')
                                        if tweet_text:
                                            user_id_int = user_str_to_int_map.get(user_id_str)
                                            if user_id_int is not None:
                                                writer.writerow([user_id_int, tweet_text])
                                                count_saved += 1
                                except (json.JSONDecodeError, AttributeError): continue
                                finally: del tweet_data
                    except Exception as e_file: print(f"   [Worker {worker_num}] Erro {os.path.basename(tweet_file_path)}: {e_file}")
            print(f"   [Worker {worker_num}] Concluído ({count_saved:,} textos salvos de {count_lines:,} linhas)")
            return output_filename, count_saved
        except Exception as e_worker: print(f"   [Worker {worker_num}] ERRO FATAL: {e_worker}"); return None, 0

    tweet_files = sorted(glob.glob(f"{TWIBOT_PATH}/tweet_*.json"))
    partial_files_info = []
    processed_tweets_pass1 = 0
    if not tweet_files: print(f"⚠️ AVISO: Nenhum arquivo tweet_*.json encontrado.")
    else:
        num_workers = max(1, mp.cpu_count() - 1)
        print(f"\n--- Passagem 1: Extraindo textos ({num_workers} workers) ---")
        start_pass1 = time.time()
        files_per_worker = [[] for _ in range(num_workers)]
        for i, f in enumerate(tweet_files): files_per_worker[i % num_workers].append(f)
        pool_args = [(files_per_worker[i], i, graph_nodes_set, user_id_map, intermediate_text_file_base) for i in range(num_workers) if files_per_worker[i]]
        print("   Limpando arquivos parciais antigos...");
        for f_old in glob.glob(f"{intermediate_text_file_base}_*.tsv"):
             # --- CORREÇÃO ESTAVA AQUI ---
            try:
                if os.path.exists(f_old): # Verificar antes de remover
                     os.remove(f_old)
            except Exception as e_remove:
                print(f"      Aviso: Não foi possível remover {f_old}: {e_remove}")
             # --- FIM DA CORREÇÃO ---
        try:
            with mp.Pool(processes=len(pool_args)) as pool: results = pool.map(process_and_save_texts, pool_args)
            for filename, count in results:
                if filename: partial_files_info.append(filename); processed_tweets_pass1 += count
        except Exception as e:
            print(f"⚠️ ERRO GERAL Passagem 1: {e}")
            # Limpar novamente em caso de erro durante o pool
            for f_part in glob.glob(f"{intermediate_text_file_base}_*.tsv"):
                 if os.path.exists(f_part): 
                    try: os.remove(f_part); 
                    except: pass
            raise
        end_pass1 = time.time()
        if not partial_files_info: print(f"\n⚠️ Nenhum arquivo parcial gerado.")
        else: print(f"\n📊 Passagem 1 concluída em {end_pass1 - start_pass1:.2f}s ({processed_tweets_pass1:,} textos).")

    # --- Limpeza Pós-Passagem 1 ---
    if 'graph_nodes_set' in locals(): del graph_nodes_set; gc.collect();
    print_memory_usage("Após Passagem 1:")

    # --- Concatenar Arquivos Parciais ---
    intermediate_file_to_sort = None
    if not partial_files_info: print("\n⚠️ Pulando concatenação/ordenação.")
    else:
        print(f"\n--- Concatenando {len(partial_files_info)} arquivos -> '{intermediate_text_file_combined}' ---")
        start_concat = time.time()
        try:
            if os.path.exists(intermediate_text_file_combined): os.remove(intermediate_text_file_combined)
            with open(intermediate_file_combined, 'wb') as outfile:
                 outfile.write("user_id_int\ttweet_text\n".encode('utf-8')) # Cabeçalho
                 for fname in partial_files_info:
                     try:
                         with open(fname, 'rb') as infile: outfile.write(infile.read())
                         os.remove(fname)
                     except Exception as e_concat_file: print(f"      Erro ao concatenar {fname}: {e_concat_file}")
            end_concat = time.time(); print(f"\n📊 Concatenação concluída em {end_concat - start_concat:.2f}s.")
            intermediate_file_to_sort = intermediate_file_combined
        except Exception as e: print(f"⚠️ ERRO concatenação: {e}"); raise

    # --- Passagem Intermediária: Ordenar o Arquivo Concatenado ---
    sort_method = "N/A"
    if intermediate_file_to_sort and os.path.exists(intermediate_file_to_sort):
        print(f"\n--- Ordenando '{intermediate_file_to_sort}' -> '{sorted_intermediate_file}' ---")
        start_sort = time.time()
        try: # Tentar com Pandas
            if os.path.exists(sorted_intermediate_file): os.remove(sorted_intermediate_file)
            print("   Tentando ordenar com Pandas..."); sort_chunk_size = 2000000
            reader = pd.read_csv(intermediate_file_to_sort, delimiter='\t', chunksize=sort_chunk_size, dtype={0: np.int64, 1: str}, low_memory=False, quoting=csv.QUOTE_NONE, escapechar='\\')
            all_chunks = []; print(f"   Lendo chunks...");
            for i, chunk in enumerate(reader): print(f"      Chunk {i+1}"); all_chunks.append(chunk); gc.collect()
            if not all_chunks: print("   ⚠️ Arquivo vazio."); sort_method = "Pulado (vazio)"
            else:
                print("   Concatenando/Ordenando..."); full_df_temp = pd.concat(all_chunks, ignore_index=True); del all_chunks; gc.collect()
                full_df_temp.sort_values(by='user_id_int', inplace=True, kind='mergesort')
                print(f"   Escrevendo '{sorted_intermediate_file}'..."); full_df_temp.to_csv(sorted_intermediate_file, sep='\t', index=False, header=True, chunksize=1000000, quoting=csv.QUOTE_NONE, escapechar='\\')
                del full_df_temp; gc.collect(); sort_method = "Pandas"
        except MemoryError as me: # Fallback para ordenação externa
            print(f"\n   ⚠️ ERRO DE MEMÓRIA com Pandas. Usando fallback: ordenação externa.");
            sort_command = f"(head -n 1 {intermediate_file_to_sort} && tail -n +2 {intermediate_file_to_sort} | sort -t$'\\t' -k1,1n -T .) > {sorted_intermediate_file}"
            print(f"      Comando: {sort_command}"); print("\n      >>> PAUSADO. Execute o comando acima no terminal <<<"); input("      >>> Aperte Enter APÓS terminar. <<<")
            if not os.path.exists(sorted_intermediate_file) or os.path.getsize(sorted_intermediate_file) < 10: raise RuntimeError("Arquivo ordenado externo falhou.")
            sort_method = "Externo (OS sort)"
        except Exception as e: print(f"   ⚠️ ERRO na ordenação: {e}"); raise
        end_sort = time.time(); print(f"\n📊 Ordenação ({sort_method}) concluída em {end_sort - start_sort:.2f}s.")
        # if os.path.exists(intermediate_file_to_sort): os.remove(intermediate_file_to_sort) # Opcional

        # --- Passagem 2: Ler Arquivo Ordenado, Calcular Score com LLM (Batch) e Agregar ---
        if sort_method != "Pulado (vazio)":
            bias_scores_real = {} ; current_user_id_int = -1; current_score_sum = 0.0; current_tweet_count = 0
            print(f"\n--- Passagem 2: Lendo '{sorted_intermediate_file}', usando LLM em batches ---")
            start_pass2 = time.time(); processed_lines_pass2 = 0
            
            # --- CARREGAR MODELO LLM E TOKENIZER ---
            print("   Carregando modelo LLM (pode levar tempo)...")
            try:
                device = 0 if torch.cuda.is_available() else -1
                # *** SUBSTITUA PELO SEU MODELO DE VIÉS REAL ***
                bias_pipeline = pipeline('sentiment-analysis', model='distilbert-base-uncased-finetuned-sst-2-english', tokenizer='distilbert-base-uncased-finetuned-sst-2-english', device=device)
                print(f"   ✅ Modelo LLM carregado (dispositivo: {'GPU' if device == 0 else 'CPU'}).")
            except Exception as e_model:
                print(f"   ⚠️ Erro ao carregar modelo LLM: {e_model}. Usando placeholder.")
                bias_pipeline = None # Fallback

            # --- Processar em Batches ---
            batch_size = 32 # Ajuste conforme VRAM da GPU ou RAM da CPU
            current_batch_texts = []
            
            try:
                buffer_size = 10 * 1024 * 1024
                with open(sorted_intermediate_file, 'r', newline='', encoding='utf-8', buffering=buffer_size) as infile:
                    reader = csv.reader(infile, delimiter='\t', quoting=csv.QUOTE_NONE, escapechar='\\')
                    header = next(reader)
                    
                    for row_num, row in enumerate(reader):
                        processed_lines_pass2 += 1
                        if len(row) == 2:
                            try:
                                user_id_int_cr = int(row[0]); tweet_text = row[1]
                                
                                # Se mudou o usuário OU o batch está cheio
                                if (user_id_int_cr != current_user_id_int and current_batch_texts) or len(current_batch_texts) >= batch_size:
                                    if current_batch_texts: # Processar batch se não estiver vazio
                                        if bias_pipeline:
                                            try: # Adicionar try/except em volta da inferência
                                                results = bias_pipeline(current_batch_texts, truncation=True, max_length=512, batch_size=batch_size)
                                                # Adapte o mapeamento de score conforme o output do SEU modelo
                                                batch_scores = [res['score'] if res['label'] == 'POSITIVE' else -res['score'] if res['label'] == 'NEGATIVE' else 0.0 for res in results]
                                            except Exception as e_infer:
                                                 print(f"\n   ⚠️ Erro na inferência do LLM (batch a partir da linha ~{row_num}): {e_infer}. Usando placeholder para o batch.")
                                                 batch_scores = [0.0] * len(current_batch_texts) # Usar score neutro no erro
                                        else: # Placeholder
                                            batch_scores = [np.tanh((hash(txt) % 1000 - 500) / 250) for txt in current_batch_texts]
                                        current_score_sum += sum(batch_scores)
                                    current_batch_texts = [] # Limpar batch

                                # Finalizar usuário anterior se mudou
                                if user_id_int_cr != current_user_id_int:
                                    if current_user_id_int != -1 and current_tweet_count > 0:
                                        avg = current_score_sum / current_tweet_count
                                        user_str = user_id_rev_map.get(current_user_id_int)
                                        if user_str: bias_scores_real[user_str] = avg
                                    current_user_id_int = user_id_int_cr; current_score_sum = 0.0; current_tweet_count = 0

                                # Adicionar tweet atual ao próximo batch
                                current_batch_texts.append(tweet_text)
                                current_tweet_count += 1 # Contar tweets por usuário

                                # Feedback
                                if (row_num + 1) % 100000 == 0:
                                    print(f"      ... linha {row_num+1:,}", end=''); print_memory_usage()

                            except (ValueError, KeyError) as ve: continue
                
                    # --- Processar último batch e último usuário ---
                    if current_batch_texts: # Processar último batch
                         if bias_pipeline:
                             try:
                                results = bias_pipeline(current_batch_texts, truncation=True, max_length=512, batch_size=batch_size)
                                batch_scores = [res['score'] if res['label'] == 'POSITIVE' else -res['score'] if res['label'] == 'NEGATIVE' else 0.0 for res in results]
                             except Exception as e_infer_last:
                                 print(f"\n   ⚠️ Erro inferência último batch: {e_infer_last}. Usando placeholder.")
                                 batch_scores = [0.0] * len(current_batch_texts)
                         else: batch_scores = [np.tanh((hash(txt) % 1000 - 500) / 250) for txt in current_batch_texts]
                         current_score_sum += sum(batch_scores)
                         
                    if current_user_id_int != -1 and current_tweet_count > 0: # Finalizar último usuário
                         avg = current_score_sum / current_tweet_count; user_str = user_id_rev_map.get(current_user_id_int)
                         if user_str: bias_scores_real[user_str] = avg

                end_pass2 = time.time(); print(f"\n📊 Passagem 2 concluída em {end_pass2 - start_pass2:.2f}s."); print(f"   ↳ Scores para {len(bias_scores_real):,} usuários a partir de {processed_lines_pass2:,} tweets.")
            except Exception as e: print(f"⚠️ ERRO GERAL Passagem 2: {e}"); raise
            # finally: # Opcional: Remover arquivos intermediários
                # if os.path.exists(intermediate_file_to_sort): os.remove(intermediate_file_to_sort)
                # if os.path.exists(sorted_intermediate_text_file): os.remove(sorted_intermediate_text_file) # Nome correto aqui
                # pass
        else: bias_scores_real = {} # Se ordenação pulada

    else: bias_scores_real = {} # Se Passagem 1 vazia

    # --- Garantir Scores e Salvar ---
    print("\n⚙️ Garantindo scores..."); missing=0
    try:
        all_nodes = G_igraph_real.vs["name"]
        for name in all_nodes:
             if name not in bias_scores_real: bias_scores_real[name]=0.0; missing+=1
        if missing > 0: print(f"   ↳ {missing:,} nós sem tweets receberam score 0.0.")
    except Exception as e: print(f"   ⚠️ Erro: {e}")
    
    print(f"\n💾 Salvando scores finais em '{bias_scores_file}'...");
    try:
        with open(bias_scores_file, 'w', encoding='utf-8') as f: json.dump(bias_scores_real, f)
        print("   ✅ Scores salvos.");
    except Exception as e: print(f"   ⚠️ Erro ao salvar: {e}")

    print("\n✅ Cálculo de viés (LLM Duas Passagens) concluído."); print_memory_usage("Final:")
    if 'user_bias_data_final' in locals(): del user_bias_data_final; gc.collect()

# --- Fim do Bloco if calculation_needed ---

# --- Verificação Final ---
# ... (Código idêntico à versão anterior) ...
if 'bias_scores_real' not in locals(): # Recarregar
     if os.path.exists(bias_scores_file):
         try:
             with open(bias_scores_file, 'r', encoding='utf-8') as f: bias_scores_real = json.load(f)
             print(f"\n👍 Scores recarregados '{bias_scores_file}'.")
         except: pass
if 'bias_scores_real' not in locals() or not isinstance(bias_scores_real, dict): raise RuntimeError("ERRO: 'bias_scores_real' não definida/carregada.")
elif not bias_scores_real and calculation_needed: print("\n⚠️ AVISO FINAL: 'bias_scores_real' vazio.")
else: print(f"\n👍 Pronto para usar scores de viés para {len(bias_scores_real):,} usuários.")

### 4.5 Executando a Detecção de Comunidades com Viés

Utilizamos a heurística `EnhancedLouvainWithBias` com `alpha=0.5` para encontrar 2 comunidades, buscando identificar a polarização na rede.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\n🚀 Executando Enhanced Louvain (α=0.5) no grafo TwiBot-22...")
    detector_real = EnhancedLouvainWithBias(alpha=0.5, max_iterations=20, verbose=False) # Limitar iterações para redes grandes
    
    start_heur = time.time()
    detector_real.fit(G_real, bias_scores_real, num_communities=2)
    end_heur = time.time()
    
    partition_real = detector_real.get_communities()
    print(f"   ↳ Concluído em {end_heur - start_heur:.2f} segundos.")
    
    # Contar nós em cada comunidade
    community_counts = pd.Series(partition_real).value_counts()
    print(f"   ↳ Tamanho das comunidades encontradas: {community_counts.to_dict()}")
else:
    print("⚠️ Heurística não executada (grafo vazio).")
    partition_real = {}
    detector_real = None # Para evitar erros na próxima célula

### 4.6 Avaliação dos Resultados

Calculamos as métricas de qualidade (modularidade, pureza/separação de viés) e a concentração de bots nas comunidades encontradas.

In [None]:
if detector_real and partition_real:
    print("\n📈 Avaliando resultados da Heurística (com viés simulado)...")
    metrics_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- Métricas (Heurística α=0.5) ---")
    print(f"  Número de Comunidades: {metrics_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Viés (Intra-Comunidade): {metrics_real.get('bias_purity', 0):.4f}")
    print(f"  Separação de Viés (Inter-Comunidade): {metrics_real.get('bias_separation', 0):.4f}")
    print(f"  Concentração Máxima de Bots: {metrics_real.get('bot_concentration_max', 0):.2%}")
    print(f"  Tempo de Execução da Heurística: {detector_real.execution_time:.2f}s")
else:
    print("⚠️ Avaliação não realizada (nenhuma partição foi gerada).")
    metrics_real = {} # Dicionário vazio

### 4.7 Comparação com Louvain Padrão (Baseline)

Executamos o algoritmo de Louvain original (que considera apenas a estrutura) para comparação.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\n🚀 Executando Louvain padrão (baseline)...")
    start_louv = time.time()
    partition_louvain_real = community_louvain.best_partition(G_real)
    end_louv = time.time()
    print(f"   ↳ Concluído em {end_louv - start_louv:.2f} segundos.")

    print("\n📈 Avaliando resultados do Louvain padrão...")
    metrics_louvain_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_louvain_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- Métricas (Louvain Padrão) ---")
    print(f"  Número de Comunidades: {metrics_louvain_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_louvain_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Viés (Intra-Comunidade): {metrics_louvain_real.get('bias_purity', 0):.4f}")
    print(f"  Separação de Viés (Inter-Comunidade): {metrics_louvain_real.get('bias_separation', 0):.4f}")
    print(f"  Concentração Máxima de Bots: {metrics_louvain_real.get('bot_concentration_max', 0):.2%}")

    # Comparativo direto
    print("\n--- Comparativo (Heurística α=0.5 vs Louvain) ---")
    try:
        delta_mod = (metrics_real.get('modularity',0) / metrics_louvain_real.get('modularity',1) - 1) * 100
        delta_sep = (metrics_real.get('bias_separation',0) / metrics_louvain_real.get('bias_separation',1) - 1) * 100
        delta_bot = (metrics_real.get('bot_concentration_max',0) / metrics_louvain_real.get('bot_concentration_max',1) - 1) * 100
        print(f"  Variação Modularidade: {delta_mod:+.1f}%")
        print(f"  Variação Separação de Viés: {delta_sep:+.1f}%")
        print(f"  Variação Conc. Máx. Bots: {delta_bot:+.1f}%")
    except ZeroDivisionError:
        print("  (Não foi possível calcular variações percentuais devido a valores zero)")
        
else:
    print("⚠️ Comparação com Louvain não realizada (grafo vazio).")

### 4.8 Conclusão Parcial (TwiBot-22 com Viés Simulado)

*(Adicione aqui suas observações sobre os resultados obtidos com o viés simulado. Compare a modularidade, separação de viés e concentração de bots entre a heurística com viés e o Louvain padrão. Note que as conclusões sobre viés são limitadas até a implementação do cálculo real.)*

**Próximo Passo Fundamental:** Implementar o cálculo real dos scores de viés a partir dos tweets para validar a metodologia em dados reais.

## 🎓 5. Conclusão

### Principais Resultados:

1. ✅ **SDP é a formulação matematicamente correta** do artigo
2. ✅ **Heurística converge para mesma solução** em casos práticos
3. ✅ **Heurística é 60x mais rápida** → ideal para redes grandes
4. ✅ **Ambos superam Louvain** em +143% de separação de viés

### Recomendações:

- **Redes pequenas (<200 nós)**: Use SDP para garantir solução ótima
- **Redes grandes (>200 nós)**: Use Heurística para eficiência
- **α recomendado**: 0.4-0.5 para balanço estrutura-viés

### Referências:

- **Artigo Original**: Monteiro et al. (2025)
- **TwiBot-22**: Feng et al. (2022) - NeurIPS
- **Louvain**: Blondel et al. (2008)
- **SDP para Grafos**: Goemans & Williamson (1995)

---