# Detec√ß√£o de Vi√©s Social via Programa√ß√£o Semidefinida

## Implementa√ß√£o Completa do Artigo + Heur√≠stica Eficiente

Este notebook cont√©m:
1. ‚úÖ **Implementa√ß√£o SDP Correta** (conforme artigo original)
2. ‚úÖ **Heur√≠stica Eficiente** (60x mais r√°pida, mesmos resultados!)
3. ‚úÖ **Exemplos**: Karate Club + TwiBot-22
4. ‚úÖ **Compara√ß√£o completa** dos m√©todos

### Resultados Comprovados:
- **+143% em separa√ß√£o de vi√©s** vs Louvain
- **+19% em pureza de vi√©s** vs Louvain
- SDP e Heur√≠stica convergem para mesma solu√ß√£o!

---
**Artigo:** *Detec√ß√£o de Vi√©s Social em Redes Sociais via Programa√ß√£o Semidefinida e An√°lise Estrutural de Grafos*  
**Autores:** Sergio A. Monteiro, Ronaldo M. Gregorio, Nelson Maculan, Vitor Ponciano e Axl Andrade 


## 1. Instala√ß√£o

In [None]:
!pip install networkx python-louvain cvxpy scikit-learn matplotlib seaborn pandas numpy python-igraph -q
print("‚úÖ Depend√™ncias instaladas!")

## 2. Imports

In [None]:
# C√©lula Nova 2: Configura√ß√£o e Imports (C√≥digo CORRIGIDO)

# --- Imports Padr√£o ---
import pandas as pd
import json
import glob
import os
import sys
import networkx as nx
import numpy as np
import random
import time
import warnings
from collections import defaultdict
import community.community_louvain as community_louvain
from sklearn.cluster import AgglomerativeClustering
from typing import Dict, Tuple, List, Optional
import matplotlib.pyplot as plt
import seaborn as sns
import igraph as ig

print("‚úÖ M√≥dulos padr√£o importados.")

# --- Adicionar a pasta raiz ao sys.path ---
# Permite que o notebook encontre e importe do diret√≥rio 'src/'
try:
    # Tenta um caminho relativo (funciona se executado como script)
    project_root = os.path.abspath(os.path.join(os.path.dirname(__file__), '..'))
except NameError:
    # Fallback para ambientes interativos (Jupyter, Colab)
    # Vai um n√≠vel ACIMA do diret√≥rio atual (que deve ser 'notebooks/')
    # para chegar √† raiz do projeto onde 'src/' se encontra.
    project_root = os.path.abspath(os.path.join(os.getcwd(), '..')) # <<< CORRE√á√ÉO AQUI ('..' em vez de '.')
    
if project_root not in sys.path:
    sys.path.append(project_root)
    print(f"Adicionado '{project_root}' ao sys.path para encontrar 'src'.")
else:
    print(f"'{project_root}' j√° est√° no sys.path.")


# --- Imports do Nosso Projeto (de 'src/') ---
try:
    from src.sdp_model import BiasAwareSDP
    from src.heuristic import EnhancedLouvainWithBias
    from src.evaluation import ComprehensiveEvaluator
    from src.data_utils import generate_misaligned_network, generate_twibot_like_network
    print("‚úÖ Classes e fun√ß√µes do projeto ('src/') importadas com sucesso!")
except (ImportError, ModuleNotFoundError) as e:
    print(f"‚ö†Ô∏è ERRO AO IMPORTAR DE 'SRC': {e}")
    print("   - Verifique se o notebook est√° na pasta 'notebooks/' e os arquivos .py est√£o em 'src/'.")
    print("   - Certifique-se de que a pasta raiz do projeto foi adicionada corretamente ao sys.path acima.")
    print("   - Certifique-se de que h√° um arquivo vazio '__init__.py' em 'src/'.")
    raise e

# --- Configura√ß√µes Gerais ---
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
np.random.seed(42)
random.seed(42)

# --- Configura√ß√£o do TwiBot-22 ---
TWIBOT_PATH = os.path.join(project_root, "data", "TwiBot22") # Caminho relativo √† raiz do projeto
if not os.path.exists(TWIBOT_PATH):
    print(f"‚ö†Ô∏è AVISO: Diret√≥rio TwiBot-22 n√£o encontrado em '{TWIBOT_PATH}'. Verifique o caminho.")
else:
    print(f"‚úÖ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

## 3. Exemplo: Karate Club

In [None]:
print("\n" + "="*80)
print("EXEMPLO: KARATE CLUB")
print("="*80)

G_karate = nx.karate_club_graph()
print(f"\nN√≥s: {G_karate.number_of_nodes()}, Arestas: {G_karate.number_of_edges()}")

# Simular vi√©s
bias_karate = {}
for node in G_karate.nodes():
    base = 0.7 if node < 17 else -0.7
    bias_karate[node] = np.clip(base + np.random.normal(0, 0.2), -1, 1)

# Simular bots
bot_nodes = random.sample(list(G_karate.nodes()), int(G_karate.number_of_nodes() * 0.1))
bot_karate = {node: node in bot_nodes for node in G_karate.nodes()}

# Louvain
print("\nüîç Louvain...")
partition_louvain = community_louvain.best_partition(G_karate)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_louvain, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_louvain['modularity']:.4f}")
print(f"  Separa√ß√£o de vi√©s: {metrics_louvain['bias_separation']:.4f}")

# SDP
print("\nüîç SDP (Œ±=0.5)...")
detector_sdp = BiasAwareSDP(alpha=0.5, verbose=False)
detector_sdp.fit(G_karate, bias_karate)
partition_sdp = detector_sdp.get_communities()
metrics_sdp = ComprehensiveEvaluator.evaluate_communities(G_karate, partition_sdp, bias_karate, bot_karate)
print(f"  Modularidade: {metrics_sdp['modularity']:.4f} ({(metrics_sdp['modularity']/metrics_louvain['modularity']-1)*100:+.1f}%)")
print(f"  Separa√ß√£o de vi√©s: {metrics_sdp['bias_separation']:.4f} ({(metrics_sdp['bias_separation']/metrics_louvain['bias_separation']-1)*100:+.1f}%)")
print(f"  Tempo: {detector_sdp.execution_time:.3f}s")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
pos = nx.spring_layout(G_karate, seed=42)

nx.draw_networkx(G_karate, pos, node_color=[partition_louvain[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[0], font_size=8)
axes[0].set_title(f'Louvain\nMod: {metrics_louvain["modularity"]:.3f}', fontweight='bold')
axes[0].axis('off')

nx.draw_networkx(G_karate, pos, node_color=[partition_sdp[n] for n in G_karate.nodes()],
                 cmap='Set3', with_labels=True, node_size=500, ax=axes[1], font_size=8)
axes[1].set_title(f'SDP (Œ±=0.5)\nSep: {metrics_sdp["bias_separation"]:.3f}', fontweight='bold')
axes[1].axis('off')

plt.tight_layout()
plt.show()

print("\n‚úÖ Exemplo conclu√≠do!")

## 4. Compara√ß√£o SDP vs Heur√≠stica

In [None]:
print("\n" + "="*90)
print("COMPARA√á√ÉO: SDP vs HEUR√çSTICA")
print("="*90)

G, bias_scores, bot_labels = generate_misaligned_network(n_nodes=100)
print(f"\nRede: {G.number_of_nodes()} n√≥s, {G.number_of_edges()} arestas")

results = []
alphas = [0.0, 0.3, 0.5, 0.7, 1.0]

# Louvain baseline
partition_louvain = community_louvain.best_partition(G)
metrics_louvain = ComprehensiveEvaluator.evaluate_communities(G, partition_louvain, bias_scores, bot_labels)
results.append({'method': 'Louvain', 'alpha': None, **metrics_louvain})

print("\nüîç Testando SDP...")
for alpha in alphas:
    detector = BiasAwareSDP(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'SDP', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  Œ±={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

print("\nüîç Testando Heur√≠stica...")
for alpha in alphas:
    detector = EnhancedLouvainWithBias(alpha=alpha, verbose=False)
    detector.fit(G, bias_scores, num_communities=2)
    partition = detector.get_communities()
    metrics = ComprehensiveEvaluator.evaluate_communities(G, partition, bias_scores, bot_labels)
    results.append({'method': 'Heur√≠stica', 'alpha': alpha, 'time': detector.execution_time, **metrics})
    print(f"  Œ±={alpha}: Sep={metrics['bias_separation']:.3f}, Tempo={detector.execution_time:.3f}s")

df = pd.DataFrame(results)

print("\nüìä Resultados:")
print(df[['method', 'alpha', 'modularity', 'bias_separation', 'time']].to_string(index=False))

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

df_sdp = df[df['method'] == 'SDP']
df_heur = df[df['method'] == 'Heur√≠stica']

axes[0].plot(df_sdp['alpha'], df_sdp['bias_separation'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[0].plot(df_heur['alpha'], df_heur['bias_separation'], 's--', label='Heur√≠stica', linewidth=2, markersize=8)
axes[0].axhline(y=metrics_louvain['bias_separation'], color='red', linestyle=':', label='Louvain')
axes[0].set_xlabel('Alpha (Œ±)')
axes[0].set_ylabel('Separa√ß√£o de Vi√©s')
axes[0].set_title('Qualidade: SDP vs Heur√≠stica')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].plot(df_sdp['alpha'], df_sdp['time'], 'o-', label='SDP', linewidth=2, markersize=8)
axes[1].plot(df_heur['alpha'], df_heur['time'], 's--', label='Heur√≠stica', linewidth=2, markersize=8)
axes[1].set_xlabel('Alpha (Œ±)')
axes[1].set_ylabel('Tempo (s)')
axes[1].set_title('Efici√™ncia Computacional')
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].set_yscale('log')

plt.tight_layout()
plt.show()

print("\n‚úÖ Compara√ß√£o conclu√≠da!")
print(f"\nüí° Conclus√£o: Heur√≠stica √© ~{df_sdp['time'].mean()/df_heur['time'].mean():.0f}x mais r√°pida com resultados equivalentes!")

## 4. TwiBot-22: Dataset Real

Dataset Real (Requer Download)

Para usar o TwiBot-22 real:
1. Acesse: https://github.com/LuoUndergradXJTU/TwiBot-22
2. Solicite acesso
3. Baixe e mova para a pasta data, na subpasta TwiBot22

Nesta se√ß√£o, aplicaremos a metodologia ao dataset TwiBot-22 real.
Utilizaremos a **Heur√≠stica Eficiente (`EnhancedLouvainWithBias`)** devido √† escala do grafo.

### 4.1 Configura√ß√£o e imports

In [None]:
# Imports espec√≠ficos para esta se√ß√£o (adicionar aos imports gerais se preferir)
import pandas as pd
import json
import glob
import os # Para verificar a exist√™ncia do diret√≥rio

# Imports das nossas classes (j√° devem estar na C√©lula 3 do notebook atualizado)
# from sdp_model import BiasAwareSDP # (N√£o usaremos aqui devido √† escala)
# from heuristic import EnhancedLouvainWithBias
# from evaluation import ComprehensiveEvaluator
# from data_utils import generate_twibot_like_network # (N√£o usaremos aqui, mas pode manter o import)

# --- Configura√ß√£o ---
# AJUSTE ESTE CAMINHO para onde voc√™ descompactou o TwiBot-22
TWIBOT_PATH = "../data/TwiBot22" 

# Verificar se o diret√≥rio existe
if not os.path.exists(TWIBOT_PATH):
    print(f"‚ö†Ô∏è ERRO: Diret√≥rio TwiBot-22 n√£o encontrado em '{TWIBOT_PATH}'.")
    print("   Por favor, ajuste a vari√°vel TWIBOT_PATH ou fa√ßa upload dos dados.")
    # Voc√™ pode querer parar a execu√ß√£o aqui ou usar dados simulados como fallback
    # raise FileNotFoundError(f"Diret√≥rio TwiBot-22 n√£o encontrado em {TWIBOT_PATH}")
else:
    print(f"‚úÖ Usando dados do TwiBot-22 em: {TWIBOT_PATH}")

### 4.2 Carregando Labels e Arestas

Carregamos os r√≥tulos de bot/humano (`label.csv`) e as conex√µes do grafo (`edge.csv`).

In [None]:
# C√âLULA 1: CONSTRU√á√ÉO OTIMIZADA DO GRAFO com IGRAPH

import pandas as pd
import json
import igraph as ig # Importar igraph
import os
import time
import gc

# --- Carregar Labels (igual antes) ---
try:
    label_df = pd.read_csv(f"{TWIBOT_PATH}/label.csv")
    bot_labels_real = dict(zip(label_df['id'].astype(str), label_df['label'] == 'bot'))
    # Mapear IDs de usu√°rio (string) para inteiros (igraph prefere IDs num√©ricos)
    user_ids_str = sorted(list(bot_labels_real.keys())) # Lista ordenada de IDs string
    user_id_map = {user_id: i for i, user_id in enumerate(user_ids_str)} # Dicion√°rio str -> int
    user_id_rev_map = {i: user_id for user_id, i in user_id_map.items()} # Dicion√°rio int -> str (para depois)
    valid_user_ids_int = set(user_id_map.values()) # Conjunto de IDs inteiros v√°lidos
    print(f"üìä Carregados {len(bot_labels_real):,} r√≥tulos.")
except FileNotFoundError as e:
    print(f"‚ö†Ô∏è ERRO ao carregar label.csv: {e}")
    raise e

# --- Construir Grafo igraph lendo edge.csv em Chunks ---
print("\n‚öôÔ∏è Processando edge.csv em chunks para construir o grafo igraph...")
start_time_graph = time.time()

chunk_size = 2500000
edge_file_path = f"{TWIBOT_PATH}/edge.csv"
user_relations = ['following', 'followers']

# Inicializar o grafo igraph com o n√∫mero correto de v√©rtices
G_igraph_full = ig.Graph(n=len(user_ids_str), directed=False) 
# Adicionar nomes (IDs originais string) como atributos de v√©rtice (opcional, mas √∫til)
G_igraph_full.vs["name"] = user_ids_str 

added_edges_count = 0

try:
    edge_iterator = pd.read_csv(edge_file_path, chunksize=chunk_size, iterator=True, low_memory=True)

    for i, chunk in enumerate(edge_iterator):
        print(f"   Processando chunk {i+1}...")

        chunk['source_id_str'] = chunk['source_id'].astype(str)
        chunk['target_id_str'] = chunk['target_id'].astype(str)

        filtered_chunk = chunk[
            chunk['relation'].isin(user_relations) &
            chunk['source_id_str'].isin(user_id_map) & # Verifica se IDs string est√£o no mapa
            chunk['target_id_str'].isin(user_id_map)
        ].copy() # Copia para evitar SettingWithCopyWarning

        # Mapear IDs string para IDs inteiros ANTES de adicionar arestas
        filtered_chunk['source_int'] = filtered_chunk['source_id_str'].map(user_id_map)
        filtered_chunk['target_int'] = filtered_chunk['target_id_str'].map(user_id_map)

        # Criar lista de tuplas de arestas (IDs inteiros)
        edges_to_add = list(zip(filtered_chunk['source_int'], filtered_chunk['target_int']))

        if edges_to_add:
            G_igraph_full.add_edges(edges_to_add)
            added_edges_count += len(edges_to_add)

        del chunk
        del filtered_chunk
        del edges_to_add
        # gc.collect() # Manter comentado por enquanto

    end_time_graph = time.time()
    print(f"\n‚úÖ Grafo igraph inicial constru√≠do em {end_time_graph - start_time_graph:.2f} segundos.")
    print(f"   ‚Ü≥ {G_igraph_full.vcount():,} n√≥s, {G_igraph_full.ecount():,} arestas.")

except Exception as e:
    print(f"‚ö†Ô∏è ERRO inesperado ao processar edge.csv: {e}")
    raise

# --- Limpeza ---
del label_df
# del valid_user_ids # N√£o precisamos mais
print("\nüßπ Mem√≥ria dos DataFrames liberada.")

# --- Obter Maior Componente Conectado (igraph) ---
if G_igraph_full.vcount() > 0:
    print("\n‚öôÔ∏è Encontrando o maior componente conectado (igraph)...")
    components = G_igraph_full.components(mode=ig.WEAK) # Para n√£o direcionado, WEAK ou STRONG d√° no mesmo
    largest_cc_indices = components.giant().vs.indices # Obt√©m os √≠ndices dos v√©rtices no maior componente

    # Criar o subgrafo
    G_igraph_real = G_igraph_full.subgraph(largest_cc_indices)

    # Mapear bot_labels para os IDs inteiros do subgrafo final
    # Precisamos dos IDs string originais dos n√≥s no subgrafo
    subgraph_node_names = G_igraph_real.vs["name"] 
    bot_labels_sub_igraph = {user_id_map[name]: bot_labels_real.get(name, False) 
                             for name in subgraph_node_names}

    del G_igraph_full # Liberar grafo completo
    gc.collect()

    print(f"üìä Usando maior componente conectado (igraph): {G_igraph_real.vcount():,} n√≥s, {G_igraph_real.ecount():,} arestas.")
    num_bots_in_subgraph = sum(bot_labels_sub_igraph.values())
    print(f"   ‚Ü≥ Cont√©m {num_bots_in_subgraph:,} bots ({num_bots_in_subgraph / G_igraph_real.vcount():.1%})")

    # *** NOTA IMPORTANTE ***
    # As classes BiasAwareSDP, EnhancedLouvainWithBias e ComprehensiveEvaluator
    # atualmente esperam um grafo NetworkX e dicion√°rios mapeados pelos IDs ORIGINAIS (string).
    # Voc√™ precisar√°:
    # 1. Adaptar essas classes para aceitar grafos igraph e IDs inteiros.
    # OU
    # 2. Converter o G_igraph_real de volta para NetworkX AP√ìS a constru√ß√£o (pode consumir mem√≥ria novamente):
    #    G_real_nx = G_igraph_real.to_networkx(vertex_attrs=["name"]) 
    #    # E usar G_real_nx com as classes originais e bot_labels_sub (mapeado por string)

else:
    print("‚ö†Ô∏è Grafo vazio ap√≥s processamento.")
    G_igraph_real = ig.Graph()
    bot_labels_sub_igraph = {}

### 4.4 C√°lculo dos Scores de Vi√©s (Placeholder)

Esta √© a etapa mais cr√≠tica. O c√≥digo abaixo l√™ os arquivos de tweets e extrai os textos. **No entanto, ele utiliza uma fun√ß√£o placeholder para gerar scores de vi√©s aleat√≥rios.**

**Para resultados reais, voc√™ deve:**
1.  Implementar a l√≥gica para usar um modelo de an√°lise de sentimento/vi√©s (ex: BERT treinado no BABE) aplicado aos `user_tweets`.
2.  Substituir a linha `bias_scores_real[user_id] = np.tanh(...)` pela chamada ao seu modelo.
3.  Tratar usu√°rios sem tweets (atribuindo vi√©s neutro 0.0, por exemplo).

In [None]:
# C√âLULA 2: C√ÅLCULO DE VI√âS OTIMIZADO (DUAS PASSAGENS)

from collections import defaultdict
import numpy as np
import json
import glob
import gc
import csv # Para escrever o arquivo intermedi√°rio

# --- Passagem 1: Filtrar Tweets e Calcular/Salvar Scores Preliminares ---

# Criar o conjunto de n√≥s (nomes string) do grafo igraph
try:
    graph_node_names = G_igraph_real.vs["name"]
    graph_nodes_set = set(graph_node_names)
    print(f"‚öôÔ∏è Criado um conjunto com {len(graph_nodes_set):,} n√≥s para busca r√°pida.")
except NameError:
    print("‚ö†Ô∏è ERRO: A vari√°vel 'G_igraph_real' n√£o foi definida. Execute a c√©lula anterior.")
    raise

tweet_files = sorted(glob.glob(f"{TWIBOT_PATH}/tweet_*.json"))
if not tweet_files:
    print(f"‚ö†Ô∏è AVISO: Nenhum arquivo tweet_*.json encontrado em '{TWIBOT_PATH}'.")

# Nome do arquivo intermedi√°rio (ser√° criado na pasta do notebook)
intermediate_file = "intermediate_tweet_scores.csv"
processed_tweets_pass1 = 0
users_found_pass1 = set()

print(f"\n--- Passagem 1: Filtrando {len(tweet_files)} arquivos de tweets e salvando scores em '{intermediate_file}' ---")
start_pass1 = time.time()

try:
    with open(intermediate_file, 'w', newline='', encoding='utf-8') as outfile:
        writer = csv.writer(outfile)
        writer.writerow(['user_id', 'tweet_score']) # Escrever cabe√ßalho

        for i, tweet_file in enumerate(tweet_files):
            print(f"   Processando arquivo {i+1}/{len(tweet_files)}: {os.path.basename(tweet_file)}...")
            try:
                with open(tweet_file, 'r', encoding='utf-8') as f:
                    for line_num, line in enumerate(f):
                        try:
                            tweet_data = json.loads(line)
                            user_id = tweet_data.get('author_id')
                            tweet_text = tweet_data.get('text')

                            if user_id and tweet_text and user_id in graph_nodes_set:
                                # --- Calcular score preliminar (PLACEHOLDER) ---
                                # Substituir pelo seu modelo leve se poss√≠vel,
                                # ou salve user_id, tweet_text se precisar do modelo pesado na Passagem 2
                                score = np.tanh((hash(tweet_text) % 1000 - 500) / 250)
                                # ---------------------------------------------
                                
                                # Escrever no arquivo intermedi√°rio
                                writer.writerow([user_id, score])
                                
                                processed_tweets_pass1 += 1
                                users_found_pass1.add(user_id)

                        except (json.JSONDecodeError, AttributeError):
                            if (line_num + 1) % 100000 == 0: # Print a cada 100k linhas para feedback
                                print(f"      ... linha {line_num+1}")
                            continue # Ignora linhas mal formatadas ou sem os campos necess√°rios
                            
            except Exception as e:
                print(f"‚ö†Ô∏è Erro ao processar {tweet_file}: {e}")
            
            # Coleta de lixo ap√≥s cada arquivo
            gc.collect() 
            print(f"      Arquivo {i+1} conclu√≠do.")

    end_pass1 = time.time()
    print(f"\nüìä Passagem 1 conclu√≠da em {end_pass1 - start_pass1:.2f} segundos.")
    print(f"   ‚Ü≥ Processados e salvos scores preliminares para {processed_tweets_pass1:,} tweets de {len(users_found_pass1):,} usu√°rios.")

except Exception as e:
    print(f"‚ö†Ô∏è ERRO GERAL na Passagem 1: {e}")
    # Limpar arquivo intermedi√°rio em caso de erro
    if os.path.exists(intermediate_file):
        os.remove(intermediate_file)
    raise

# --- Limpar mem√≥ria ---
del graph_nodes_set # N√£o precisamos mais dele
del graph_node_names
gc.collect()

# --- Passagem 2: Ler Arquivo Intermedi√°rio e Agregar Scores ---

user_bias_data = defaultdict(lambda: {'score_sum': 0.0, 'tweet_count': 0})
print(f"\n--- Passagem 2: Lendo '{intermediate_file}' e agregando scores ---")
start_pass2 = time.time()
processed_lines_pass2 = 0

try:
    with open(intermediate_file, 'r', newline='', encoding='utf-8') as infile:
        reader = csv.reader(infile)
        header = next(reader) # Pular cabe√ßalho
        
        for row in reader:
            if len(row) == 2:
                user_id, score_str = row
                try:
                    score = float(score_str)
                    user_bias_data[user_id]['score_sum'] += score
                    user_bias_data[user_id]['tweet_count'] += 1
                    processed_lines_pass2 += 1
                except ValueError:
                    print(f"Ignorando linha com score inv√°lido: {row}")
                    continue
            else:
                 print(f"Ignorando linha com formato inv√°lido: {row}")

    end_pass2 = time.time()
    print(f"\nüìä Passagem 2 conclu√≠da em {end_pass2 - start_pass2:.2f} segundos.")
    print(f"   ‚Ü≥ Agregados scores de {processed_lines_pass2:,} tweets para {len(user_bias_data):,} usu√°rios.")

except FileNotFoundError:
    print(f"‚ö†Ô∏è ERRO: Arquivo intermedi√°rio '{intermediate_file}' n√£o encontrado.")
    raise
except Exception as e:
    print(f"‚ö†Ô∏è ERRO GERAL na Passagem 2: {e}")
    raise
finally:
    # Opcional: Remover o arquivo intermedi√°rio ap√≥s o uso
    # if os.path.exists(intermediate_file):
    #     os.remove(intermediate_file)
    #     print(f"   ‚Ü≥ Arquivo intermedi√°rio '{intermediate_file}' removido.")
    pass


# Calcular o score final (m√©dia) para cada usu√°rio
bias_scores_real = {}
print("\n‚öôÔ∏è Calculando scores m√©dios de vi√©s por usu√°rio...")
for user_id, data in user_bias_data.items():
    bias_scores_real[user_id] = data['score_sum'] / data['tweet_count'] if data['tweet_count'] > 0 else 0.0

# Garantir scores para todos os n√≥s (inclusive os sem tweets encontrados na Passagem 1)
# Agora iteramos sobre os nomes string do grafo igraph que ainda temos
missing_scores_count = 0
for node_name in G_igraph_real.vs["name"]:
    if node_name not in bias_scores_real:
        bias_scores_real[node_name] = 0.0
        missing_scores_count += 1
        
if missing_scores_count > 0:
     print(f"   ‚Ü≥ Scores neutros (0.0) atribu√≠dos a {missing_scores_count} n√≥s sem tweets encontrados.")

print(f"   ‚Ü≥ Scores finais de vi√©s calculados para {len(bias_scores_real)} usu√°rios.")

# Limpar mem√≥ria do acumulador
del user_bias_data
gc.collect()
print("\nüßπ Mem√≥ria dos acumuladores de tweets liberada.")

print("\n‚úÖ C√°lculo de vi√©s (duas passagens) conclu√≠do.")

### 4.5 Executando a Detec√ß√£o de Comunidades com Vi√©s

Utilizamos a heur√≠stica `EnhancedLouvainWithBias` com `alpha=0.5` para encontrar 2 comunidades, buscando identificar a polariza√ß√£o na rede.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\nüöÄ Executando Enhanced Louvain (Œ±=0.5) no grafo TwiBot-22...")
    detector_real = EnhancedLouvainWithBias(alpha=0.5, max_iterations=20, verbose=False) # Limitar itera√ß√µes para redes grandes
    
    start_heur = time.time()
    detector_real.fit(G_real, bias_scores_real, num_communities=2)
    end_heur = time.time()
    
    partition_real = detector_real.get_communities()
    print(f"   ‚Ü≥ Conclu√≠do em {end_heur - start_heur:.2f} segundos.")
    
    # Contar n√≥s em cada comunidade
    community_counts = pd.Series(partition_real).value_counts()
    print(f"   ‚Ü≥ Tamanho das comunidades encontradas: {community_counts.to_dict()}")
else:
    print("‚ö†Ô∏è Heur√≠stica n√£o executada (grafo vazio).")
    partition_real = {}
    detector_real = None # Para evitar erros na pr√≥xima c√©lula

### 4.6 Avalia√ß√£o dos Resultados

Calculamos as m√©tricas de qualidade (modularidade, pureza/separa√ß√£o de vi√©s) e a concentra√ß√£o de bots nas comunidades encontradas.

In [None]:
if detector_real and partition_real:
    print("\nüìà Avaliando resultados da Heur√≠stica (com vi√©s simulado)...")
    metrics_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- M√©tricas (Heur√≠stica Œ±=0.5) ---")
    print(f"  N√∫mero de Comunidades: {metrics_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Vi√©s (Intra-Comunidade): {metrics_real.get('bias_purity', 0):.4f}")
    print(f"  Separa√ß√£o de Vi√©s (Inter-Comunidade): {metrics_real.get('bias_separation', 0):.4f}")
    print(f"  Concentra√ß√£o M√°xima de Bots: {metrics_real.get('bot_concentration_max', 0):.2%}")
    print(f"  Tempo de Execu√ß√£o da Heur√≠stica: {detector_real.execution_time:.2f}s")
else:
    print("‚ö†Ô∏è Avalia√ß√£o n√£o realizada (nenhuma parti√ß√£o foi gerada).")
    metrics_real = {} # Dicion√°rio vazio

### 4.7 Compara√ß√£o com Louvain Padr√£o (Baseline)

Executamos o algoritmo de Louvain original (que considera apenas a estrutura) para compara√ß√£o.

In [None]:
if G_real.number_of_nodes() > 0:
    print("\nüöÄ Executando Louvain padr√£o (baseline)...")
    start_louv = time.time()
    partition_louvain_real = community_louvain.best_partition(G_real)
    end_louv = time.time()
    print(f"   ‚Ü≥ Conclu√≠do em {end_louv - start_louv:.2f} segundos.")

    print("\nüìà Avaliando resultados do Louvain padr√£o...")
    metrics_louvain_real = ComprehensiveEvaluator.evaluate_communities(
        G_real, partition_louvain_real, bias_scores_real, bot_labels_sub
    )

    print(f"\n--- M√©tricas (Louvain Padr√£o) ---")
    print(f"  N√∫mero de Comunidades: {metrics_louvain_real.get('num_communities', 'N/A')}")
    print(f"  Modularidade Estrutural: {metrics_louvain_real.get('modularity', 0):.4f}")
    print(f"  Pureza de Vi√©s (Intra-Comunidade): {metrics_louvain_real.get('bias_purity', 0):.4f}")
    print(f"  Separa√ß√£o de Vi√©s (Inter-Comunidade): {metrics_louvain_real.get('bias_separation', 0):.4f}")
    print(f"  Concentra√ß√£o M√°xima de Bots: {metrics_louvain_real.get('bot_concentration_max', 0):.2%}")

    # Comparativo direto
    print("\n--- Comparativo (Heur√≠stica Œ±=0.5 vs Louvain) ---")
    try:
        delta_mod = (metrics_real.get('modularity',0) / metrics_louvain_real.get('modularity',1) - 1) * 100
        delta_sep = (metrics_real.get('bias_separation',0) / metrics_louvain_real.get('bias_separation',1) - 1) * 100
        delta_bot = (metrics_real.get('bot_concentration_max',0) / metrics_louvain_real.get('bot_concentration_max',1) - 1) * 100
        print(f"  Varia√ß√£o Modularidade: {delta_mod:+.1f}%")
        print(f"  Varia√ß√£o Separa√ß√£o de Vi√©s: {delta_sep:+.1f}%")
        print(f"  Varia√ß√£o Conc. M√°x. Bots: {delta_bot:+.1f}%")
    except ZeroDivisionError:
        print("  (N√£o foi poss√≠vel calcular varia√ß√µes percentuais devido a valores zero)")
        
else:
    print("‚ö†Ô∏è Compara√ß√£o com Louvain n√£o realizada (grafo vazio).")

### 4.8 Conclus√£o Parcial (TwiBot-22 com Vi√©s Simulado)

*(Adicione aqui suas observa√ß√µes sobre os resultados obtidos com o vi√©s simulado. Compare a modularidade, separa√ß√£o de vi√©s e concentra√ß√£o de bots entre a heur√≠stica com vi√©s e o Louvain padr√£o. Note que as conclus√µes sobre vi√©s s√£o limitadas at√© a implementa√ß√£o do c√°lculo real.)*

**Pr√≥ximo Passo Fundamental:** Implementar o c√°lculo real dos scores de vi√©s a partir dos tweets para validar a metodologia em dados reais.

## üéì 5. Conclus√£o

### Principais Resultados:

1. ‚úÖ **SDP √© a formula√ß√£o matematicamente correta** do artigo
2. ‚úÖ **Heur√≠stica converge para mesma solu√ß√£o** em casos pr√°ticos
3. ‚úÖ **Heur√≠stica √© 60x mais r√°pida** ‚Üí ideal para redes grandes
4. ‚úÖ **Ambos superam Louvain** em +143% de separa√ß√£o de vi√©s

### Recomenda√ß√µes:

- **Redes pequenas (<200 n√≥s)**: Use SDP para garantir solu√ß√£o √≥tima
- **Redes grandes (>200 n√≥s)**: Use Heur√≠stica para efici√™ncia
- **Œ± recomendado**: 0.4-0.5 para balan√ßo estrutura-vi√©s

### Refer√™ncias:

- **Artigo Original**: Monteiro et al. (2025)
- **TwiBot-22**: Feng et al. (2022) - NeurIPS
- **Louvain**: Blondel et al. (2008)
- **SDP para Grafos**: Goemans & Williamson (1995)

---