### üì¶ Importa√ß√£o de Bibliotecas

Este bloco realiza a importa√ß√£o das bibliotecas e m√≥dulos necess√°rios para o processamento, an√°lise e visualiza√ß√£o de grafos com dados em formato `.csv`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import gzip
import csv
import os
from networkx.algorithms.community import louvain_communities, girvan_newman
from itertools import islice 
import networkx as nx
from collections import Counter

### Defini√ß√£o de Vari√°veis

- **`input_path`**: Caminho do arquivo de entrada compactado `.txt.gz` contendo os dados originais. Este arquivo √© o ponto de partida para a convers√£o.
  - **Exemplo**: `../data/twitter_combined.txt.gz`
  
- **`output_path`**: Caminho para o arquivo `.csv` gerado a partir do arquivo original. Este arquivo armazenar√° as arestas do grafo extra√≠das do arquivo compactado.
  - **Exemplo**: `../csv_files/twitter_network.csv`
  
- **`CSV_FILE`**: Caminho para o arquivo `.csv` **completo**, utilizado nas execu√ß√µes finais do processo. Esse arquivo cont√©m todos os dados extra√≠dos e processados do arquivo original.
  
- **`CSV_FILE_SAMPLE`**: Caminho para o arquivo `.csv` **reduzido**, utilizado para desenvolvimento r√°pido e testes com amostras do conjunto de dados. Esse arquivo cont√©m apenas uma fra√ß√£o dos dados, facilitando o desenvolvimento e o teste de funcionalidades.


In [None]:
#Defini√ßao de vari√°veis
input_path = "../data/twitter_combined.txt.gz"
output_path = "../csv_files/twitter_network.csv"

CSV_FILE = '../csv_files/twitter_network.csv' # Arquivo completo
CSV_FILE_SAMPLE = '../csv_files/twitter_network_sample.csv' # Amostra para desenvolvimento r√°pido

### Defini√ß√£o de Constantes de Execu√ß√£o

- **`USE_SAMPLE = True` ou `False`**: Esta constante define se os algoritmos ser√£o executados utilizando uma **amostra** do conjunto de dados ou o **arquivo completo**.
  - **`True`**: Executa os algoritmos utilizando apenas uma amostra do conjunto de dados.
  - **`False`**: Executa os algoritmos utilizando o conjunto de dados completo.
  
- **`SAMPLE_SIZE = 1.0` at√© `0.01`**: Define o **tamanho da amostra** a ser gerada, representando uma fra√ß√£o do total de dados.
  - **Exemplo**: `SAMPLE_SIZE = 0.1` corresponde a 10% do conjunto original.
  - Essa constante √© utilizada para determinar a quantidade de dados a ser extra√≠da quando `USE_SAMPLE` √© configurado como `True`.


In [None]:
USE_SAMPLE = True
SAMPLE_SIZE = 0.1

### Convers√£o de Arquivo `.txt.gz` para `.csv`
Este trecho do c√≥digo realiza a convers√£o de um arquivo compactado (`.txt.gz`) contendo pares de v√©rtices (arestas de um grafo) em um arquivo `.csv` com cabe√ßalhos apropriados.

- **Verifica√ß√£o de Exist√™ncia do Arquivo de Entrada**: O c√≥digo verifica se o arquivo de entrada, especificado pela vari√°vel `input_path`, existe. Se o arquivo n√£o for encontrado, uma mensagem de erro √© exibida, e o programa √© encerrado com o c√≥digo de erro 1.
  
- **Verifica√ß√£o de Exist√™ncia do Diret√≥rio de Destino**: O c√≥digo tamb√©m verifica se o diret√≥rio de destino, especificado pela vari√°vel `output_path`, existe. Caso contr√°rio, ele cria o diret√≥rio necess√°rio para armazenar o arquivo `.csv` de sa√≠da.

- **Abertura dos Arquivos**: O arquivo compactado `.txt.gz` √© aberto no modo texto (`'rt'`), enquanto o arquivo `.csv` √© aberto no modo escrita (`'w'`), permitindo a grava√ß√£o das arestas extra√≠das.

- **Escrita do Cabe√ßalho**: O cabe√ßalho `['source', 'target']` √© escrito no arquivo `.csv`. Esses cabe√ßalhos correspondem aos v√©rtices de cada aresta do grafo, sendo que cada par de v√©rtices representar√° uma aresta.

- **Processamento das Linhas do Arquivo de Entrada**: Para cada linha no arquivo `.txt.gz`, o c√≥digo realiza os seguintes passos:
  - Divide a linha em dois elementos separados por espa√ßo em branco.
  - Verifica se a linha cont√©m exatamente dois elementos (representando uma aresta). Se sim, escreve esse par de v√©rtices no arquivo `.csv`.

Esse processo √© √∫til para converter dados de grafos armazenados de forma compactada em um formato estruturado e mais facilmente utiliz√°vel, como o `.csv`.


In [None]:
if not(os.path.exists(input_path)):
    print(f"Arquivo {input_path} n√£o encontrado.")
    exit(1)

if not os.path.exists(os.path.dirname(output_path)):
    print(f"Criando diret√≥rio {os.path.dirname(output_path)}")
    os.makedirs(os.path.dirname(output_path))


with gzip.open(input_path, 'rt') as infile, open(output_path, 'w', newline='') as outfile:
    writer = csv.writer(outfile)
    writer.writerow(['source', 'target'])  
    for line in infile:
        nodes = line.strip().split()
        if len(nodes) == 2:
            writer.writerow(nodes)

print(f"Arquivo CSV salvo como {output_path}")

### Gera√ß√£o e Salvamento de Amostra do Arquivo CSV

Este trecho de c√≥digo realiza a gera√ß√£o de uma amostra aleat√≥ria de um arquivo CSV e a salva em um novo arquivo. Abaixo est√£o os detalhes de cada etapa do processo.

- **Exibi√ß√£o da Mensagem de In√≠cio**: O c√≥digo come√ßa exibindo uma mensagem que informa que uma amostra do arquivo CSV est√° sendo gerada, especificando o tamanho da amostra com base na constante `SAMPLE_SIZE`.

- **Leitura do Arquivo CSV**: O arquivo CSV completo √© lido e carregado em um DataFrame (`df`) utilizando a fun√ß√£o `pd.read_csv()`. O arquivo CSV est√° localizado no caminho especificado pela vari√°vel `output_path`.

- **Gera√ß√£o da Amostra Aleat√≥ria**: O c√≥digo utiliza o m√©todo `sample()` do Pandas para extrair uma amostra aleat√≥ria do DataFrame. O par√¢metro `frac=SAMPLE_SIZE` define a fra√ß√£o dos dados a ser extra√≠da, com base no valor de `SAMPLE_SIZE`. O par√¢metro `random_state=1` garante que a amostra seja reprodut√≠vel, ou seja, a mesma amostra ser√° gerada toda vez que o c√≥digo for executado com as mesmas configura√ß√µes.

- **Salvamento da Amostra em um Novo Arquivo CSV**: Ap√≥s a gera√ß√£o da amostra, ela √© salva em um novo arquivo CSV, cujo caminho √© especificado pela vari√°vel `CSV_FILE_SAMPLE`. O par√¢metro `index=False` garante que os √≠ndices do DataFrame n√£o sejam inclu√≠dos no arquivo CSV gerado.

- **Exibi√ß√£o da Mensagem de Conclus√£o**: Por fim, uma mensagem √© exibida para informar que a amostra foi salva com sucesso no novo arquivo, cujo caminho √© fornecido pela vari√°vel `CSV_FILE_SAMPLE`.

Este processo √© √∫til para trabalhar com uma por√ß√£o representativa dos dados, facilitando a an√°lise e o desenvolvimento sem precisar carregar ou processar o conjunto completo de dados.


In [None]:
print(f"Gerando uma Amostra do arquivo CSV de tamanho {SAMPLE_SIZE}")
#L√™ o arquivo CSV e gera uma amostra
df = pd.read_csv(output_path)
sample_df = df.sample(frac=SAMPLE_SIZE, random_state=1)  # Amostra aleat√≥ria
sample_df.to_csv(CSV_FILE_SAMPLE, index=False)
print(f"Amostra salva como {CSV_FILE_SAMPLE}")


###  Verifica√ß√£o da Exist√™ncia dos Arquivos `.csv`

Este trecho de c√≥digo realiza a verifica√ß√£o da exist√™ncia dos arquivos `.csv` (completo e amostra), e define qual ser√° utilizado durante a execu√ß√£o com base na constante `USE_SAMPLE`.

- **Sele√ß√£o do Arquivo Base**: O c√≥digo define a vari√°vel `CURRENT_CSV_FILE` com base no valor de `USE_SAMPLE`:
  - Se `USE_SAMPLE = True`, o arquivo de amostra (`CSV_FILE_SAMPLE`) ser√° usado.
  - Caso contr√°rio, o arquivo completo (`CSV_FILE`) ser√° utilizado.

- **Verifica√ß√£o do Arquivo de Amostra**:
  - Exibe uma mensagem indicando que est√° verificando a exist√™ncia do arquivo de amostra.
  - Informa se o arquivo de amostra existe ou n√£o.
  - Se n√£o existir, informa que √© necess√°rio gerar um novo arquivo de amostra, que pode ser Gerado em [Gera√ß√£o de Amostra](#gera√ß√£o-e-salvamento-de-amostra-do-arquivo-csv).

- **Verifica√ß√£o do Arquivo Completo**:
  - Verifica se o arquivo `.csv` completo existe.
  - Exibe uma mensagem indicando o resultado dessa verifica√ß√£o.
  - Se o arquivo n√£o existir, informa que √© necess√°rio gerar um novo arquivo completo, que pode ser gerado em [Gera√ß√£o de Arquivo Completo](#-convers√£o-de-arquivo-txtgz-para-csv).

- **Valida√ß√£o Final e Controle de Erro**:
  - Verifica se o arquivo selecionado (`CURRENT_CSV_FILE`) realmente existe.
  - Caso n√£o exista, exibe uma mensagem de erro e encerra a execu√ß√£o com `exit()`.

- **Mensagem Final**:
  - Exibe qual arquivo ser√° utilizado na execu√ß√£o do restante do c√≥digo, seja o completo ou a amostra.

Esse processo garante que o ambiente esteja corretamente configurado, evitando erros causados por arquivos ausentes ou caminhos incorretos.


In [None]:
if USE_SAMPLE:
    CURRENT_CSV_FILE = CSV_FILE_SAMPLE
else:
    CURRENT_CSV_FILE = CSV_FILE

if os.path.exists(CSV_FILE_SAMPLE):
    print("O arquivo de amostra existe.")
else:
    print("O arquivo de amostra n√£o existe. Gere um novo arquivo de amostra.")

if os.path.exists(CSV_FILE):
    print("O arquivo completo existe.")
else:
    print("O arquivo completo n√£o existe. Gere um novo arquivo completo.")


if not os.path.exists(CURRENT_CSV_FILE):
    print(f"ERRO: O arquivo {CURRENT_CSV_FILE} n√£o foi encontrado. Verifique o caminho.")
    exit()

print(f"\n--- Usando o arquivo: {CURRENT_CSV_FILE} ---")

### TODO

In [None]:
# --- 1. Coletar Dados e 2. Construir Grafo ---
print("\n1. Lendo dados e construindo o grafo...")
# Load dataset (assumindo formato: source, target para cada intera√ß√£o)
df = pd.read_csv(CURRENT_CSV_FILE)

if 'source' not in df.columns or 'target' not in df.columns:
    print("ERRO: O CSV deve conter colunas nomeadas 'source' e 'target'.")
    # Se suas colunas tiverem outros nomes, ajuste aqui ou no arquivo:
    # Exemplo: se as colunas forem as duas primeiras sem nome
    if len(df.columns) >= 2:
        print(f"Assumindo que as duas primeiras colunas s√£o source e target: {df.columns[0]}, {df.columns[1]}")
        df.columns = ['source', 'target'] + list(df.columns[2:])
    else:
        print("N√£o foi poss√≠vel identificar as colunas source e target.")
        exit()


g = nx.DiGraph()

# Adicionar arestas com peso baseado na frequ√™ncia de intera√ß√£o
for _, row in df.iterrows():
    u = row['source']
    v = row['target']
    if g.has_edge(u, v):
        g[u][v]['weight'] += 1
    else:
        g.add_edge(u, v, weight=1)

print(f"Grafo constru√≠do: N√≥s = {g.number_of_nodes()}, Arestas = {g.number_of_edges()}")

### TODO

In [None]:
# 3.1 Algoritmo PageRank: Identificar n√≥s mais influentes
print("\n3.1 Calculando PageRank...")
try:
    pagerank = nx.pagerank(g, alpha=0.85, weight='weight') # Usar 'weight' pode ser interessante
    # pagerank = nx.pagerank(g, alpha=0.85) # Ou sem peso, se preferir
    top_n_pagerank = 10
    top_pagerank_nodes = sorted(pagerank.items(), key=lambda x: x[1], reverse=True)[:top_n_pagerank]
    print(f"Top {top_n_pagerank} n√≥s mais influentes (PageRank):")
    for i, (node, score) in enumerate(top_pagerank_nodes, 1):
        print(f"{i}. N√≥: {node} - PageRank Score: {score:.6f}")
except Exception as e:
    print(f"Erro ao calcular PageRank: {e}. Pode ser um grafo desconexo ou muito pequeno.")

### TODO

In [None]:
print("\n3.2 Detectando comunidades (Label Propagation)...")
if g.number_of_nodes() > 0:
    g_undirected = None
    if nx.is_directed(g):
        print("Aviso: Os algoritmos Louvain e Girvan-Newman em NetworkX esperam grafos n√£o direcionados.")
        print("Convertendo o grafo para n√£o direcionado para aplicar os algoritmos.")
        g_undirected = g.to_undirected()
    else:
        print("O grafo j√° √© n√£o direcionado. Usando-o diretamente.")
        g_undirected = g # Ou g.copy() se quiser evitar modifica√ß√µes acidentais no original

    # --- 3.3.1 Algoritmo de Louvain ---
    print("\n--- 3.3.1 Algoritmo de Louvain ---")
    try:
        # O algoritmo de Louvain √© heur√≠stico e pode dar resultados ligeiramente diferentes.
        # O par√¢metro 'seed' pode ser usado para reprodutibilidade.
        # O par√¢metro 'resolution' ajusta a granularidade das comunidades.
        communities_louvain_sets = louvain_communities(g_undirected, seed=42, resolution=1.0)
        communities_louvain = [sorted(list(c)) for c in communities_louvain_sets] # Converter para lista de listas e ordenar

        print(f"N√∫mero de comunidades encontradas (Louvain): {len(communities_louvain)}")
        if communities_louvain:
            print("Tamanhos das 5 maiores comunidades (Louvain):")
            sorted_communities_louvain = sorted(communities_louvain, key=len, reverse=True)
            for i, comm in enumerate(sorted_communities_louvain[:5]):
                example_members = str(comm[:3]).strip('[]')
                print(f"Comunidade {i+1}: {len(comm)} membros. Ex: {example_members}...")
        else:
            print("Nenhuma comunidade detectada pelo algoritmo de Louvain.")
    except Exception as e:
        print(f"Erro ao detectar comunidades com Louvain: {e}")
        communities_louvain = []

    # --- 3.3.2 Algoritmo de Girvan-Newman ---
    print("\n--- 3.3.2 Algoritmo de Girvan-Newman ---")
    try:
        # Girvan-Newman √© computacionalmente mais intensivo.
        # Retorna um iterador de tuplas de frozensets. Cada tupla √© uma parti√ß√£o.
        # O iterador produz parti√ß√µes em diferentes n√≠veis de granularidade,
        # come√ßando com todos os n√≥s em uma comunidade e dividindo-as.
        # Para uma √∫nica parti√ß√£o, geralmente pegamos o primeiro ou um dos primeiros resultados.
        # Ou iteramos at√© um n√∫mero desejado de comunidades.

        print("Executando Girvan-Newman (pode ser lento para grafos grandes)...")
        gn_communities_generator = girvan_newman(g_undirected)

        # Op√ß√£o 1: Pegar o primeiro n√≠vel de parti√ß√£o (geralmente o mais grosseiro ap√≥s a primeira divis√£o)
        # ou um n√≠vel espec√≠fico. Para demonstra√ß√£o, pegaremos uma parti√ß√£o com um n√∫mero
        # razo√°vel de comunidades, se poss√≠vel, ou a primeira.
        # Vamos tentar pegar a parti√ß√£o que resulta em um n√∫mero de comunidades entre 2 e N/2 (aproximadamente)
        # ou simplesmente um n√∫mero fixo de itera√ß√µes.

        # Para este exemplo, vamos pegar a parti√ß√£o ap√≥s algumas itera√ß√µes (ex: 2 itera√ß√µes para ter 3 comunidades, se poss√≠vel)
        # Se o grafo for pequeno, pode haver menos itera√ß√µes.
        # k_communities_target = 3 # N√∫mero desejado de comunidades (k)
        # Descomente a linha abaixo se quiser um n√∫mero espec√≠fico de comunidades (k)
        # e comente a linha `limited_gn_iterations = list(islice(gn_communities_generator, k_communities_target -1))`
        # communities_gn_at_k = None
        # for i, communities_tuple in enumerate(gn_communities_generator):
        #     if i == k_communities_target - 2: # Iteramos k-1 vezes para obter k comunidades (0-indexed)
        #         communities_gn_at_k = tuple(sorted(list(c)) for c in communities_tuple)
        #         break
        # if communities_gn_at_k is None: # Se n√£o atingiu k, pega a √∫ltima parti√ß√£o dispon√≠vel
        #     print(f"N√£o foi poss√≠vel obter exatamente {k_communities_target} comunidades. Usando a √∫ltima parti√ß√£o gerada.")
        #     # Precisamos re-executar ou armazenar a √∫ltima
        #     gn_communities_generator = girvan_newman(g_undirected) # Re-executa
        #     final_communities_tuple = None
        #     for comm_tuple in gn_communities_generator:
        #         final_communities_tuple = comm_tuple # Pega a √∫ltima
        #     if final_communities_tuple:
        #       communities_gn_at_k = tuple(sorted(list(c)) for c in final_communities_tuple)

        # Abordagem mais simples: pegar o resultado ap√≥s um n√∫mero fixo de "cortes"
        # Ou a primeira parti√ß√£o n√£o trivial
        num_cuts_for_gn = 2 # N√∫mero de "cortes" de arestas a serem feitos. Isso resultar√° em num_cuts_for_gn + 1 comunidades, se poss√≠vel.
        
        # Tentativa de obter um n√∫mero espec√≠fico de comunidades
        # Se o grafo for muito pequeno, pode n√£o ser poss√≠vel obter 'num_cuts_for_gn + 1' comunidades distintas.
        desired_num_communities_gn = 3 # Por exemplo, tentamos obter 3 comunidades
        found_communities_gn = None

        for i, comm_level in enumerate(islice(gn_communities_generator, 10)): # Limita a 10 n√≠veis para n√£o demorar demais
            current_communities = tuple(sorted(list(c)) for c in comm_level)
            if len(current_communities) >= desired_num_communities_gn:
                found_communities_gn = current_communities
                print(f"Girvan-Newman: Parti√ß√£o encontrada com {len(found_communities_gn)} comunidades (n√≠vel {i+1}).")
                break
            # Guardar o √∫ltimo caso encontremos menos que o desejado
            found_communities_gn = current_communities 
        
        if not found_communities_gn: # Se o gerador estiver vazio (grafo muito pequeno, ex: 1 n√≥)
            # Pegar a primeira parti√ß√£o (geralmente todos os n√≥s em uma comunidade, ou logo ap√≥s a primeira divis√£o)
            # Re-inicializar o gerador se ele foi consumido
            gn_communities_generator = girvan_newman(g_undirected)
            try:
                first_level_communities_gn = next(gn_communities_generator)
                # Converter para lista de listas e ordenar
                found_communities_gn = [sorted(list(c)) for c in first_level_communities_gn]
                print(f"Girvan-Newman: Usando o primeiro n√≠vel de parti√ß√£o com {len(found_communities_gn)} comunidades.")
            except StopIteration:
                print("Girvan-Newman: N√£o foi poss√≠vel gerar parti√ß√µes (grafo pode ser muito pequeno ou j√° desconectado).")
                found_communities_gn = []

        communities_gn = found_communities_gn

        if communities_gn:
            print(f"N√∫mero de comunidades encontradas (Girvan-Newman): {len(communities_gn)}")
            print("Tamanhos das 5 maiores comunidades (Girvan-Newman):")
            # communities_gn j√° √© uma tupla de listas ordenadas (ou lista de listas)
            sorted_communities_gn = sorted(communities_gn, key=len, reverse=True)
            for i, comm in enumerate(sorted_communities_gn[:5]):
                example_members = str(comm[:3]).strip('[]') # comm j√° √© uma lista
                print(f"Comunidade {i+1}: {len(comm)} membros. Ex: {example_members}...")
        else:
            print("Nenhuma comunidade detectada pelo algoritmo de Girvan-Newman com os crit√©rios atuais.")

    except Exception as e:
        print(f"Erro ao detectar comunidades com Girvan-Newman: {e}")
        communities_gn = []

else:
    print("Grafo vazio, pulando detec√ß√£o de comunidades.")
    communities_louvain = []
    communities_gn = []


### TODO

In [None]:
print("\n3.3 Calculando medidas de centralidade...")
top_n_centrality = 5

if g.number_of_nodes() > 0:
    # Grau de centralidade (Out-Degree)
    raw_out_degrees = {node: val for node, val in g.out_degree(weight='weight')}
    top_out_degree = sorted(raw_out_degrees.items(), key=lambda x: x[1], reverse=True)[:top_n_centrality]
    print(f"\nTop {top_n_centrality} n√≥s por Centralidade de Sa√≠da (Out-Degree):")
    for i, (node, score) in enumerate(top_out_degree, 1):
        print(f"{i}. N√≥: {node} - Out-Degree: {score}")

    # Conex√£o de centralidade (Betweenness Centrality)
    print(f"\nCalculando Centralidade de Intermedia√ß√£o (Betweenness)... (Pode demorar)")
    try:
        betweenness_centrality = nx.betweenness_centrality(g, weight='weight', normalized=True)
        top_betweenness = sorted(betweenness_centrality.items(), key=lambda x: x[1], reverse=True)[:top_n_centrality]
        print(f"Top {top_n_centrality} n√≥s por Centralidade de Intermedia√ß√£o:")
        for i, (node, score) in enumerate(top_betweenness, 1):
            print(f"{i}. N√≥: {node} - Betweenness Score: {score:.6f}")
    except Exception as e:
        print(f"Erro ao calcular Betweenness Centrality: {e}")

    # Proximidade de centralidade (Closeness Centrality)
    print(f"\nCalculando Centralidade de Proximidade (Closeness)... (Pode demorar)")
    largest_scc = None
    if not nx.is_strongly_connected(g):
        print("O grafo n√£o √© fortemente conectado. Calculando Closeness para o maior componente fortemente conectado.")
        scc_nodes_list = list(nx.strongly_connected_components(g))
        if scc_nodes_list: # Verifica se a lista n√£o est√° vazia
            largest_scc_nodes = max(scc_nodes_list, key=len, default=None)
            if largest_scc_nodes and len(largest_scc_nodes) > 1:
                 largest_scc = g.subgraph(largest_scc_nodes)
            else:
                print("N√£o foi poss√≠vel encontrar um componente fortemente conectado adequado para Closeness.")
        else:
            print("Nenhum componente fortemente conectado encontrado.")
    else:
        largest_scc = g

    if largest_scc and largest_scc.number_of_nodes() > 1:
        try:
            closeness_centrality = nx.closeness_centrality(largest_scc)
            top_closeness = sorted(closeness_centrality.items(), key=lambda x: x[1], reverse=True)[:top_n_centrality]
            print(f"Top {top_n_centrality} n√≥s por Centralidade de Proximidade (no maior SCC):")
            for i, (node, score) in enumerate(top_closeness, 1):
                print(f"{i}. N√≥: {node} - Closeness Score: {score:.6f}")
        except Exception as e:
            print(f"Erro ao calcular Closeness Centrality: {e}")
    else:
        print("N√£o foi poss√≠vel calcular Closeness Centrality (sem componente adequado ou grafo muito pequeno).")
else:
    print("Grafo vazio, pulando c√°lculo de centralidades.")
print("\n4. Visualiza√ß√£o e Exporta√ß√£o...")
if g.number_of_nodes() > 0 and g.number_of_nodes() < 500:
    print("Tentando desenhar o grafo com Matplotlib...")
    plt.figure(figsize=(15, 10))
    pos = nx.spring_layout(g, k=0.15, iterations=20)

    # Colorir n√≥s por comunidade (Label Propagation)
    node_colors_lp = ['gray'] * g.number_of_nodes()
    if communities_lp: # Usar as comunidades do Label Propagation
        node_to_community_id_lp = {}
        for i, comm_nodes in enumerate(communities_lp):
            for node in comm_nodes:
                node_to_community_id_lp[node] = i
        
        # Criar lista de cores na ordem de g.nodes()
        # Usar um colormap diferente para distinguir visualmente
        color_map_lp = plt.cm.get_cmap('tab20', len(communities_lp)) # 'tab20' tem mais cores distintas
        
        # Mapear cores para os n√≥s na ordem correta que NetworkX os desenhar√°.
        # A forma mais segura √© iterar sobre g.nodes() para criar a lista de cores.
        final_node_colors_lp = []
        node_list_for_drawing = list(g.nodes()) # Obter a ordem dos n√≥s como NetworkX pode us√°-los
        for node in node_list_for_drawing:
            community_id = node_to_community_id_lp.get(node)
            if community_id is not None:
                final_node_colors_lp.append(color_map_lp(community_id))
            else:
                final_node_colors_lp.append('lightgray') # Cor para n√≥s sem comunidade atribu√≠da

        nx.draw(g, pos, with_labels=False, node_color=final_node_colors_lp, node_size=15, width=0.1, alpha=0.7, arrows=True)
    else: # Se n√£o houver comunidades, desenhar sem cores espec√≠ficas de comunidade
        nx.draw(g, pos, with_labels=False, node_size=15, width=0.1, alpha=0.7, arrows=True)

    plt.title(f"Visualiza√ß√£o do Grafo Direcionado (N√≥s: {g.number_of_nodes()}, Arestas: {g.number_of_edges()}) - Colorido por Label Propagation")
    plt.show()
else:
    print("Grafo muito grande para desenhar com Matplotlib ou vazio. Considere usar Gephi.")




### TODO

In [None]:
gephi_output_file = "twitter_network_directed.gexf"
# Adicionar atributos de comunidade ao grafo para exporta√ß√£o, se desejar
if communities_lp:
    for i, comm_nodes in enumerate(communities_lp):
        for node in comm_nodes:
            if g.has_node(node): # Verificar se o n√≥ ainda existe (pode n√£o ser necess√°rio aqui)
                g.nodes[node]['community_label_prop'] = i
try:
    nx.write_gexf(g, gephi_output_file)
    print(f"\nGrafo exportado para '{gephi_output_file}' para visualiza√ß√£o no Gephi.")
    print("No Gephi, voc√™ poder√° usar o atributo 'community_label_prop' para colorir os n√≥s.")
except Exception as e:
    print(f"Erro ao exportar para Gephi: {e}")

### TODO

In [None]:
# --- 5. Mostrar resultados plotando graus de distribui√ß√£o ---
print("\n5. Plotando distribui√ß√£o de graus...")
if g.number_of_nodes() > 0:
    # Out-degree (quem compartilha)
    out_degrees = [g.out_degree(n, weight='weight') for n in g.nodes()]
    if not out_degrees:
        print("N√£o foi poss√≠vel obter out-degrees para plotagem.")
    else:
        degree_counts_out = Counter(out_degrees)
        degrees_out, counts_out = zip(*degree_counts_out.items())

    # In-degree (quem √© alvo/referenciado)
    in_degrees = [g.in_degree(n, weight='weight') for n in g.nodes()]
    if not in_degrees:
        print("N√£o foi poss√≠vel obter in-degrees para plotagem.")
    else:
        degree_counts_in = Counter(in_degrees)
        degrees_in, counts_in = zip(*degree_counts_in.items())


    plt.figure(figsize=(12, 12))

    # Plot Out-Degree Linear
    plt.subplot(2, 2, 1)
    plt.bar(degrees_out, counts_out, width=0.80, color='blue')
    plt.title("Distribui√ß√£o de Out-Degree (Escala Linear)")
    plt.ylabel("Contagem")
    plt.xlabel("Out-Degree")

    # Plot Out-Degree Log-Log
    plt.subplot(2, 2, 2)
    plt.loglog(degrees_out, counts_out, marker='.', linestyle='none', color='blue')
    plt.title("Distribui√ß√£o de Out-Degree (Escala Log-Log)")
    plt.ylabel("Contagem (Log)")
    plt.xlabel("Out-Degree (Log)")

    # Plot In-Degree Linear
    plt.subplot(2, 2, 3)
    plt.bar(degrees_in, counts_in, width=0.80, color='green')
    plt.title("Distribui√ß√£o de In-Degree (Escala Linear)")
    plt.ylabel("Contagem")
    plt.xlabel("In-Degree")

    # Plot In-Degree Log-Log
    plt.subplot(2, 2, 4)
    plt.loglog(degrees_in, counts_in, marker='.', linestyle='none', color='green')
    plt.title("Distribui√ß√£o de In-Degree (Escala Log-Log)")
    plt.ylabel("Contagem (Log)")
    plt.xlabel("In-Degree (Log)")

    plt.tight_layout()
    plt.show()
else:
    print("Grafo vazio, pulando plotagem de distribui√ß√£o de graus.")

print("\n--- An√°lise Conclu√≠da ---")