In [1]:
import pandas as pd
import os
import pickle
from collections import defaultdict
from itertools import combinations
import time
from pathlib import Path
import csv
import networkx as nx

In [2]:
# Configura√ß√£o do backend do matplotlib para notebooks
import os
# Remove a vari√°vel de ambiente que causa conflito
if 'MPLBACKEND' in os.environ:
    del os.environ['MPLBACKEND']

import matplotlib
matplotlib.use('Agg')  # Backend n√£o-interativo que funciona em qualquer ambiente
import matplotlib.pyplot as plt
import matplotlib.cm as cm

# Para garantir que os gr√°ficos sejam exibidos no notebook
plt.ion()  # Ativa modo interativo

<contextlib.ExitStack at 0x7f5bdf412210>

# Carregando os dados

In [3]:
root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
# garante que encontramos o dataset independentemente do cwd do notebook
input_file = root / 'datasets' / 'netflix_titles.csv'

print(f"Lendo: {input_file}")

df = pd.read_csv(input_file)

Lendo: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/datasets/netflix_titles.csv


## An√°lise geral

In [4]:
# Etapa 2: Parse do CSV e constru√ß√£o das estruturas de co-atores

actor_coactors = defaultdict(set)
pair_counts = defaultdict(int)
actor_appearances = defaultdict(int)

for idx, cast in enumerate(df['cast'].fillna('')):
    if not cast:
        continue
    actors = [a.strip() for a in cast.split(',') if a.strip()]
    for a in actors:
        actor_appearances[a] += 1
    for a, b in combinations(actors, 2):
        key = tuple(sorted((a, b)))
        pair_counts[key] += 1
        actor_coactors[a].add(b)
        actor_coactors[b].add(a)

num_actors_with_coactors = len(actor_coactors)
num_actors_with_appearances = len(actor_appearances)
num_pairs = len(pair_counts)

print(f"Total de linhas no CSV: {df.shape[0]}")
print(f"Atores com pelo menos 1 co-ator: {num_actors_with_coactors}")
print(f"Atores com apari√ß√µes registradas: {num_actors_with_appearances}")
print(f"Pares √∫nicos de atores (potenciais arestas): {num_pairs}")

# Tops para inspe√ß√£o
top_by_degree = sorted(((actor, len(neigh)) for actor, neigh in actor_coactors.items()), key=lambda x: x[1], reverse=True)[:20]
print('\nTop 20 por grau (n√∫mero de coatores):')
for actor, deg in top_by_degree:
    print(f"{actor}: {deg}")

top_by_appearances = sorted(actor_appearances.items(), key=lambda x: x[1], reverse=True)[:20]
print('\nTop 20 por apari√ß√µes:')
for actor, cnt in top_by_appearances:
    print(f"{actor}: {cnt}")

# Salvando intermedi√°rios em results/q1
out_dir = root / 'results'
out_dir.mkdir(parents=True, exist_ok=True)

# Salvar tops em CSVs para inspe√ß√£o
pd.DataFrame(top_by_appearances, columns=['Actor', 'Appearances']).to_csv(out_dir / 'top_by_appearances.csv', index=False)
pd.DataFrame(top_by_degree, columns=['Actor', 'Degree']).to_csv(out_dir / 'top_by_degree.csv', index=False)

end = time.time()
print(f"\nArquivos intermedi√°rios salvos em: {out_dir}")


Total de linhas no CSV: 8807
Atores com pelo menos 1 co-ator: 36039
Atores com apari√ß√µes registradas: 36439
Pares √∫nicos de atores (potenciais arestas): 289207

Top 20 por grau (n√∫mero de coatores):
Anupam Kher: 273
Samuel L. Jackson: 239
Takahiro Sakurai: 228
Fred Tatasciore: 226
Yuichi Nakamura: 223
Yuki Kaji: 220
Shah Rukh Khan: 210
Fred Armisen: 209
Akshay Kumar: 193
Katsuyuki Konishi: 191
Jun Fukuyama: 188
Om Puri: 187
Junichi Suwabe: 185
Naseeruddin Shah: 183
Boman Irani: 183
Hiroshi Kamiya: 182
James Franco: 182
Maya Rudolph: 181
Paresh Rawal: 179
Amitabh Bachchan: 178

Top 20 por apari√ß√µes:
Anupam Kher: 43
Shah Rukh Khan: 35
Julie Tejwani: 33
Naseeruddin Shah: 32
Takahiro Sakurai: 32
Rupa Bhimani: 31
Akshay Kumar: 30
Om Puri: 30
Yuki Kaji: 29
Amitabh Bachchan: 28
Paresh Rawal: 28
Boman Irani: 27
Rajesh Kava: 26
Vincent Tong: 26
Andrea Libman: 25
Kareena Kapoor: 25
Samuel L. Jackson: 24
John Cleese: 24
Jigna Bhardwaj: 23
Fred Tatasciore: 23

Arquivos intermedi√°rios salvos

In [5]:
# Etapa 3 (separada): Selecionar TOP_N atores por grau (conex√µes)
# N√£o executo esta c√©lula automaticamente ‚Äî confirme quando quiser rodar.

# Par√¢metro din√¢mico: altere antes de executar, se desejar
TOP_N = 100

# Determina paths conforme o notebook

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
out_dir = root / 'results' / 'q1'
out_dir.mkdir(parents=True, exist_ok=True)

# Tenta usar vari√°veis em mem√≥ria (caso a c√©lula de parsing tenha sido executada);
# caso contr√°rio, carrega os pickles gerados pela etapa de parsing.
try:
    actor_coactors
    pair_counts
    actor_appearances
except NameError:
    # tenta carregar arquivos em results/q1
    try:
        with open(out_dir / 'actor_coactors.pkl', 'rb') as f:
            actor_coactors = pickle.load(f)
        with open(out_dir / 'pair_counts.pkl', 'rb') as f:
            pair_counts = pickle.load(f)
        with open(out_dir / 'actor_appearances.pkl', 'rb') as f:
            actor_appearances = pickle.load(f)
        print('Carreguei pickles de', out_dir)
    except FileNotFoundError:
        raise FileNotFoundError('Estruturas de parsing n√£o encontradas em mem√≥ria nem em results/q1. Execute a c√©lula de parsing primeiro.')

# Calcula grau (n√∫mero de coatores) e seleciona TOP_N
degrees = {actor: len(neigh) for actor, neigh in actor_coactors.items()}
all_actors_count = len(degrees)
sorted_by_degree = sorted(degrees.items(), key=lambda x: x[1], reverse=True)
top_actors = sorted_by_degree[:TOP_N]
actual_top_n = len(top_actors)
print(f"Atores dispon√≠veis: {all_actors_count}, selecionando TOP_N = {TOP_N} => selecionados: {actual_top_n}")

top_names = [a for a, _ in top_actors]
top_set = set(top_names)

# Filtrar pares onde ambos est√£o no top
filtered_pairs = {pair: cnt for pair, cnt in pair_counts.items() if pair[0] in top_set and pair[1] in top_set}
num_filtered_pairs = len(filtered_pairs)
print(f"Pares no subgrafo dos TOP {actual_top_n}: {num_filtered_pairs}")

# --- Usando pandas para gerar os CSVs (mais simples e robusto) ---
# links dataframe
links_rows = [(a, b, cnt) for (a, b), cnt in filtered_pairs.items()]
links_df = pd.DataFrame(links_rows, columns=['Source', 'Target', 'Movies_Count'])
links_csv = out_dir / 'links_top.csv'
links_df.to_csv(links_csv, index=False)

# top actors dataframe
top_rows = [(a, degrees.get(a, 0), actor_appearances.get(a, 0)) for a, _ in top_actors]
top_df = pd.DataFrame(top_rows, columns=['Actor', 'Degree', 'Appearances'])
top_csv = out_dir / 'top_actors.csv'
top_df.to_csv(top_csv, index=False)

# Salvar pickles √∫teis
with open(out_dir / 'filtered_pair_counts.pkl', 'wb') as f:
    pickle.dump(filtered_pairs, f)
with open(out_dir / 'top_actor_names.pkl', 'wb') as f:
    pickle.dump(top_names, f)

print(f"Arquivos gerados (n√£o para Flourish ainda):\n- {links_csv}\n- {top_csv}\n- {out_dir / 'filtered_pair_counts.pkl'}\n- {out_dir / 'top_actor_names.pkl'}")

# Resumo r√°pido dos 10 atores com maior grau selecionados
print('\nTop 10 (dos selecionados) por grau:')
for actor, deg in top_actors[:10]:
    print(f"{actor}: grau={deg}, apari√ß√µes={actor_appearances.get(actor, 0)}")


Atores dispon√≠veis: 36039, selecionando TOP_N = 100 => selecionados: 100
Pares no subgrafo dos TOP 100: 583
Arquivos gerados (n√£o para Flourish ainda):
- /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/q1/links_top.csv
- /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/q1/top_actors.csv
- /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/q1/filtered_pair_counts.pkl
- /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/q1/top_actor_names.pkl

Top 10 (dos selecionados) por grau:
Anupam Kher: grau=273, apari√ß√µes=43
Samuel L. Jackson: grau=239, apari√ß√µes=24
Takahiro Sakurai: grau=228, apari√ß√µes=32
Fred Tatasciore: grau=226, apari√ß√µes=23
Yuichi Nakamura: grau=223, apari√ß√µes=19
Yuki Kaji: grau=220, apari√ß√µes=29
Shah Rukh Khan: grau=210, apari√ß√µes=

In [6]:
# Etapa 4: Construir grafo NetworkX e calcular m√©tricas (densidade, centralidades, PageRank)
# Esta c√©lula roda a an√°lise do grafo a partir de `filtered_pair_counts.pkl` e `top_actor_names.pkl`.

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
out_dir = root / 'results'
out_dir.mkdir(parents=True, exist_ok=True)


print(f"Nomes no top: {len(top_names)}; pares filtrados: {len(filtered_pairs)}")

# Construir grafo ponderado (undirected)
G = nx.Graph()
G.add_nodes_from(top_names)
for (a, b), w in filtered_pairs.items():
    # adicionar aresta com atributo weight
    G.add_edge(a, b, weight=w)

n_nodes = G.number_of_nodes()
n_edges = G.number_of_edges()
print(f"Grafo: n√≥s={n_nodes}, arestas={n_edges}")

# M√©tricas globais
density = nx.density(G)
components = list(nx.connected_components(G))
num_components = len(components)
largest_cc = max(components, key=len) if components else set()
largest_cc_size = len(largest_cc)

print(f"Densidade: {density:.6g}")
print(f"Componentes: {num_components}; maior componente: {largest_cc_size} n√≥s")

# Centralidades
print('\nCalculando centralidades... (isso pode levar algum tempo para betweenness se exato)')
# Degree centrality (normalizada)
degree_c = nx.degree_centrality(G)
# Betweenness centrality (exata ou aproximada)
betweenness_c = nx.betweenness_centrality(G)
# Closeness centrality
closeness_c = nx.closeness_centrality(G)
# PageRank (usa weights)
pagerank = nx.pagerank(G, alpha=0.85, max_iter=100)

# Degree raw (n√∫mero de vizinhos)
degree_raw = dict(G.degree())

# Montar DataFrame com m√©tricas
metrics_df = pd.DataFrame({
    'Actor': list(G.nodes()),
    'Degree': [degree_raw.get(n, 0) for n in G.nodes()],
    'DegreeCentrality': [degree_c.get(n, 0) for n in G.nodes()],
    'Betweenness': [betweenness_c.get(n, 0) for n in G.nodes()],
    'Closeness': [closeness_c.get(n, 0) for n in G.nodes()],
    'PageRank': [pagerank.get(n, 0) for n in G.nodes()],
})

# Normalizar colunas (opcional) ‚Äî apenas como colunas separadas para inspe√ß√£o
metrics_df['Degree_norm'] = (metrics_df['Degree'] - metrics_df['Degree'].min()) / (metrics_df['Degree'].max() - metrics_df['Degree'].min())
metrics_df['Betweenness_norm'] = (metrics_df['Betweenness'] - metrics_df['Betweenness'].min()) / (metrics_df['Betweenness'].max() - metrics_df['Betweenness'].min())
metrics_df['Closeness_norm'] = (metrics_df['Closeness'] - metrics_df['Closeness'].min()) / (metrics_df['Closeness'].max() - metrics_df['Closeness'].min())
metrics_df['PageRank_norm'] = (metrics_df['PageRank'] - metrics_df['PageRank'].min()) / (metrics_df['PageRank'].max() - metrics_df['PageRank'].min())

# Salvar resultados
metrics_csv = out_dir / 'graph_metrics.csv'
metrics_df.to_csv(metrics_csv, index=False)
# salvar grafo em gpickle


# Mostrar top 10 por cada medida
print(f"\nM√©tricas salvas em: {metrics_csv}")

print('\nTop 10 por Degree:')
print(metrics_df.sort_values('Degree', ascending=False).head(10)[['Actor','Degree']])
print('\nTop 10 por Betweenness:')
print(metrics_df.sort_values('Betweenness', ascending=False).head(10)[['Actor','Betweenness']])
print('\nTop 10 por Closeness:')
print(metrics_df.sort_values('Closeness', ascending=False).head(10)[['Actor','Closeness']])
print('\nTop 10 por PageRank:')
print(metrics_df.sort_values('PageRank', ascending=False).head(10)[['Actor','PageRank']])

# Guardar as vari√°veis no notebook para uso futuro
G_graph = G
filtered_pairs_graph = filtered_pairs
metrics = metrics_df

print('\nEtapa 4 conclu√≠da ‚Äî valide os resultados antes de prosseguirmos para as centralidades mais custosas (se necess√°rio) ou detec√ß√£o de comunidades.')


Nomes no top: 100; pares filtrados: 583
Grafo: n√≥s=100, arestas=583
Densidade: 0.117778
Componentes: 1; maior componente: 100 n√≥s

Calculando centralidades... (isso pode levar algum tempo para betweenness se exato)



M√©tricas salvas em: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/graph_metrics.csv

Top 10 por Degree:
               Actor  Degree
4    Yuichi Nakamura      27
2   Takahiro Sakurai      26
5          Yuki Kaji      25
10      Jun Fukuyama      25
25       Daisuke Ono      24
75  Nobuhiko Okamoto      23
43     Kana Hanazawa      23
42         Ai Kayano      23
50  Miyuki Sawashiro      22
12    Junichi Suwabe      22

Top 10 por Betweenness:
                 Actor  Betweenness
30       Kari Wahlgren     0.417440
0          Anupam Kher     0.173614
87  Chlo√´ Grace Moretz     0.126796
83       Gerard Butler     0.096958
89       Paul Giamatti     0.095672
27     Elizabeth Banks     0.070178
3      Fred Tatasciore     0.062150
55       Alfred Molina     0.060203
20       Nick Swardson     0.059847
4      Yuichi Nakamura     0.051806

Top 10 por Closeness:
                 Actor  Closeness
30       Kari Wahlgren   0.450000


In [7]:
# Etapa 6: Louvain + Gera√ß√£o de arquivos para Flourish
# Detecta comunidades com Louvain e gera links.csv e points.csv para visualiza√ß√£o no Flourish

from networkx.algorithms.community import louvain_communities
from networkx.algorithms.community.quality import modularity
import pandas as pd
import pickle
from pathlib import Path

# Par√¢metros ajust√°veis
LOUVAIN_RESOLUTION = 1  # padr√£o 1.0; aumentar => mais comunidades
USE_LARGEST_CC = True
LOUVAIN_SEED = 42  # seed para reprodutibilidade

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
out_dir = root / 'results' / 'grafo_coautoria'
out_dir.mkdir(parents=True, exist_ok=True)

# Carregar grafo se necess√°rio
try:
    G
    filtered_pairs
except NameError:
    raise FileNotFoundError('Grafo n√£o encontrado. Execute a c√©lula que constr√≥i o grafo (Etapa 4) primeiro.')

# Subgrafo onde rodar Louvain
if USE_LARGEST_CC:
    comps = list(nx.connected_components(G))
    largest = max(comps, key=len)
    G_louvain = G.subgraph(largest).copy()
else:
    G_louvain = G

print(f"Rodando Louvain (NetworkX nativo) em n={G_louvain.number_of_nodes()} n√≥s, m={G_louvain.number_of_edges()} arestas")
print(f"Par√¢metro de resolu√ß√£o: {LOUVAIN_RESOLUTION}, seed: {LOUVAIN_SEED}")

# Executar Louvain (retorna lista de sets/frozensets)
communities_sets = louvain_communities(G_louvain, weight='weight', resolution=LOUVAIN_RESOLUTION, seed=LOUVAIN_SEED)

# Converter para lista de listas
communities_list = [list(c) for c in communities_sets]

# Calcular modularidade
mod = modularity(G_louvain, communities_list, weight='weight')
num_communities = len(communities_list)

print(f"\nModularidade obtida: {mod:.3f}")
print(f"N√∫mero de comunidades: {num_communities}")

# Estat√≠sticas das comunidades
sizes = pd.Series([len(c) for c in communities_list])
print(f"\nDistribui√ß√£o de tamanhos (min={sizes.min()}, max={sizes.max()}, mean={sizes.mean():.1f}, median={sizes.median():.1f})")

# Criar dicion√°rio node -> community_id
partition = {}
for cid, comm in enumerate(communities_list):
    for node in comm:
        partition[node] = cid

# Estender parti√ß√£o para todos os n√≥s do grafo original
comm_dict_louvain = {}
for node in G.nodes():
    if node in partition:
        comm_dict_louvain[node] = partition[node]
    else:
        comm_dict_louvain[node] = -1  # N√≥s fora do maior componente

print("\n" + "="*80)
print("GERANDO ARQUIVOS PARA FLOURISH")
print("="*80)

# ========== 1. GERAR links.csv ==========
# Filtrar apenas arestas do subgrafo Louvain
links_data = []
for (a, b), weight in filtered_pairs.items():
    # Incluir apenas se ambos est√£o no G_louvain
    if a in G_louvain.nodes() and b in G_louvain.nodes():
        links_data.append((a, b, weight))

links_df = pd.DataFrame(links_data, columns=['Source', 'Target', 'Value'])
links_csv = out_dir / 'links.csv'
links_df.to_csv(links_csv, index=False)

print(f"\n‚úÖ links.csv gerado:")
print(f"   - {len(links_df)} arestas")
print(f"   - Arquivo: {links_csv}")

# ========== 2. GERAR points.csv ==========
points_data = []
for actor in G_louvain.nodes():
    points_data.append((
        actor,  # id
        comm_dict_louvain[actor],  # Community
        G_louvain.degree(actor),  # Degree (n√∫mero de conex√µes)
        actor_appearances.get(actor, 0)  # Appearances (total de filmes)
    ))

points_df = pd.DataFrame(points_data, columns=['id', 'Community', 'Degree', 'Appearances'])
points_csv = out_dir / 'points.csv'
points_df.to_csv(points_csv, index=False)

print(f"\n‚úÖ points.csv gerado:")
print(f"   - {len(points_df)} atores")
print(f"   - {points_df['Community'].nunique()} comunidades")
print(f"   - Arquivo: {points_csv}")

# ========== 3. SALVAR METADADOS ==========
# Salvar stats de Louvain
louvain_stats = {
    'resolution': LOUVAIN_RESOLUTION,
    'seed': LOUVAIN_SEED,
    'modularity': mod,
    'num_communities': num_communities,
    'nodes_analyzed': G_louvain.number_of_nodes(),
    'edges_analyzed': G_louvain.number_of_edges()
}

pd.DataFrame([louvain_stats]).to_csv(out_dir / 'louvain_stats.csv', index=False)

# Salvar parti√ß√£o em pickle
with open(out_dir / 'communities_louvain.pkl', 'wb') as f:
    pickle.dump(comm_dict_louvain, f)

# ========== 4. RESUMO DAS COMUNIDADES ==========
print("\n" + "="*80)
print("RESUMO DAS COMUNIDADES")
print("="*80)

comm_sizes = points_df['Community'].value_counts().sort_values(ascending=False)
print(f"\nTop 10 maiores comunidades (ID: tamanho):")
for idx, (comm_id, size) in enumerate(comm_sizes.head(10).items(), 1):
    print(f"  {idx}. Comunidade {comm_id}: {size} atores")

print("\n" + "="*80)
print("ARQUIVOS FLOURISH PRONTOS!")
print("="*80)
print(f"\nüìÅ Diret√≥rio: {out_dir}")
print(f"   ‚îú‚îÄ‚îÄ links.csv    ({len(links_df)} arestas)")
print(f"   ‚îú‚îÄ‚îÄ points.csv   ({len(points_df)} n√≥s, {num_communities} comunidades)")
print(f"   ‚îú‚îÄ‚îÄ louvain_stats.csv")
print(f"   ‚îî‚îÄ‚îÄ communities_louvain.pkl")
print("\n‚ú® Importe links.csv e points.csv no Flourish Network Graph!")
print("   - Use 'id' como node identifier")
print("   - Use 'Community' para colorir os n√≥s")

Rodando Louvain (NetworkX nativo) em n=100 n√≥s, m=583 arestas
Par√¢metro de resolu√ß√£o: 1, seed: 42

Modularidade obtida: 0.507
N√∫mero de comunidades: 3

Distribui√ß√£o de tamanhos (min=12, max=61, mean=33.3, median=27.0)

GERANDO ARQUIVOS PARA FLOURISH

‚úÖ links.csv gerado:
   - 583 arestas
   - Arquivo: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_coautoria/links.csv

‚úÖ points.csv gerado:
   - 100 atores
   - 3 comunidades
   - Arquivo: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_coautoria/points.csv

RESUMO DAS COMUNIDADES

Top 10 maiores comunidades (ID: tamanho):
  1. Comunidade 2: 61 atores
  2. Comunidade 1: 27 atores
  3. Comunidade 0: 12 atores

ARQUIVOS FLOURISH PRONTOS!

üìÅ Diret√≥rio: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_coautoria
   ‚îú‚îÄ‚îÄ links.csv 

# Atores com mais filmes

In [8]:
# Etapa 7: Selecionar TOP_N atores por APARI√á√ïES (n√∫mero de filmes)
# Crit√©rio diferente do grafo de coautoria (que usa grau/conex√µes)

# Par√¢metro din√¢mico: altere antes de executar, se desejar
TOP_N_APPEARANCES = 100

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()

# Validar que temos os dados necess√°rios
try:
    actor_coactors
    pair_counts
    actor_appearances
except NameError:
    raise FileNotFoundError('Estruturas de parsing n√£o encontradas. Execute a c√©lula de parsing (Etapa 2) primeiro.')

# Selecionar TOP_N por n√∫mero de apari√ß√µes (filmes)
sorted_by_appearances = sorted(actor_appearances.items(), key=lambda x: x[1], reverse=True)
top_actors_appearances = sorted_by_appearances[:TOP_N_APPEARANCES]
actual_top_n_appearances = len(top_actors_appearances)

print(f"Atores dispon√≠veis: {len(actor_appearances)}, selecionando TOP_N_APPEARANCES = {TOP_N_APPEARANCES} => selecionados: {actual_top_n_appearances}")

top_names_appearances = [a for a, _ in top_actors_appearances]
top_set_appearances = set(top_names_appearances)

# Filtrar pares onde ambos est√£o no top (por apari√ß√µes)
filtered_pairs_appearances = {pair: cnt for pair, cnt in pair_counts.items() 
                              if pair[0] in top_set_appearances and pair[1] in top_set_appearances}
num_filtered_pairs_appearances = len(filtered_pairs_appearances)

print(f"Pares no subgrafo dos TOP {actual_top_n_appearances} (por apari√ß√µes): {num_filtered_pairs_appearances}")

# Resumo r√°pido dos 10 atores com mais filmes selecionados
print(f'\nTop 10 (dos selecionados) por apari√ß√µes:')
for actor, apps in top_actors_appearances[:10]:
    # Calcular grau (conex√µes) para compara√ß√£o
    degree = len(actor_coactors.get(actor, set()))
    print(f"{actor}: {apps} filmes, grau={degree}")

print(f'\n‚úÖ Sele√ß√£o por apari√ß√µes conclu√≠da. Pr√≥ximo: construir grafo e calcular m√©tricas.')

Atores dispon√≠veis: 36439, selecionando TOP_N_APPEARANCES = 100 => selecionados: 100
Pares no subgrafo dos TOP 100 (por apari√ß√µes): 460

Top 10 (dos selecionados) por apari√ß√µes:
Anupam Kher: 43 filmes, grau=273
Shah Rukh Khan: 35 filmes, grau=210
Julie Tejwani: 33 filmes, grau=37
Naseeruddin Shah: 32 filmes, grau=183
Takahiro Sakurai: 32 filmes, grau=228
Rupa Bhimani: 31 filmes, grau=28
Akshay Kumar: 30 filmes, grau=193
Om Puri: 30 filmes, grau=187
Yuki Kaji: 29 filmes, grau=220
Amitabh Bachchan: 28 filmes, grau=178

‚úÖ Sele√ß√£o por apari√ß√µes conclu√≠da. Pr√≥ximo: construir grafo e calcular m√©tricas.


In [9]:
# Etapa 8: Construir grafo NetworkX e calcular m√©tricas (Grafo por Apari√ß√µes)
# Mesma an√°lise do grafo de coautoria, mas com atores selecionados por n√∫mero de filmes

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
out_dir_appearances = root / 'results' / 'grafo_atores_mais_filmes'
out_dir_appearances.mkdir(parents=True, exist_ok=True)

print(f"Nomes no top (por apari√ß√µes): {len(top_names_appearances)}; pares filtrados: {len(filtered_pairs_appearances)}")

# Construir grafo ponderado (undirected)
G_appearances = nx.Graph()
G_appearances.add_nodes_from(top_names_appearances)
for (a, b), w in filtered_pairs_appearances.items():
    # adicionar aresta com atributo weight
    G_appearances.add_edge(a, b, weight=w)

n_nodes_app = G_appearances.number_of_nodes()
n_edges_app = G_appearances.number_of_edges()
print(f"Grafo: n√≥s={n_nodes_app}, arestas={n_edges_app}")

# M√©tricas globais
density_app = nx.density(G_appearances)
components_app = list(nx.connected_components(G_appearances))
num_components_app = len(components_app)
largest_cc_app = max(components_app, key=len) if components_app else set()
largest_cc_size_app = len(largest_cc_app)

print(f"Densidade: {density_app:.6g}")
print(f"Componentes: {num_components_app}; maior componente: {largest_cc_size_app} n√≥s")

# Centralidades
print('\nCalculando centralidades... (isso pode levar algum tempo para betweenness se exato)')
# Degree centrality (normalizada)
degree_c_app = nx.degree_centrality(G_appearances)
# Betweenness centrality (exata ou aproximada)
betweenness_c_app = nx.betweenness_centrality(G_appearances)
# Closeness centrality
closeness_c_app = nx.closeness_centrality(G_appearances)
# PageRank (usa weights)
pagerank_app = nx.pagerank(G_appearances, alpha=0.85, max_iter=100)

# Degree raw (n√∫mero de vizinhos)
degree_raw_app = dict(G_appearances.degree())

# Montar DataFrame com m√©tricas
metrics_df_app = pd.DataFrame({
    'Actor': list(G_appearances.nodes()),
    'Degree': [degree_raw_app.get(n, 0) for n in G_appearances.nodes()],
    'DegreeCentrality': [degree_c_app.get(n, 0) for n in G_appearances.nodes()],
    'Betweenness': [betweenness_c_app.get(n, 0) for n in G_appearances.nodes()],
    'Closeness': [closeness_c_app.get(n, 0) for n in G_appearances.nodes()],
    'PageRank': [pagerank_app.get(n, 0) for n in G_appearances.nodes()],
})

# Normalizar colunas (opcional) ‚Äî apenas como colunas separadas para inspe√ß√£o
metrics_df_app['Degree_norm'] = (metrics_df_app['Degree'] - metrics_df_app['Degree'].min()) / (metrics_df_app['Degree'].max() - metrics_df_app['Degree'].min())
metrics_df_app['Betweenness_norm'] = (metrics_df_app['Betweenness'] - metrics_df_app['Betweenness'].min()) / (metrics_df_app['Betweenness'].max() - metrics_df_app['Betweenness'].min())
metrics_df_app['Closeness_norm'] = (metrics_df_app['Closeness'] - metrics_df_app['Closeness'].min()) / (metrics_df_app['Closeness'].max() - metrics_df_app['Closeness'].min())
metrics_df_app['PageRank_norm'] = (metrics_df_app['PageRank'] - metrics_df_app['PageRank'].min()) / (metrics_df_app['PageRank'].max() - metrics_df_app['PageRank'].min())

# Salvar resultados
metrics_csv_app = out_dir_appearances / 'graph_metrics.csv'
metrics_df_app.to_csv(metrics_csv_app, index=False)

# Mostrar top 10 por cada medida
print(f"\nM√©tricas salvas em: {metrics_csv_app}")

print('\nTop 10 por Degree:')
print(metrics_df_app.sort_values('Degree', ascending=False).head(10)[['Actor','Degree']])
print('\nTop 10 por Betweenness:')
print(metrics_df_app.sort_values('Betweenness', ascending=False).head(10)[['Actor','Betweenness']])
print('\nTop 10 por Closeness:')
print(metrics_df_app.sort_values('Closeness', ascending=False).head(10)[['Actor','Closeness']])
print('\nTop 10 por PageRank:')
print(metrics_df_app.sort_values('PageRank', ascending=False).head(10)[['Actor','PageRank']])

print('\n‚úÖ Etapa 8 conclu√≠da ‚Äî m√©tricas calculadas para o grafo de atores com mais filmes.')

Nomes no top (por apari√ß√µes): 100; pares filtrados: 460
Grafo: n√≥s=100, arestas=460
Densidade: 0.0929293
Componentes: 9; maior componente: 82 n√≥s

Calculando centralidades... (isso pode levar algum tempo para betweenness se exato)

M√©tricas salvas em: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_atores_mais_filmes/graph_metrics.csv

Top 10 por Degree:
               Actor  Degree
0        Anupam Kher      26
11       Boman Irani      24
7            Om Puri      22
1     Shah Rukh Khan      22
15    Kareena Kapoor      21
52      Rajpal Yadav      21
59     Jackie Shroff      20
9   Amitabh Bachchan      20
10      Paresh Rawal      19
48       Anil Kapoor      19

Top 10 por Betweenness:
              Actor  Betweenness
0       Anupam Kher     0.300174
90     Willem Dafoe     0.173630
19  Fred Tatasciore     0.147288
97      Keith David     0.145079
74    Alfred Molina     0.137690
66    Kari Wahlgren     0.1122

In [10]:
# Etapa 9: Louvain + Gera√ß√£o de arquivos para Flourish (Grafo por Apari√ß√µes)
# Detecta comunidades com Louvain e gera links.csv e points.csv para visualiza√ß√£o no Flourish

from networkx.algorithms.community import louvain_communities
from networkx.algorithms.community.quality import modularity
import pandas as pd
import pickle
from pathlib import Path

# Par√¢metros ajust√°veis
LOUVAIN_RESOLUTION_APP = 1  # padr√£o 1.0; aumentar => mais comunidades
USE_LARGEST_CC_APP = True
LOUVAIN_SEED_APP = 42  # seed para reprodutibilidade

root = Path().resolve().parent if (Path.cwd().name == 'graphs') else Path().resolve()
out_dir_app = root / 'results' / 'grafo_atores_mais_filmes'
out_dir_app.mkdir(parents=True, exist_ok=True)

# Carregar grafo se necess√°rio
try:
    G_appearances
    filtered_pairs_appearances
except NameError:
    raise FileNotFoundError('Grafo n√£o encontrado. Execute a c√©lula que constr√≥i o grafo (Etapa 8) primeiro.')

# Subgrafo onde rodar Louvain
if USE_LARGEST_CC_APP:
    comps_app = list(nx.connected_components(G_appearances))
    largest_app = max(comps_app, key=len)
    G_louvain_app = G_appearances.subgraph(largest_app).copy()
else:
    G_louvain_app = G_appearances

print(f"Rodando Louvain (NetworkX nativo) em n={G_louvain_app.number_of_nodes()} n√≥s, m={G_louvain_app.number_of_edges()} arestas")
print(f"Par√¢metro de resolu√ß√£o: {LOUVAIN_RESOLUTION_APP}, seed: {LOUVAIN_SEED_APP}")

# Executar Louvain (retorna lista de sets/frozensets)
communities_sets_app = louvain_communities(G_louvain_app, weight='weight', resolution=LOUVAIN_RESOLUTION_APP, seed=LOUVAIN_SEED_APP)

# Converter para lista de listas
communities_list_app = [list(c) for c in communities_sets_app]

# Calcular modularidade
mod_app = modularity(G_louvain_app, communities_list_app, weight='weight')
num_communities_app = len(communities_list_app)

print(f"\nModularidade obtida: {mod_app:.3f}")
print(f"N√∫mero de comunidades: {num_communities_app}")

# Estat√≠sticas das comunidades
sizes_app = pd.Series([len(c) for c in communities_list_app])
print(f"\nDistribui√ß√£o de tamanhos (min={sizes_app.min()}, max={sizes_app.max()}, mean={sizes_app.mean():.1f}, median={sizes_app.median():.1f})")

# Criar dicion√°rio node -> community_id
partition_app = {}
for cid, comm in enumerate(communities_list_app):
    for node in comm:
        partition_app[node] = cid

# Estender parti√ß√£o para todos os n√≥s do grafo original
comm_dict_louvain_app = {}
for node in G_appearances.nodes():
    if node in partition_app:
        comm_dict_louvain_app[node] = partition_app[node]
    else:
        comm_dict_louvain_app[node] = -1  # N√≥s fora do maior componente

print("\n" + "="*80)
print("GERANDO ARQUIVOS PARA FLOURISH (ATORES COM MAIS FILMES)")
print("="*80)

# ========== 1. GERAR links.csv ==========
# Filtrar apenas arestas do subgrafo Louvain
links_data_app = []
for (a, b), weight in filtered_pairs_appearances.items():
    # Incluir apenas se ambos est√£o no G_louvain_app
    if a in G_louvain_app.nodes() and b in G_louvain_app.nodes():
        links_data_app.append((a, b, weight))

links_df_app = pd.DataFrame(links_data_app, columns=['Source', 'Target', 'Value'])
links_csv_app = out_dir_app / 'links.csv'
links_df_app.to_csv(links_csv_app, index=False)

print(f"\n‚úÖ links.csv gerado:")
print(f"   - {len(links_df_app)} arestas")
print(f"   - Arquivo: {links_csv_app}")

# ========== 2. GERAR points.csv ==========
points_data_app = []
for actor in G_louvain_app.nodes():
    points_data_app.append((
        actor,  # id
        comm_dict_louvain_app[actor],  # Community
        G_louvain_app.degree(actor),  # Degree (n√∫mero de conex√µes)
        actor_appearances.get(actor, 0)  # Appearances (total de filmes)
    ))

points_df_app = pd.DataFrame(points_data_app, columns=['id', 'Community', 'Degree', 'Appearances'])
points_csv_app = out_dir_app / 'points.csv'
points_df_app.to_csv(points_csv_app, index=False)

print(f"\n‚úÖ points.csv gerado:")
print(f"   - {len(points_df_app)} atores")
print(f"   - {points_df_app['Community'].nunique()} comunidades")
print(f"   - Arquivo: {points_csv_app}")

# ========== 3. SALVAR METADADOS ==========
# Salvar stats de Louvain
louvain_stats_app = {
    'resolution': LOUVAIN_RESOLUTION_APP,
    'seed': LOUVAIN_SEED_APP,
    'modularity': mod_app,
    'num_communities': num_communities_app,
    'nodes_analyzed': G_louvain_app.number_of_nodes(),
    'edges_analyzed': G_louvain_app.number_of_edges()
}

pd.DataFrame([louvain_stats_app]).to_csv(out_dir_app / 'louvain_stats.csv', index=False)

# Salvar parti√ß√£o em pickle
with open(out_dir_app / 'communities_louvain.pkl', 'wb') as f:
    pickle.dump(comm_dict_louvain_app, f)

# ========== 4. AN√ÅLISE DETALHADA DAS COMUNIDADES ==========
print("\n" + "="*80)
print("AN√ÅLISE DETALHADA DAS COMUNIDADES")
print("="*80)

# Estat√≠sticas por comunidade
community_stats = []
for comm_id in sorted(set(partition_app.values())):
    members = [actor for actor in G_louvain_app.nodes() if partition_app.get(actor) == comm_id]
    
    # M√©tricas da comunidade
    total_actors = len(members)
    total_appearances = sum(actor_appearances.get(actor, 0) for actor in members)
    avg_appearances = total_appearances / total_actors if total_actors > 0 else 0
    
    # Ator mais prol√≠fico da comunidade
    top_actor = max(members, key=lambda a: actor_appearances.get(a, 0))
    top_actor_apps = actor_appearances.get(top_actor, 0)
    
    community_stats.append({
        'Community_ID': comm_id,
        'Size': total_actors,
        'Total_Appearances': total_appearances,
        'Avg_Appearances': avg_appearances,
        'Top_Actor': top_actor,
        'Top_Actor_Appearances': top_actor_apps
    })

community_stats_df = pd.DataFrame(community_stats)
community_stats_df.to_csv(out_dir_app / 'community_analysis.csv', index=False)

# Exibir resumo
print(f"\nTop 10 maiores comunidades:")
for idx, row in community_stats_df.nlargest(10, 'Size').iterrows():
    print(f"  Comunidade {row['Community_ID']}: {row['Size']} atores | "
          f"M√©dia: {row['Avg_Appearances']:.1f} filmes | "
          f"Top: {row['Top_Actor']} ({row['Top_Actor_Appearances']} filmes)")

print("\n" + "="*80)
print("ARQUIVOS FLOURISH PRONTOS!")
print("="*80)
print(f"\nüìÅ Diret√≥rio: {out_dir_app}")
print(f"   ‚îú‚îÄ‚îÄ links.csv              ({len(links_df_app)} arestas)")
print(f"   ‚îú‚îÄ‚îÄ points.csv             ({len(points_df_app)} n√≥s, {num_communities_app} comunidades)")
print(f"   ‚îú‚îÄ‚îÄ graph_metrics.csv      (m√©tricas NetworkX)")
print(f"   ‚îú‚îÄ‚îÄ louvain_stats.csv      (estat√≠sticas Louvain)")
print(f"   ‚îú‚îÄ‚îÄ community_analysis.csv (an√°lise detalhada por comunidade)")
print(f"   ‚îî‚îÄ‚îÄ communities_louvain.pkl")
print("\n‚ú® Importe links.csv e points.csv no Flourish Network Graph!")
print("   - Use 'id' como node identifier")
print("   - Use 'Community' para colorir os n√≥s")
print("   - Use 'Appearances' para tamanho dos n√≥s")

Rodando Louvain (NetworkX nativo) em n=82 n√≥s, m=441 arestas
Par√¢metro de resolu√ß√£o: 1, seed: 42

Modularidade obtida: 0.694
N√∫mero de comunidades: 5

Distribui√ß√£o de tamanhos (min=6, max=32, mean=16.4, median=15.0)

GERANDO ARQUIVOS PARA FLOURISH (ATORES COM MAIS FILMES)

‚úÖ links.csv gerado:
   - 441 arestas
   - Arquivo: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_atores_mais_filmes/links.csv

‚úÖ points.csv gerado:
   - 82 atores
   - 5 comunidades
   - Arquivo: /home/afmireski/Documentos/BCC/p8/analise_de_redes_sociais_utilizando_grafos/projeto/opt108_projeto/results/grafo_atores_mais_filmes/points.csv

AN√ÅLISE DETALHADA DAS COMUNIDADES

Top 10 maiores comunidades:
  Comunidade 0: 32 atores | M√©dia: 21.1 filmes | Top: Anupam Kher (43 filmes)
  Comunidade 4: 19 atores | M√©dia: 17.4 filmes | Top: Samuel L. Jackson (24 filmes)
  Comunidade 1: 15 atores | M√©dia: 19.3 filmes | Top: Takahiro Sakurai (32 fi