In [14]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

In [27]:
# Carrega arquivo parquet
df = pd.read_parquet("DB/List-dependencies.parquet")

In [30]:
df

Unnamed: 0,Project Name,Dependency Name
0,a4g,a4g:client
1,a4g,a4g:server
2,anchovy,derelict-ft
3,anchovy,dlib
4,anchovy,derelict-fi
...,...,...
18967354,jh-lib,lodash-es
18967355,jh-lib,jh-utils
18967356,jh-lib,classnames
18967357,jh-lib,antd


In [28]:
graph = nx.from_pandas_edgelist(
    df,
    source="Project Name",
    target="Dependency Name",
    create_using=nx.DiGraph(),
)

In [35]:
import numpy as np
import networkx as nx
from collections import Counter
import time

def analyze_graph_complete_large_scale(graph):
    """
    An√°lise completa e detalhada de um grafo de depend√™ncias de grande escala,
    otimizada para performance e relev√¢ncia das m√©tricas.
    """
    
    print("="*60)
    print("          AN√ÅLISE COMPLETA DO GRAFO DE DEPEND√äNCIAS")
    print("="*60)
    
    start_time = time.time()
    
    # ============= ESTAT√çSTICAS B√ÅSICAS =============
    print("\nüîç ESTAT√çSTICAS B√ÅSICAS")
    print("-" * 40)
    num_nodes = graph.number_of_nodes()
    num_edges = graph.number_of_edges()
    
    print(f"N√≥s: {num_nodes}")
    print(f"Arestas: {num_edges}")
    if num_nodes > 0:
        density = nx.density(graph)
        print(f"Densidade: {f'{density:.8f}'.replace('.', ',')}")
    print(f"Tipo: {'Direcionado' if graph.is_directed() else 'N√£o-direcionado'}")
    
    # ============= AN√ÅLISE DE CONECTIVIDADE (M√©tricas Globais) =============
    print("\nüîó AN√ÅLISE DE CONECTIVIDADE")
    print("-" * 40)
    
    # Estas opera√ß√µes s√£o eficientes e podem ser feitas no grafo completo
    degrees = dict(graph.degree())
    in_degrees = dict(graph.in_degree())
    out_degrees = dict(graph.out_degree())
    
    degree_values = list(degrees.values())
    in_degree_values = list(in_degrees.values())
    out_degree_values = list(out_degrees.values())
    
    print(f"Grau m√©dio: {f'{np.mean(degree_values):.2f}'.replace('.', ',')}")
    print(f"Grau m√°ximo: {max(degree_values)}")
    print(f"Mediana do grau: {f'{np.median(degree_values):.2f}'.replace('.', ',')}")
    
    print(f"\nIn-degree m√©dio (popularidade): {f'{np.mean(in_degree_values):.2f}'.replace('.', ',')}")
    print(f"In-degree m√°ximo: {max(in_degree_values)}")
    print(f"Out-degree m√©dio (complexidade): {f'{np.mean(out_degree_values):.2f}'.replace('.', ',')}")
    print(f"Out-degree m√°ximo: {max(out_degree_values)}")
    
    # ============= COMPONENTES CONECTADOS (Estrutura Macro) =============
    print("\nüåê COMPONENTES CONECTADOS")
    print("-" * 40)
    
    # Focar no maior componente conectado √© a melhor estrat√©gia para grafos grandes
    print("Identificando o maior ecossistema (componente fracamente conectado)...")
    weakly_connected = list(nx.weakly_connected_components(graph))
    largest_wcc = max(weakly_connected, key=len)
    main_graph = graph.subgraph(largest_wcc)
    
    print(f"N√∫mero de ecossistemas (componentes fracamente conectados): {len(weakly_connected)}")
    print(f"Tamanho do maior ecossistema: {len(largest_wcc)} n√≥s ({f'{100 * len(largest_wcc) / num_nodes:.2f}'.replace('.', ',')}% do total)")
    
    # ============= TOP N√ìS (Hubs e Autoridades) =============
    print("\n‚≠ê TOP 15 DEPEND√äNCIAS MAIS POPULARES (MAIOR IN-DEGREE)")
    print("-" * 40)
    top_dependencies = sorted(in_degrees.items(), key=lambda x: x[1], reverse=True)[:15]
    for i, (dep, count) in enumerate(top_dependencies, 1):
        print(f"{i:2d}. {dep}: {count} projetos dependem")
    
    print("\nüì¶ TOP 15 PROJETOS COM MAIS DEPEND√äNCIAS (MAIOR OUT-DEGREE)")
    print("-" * 40)
    top_projects = sorted(out_degrees.items(), key=lambda x: x[1], reverse=True)[:15]
    for i, (proj, count) in enumerate(top_projects, 1):
        print(f"{i:2d}. {proj}: {count} depend√™ncias")
        
    # ============= AN√ÅLISE DE N√ìS ESTRUTURAIS =============
    print("\nüìä AN√ÅLISE DE TIPOS DE N√ìS")
    print("-" * 40)
    
    isolated_nodes = [n for n, d in degrees.items() if d == 0]
    print(f"N√≥s isolados (sem conex√µes): {len(isolated_nodes)}")
    
    source_nodes = [n for n, d in in_degrees.items() if d == 0 and out_degrees.get(n, 0) > 0]
    print(f"N√≥s fonte (projetos que n√£o s√£o depend√™ncia de ningu√©m): {len(source_nodes)}")
    
    sink_nodes = [n for n, d in out_degrees.items() if d == 0 and in_degrees.get(n, 0) > 0]
    print(f"N√≥s sumidouro (depend√™ncias que n√£o possuem outras depend√™ncias): {len(sink_nodes)}")

    # ============= M√âTRICAS DE CENTRALIDADE (Amostra Inteligente) =============
    print("\nüéØ AN√ÅLISE DE CENTRALIDADE (amostra de 5000 n√≥s do maior ecossistema)")
    print("-" * 40)
    
    sample_size = min(5000, len(main_graph.nodes()))
    sample_nodes = np.random.choice(list(main_graph.nodes()), sample_size, replace=False)
    sample_graph = main_graph.subgraph(sample_nodes)
    
    try:
        # PageRank: Mede a influ√™ncia de um n√≥ na rede. R√°pido e eficaz.
        print("Calculando PageRank (influ√™ncia)...")
        pagerank = nx.pagerank(sample_graph, alpha=0.85)
        top_pagerank = sorted(pagerank.items(), key=lambda x: x[1], reverse=True)[:5]
        print("Top 5 por PageRank:")
        for node, score in top_pagerank:
            print(f"  {node}: {f'{score:.6f}'.replace('.', ',')}")

        # Centralidade de Intermedia√ß√£o: Mede a import√¢ncia de um n√≥ como "ponte".
        # Usa-se uma aproxima√ß√£o (k) para ser vi√°vel em grafos grandes.
        print("\nCalculando Centralidade de Intermedia√ß√£o (import√¢ncia como ponte)...")
        k_betweenness = min(200, len(sample_graph.nodes()))
        betweenness = nx.betweenness_centrality(sample_graph, k=k_betweenness, normalized=True)
        top_betweenness = sorted(betweenness.items(), key=lambda x: x[1], reverse=True)[:5]
        print(f"Top 5 por Intermedia√ß√£o (amostra k={k_betweenness}):")
        for node, score in top_betweenness:
            print(f"  {node}: {f'{score:.6f}'.replace('.', ',')}")
            
    except Exception as e:
        print(f"Erro ao calcular centralidade: {e}")
    
    # ============= AN√ÅLISE DE CICLOS (Amostra) =============
    print("\nüîÑ AN√ÅLISE DE CICLOS (amostra de 20.000 n√≥s)")
    print("-" * 40)
    
    try:
        # A detec√ß√£o de ciclos no grafo inteiro √© computacionalmente invi√°vel.
        # Uma amostra grande nos d√° uma boa ideia da presen√ßa e tamanho dos ciclos.
        cycle_sample_size = min(20000, len(main_graph.nodes()))
        cycle_sample_nodes = np.random.choice(list(main_graph.nodes()), cycle_sample_size, replace=False)
        cycle_subgraph = main_graph.subgraph(cycle_sample_nodes)
        
        print(f"Detectando ciclos em amostra de {cycle_sample_size} n√≥s...")
        # Limita a busca para n√£o travar em grafos muito densos
        cycles = list(islice(nx.simple_cycles(cycle_subgraph), 1000))
        
        if cycles:
            print(f"Ciclos simples encontrados na amostra: {len(cycles)} (limitado a 1000)")
            cycle_lengths = [len(c) for c in cycles]
            print(f"Tamanho m√©dio dos ciclos: {f'{np.mean(cycle_lengths):.2f}'.replace('.', ',')}")
            print(f"Maior ciclo encontrado na amostra: {max(cycle_lengths)} n√≥s")
        else:
            print("Nenhum ciclo encontrado na amostra. O grafo √© majoritariamente ac√≠clico.")

    except Exception as e:
        print(f"Erro na an√°lise de ciclos: {e}")
    
    # ============= RESUMO FINAL =============
    elapsed_time = time.time() - start_time
    print("\n" + "="*60)
    print(f"‚úÖ AN√ÅLISE COMPLETADA EM {f'{elapsed_time:.2f}'.replace('.', ',')} SEGUNDOS")
    print("="*60)

# --- Para executar a an√°lise ---
# Certifique-se de que a vari√°vel 'graph' est√° definida na sua sess√£o do notebook
from itertools import islice

if 'graph' in locals():
    analyze_graph_complete_large_scale(graph)
else:
    print("Erro: A vari√°vel 'graph' n√£o foi encontrada. Por favor, crie o grafo primeiro.")


          AN√ÅLISE COMPLETA DO GRAFO DE DEPEND√äNCIAS

üîç ESTAT√çSTICAS B√ÅSICAS
----------------------------------------
N√≥s: 1758429
Arestas: 14078099
Densidade: 0,00000455
Tipo: Direcionado

üîó AN√ÅLISE DE CONECTIVIDADE
----------------------------------------
Grau m√©dio: 16,01
Grau m√°ximo: 193045
Mediana do grau: 5,00

In-degree m√©dio (popularidade): 8,01
In-degree m√°ximo: 192961
Out-degree m√©dio (complexidade): 8,01
Out-degree m√°ximo: 1000

üåê COMPONENTES CONECTADOS
----------------------------------------
Identificando o maior ecossistema (componente fracamente conectado)...
N√∫mero de ecossistemas (componentes fracamente conectados): 11301
Tamanho do maior ecossistema: 1604174 n√≥s (91,23% do total)

‚≠ê TOP 15 DEPEND√äNCIAS MAIS POPULARES (MAIOR IN-DEGREE)
----------------------------------------
 1. mocha: 192961 projetos dependem
 2. eslint: 177661 projetos dependem
 3. typescript: 128561 projetos dependem
 4. chai: 117227 projetos dependem
 5. webpack: 116054 pr