In [14]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

In [27]:
# Carrega arquivo parquet
df = pd.read_parquet("DB/List-dependencies.parquet")

In [30]:
df

Unnamed: 0,Project Name,Dependency Name
0,a4g,a4g:client
1,a4g,a4g:server
2,anchovy,derelict-ft
3,anchovy,dlib
4,anchovy,derelict-fi
...,...,...
18967354,jh-lib,lodash-es
18967355,jh-lib,jh-utils
18967356,jh-lib,classnames
18967357,jh-lib,antd


In [28]:
graph = nx.from_pandas_edgelist(
    df,
    source="Project Name",
    target="Dependency Name",
    create_using=nx.DiGraph(),
)

In [29]:
import numpy as np
from concurrent.futures import ProcessPoolExecutor


def analyze_graph_structure():
    # Estat√≠sticas b√°sicas
    print(f"N√≥s: {graph.number_of_nodes():,}")
    print(f"Arestas: {graph.number_of_edges():,}")
    print(f"Densidade: {nx.density(graph):.8f}")

    # An√°lise de conectividade
    degrees = dict(graph.degree())
    in_degrees = dict(graph.in_degree())
    out_degrees = dict(graph.out_degree())

    print(f"\nGrau m√©dio: {np.mean(list(degrees.values())):.2f}")
    print(f"Grau m√°ximo: {max(degrees.values()):,}")

    # Top depend√™ncias mais populares (mais referenciadas)
    print("\nTOP 10 depend√™ncias mais populares:")
    top_dependencies = sorted(in_degrees.items(), key=lambda x: x[1], reverse=True)[:10]
    for dep, count in top_dependencies:
        print(f"  {dep}: {count:,} projetos dependem")

    # Top projetos com mais depend√™ncias
    print("\nTOP 10 projetos com mais depend√™ncias:")
    top_projects = sorted(out_degrees.items(), key=lambda x: x[1], reverse=True)[:10]
    for proj, count in top_projects:
        print(f"  {proj}: {count:,} depend√™ncias")


analyze_graph_structure()

N√≥s: 1,758,429
Arestas: 14,078,099
Densidade: 0.00000455

Grau m√©dio: 16.01
Grau m√°ximo: 193,045

TOP 10 depend√™ncias mais populares:
  mocha: 192,961 projetos dependem
  eslint: 177,661 projetos dependem
  typescript: 128,561 projetos dependem
  chai: 117,227 projetos dependem
  webpack: 116,054 projetos dependem
  babel-core: 111,311 projetos dependem
  babel-loader: 99,137 projetos dependem
  react: 95,553 projetos dependem
  lodash: 93,358 projetos dependem
  jest: 88,218 projetos dependem

TOP 10 projetos com mais depend√™ncias:
  sindresorhus.js: 1,000 depend√™ncias
  npm-bomb: 999 depend√™ncias
  1000-packages: 999 depend√™ncias
  all-of-them: 989 depend√™ncias
  digital-keyboard-demos: 975 depend√™ncias
  @hawkingnetwork/react-native-tab-view: 921 depend√™ncias
  @ericmcornelius/ease: 905 depend√™ncias
  vue-compment: 895 depend√™ncias
  nois-react-toast: 873 depend√™ncias
  org.springframework.boot:spring-boot-dependencies: 856 depend√™ncias


In [None]:
import numpy as np
import networkx as nx
from collections import Counter
import time

def analyze_graph_complete():
    """An√°lise completa e detalhada do grafo de depend√™ncias"""
    
    print("="*60)
    print("          AN√ÅLISE COMPLETA DO GRAFO DE DEPEND√äNCIAS")
    print("="*60)
    
    start_time = time.time()
    
    # ============= ESTAT√çSTICAS B√ÅSICAS =============
    print("\nüîç ESTAT√çSTICAS B√ÅSICAS")
    print("-" * 40)
    num_nodes = graph.number_of_nodes()
    num_edges = graph.number_of_edges()
    density = nx.density(graph)
    
    print(f"N√≥s: {num_nodes:,}")
    print(f"Arestas: {num_edges:,}")
    print(f"Densidade: {density:.8f}")
    print(f"Tipo: {'Direcionado' if graph.is_directed() else 'N√£o-direcionado'}")
    
    # ============= AN√ÅLISE DE CONECTIVIDADE =============
    print("\nüîó AN√ÅLISE DE CONECTIVIDADE")
    print("-" * 40)
    
    degrees = dict(graph.degree())
    in_degrees = dict(graph.in_degree())
    out_degrees = dict(graph.out_degree())
    
    degree_values = list(degrees.values())
    in_degree_values = list(in_degrees.values())
    out_degree_values = list(out_degrees.values())
    
    print(f"Grau m√©dio: {np.mean(degree_values):.2f}")
    print(f"Grau m√°ximo: {max(degree_values):,}")
    print(f"Grau m√≠nimo: {min(degree_values):,}")
    print(f"Mediana do grau: {np.median(degree_values):.2f}")
    print(f"Desvio padr√£o do grau: {np.std(degree_values):.2f}")
    
    print(f"\nIn-degree m√©dio: {np.mean(in_degree_values):.2f}")
    print(f"In-degree m√°ximo: {max(in_degree_values):,}")
    print(f"Out-degree m√©dio: {np.mean(out_degree_values):.2f}")
    print(f"Out-degree m√°ximo: {max(out_degree_values):,}")
    
    # ============= COMPONENTES CONECTADOS =============
    print("\nüåê COMPONENTES CONECTADOS")
    print("-" * 40)
    
    # Componentes fortemente conectados
    strongly_connected = list(nx.strongly_connected_components(graph))
    largest_scc = max(strongly_connected, key=len)
    
    # Componentes fracamente conectados
    weakly_connected = list(nx.weakly_connected_components(graph))
    largest_wcc = max(weakly_connected, key=len)
    
    print(f"Componentes fortemente conectados: {len(strongly_connected)}")
    print(f"Maior componente fortemente conectado: {len(largest_scc):,} n√≥s")
    print(f"Componentes fracamente conectados: {len(weakly_connected)}")
    print(f"Maior componente fracamente conectado: {len(largest_wcc):,} n√≥s")
    
    # ============= TOP DEPEND√äNCIAS MAIS POPULARES =============
    print("\n‚≠ê TOP 15 DEPEND√äNCIAS MAIS POPULARES")
    print("-" * 40)
    top_dependencies = sorted(in_degrees.items(), key=lambda x: x[1], reverse=True)[:15]
    for i, (dep, count) in enumerate(top_dependencies, 1):
        print(f"{i:2d}. {dep}: {count:,} projetos dependem")
    
    # ============= TOP PROJETOS COM MAIS DEPEND√äNCIAS =============
    print("\nüì¶ TOP 15 PROJETOS COM MAIS DEPEND√äNCIAS")
    print("-" * 40)
    top_projects = sorted(out_degrees.items(), key=lambda x: x[1], reverse=True)[:15]
    for i, (proj, count) in enumerate(top_projects, 1):
        print(f"{i:2d}. {proj}: {count:,} depend√™ncias")
    
    # ============= AN√ÅLISE DAS DEPEND√äNCIAS DOS MAIS POPULARES =============
    print("\nüîç AN√ÅLISE DAS TOP 5 DEPEND√äNCIAS MAIS POPULARES")
    print("-" * 50)
    
    for i, (dep_name, popularity) in enumerate(top_dependencies[:5], 1):
        print(f"\n{i}. {dep_name} (usado por {popularity:,} projetos)")
        
        # Encontra as depend√™ncias deste pacote
        if dep_name in out_degrees and out_degrees[dep_name] > 0:
            dep_dependencies = list(graph.successors(dep_name))
            print(f"   Tem {len(dep_dependencies)} depend√™ncias pr√≥prias:")
            for dep_dep in dep_dependencies[:10]:  # Mostra at√© 10
                print(f"   - {dep_dep}")
            if len(dep_dependencies) > 10:
                print(f"   ... e mais {len(dep_dependencies) - 10}")
        else:
            print("   N√£o tem depend√™ncias registradas (n√≥ folha)")
    
    # ============= DISTRIBUI√á√ÉO DE GRAUS =============
    print("\nüìä DISTRIBUI√á√ÉO DE GRAUS")
    print("-" * 40)
    
    degree_counter = Counter(degree_values)
    in_degree_counter = Counter(in_degree_values)
    out_degree_counter = Counter(out_degree_values)
    
    # N√≥s isolados (sem conex√µes)
    isolated_nodes = [n for n in graph.nodes() if degrees[n] == 0]
    print(f"N√≥s isolados: {len(isolated_nodes):,}")
    
    # N√≥s fonte (s√≥ saem arestas)
    source_nodes = [n for n in graph.nodes() if in_degrees[n] == 0 and out_degrees[n] > 0]
    print(f"N√≥s fonte (projetos raiz): {len(source_nodes):,}")
    
    # N√≥s sumidouro (s√≥ entram arestas)
    sink_nodes = [n for n in graph.nodes() if out_degrees[n] == 0 and in_degrees[n] > 0]
    print(f"N√≥s sumidouro (depend√™ncias finais): {len(sink_nodes):,}")
    
    # ============= M√âTRICAS DE CENTRALIDADE =============
    print("\nüéØ AN√ÅLISE DE CENTRALIDADE (amostra)")
    print("-" * 40)
    
    # Para grafos grandes, calcular centralidade em uma amostra
    if num_nodes > 10000:
        print("Calculando centralidade em amostra de 1000 n√≥s...")
        sample_nodes = np.random.choice(list(graph.nodes()), 1000, replace=False)
        sample_graph = graph.subgraph(sample_nodes)
    else:
        sample_graph = graph
    
    try:
        # Centralidade de proximidade
        closeness = nx.closeness_centrality(sample_graph)
        top_closeness = sorted(closeness.items(), key=lambda x: x[1], reverse=True)[:5]
        print("Top 5 por centralidade de proximidade:")
        for node, score in top_closeness:
            print(f"  {node}: {score:.4f}")
        
        # Centralidade de intermedia√ß√£o
        print("\nCalculando centralidade de intermedia√ß√£o...")
        betweenness = nx.betweenness_centrality(sample_graph, k=min(100, len(sample_graph)))
        top_betweenness = sorted(betweenness.items(), key=lambda x: x[1], reverse=True)[:5]
        print("Top 5 por centralidade de intermedia√ß√£o:")
        for node, score in top_betweenness:
            print(f"  {node}: {score:.4f}")
            
    except Exception as e:
        print(f"Erro ao calcular centralidade: {e}")
    
    # ============= AN√ÅLISE DE CICLOS =============
    print("\nüîÑ AN√ÅLISE DE CICLOS")
    print("-" * 40)
    
    try:
        is_dag = nx.is_directed_acyclic_graph(graph)
        print(f"√â um DAG (sem ciclos): {'Sim' if is_dag else 'N√£o'}")
        
        if not is_dag:
            print("Detectando ciclos...")
            cycles = list(nx.simple_cycles(graph))
            print(f"N√∫mero de ciclos simples encontrados: {len(cycles[:100])}")  # Limita a 100
            if cycles:
                cycle_lengths = [len(cycle) for cycle in cycles[:100]]
                print(f"Tamanho m√©dio dos ciclos: {np.mean(cycle_lengths):.2f}")
                print(f"Maior ciclo: {max(cycle_lengths)} n√≥s")
    except Exception as e:
        print(f"Erro na an√°lise de ciclos: {e}")
    
    # ============= RESUMO FINAL =============
    elapsed_time = time.time() - start_time
    print("\n" + "="*60)
    print(f"‚úÖ AN√ÅLISE COMPLETADA EM {elapsed_time:.2f} SEGUNDOS")
    print("="*60)
    
    return {
        'num_nodes': num_nodes,
        'num_edges': num_edges,
        'density': density,
        'top_dependencies': top_dependencies[:10],
        'top_projects': top_projects[:10],
        'largest_scc_size': len(largest_scc),
        'largest_wcc_size': len(largest_wcc),
        'num_isolated': len(isolated_nodes),
        'num_source': len(source_nodes),
        'num_sink': len(sink_nodes)
    }

# Executa a an√°lise completa
analyze_graph_complete()

          AN√ÅLISE COMPLETA DO GRAFO DE DEPEND√äNCIAS

üîç ESTAT√çSTICAS B√ÅSICAS
----------------------------------------
N√≥s: 1,758,429
Arestas: 14,078,099
Densidade: 0.00000455
Tipo: Direcionado

üîó AN√ÅLISE DE CONECTIVIDADE
----------------------------------------
Grau m√©dio: 16.01
Grau m√°ximo: 193,045
Grau m√≠nimo: 1
Mediana do grau: 5.00
Desvio padr√£o do grau: 450.46

In-degree m√©dio: 8.01
In-degree m√°ximo: 192,961
Out-degree m√©dio: 8.01
Out-degree m√°ximo: 1,000

üåê COMPONENTES CONECTADOS
----------------------------------------
Componentes fortemente conectados: 1730853
Maior componente fortemente conectado: 18,413 n√≥s
Componentes fracamente conectados: 11301
Maior componente fracamente conectado: 1,604,174 n√≥s

‚≠ê TOP 15 DEPEND√äNCIAS MAIS POPULARES
----------------------------------------
 1. mocha: 192,961 projetos dependem
 2. eslint: 177,661 projetos dependem
 3. typescript: 128,561 projetos dependem
 4. chai: 117,227 projetos dependem
 5. webpack: 116,054 p

In [31]:
nx.write_graphml(graph, "Grafos/grafo_dependencias.graphml")

In [32]:
nx.write_gexf(graph, "Grafos/grafo_dependencias.gexf")