# Analisando o grafo

## Imports

In [None]:
import netpixi
from netpixi.integration.gt import Graph
from netpixi.integration.gt import *

from regression.integration.gt import *

import seaborn as sns

import cpnet

from graph_tool import spectral
from graph_tool import clustering

import numpy as np

import pandas as pd

import regression as reg

from scipy import stats

from matplotlib import pyplot as plt

import gzip

import json

## Compilando e renderizando o grafo

In [None]:
g = gt_load('git_hub_sfdp.net.gz')
r = netpixi.render('git_hub_sfdp.net.gz')

## Melhorando visualmento o grafo

In [None]:
# mudar a cor de fundo do grafo
r.graph(color=0xffffff)

# mudar a cor e o tamanho dos vértices
r.vertex_default(color=0x000000, size=10)

# mudar a cor, a espessura e a curvatura das arestas
r.edge_default(color=0x000000, width=1, curve1=1, curve2=1)

## Análise exploratória do grafo

In [None]:
# Números de vértices
n = g.num_vertices()

# Número de arestas
m = g.num_edges()

# Número máximo possível de arestas
if g.is_directed():
    max_edges = n * (n - 1)
else:
    max_edges = n * (n - 1) // 2
    
# Densidade
d = m / max_edges


print(f"""Números de vértices: {n}

Número de arestas: {m}

Número máximo possível de arestas: {max_edges}

Densidade: {d}""")

In [None]:
# Propriedades de cada vértice
data = gt_data(g)

# Degree
degrees = []
for v in g.all_vertices():
    degrees.append(v.total_degree())
    
data['degree'] = degrees

# Histograma do degree
sns.histplot(data['degree']);
data['degree'].describe()

## Análise das variáveis dependentes e independentes

### Criando um novo dataset

In [None]:
# Dataset refatorado
data_refatorado = pd.read_csv('Github_data_refatorado.csv')

# Dataset do grafo
data_grafo = data_refatorado.copy()

### Coletando os dados

In [None]:
# Coletando o clustering coefficient de cada vértice

lc = clustering.local_clustering(g)

clustering = [] # Lista de clustering coefficient de cada vértice
for value in lc:
    clustering.append(value)

In [None]:
# Coletando o nome dos vértices do grafo

nome_arquivo_comprimido = 'git_hub_sfdp.net.gz'
nome_arquivo_descompactado = [] # Lista dos nomes dos vértices do grafo

try:
    with gzip.open(nome_arquivo_comprimido, 'r') as arquivo_comprimido:
        arquivo_comprimido.readline()
        for linha in arquivo_comprimido:
            objeto = json.loads(linha.decode('utf-8'))
            nome_arquivo_descompactado.append(objeto['props']['_id'])
except:
    print("Nome dos vértices coletados")

### Alterando o dataset

In [None]:
# Filtrando o dataset para somente as os vértices do grafo
data_grafo = data_grafo.loc[data_grafo['name'].isin(nome_arquivo_descompactado)]

# Colocando log nos commits
data_grafo['commits'] = np.log(data_grafo['commits'])

# Colocando log nas stars
data_grafo['star'] = np.log(data_grafo['star'])

# Adicionando clustering coefficient (CC) na tabela
data_grafo['CC'] = clustering

# Adicionando degrees na tabela
data_grafo['degree'] = degrees

# Adicionando pertencimento a comunidade (PC) na tabela
data_grafo['PC'] = data_grafo['degree'] * data_grafo['CC'] 

In [None]:
data_grafo.loc[:, ['name', 'star', 'topic_tag', 'commits', 'CC', 'degree', 'PC']]

### Resultados

In [None]:
result = reg.linear(data=data_grafo, formula='commits ~ PC + star')

In [None]:
result.micro_summary()

In [None]:
result.nano_summary()

In [None]:
# Plotando os gráficos de distribuição linear

# Criando subplot
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plotando os gráficos
sns.scatterplot(x=data_grafo["commits"], y=data_grafo["PC"], # Dados
                edgecolor='white', linewidth=0.6, # Personalizando
                ax=axes[0]); # Subplot

sns.regplot(x=data_grafo["commits"], y=data_grafo["PC"], # Dados
            scatter_kws={"edgecolor": "white", "linewidth": 0.6}, # Personalizando
            ax=axes[1]); # Subplot

plt.tight_layout()
plt.show()

In [None]:
# Plotando o gráfico de resíduos
result.plot_residuals()