# Github Data Analysis

## Part 1: Pre Processing - Users_Followers

In [5]:
import pandas as pd
import numpy as np
import re

## Loading Data

In [6]:
# load dataset

gh_users_followers = pd.read_csv('../data/recife/users__followers.csv')
gh_users_followers.head()

Unnamed: 0,User,All_Followers,nF
0,tarruda,"Sannis,danielmahon,csjaba,FergusRedican,Victor...",570
1,mairatma,"brunocoelho,henvic,eduardolundgren,aperrelli,a...",363
2,joselitojunior1,"renatooliveira,jeffesonmaia,jotaefe,duartefq,J...",350
3,marcelcaraciolo,"thiagoarrais,brunojm,henriquebastos,macndesign...",330
4,luanfonceca,"brunohenrique,luizvarela,gladson,lucasbibiano,...",301


## Normalizing

In [7]:
# normalizing
def fs_to_dataframe(fs):
    return pd.DataFrame({'User': re.split('\W+', str(fs))})

gh_users_followers['All_Followers'] = gh_users_followers['All_Followers'].fillna('').apply(fs_to_dataframe) # apenas para simplificar operacoes 

gh_users_followers.head()

Unnamed: 0,User,All_Followers,nF
0,tarruda,User 0 Sannis 1 d...,570
1,mairatma,User 0 brunocoelho 1 ...,363
2,joselitojunior1,User 0 renatooliveira 1 ...,350
3,marcelcaraciolo,User 0 thiagoarrais 1 ...,330
4,luanfonceca,User 0 brunohenrique 1 ...,301


## Filtering followers

**Recife**

Gostariamos de criar outra coluna contendo apenas os seguidores da cidade de Recife: Para isso vamos fazer um merge full inner(intersecao) de cada lista de seguidores com a lista de usuários (que são recifenses)

In [8]:
# Dataframe incluindo colunas contendo apenas seguidores recifenses

gh_users_followers['Followers'] = gh_users_followers['All_Followers'].apply(pd.DataFrame({'User':gh_users_followers['User']}).merge)

gh_users_followers['nFs'] = gh_users_followers['Followers'].apply(len)

gh_users_followers.head()

Unnamed: 0,User,All_Followers,nF,Followers,nFs
0,tarruda,User 0 Sannis 1 d...,570,User 0 henriquemenezes 1 paul...,5
1,mairatma,User 0 brunocoelho 1 ...,363,User 0 simoneas02 1 ...,19
2,joselitojunior1,User 0 renatooliveira 1 ...,350,User 0 luanfonceca 1 rena...,23
3,marcelcaraciolo,User 0 thiagoarrais 1 ...,330,User 0 luanfonceca 1 ...,28
4,luanfonceca,User 0 brunohenrique 1 ...,301,User 0 deividazevedo2 1 ...,9


In [9]:
# foco na visualização dos Followers recifenses 
# (mantendo no DataFrame todos os seguidores(recifenses e não recifenses))

gh_users_followers = gh_users_followers.loc[:, ['User', 'Followers', 'nFs', 'All_Followers', 'nF']]
gh_users_followers.sort_values('nFs', axis=0, ascending=False, inplace=True)

gh_users_followers.head()

Unnamed: 0,User,Followers,nFs,All_Followers,nF
12,fernandocastor,User 0 joselitojunior1 1 ...,48,User 0 guiocavalcanti 1 ...,129
8,filipeximenes,User 0 luanfonceca ...,40,User 0 luisgabriel 1 r...,177
7,simoneas02,User 0 talitaolive...,37,User 0 ElsonBarcelos 1 ...,250
9,renatooliveira,User 0 joselitojunior1 1 ...,35,User 0 adrianomelo 1 ...,166
26,lailsonbm,User 0 luanfonceca 1 ...,29,User 0 kraudio 1 luc...,73


# Building the Followers Graph

A nossa principal análise envolve a criação de um grafo direcionado em que cada aresta indica a relação "X segue Y"

**Construção do grafo de seguidores.** Dado uma lista de usuarios e pra cada usuario a lista de seguidores criamos o grafo de seguidores  <GRAFO DE SEGUIDORES> = onde pra cada relação A segue B é criada uma aresta direcionada onde o ponto de origem é o A e o de chegada é o B (Lista de adjacências).

** Nós:** Usuarios do github
        
** Arestas:** Relacao "seguir"
 

** Analise do Grafo e Discussão dos resultados obtidos **


* **GRAU**
    * Densidade = 0.001 (visualização dos nos vs arestas) - graph2 e graph3
        * baixa densidade = baixa fração de arestas (2152)

    * Distribuição de grau
        * Lei de potencia: Poucos nós com muitos seguidores
        * Grau de entrada: Quantidade de seguidores totais (recifenses ou não) (All-In-degree)
        * Grau de entrada: Quantidade de seguidores recifenses (In-Degree)
    * Grau médio indica nivel de reciprocidade = 1.133 (visualização distribuição dos graus) - graph 4


* **CAMINHO**
    * Efeito Mundo Pequeno
    * Experimento de Milgram: Six degrees of separation
    * Caminho Medio: Diametro Da Rede = 13 (visualizacao do maior caminho)
    * Tamanho do Caminho medio = 5.067 
        * Rede de mundo pequeno (Visualização de todos os caminhos de tamanho 5)


* **ARESTAS** 

    * Conectividade (visualizacao - graph5)
        * O tamanho indica betweeness (intermediacao), a cor indica componentes conectados
        * Nos conectados e soltos quase meio a meio
        * Number of Weakly Connected Components: 1157
        * Number of Strongly Connected Components: 1503
        * Transitividade: Coeficiente de Clusterizaçao médio = 0.058
        * Rede muito desconectada


* **VERTICES**

    * Influencia/Autoridade/Importancia (Visualização - graph6)
        * O tamanho dos nos indica autoridade (importância)
        * A cor indica componentes conectados
        * Pra um no ser importante não precisa ser fortemente conectado
        
    * Centralidade: 
        * PageRank (visualizacao) - graph8
        * Eigenvector (visualizacao) - graph 9
        * Betweeness (visualizacao) - graph5

    * Hubs  (1 cluster gigante 1 varios pequenos) (visualização dos Hubs)

    * Egocentrismo (Filtros)





In [10]:
# todos os usuarios recifenses (nem todos serao considerados como nos do graph - ver Parte 2) 
# nodes_preview = gh_users_followers.loc[:,['User','nFs', 'nF']]
# nodes_preview.columns = ['Id', 'In-Degree', 'All-In-Degree']

# nodes_preview.head()

In [11]:
# criacao das arestas

# def create_edges_df(batches):
#     return pd.concat(batches,
#         ignore_index=True)

# pairs = zip(gh_users_followers.User, gh_users_followers.Followers)

# edges = [pd.DataFrame([{'Source':str(f), 'Target':str(u)} for f in fs['User']]) for (u,fs) in pairs]

# edges_df = create_edges_df(edges)
# edges_df.head()
# edges_df.to_csv('../data/recife/edges.csv', index=False)

In [12]:
# formatando para exportar

# gh_users_followers['Followers'] = gh_users_followers['Followers'].apply(lambda x: x.apply(','.join))
# gh_users_followers['All_Followers'] = gh_users_followers['All_Followers'].apply(lambda x: x.apply(','.join))

# gh_users_followers.head()
# gh_users_followers.to_csv('../data/recife/users__followers.csv', index=False)


# Part 2: Followers Analysis - Users_Followers

In [13]:
# numero de usuarios recifenses 
gh_users_followers['User'].count()

1992

In [14]:
# numero de usuarios recifenses com seguidores recifenses 
users_0_fs = [str(n) for n in gh_users_followers.User[gh_users_followers['nFs'] != 0]]
len(users_0_fs)

692

In [15]:
# numero de usuarios recifenses sem seguidores recifenses
users_0_fs = [str(n) for n in gh_users_followers.User[gh_users_followers['nFs'] == 0]]
len(users_0_fs)

1300

In [16]:
# numero de usuarios recifenses com seguidores (recifenses ou nao)
users_0_fs = [str(n) for n in gh_users_followers.User[gh_users_followers['nF'] != 0]]
len(users_0_fs)

1103

In [17]:
# numero de usuarios recifenses sem seguidores (recifenses ou nao)
users_0_fs = [str(n) for n in gh_users_followers.User[gh_users_followers['nF'] == 0]]
len(users_0_fs)

889

In [18]:
# numero de arestas (somatorio do total de seguidores)
gh_users_followers.nFs.sum()

2320

In [19]:
# revendo o numero de arestas
edges = pd.read_csv('../data/recife/edges.csv')
edges.head()

Unnamed: 0,source,target
0,joselitojunior1,fernandocastor
1,filipeximenes,fernandocastor
2,renatooliveira,fernandocastor
3,henvic,fernandocastor
4,fjsj,fernandocastor


**- Número de nós considerados**

Note que como estes nós pertencem a uma aresta, eles representam os usuários que tem seguidores e/ou seguem alguém.

In [20]:

# (usuarios recifenses, excluidos os que não tem seguidores se e somente se não seguem ninguem)
len(pd.unique(edges[['source','target']].values.ravel()))


828

In [21]:
# distribuicao do Grau
gh_users_followers["nFs"].value_counts()

nFs
0     1300
1      310
2      142
3       67
4       42
5       27
7       19
6       18
8       14
9       14
11       6
14       5
12       3
23       3
20       2
13       2
18       2
10       2
15       2
24       2
25       2
29       1
37       1
35       1
16       1
28       1
19       1
40       1
48       1
Name: count, dtype: int64

In [22]:
# distribuicao do grau - usuarios por ocorrencias da quantidade de seguidores 
groupby_nfs = gh_users_followers.groupby('nFs')
groupby_nfs['User'].apply( ','.join)

nFs
0     eliene-mb,anniewalker,lucasvsr,nataliaalves,th...
1     filipe-torres,ericksantana,Kassio-Ferreira,koo...
2     sudorafa,gilesv,andreneto,marcoshmendes,tonnyv...
3     luhanlacerda,walber,mauLeal,tcostam,bebetocf,v...
4     vmms16,wwcoderecife,andreldm,lhew,brunovpl,cit...
5     favasconcelos,alinedoleron,djalmaafilho,Master...
6     vanessa,gcaraciolo,luizlago,omailson,rvlb-19,L...
7     pedroqueiroz,t0rr3sp3dr0,leticiamachado,felipe...
8     iagobelo,dvro,nielsonsantana,tomersimis,JoaoGF...
9     patrickrbc,luanfonceca,jeftarmascarenhas,ovict...
10                              miguelarauj1o,Cisneiros
11    lmarinho,leopoldomt,karlafalcao,irgmedeiros,br...
12           brunnogomes,jordanamorais,marcellustavares
13                            brunofarache,alexpessoajr
14    vinicius3w,thiagodiniz,diegonvs,victorlaerte,a...
15                                interaminense,dakerfp
16                                           pauloborba
18                                        gv

# Part 3: Metrics observed on Gephi

In [26]:
#
nodes_data = pd.read_csv('../data/recife/graph_data.csv')

# nodes_data.columns = ['User', 'In_Degree', 'Out_Degree', 'Degree', 'Modularity_Class', 'Page_Rank', 'Eccentricity_Centrality', 'Closness_Centrality', 'Betweeness_Centrality', 'EigenVector_Centrality']
# nodes_data.sort_values('In_Degree', axis=0, ascending=False, inplace=True)
# nodes_data.to_csv('../data/recife/nodes_data.csv', index=False)

nodes_data.head()

Unnamed: 0,User,In_Degree,Out_Degree,Degree,Modularity_Class,Page_Rank,Eccentricity_Centrality,Closness_Centrality,Betweeness_Centrality,EigenVector_Centrality
0,fernandocastor,48,7,55,6,0.01252,8,0.253469,37787.361925,0.751562
1,filipeximenes,40,32,72,0,0.014185,9,0.267709,40297.561868,1.0
2,simoneas02,37,26,63,9,0.011433,10,0.268627,40894.607104,0.211671
3,renatooliveira,35,28,63,0,0.01055,9,0.258613,26763.575801,0.994672
4,lailsonbm,29,1,30,0,0.013151,11,0.149686,1142.658235,0.838433


## COMUNIDADES

In [27]:
nodes_data.describe()

Unnamed: 0,In_Degree,Out_Degree,Degree,Modularity_Class,Page_Rank,Eccentricity_Centrality,Closness_Centrality,Betweeness_Centrality,EigenVector_Centrality
count,828.0,828.0,828.0,828.0,828.0,828.0,828.0,828.0,828.0
mean,2.793478,2.793478,5.586957,7.602657,0.001208,6.55314,0.256711,1419.676329,0.042428
std,4.567072,4.667115,8.360292,6.902523,0.001698,4.938395,0.295489,4458.272707,0.107496
min,0.0,0.0,1.0,-3.0,0.000329,0.0,0.0,0.0,0.0
25%,1.0,1.0,1.0,1.75,0.000444,1.0,0.127562,0.0,0.00129
50%,1.0,1.0,3.0,6.0,0.000682,9.0,0.191944,0.0,0.006063
75%,3.0,3.0,6.0,12.0,0.001235,11.0,0.224246,692.926692,0.029582
max,48.0,46.0,72.0,33.0,0.020541,14.0,1.0,40894.607104,1.0


**Legenda Modularity_Class**. Colocamos:  
- \-2 para as "comunidades" de tamanho 2
- \-3 para as "comunidades" de tamanho 3
