# Parte 1: Dados - Users_Followers

In [1]:
import pandas as pd
import re
import numpy as np

def fs_to_dataframe(fs):
    return pd.DataFrame({'User': re.split('\W+', fs)})

def create_edges_df(batches):
    return pd.concat(batches,
        ignore_index=True)

In [30]:
##################
# Dataframe incluindo colunas contendo todos os seguidores

# load dataset
gh_users_followers = pd.read_csv('../data/recife/users__followers.csv')
gh_users_followers.head()

# normalizing para simplificar operacoes
gh_users_followers['All_Followers'] = gh_users_followers['All_Followers'].fillna('').apply(fs_to_dataframe)
gh_users_followers.head()

#Filtering followers
#Gostariamos de criar outra coluna contendo apenas os seguidores da cidade de Recife: 
#Para isso vamos fazer um merge full inner(intersecao) de cada lista de seguidores com a lista de usuários (que são recifenses)
gh_users_followers['Followers'] = gh_users_followers['All_Followers'].apply(pd.DataFrame({'User':gh_users_followers['User']}).merge)
gh_users_followers['nFs'] = gh_users_followers['Followers'].apply(len)
gh_users_followers.head()

# foco na visualização dos Followers recifenses 
# (mantendo no DataFrame todos os seguidores(recifenses e não recifenses))
gh_users_followers = gh_users_followers.loc[:, ['User', 'Followers', 'nFs', 'All_Followers', 'nF']]
gh_users_followers.sort_values('nFs', axis=0, ascending=False, inplace=True)

gh_users_followers.head()

Unnamed: 0,User,All_Followers,nF
0,tarruda,"Sannis,danielmahon,csjaba,FergusRedican,Victor...",570
1,mairatma,"brunocoelho,henvic,eduardolundgren,aperrelli,a...",363
2,joselitojunior1,"renatooliveira,jeffesonmaia,jotaefe,duartefq,J...",350
3,marcelcaraciolo,"thiagoarrais,brunojm,henriquebastos,macndesign...",330
4,luanfonceca,"brunohenrique,luizvarela,gladson,lucasbibiano,...",301


In [9]:
##################
# Dataframe incluindo colunas contendo todos os seguidores e seguidores de RECIFE
# load dataset

gh_users_allFollowers = pd.read_csv('../data/recife/users__followers_recife.csv')
gh_users_allFollowers.head()


# normalizing para simplificar operacoes
gh_users_allFollowers['All_Followers'] = gh_users_allFollowers['All_Followers'].fillna('').apply(fs_to_dataframe)
gh_users_allFollowers.head()

# Filtering followers
# Dataframe incluindo colunas contendo apenas seguidores da cidade RECIFE
# Gostariamos de criar outra coluna contendo apenas os seguidores da cidade de Recife: 
# Para isso vamos fazer um merge full inner(intersecao) de cada lista de seguidores com a lista de usuários (que são recifenses)
gh_users_Followers = gh_users_allFollowers.copy()
gh_users_Followers['Followers'] = gh_users_Followers['All_Followers'].apply(pd.DataFrame({'User':gh_users_Followers['User']}).merge)
gh_users_Followers['nFs'] = gh_users_Followers['Followers'].apply(len)
gh_users_Followers.head()

# foco na visualização dos Followers recifenses 
# (mantendo no DataFrame todos os seguidores(recifenses e não recifenses))

gh_users_Followers = gh_users_Followers.loc[:, ['User', 'Followers', 'nFs', 'All_Followers', 'nF']]
gh_users_Followers.sort_values('nFs', axis=0, ascending=False, inplace=True)
gh_users_Followers.head()


Unnamed: 0,User,Followers,nFs,All_Followers,nF
0,fernandocastor,User 0 filipeximenes 1 r...,48,User 0 guiocavalcanti 1 ...,129
1,filipeximenes,User 0 fernandocastor ...,40,User 0 luisgabriel 1 r...,177
2,simoneas02,User 0 talitaolive...,37,User 0 ElsonBarcelos 1 ...,250
3,renatooliveira,User 0 fernandocastor 1 ...,35,User 0 adrianomelo 1 ...,166
4,lailsonbm,User 0 filipeximenes 1 r...,29,User 0 kraudio 1 luc...,73


# Building the Followers Graph

A nossa principal análise envolve a criação de um grafo direcionado em que cada aresta indica a relação "X segue Y"

**Construção do grafo de seguidores.** Dado uma lista de usuarios e pra cada usuario a lista de seguidores criamos o grafo de seguidores  <GRAFO DE SEGUIDORES> = onde pra cada relação A segue B é criada uma aresta direcionada onde o ponto de origem é o A e o de chegada é o B (Lista de adjacências).

** Nós:** Usuarios do github
        
** Arestas:** Relacao "seguir"
 

** Analise do Grafo e Discussão dos resultados obtidos **


* **GRAU**
    * Densidade = 0.001 (visualização dos nos vs arestas) - graph2 e graph3
        * baixa densidade = baixa fração de arestas (2152)

    * Distribuição de grau
        * Lei de potencia: Poucos nós com muitos seguidores
        * Grau de entrada: Quantidade de seguidores totais (recifenses ou não) (All-In-degree)
        * Grau de entrada: Quantidade de seguidores recifenses (In-Degree)
    * Grau médio indica nivel de reciprocidade = 1.133 (visualização distribuição dos graus) - graph 4


* **CAMINHO**
    * Efeito Mundo Pequeno
    * Experimento de Milgram: Six degrees of separation
    * Caminho Medio: Diametro Da Rede = 13 (visualizacao do maior caminho)
    * Tamanho do Caminho medio = 5.067 
        * Rede de mundo pequeno (Visualização de todos os caminhos de tamanho 5)


* **ARESTAS** 

    * Conectividade (visualizacao - graph5)
        * O tamanho indica betweeness (intermediacao), a cor indica componentes conectados
        * Nos conectados e soltos quase meio a meio
        * Number of Weakly Connected Components: 1157
        * Number of Strongly Connected Components: 1503
        * Transitividade: Coeficiente de Clusterizaçao médio = 0.058
        * Rede muito desconectada


* **VERTICES**

    * Influencia/Autoridade/Importancia (Visualização - graph6)
        * O tamanho dos nos indica autoridade (importância)
        * A cor indica componentes conectados
        * Pra um no ser importante não precisa ser fortemente conectado
        
    * Centralidade: 
        * PageRank (visualizacao) - graph8
        * Eigenvector (visualizacao) - graph 9
        * Betweeness (visualizacao) - graph5

    * Hubs  (1 cluster gigante 1 varios pequenos) (visualização dos Hubs)

    * Egocentrismo (Filtros)





In [11]:
# todos os usuarios recifenses (nem todos serao considerados como nos do graph - ver Parte 2) 
nodes_preview = gh_users_Followers.loc[:,['User','nFs', 'nF']]
nodes_preview.columns = ['Id', 'In-Degree', 'Full-In-Degree']

nodes_preview.head()

Unnamed: 0,Id,In-Degree,Full-In-Degree
0,fernandocastor,48,129
1,filipeximenes,40,177
2,simoneas02,37,250
3,renatooliveira,35,166
4,lailsonbm,29,73


In [12]:
# extração das edges

pairs = zip(gh_users_Followers.User, gh_users_Followers.Followers)

edges = [pd.DataFrame([{'Source':str(f), 'Target':str(u)} for f in fs['User']]) for (u,fs) in pairs]

edges_df = create_edges_df(edges)
edges_df.head()

Unnamed: 0,Source,Target
0,filipeximenes,fernandocastor
1,renatooliveira,fernandocastor
2,henvic,fernandocastor
3,guiocavalcanti,fernandocastor
4,joselitojunior1,fernandocastor


In [13]:
# formatando

gh_users_Followers['Followers'] = gh_users_Followers['Followers'].apply(lambda x: x.apply(','.join))
gh_users_Followers['All_Followers'] = gh_users_Followers['All_Followers'].apply(lambda x: x.apply(','.join))

gh_users_Followers.head()

Unnamed: 0,User,Followers,nFs,All_Followers,nF
0,fernandocastor,"filipeximenes,renatooliveira,henvic,guiocavalc...",48,"guiocavalcanti,adrianomelo,tacsio,x8lucas8x,fj...",129
1,filipeximenes,"fernandocastor,renatooliveira,guilhermefarias,...",40,"luisgabriel,renatooliveira,marciobarbosa,anton...",177
2,simoneas02,"talitaoliveira,karlafalcao,WandersonAlves,iago...",37,"ElsonBarcelos,IsabelaDePaula,sergiockd,douglas...",250
3,renatooliveira,"fernandocastor,filipeximenes,guiocavalcanti,jo...",35,"adrianomelo,x8lucas8x,luisgabriel,joselitojuni...",166
4,lailsonbm,"filipeximenes,renatooliveira,guiocavalcanti,gi...",29,"kraudio,lucasmncastro,chillicoder,lmarinho,gvc...",73


In [14]:
# gh_users_Followers.to_csv('gh_users_Followers.csv', index=False)
# edges_df.to_csv('edges.csv', index=False)


# Parte 2: Análise dos Dados - Users_Followers

In [15]:
# numero de usuarios recifenses 
gh_users_Followers['User'].count()

1992

In [16]:
# numero de usuarios recifenses com seguidores recifenses
users_0_fs = [str(n) for n in gh_users_Followers.User[gh_users_Followers['nFs'] != 0]]
len(users_0_fs)

692

In [17]:
# numero de usuarios recifenses sem seguidores recifenses 
users_0_fs = [str(n) for n in gh_users_Followers.User[gh_users_Followers['nFs'] == 0]]
len(users_0_fs)

1300

In [18]:
# numero de usuarios recifenses com seguidores (recifenses ou nao) 
users_0_fs = [str(n) for n in gh_users_Followers.User[gh_users_Followers['nF'] != 0]]
len(users_0_fs)

1103

In [19]:
# # numero de usuarios recifenses sem seguidores (recifenses ou nao) 
users_0_fs = [str(n) for n in gh_users_Followers.User[gh_users_Followers['nF'] == 0]]
len(users_0_fs)

889

In [20]:
edges_df.head()

Unnamed: 0,Source,Target
0,filipeximenes,fernandocastor
1,renatooliveira,fernandocastor
2,henvic,fernandocastor
3,guiocavalcanti,fernandocastor
4,joselitojunior1,fernandocastor


**- Número de nós considerados**

Note que como estes nós pertencem a uma aresta, eles representam os usuários que tem seguidores e/ou seguem alguém.

In [21]:
# extração dos nodes

# (usuarios recifenses, excluidos os que não tem seguidores se e somente se não seguem ninguem)
len(pd.unique(edges_df[['Source','Target']].values.ravel()))

828

In [22]:
# numero de arestas (somatorio do total de seguidores por usuario)
gh_users_Followers.nFs.sum()

2320

In [23]:
# revendo o numero de arestas
edges = pd.read_csv('../data/edges.csv')
edges.count()

Source    2320
Target    2320
dtype: int64

In [24]:
# distribuicao do Grau
gh_users_Followers.nFs.value_counts()

nFs
0     1300
1      310
2      142
3       67
4       42
5       27
7       19
6       18
8       14
9       14
11       6
14       5
12       3
23       3
20       2
13       2
18       2
10       2
15       2
24       2
25       2
29       1
37       1
35       1
16       1
28       1
19       1
40       1
48       1
Name: count, dtype: int64

In [25]:
# distribuicao do grau - usuarios por ocorrencias da quantidade de seguidores 
groupby_nfs = gh_users_Followers.groupby('nFs')
groupby_nfs['User'].apply( ','.join)

nFs
0     santojon,renatofilho,afelipefernandes,johnmayk...
1     filipecabraal,leleofg,deyvisonbm,alexjosesilva...
2     andredm,amandasavluchinske,SandroSena,sfilhu,o...
3     andersongns,rcaval,raquelguimaraes,alocjr,anto...
4     setanta,arineto,guilhermebm,soikmd2,AnnyChien,...
5     jonathanslima,chocoelho,ericbbraga,Leviterus,d...
6     TigerRobocop,fltiago,paulolieuthier,albertmour...
7     peaonunes,pcstl,rasoliveira,allanragec,henriqu...
8     frankjuniorr,lhaisrs,JoaoGFarias,lipse,horacio...
9     felipedealbuquerque,roselmamendes,embs,victorc...
10                              Cisneiros,miguelarauj1o
11    lmarinho,leopoldomt,karlafalcao,irgmedeiros,br...
12           marcellustavares,brunnogomes,jordanamorais
13                            brunofarache,alexpessoajr
14    vinicius3w,thiagodiniz,diegonvs,victorlaerte,a...
15                                interaminense,dakerfp
16                                           pauloborba
18                                        gv

# Parte 3: Merge dos Dados

## Métricas observed on Gephi

In [26]:
node_metrics = pd.read_csv('../data/recife/node_metrics.csv')

# nodes_data.columns = ['User', 'In_Degree', 'Out_Degree', 'Degree', 'Modularity_Class', 'Page_Rank', 'Eccentricity_Centrality', 'Closness_Centrality', 'Betweeness_Centrality', 'EigenVector_Centrality']
# nodes_data.sort_values('In_Degree', axis=0, ascending=False, inplace=True)
# nodes_data.to_csv('gephi/node_metrics.csv', index=False)

node_metrics.head()

Unnamed: 0,User,In_Degree,Out_Degree,Degree,Modularity_Class,Page_Rank,Eccentricity_Centrality,Closness_Centrality,Betweeness_Centrality,EigenVector_Centrality
0,fernandocastor,48,7,55,6,0.01252,8,0.253469,37787.361925,0.751562
1,filipeximenes,40,32,72,0,0.014185,9,0.267709,40297.561868,1.0
2,simoneas02,37,26,63,9,0.011433,10,0.268627,40894.607104,0.211671
3,renatooliveira,35,28,63,0,0.01055,9,0.258613,26763.575801,0.994672
4,lailsonbm,29,1,30,0,0.013151,11,0.149686,1142.658235,0.838433


## COMUNIDADES

In [27]:
node_metrics.describe()

Unnamed: 0,In_Degree,Out_Degree,Degree,Modularity_Class,Page_Rank,Eccentricity_Centrality,Closness_Centrality,Betweeness_Centrality,EigenVector_Centrality
count,828.0,828.0,828.0,828.0,828.0,828.0,828.0,828.0,828.0
mean,2.793478,2.793478,5.586957,7.602657,0.001208,6.55314,0.256711,1419.676329,0.042428
std,4.567072,4.667115,8.360292,6.902523,0.001698,4.938395,0.295489,4458.272707,0.107496
min,0.0,0.0,1.0,-3.0,0.000329,0.0,0.0,0.0,0.0
25%,1.0,1.0,1.0,1.75,0.000444,1.0,0.127562,0.0,0.00129
50%,1.0,1.0,3.0,6.0,0.000682,9.0,0.191944,0.0,0.006063
75%,3.0,3.0,6.0,12.0,0.001235,11.0,0.224246,692.926692,0.029582
max,48.0,46.0,72.0,33.0,0.020541,14.0,1.0,40894.607104,1.0


**Legenda Modularity_Class**. Adotei:  
- \-2 para as "comunidades" de tamanho 2
- \-3 para as "comunidades" de tamanho 3


In [28]:
gh_users_repositories = pd.read_csv('../data/recife/users__repositories.csv')
temp_node_data = gh_users_Followers.merge(gh_users_repositories, left_on='User', right_on='User')

temp_node_data.head()

Unnamed: 0,User,Followers,nFs,All_Followers,nF,Repo_Member,mRepo_Language,Repo_Owner,oRepo_Language
0,fernandocastor,"filipeximenes,renatooliveira,henvic,guiocavalc...",48,"guiocavalcanti,adrianomelo,tacsio,x8lucas8x,fj...",129,"curso-scm/scm,rafaelbrandao/deadlock-exception...","None,TeX,Java,Haskell","fernandocastor/5linguagens,fernandocastor/aula...","TeX,TeX,Java,Python,HTML,Haskell,Objective-C,O..."
1,filipeximenes,"fernandocastor,renatooliveira,guilhermefarias,...",40,"luisgabriel,renatooliveira,marciobarbosa,anton...",177,"tapanpandita/pocket,vintasoftware/django-apps-...","Python,HTML","filipeximenes/agendacultural,filipeximenes/bat...","HTML,JavaScript,Matlab,Python,Python,Python,Py..."
2,simoneas02,"talitaoliveira,karlafalcao,WandersonAlves,iago...",37,"ElsonBarcelos,IsabelaDePaula,sergiockd,douglas...",250,"afonsopacifer/css-grid-layout-manual,CodeMigas...","None,None,JavaScript,Java,PHP","simoneas02/2017-goals,simoneas02/2018-goals,si...","None,None,None,None,Ruby,JavaScript,JavaScript..."
3,renatooliveira,"fernandocastor,filipeximenes,guiocavalcanti,jo...",35,"adrianomelo,x8lucas8x,luisgabriel,joselitojuni...",166,"alessandroHenrique/coinpricemonitor,filipecmed...","Python,Python,JavaScript,JavaScript,JavaScript...","renatooliveira/authomatic,renatooliveira/celer...","Python,HTML,Python,Python,Python,JavaScript,Py..."
4,lailsonbm,"filipeximenes,renatooliveira,guiocavalcanti,gi...",29,"kraudio,lucasmncastro,chillicoder,lmarinho,gvc...",73,"gvc/libertas,jeffp/enumerated_attribute,sergio...","Ruby,Ruby,CSS","lailsonbm/2d_semi_supervised,lailsonbm/ABNT2-L...","None,None,Ruby,Ruby,Ruby,Ruby,Matlab,Ruby,Java..."


In [29]:
node_data = temp_node_data.merge(node_metrics, left_on='User', right_on='User')
node_data.head()

Unnamed: 0,User,Followers,nFs,All_Followers,nF,Repo_Member,mRepo_Language,Repo_Owner,oRepo_Language,In_Degree,Out_Degree,Degree,Modularity_Class,Page_Rank,Eccentricity_Centrality,Closness_Centrality,Betweeness_Centrality,EigenVector_Centrality
0,fernandocastor,"filipeximenes,renatooliveira,henvic,guiocavalc...",48,"guiocavalcanti,adrianomelo,tacsio,x8lucas8x,fj...",129,"curso-scm/scm,rafaelbrandao/deadlock-exception...","None,TeX,Java,Haskell","fernandocastor/5linguagens,fernandocastor/aula...","TeX,TeX,Java,Python,HTML,Haskell,Objective-C,O...",48,7,55,6,0.01252,8,0.253469,37787.361925,0.751562
1,filipeximenes,"fernandocastor,renatooliveira,guilhermefarias,...",40,"luisgabriel,renatooliveira,marciobarbosa,anton...",177,"tapanpandita/pocket,vintasoftware/django-apps-...","Python,HTML","filipeximenes/agendacultural,filipeximenes/bat...","HTML,JavaScript,Matlab,Python,Python,Python,Py...",40,32,72,0,0.014185,9,0.267709,40297.561868,1.0
2,simoneas02,"talitaoliveira,karlafalcao,WandersonAlves,iago...",37,"ElsonBarcelos,IsabelaDePaula,sergiockd,douglas...",250,"afonsopacifer/css-grid-layout-manual,CodeMigas...","None,None,JavaScript,Java,PHP","simoneas02/2017-goals,simoneas02/2018-goals,si...","None,None,None,None,Ruby,JavaScript,JavaScript...",37,26,63,9,0.011433,10,0.268627,40894.607104,0.211671
3,renatooliveira,"fernandocastor,filipeximenes,guiocavalcanti,jo...",35,"adrianomelo,x8lucas8x,luisgabriel,joselitojuni...",166,"alessandroHenrique/coinpricemonitor,filipecmed...","Python,Python,JavaScript,JavaScript,JavaScript...","renatooliveira/authomatic,renatooliveira/celer...","Python,HTML,Python,Python,Python,JavaScript,Py...",35,28,63,0,0.01055,9,0.258613,26763.575801,0.994672
4,lailsonbm,"filipeximenes,renatooliveira,guiocavalcanti,gi...",29,"kraudio,lucasmncastro,chillicoder,lmarinho,gvc...",73,"gvc/libertas,jeffp/enumerated_attribute,sergio...","Ruby,Ruby,CSS","lailsonbm/2d_semi_supervised,lailsonbm/ABNT2-L...","None,None,Ruby,Ruby,Ruby,Ruby,Matlab,Ruby,Java...",29,1,30,0,0.013151,11,0.149686,1142.658235,0.838433


In [37]:
# node_data.to_csv('gephi/node_data.csv', index=False) # depois disso tratei algumas repeticoes in loco