# Encontro 13: Medidas de Centralidade

Importando a biblioteca:

In [1]:
import sys
sys.path.append('..')

from random import choice
from itertools import permutations

import pandas as pd
import networkx as nx

import socnet as sn

Configurando a biblioteca:

In [2]:
sn.node_size = 10
sn.node_color = (255, 255, 255)

sn.edge_width = 1
sn.edge_color = (192, 192, 192)

sn.node_label_position = 'top center'

Carregando rede de casamentos entre famílias de Florença durante a Renascença.

J. F. Padgett e C. K. Ansell. *Robust action and the rise of the Medici, 1400–1434.* American Journal of
Sociology 98, págs. 1259-1319, 1993.

In [3]:
g = sn.load_graph('Renaissance.gml', has_pos=True)

sn.show_graph(g, nlab=True)

Função que registra, em cada nó, seus sucessores em geodésicas de $s$ a $t$.

In [4]:
def set_geodesic_successors(g, s, t):
    for n in g.nodes:
        g.nodes[n]['geodesic_successors'] = set()

    for p in nx.all_shortest_paths(g, s, t):
        for i in range(len(p) - 1):
            g.nodes[p[i]]['geodesic_successors'].add(p[i + 1])

Funções que representam uma escolha aleatória de sucessor para diferentes tipos de trajetórias.

In [5]:
# Pense que o atributo 'passages' abaixo indica quantas
# vezes um fluxo já passou por um nó ou por uma aresta.

def random_geodesic_successor(g, n):
    return choice([m for m in g.nodes[n]['geodesic_successors']])

def random_path_successor(g, n):
    return choice([m for m in g.neighbors(n) if g.nodes[m]['passages'] == 0])

def random_trail_successor(g, n):
    return choice([m for m in g.neighbors(n) if g.edges[n, m]['passages'] == 0])

def random_walk_successor(g, n):
    return choice([m for m in g.neighbors(n)])

Função que faz uma simulação de fluxo de $s$ a $t$, que pode ou não ser bem-sucedida.

In [6]:
def simulate_single_flow(g, s, t, trajectory, difusion):
    # Inicializa o atributo 'passages' de cada nó.
    for n in g.nodes:
        g.nodes[n]['passages'] = 0
    g.nodes[s]['passages'] = 1

    # Inicializa o atributo 'passages' de cada aresta.
    for n, m in g.edges:
        g.edges[n, m]['passages'] = 0

    # Inicializa s como o único dono do insumo.
    for n in g.nodes:
        g.nodes[n]['owner'] = False
    g.nodes[s]['owner'] = True

    # Simula o fluxo, contando o número total de passos.

    steps = 0

    while True:
        # O conjunto reached representa todos os nós
        # que o fluxo consegue alcançar no passo atual.
        reached = set()

        # Verifica cada um dos donos atuais do insumo.

        owners = [n for n in g.nodes if g.nodes[n]['owner']]

        for n in owners:
            # Escolhe aleatoriamente um dos sucessores.
            try:
                #m = random_walk_successor(g, n)
                m = trajectory(g, n)
            except IndexError:
                continue

            # Deixa de ser dono do insumo.
            #g.nodes[n]['owner'] = True
            #if difusion == 'duplicacao':
                #g.nodes[n]['owner'] = True
            if difusion == 'transferencia':
                g.nodes[n]['owner'] = False
                #print('transferencia')

            # Incrementa o atributo 'passages' do nó.
            g.nodes[m]['passages'] += 1

            # Incrementa o atributo 'passages' da aresta.
            g.edges[n, m]['passages'] += 1

            # Registra que consegue alcançar esse nó.
            reached.add(m)

        # Todo nó alcançado passa a ser dono do insumo.
        for n in reached:
            g.nodes[n]['owner'] = True

        # Isso conclui o passo atual da simulação.
        steps += 1

        # Se o passo alcançou t, chegamos ao fim da simulação.
        # Ela foi bem-sucedida: devolvemos o número de passos.
        if t in reached:
            return steps

        # Se o passo não alcançou ninguém, chegamos ao fim da
        # simulação. Ela não foi bem-sucedida: devolvemos -1.
        if not reached:
            return -1

Função que faz simulações de fluxo de $s$ a $t$ até uma ser bem-sucedida.

In [7]:
def simulate_successful_flow(g, s, t, trajectory, difusion):
    set_geodesic_successors(g, s, t)

    while True:
        steps = simulate_single_flow(g, s, t, trajectory, difusion)

        if steps != -1:
            return steps

Função que faz simulações de fluxo para todo $s$ e $t$ possíveis, e tira disso um *closeness simulado* e um *betweenness simulado*.

In [8]:
def simulate_all_flows(g, trajectory, difusion):
    for n in g.nodes:
        g.nodes[n]['closeness'] = 0
        g.nodes[n]['betweenness'] = 0

    for s, t in permutations(g.nodes, 2):
        steps = simulate_successful_flow(g, s, t, trajectory, difusion)

        g.nodes[s]['closeness'] += steps
        for n in g.nodes:
            if n != s and n != t:
                g.nodes[n]['betweenness'] += g.nodes[n]['passages']

    # Normalizações necessárias para comparar com os
    # resultados analíticos. Não é preciso entender.
    for n in g.nodes:
        g.nodes[n]['closeness'] = (g.number_of_nodes() - 1) / g.nodes[n]['closeness']
        g.nodes[n]['betweenness'] /= (g.number_of_nodes() - 1) * (g.number_of_nodes() - 2)

Média de *closeness simulado* e *betweenness simulado* para muitas repetições da simulação acima.

In [19]:
from IPython.display import display
from scipy import stats

trajectories = [random_geodesic_successor, random_path_successor, random_trail_successor, random_walk_successor]

tracks = ['geodesic', 'path', 'trail', 'walk']
difusions = ['transferencia', 'duplicacao']

list_closeness_analitico = []
list_betweenness_analitico = []

for way in trajectories:
    w = 0
    for d in difusions:
        print('##########################################################################################################')
        print('  ')
        print(way)
        print(d)
        #nome_lista_closeness = 'list_closeness' + '_' + tracks[way] + '_' + difusions[d]
        #nome_lista_closeness = str(nome_lista_closeness)
        #nome_lista_betweenness = 'list_betweenness' + '_' + tracks[way] + '_' + difusions[d]
        #nome_lista_betweenness = str(nome_lista_betweenness)
        TIMES = 100

        for n in g.nodes:
            g.nodes[n]['list_closeness'] = 0
            g.nodes[n]['list_betweenness'] = 0

        for _ in range(TIMES):
            simulate_all_flows(g, way, d)

            for n in g.nodes:
                g.nodes[n]['list_closeness'] += g.nodes[n]['closeness']
                g.nodes[n]['list_betweenness'] += g.nodes[n]['betweenness']
        
        '''for n in g.nodes:
            g.nodes[n]['mean_closeness'] /= TIMES
            g.nodes[n]['mean_betweenness'] /= TIMES'''

        cc = nx.closeness_centrality(g)
        bc = nx.betweenness_centrality(g)
        
        list_closeness_simulado = []
        list_betweenness_simulado = []
        

            
        
        
        for n in g.nodes:
            list_closeness_simulado.append(g.nodes[n]['list_closeness'])
            list_betweenness_simulado.append(g.nodes[n]['list_betweenness'])
            if w == 0 and d == 'transferencia':
                list_closeness_analitico.append(g.nodes[n]['list_closeness'])
                list_betweenness_analitico.append(g.nodes[n]['list_betweenness'])

        t_test_res_closeness = stats.ttest_ind(list_closeness_simulado, list_closeness_analitico)
        t_test_res_betweenness = stats.ttest_ind(list_betweenness_simulado, list_betweenness_analitico)
        
        
        print('list_closeness_simulado: ')
        print(list_closeness_simulado)
        print('list_closeness_analitico: ')
        print(list_closeness_analitico)
        print('list_betweenness_simulado:')
        print(list_betweenness_simulado)
        print('list_betweenness_analitico: ')
        print(list_betweenness_analitico)
        '''
        for n in g.nodes:
            g.nodes[n]['list_closeness'] = stats.ttest_ind(cc[n],g.nodes[n]['mean_closeness'])
            print(g.nodes[n]['mean_closeness'])
            g.nodes[n]['list_betweenness'] = stats.ttest_ind(bc[n],g.nodes[n]['mean_betweenness'])
            print(g.nodes[n]['list_betweenness'])'''
        
        
        df = pd.DataFrame({
            'família': [g.nodes[n]['label'] for n in g.nodes],
            'closeness simulado': [g.nodes[n]['list_closeness'] for n in g.nodes],
            'closeness analítico': [cc[n] for n in g.nodes],
            'betweenness simulado': [g.nodes[n]['list_betweenness'] for n in g.nodes],
            'betweenness analítico': [bc[n] for n in g.nodes],
        })
        #display(df)

        print('closeness: ', t_test_res_closeness)
        print('betweenness: ', t_test_res_betweenness)
        print('  ')
    w+=1

##########################################################################################################
  
<function random_geodesic_successor at 0x0000020918069268>
transferencia
list_closeness_simulado: 
[33.33333333333329, 32.55813953488376, 48.2758620689656, 46.66666666666667, 28.571428571428545, 38.88888888888886, 56.00000000000007, 48.2758620689656, 39.99999999999992, 48.2758620689656, 36.842105263157926, 42.424242424242415, 35.000000000000064, 43.75, 38.88888888888886]
list_closeness_analitico: 
[33.33333333333329, 32.55813953488376, 48.2758620689656, 46.66666666666667, 28.571428571428545, 38.88888888888886, 56.00000000000007, 48.2758620689656, 39.99999999999992, 48.2758620689656, 36.842105263157926, 42.424242424242415, 35.000000000000064, 43.75, 38.88888888888886]
list_betweenness_simulado:
[0.0, 0.0, 21.192307692307672, 25.571428571428587, 0.0, 14.285714285714272, 52.30219780219784, 8.862637362637349, 11.961538461538437, 9.032967032967017, 0.0, 8.005494505494495, 2.03296703

list_betweenness_analitico: 
[0.0, 0.0, 21.192307692307672, 25.571428571428587, 0.0, 14.285714285714272, 52.30219780219784, 8.862637362637349, 11.961538461538437, 9.032967032967017, 0.0, 8.005494505494495, 2.0329670329670306, 11.55494505494503, 8.82417582417581, 0.0, 0.0, 22.99450549450548, 40.34065934065932, 0.0, 14.285714285714272, 62.85164835164837, 32.76373626373627, 36.54395604395601, 36.42307692307691, 0.0, 36.73076923076921, 25.082417582417595, 23.84615384615384, 38.115384615384606, 0.0, 0.0, 26.208791208791222, 40.615384615384585, 0.0, 14.285714285714272, 70.07692307692308, 31.626373626373617, 34.554945054945065, 33.5054945054945, 0.0, 33.09890109890111, 22.97802197802197, 26.39560439560441, 37.4230769230769]
closeness:  Ttest_indResult(statistic=-2.3890369087482863, pvalue=0.020165877892430427)
betweenness:  Ttest_indResult(statistic=0.796373599919474, pvalue=0.4290626274512551)
  
################################################################################################

Cálculo de *closeness* e *betweenness* a partir das funções prontas da NetworkX, para comparação.

In [None]:
cc = nx.closeness_centrality(g)

bc = nx.betweenness_centrality(g)

Construção de data frame só para comparar mais facilmente.

 # Closeness
Distancia entre um dado nó para os demais nós.
# Betweenness
Quantas Geodésicas passam por um nó.
# Central
Quem é mais central em um caso é mais central no outro.

In [11]:
pd.DataFrame({
    'família': [g.nodes[n]['label'] for n in g.nodes],
    'closeness simulado': [g.nodes[n]['mean_closeness'] for n in g.nodes],
    'closeness analítico': [cc[n] for n in g.nodes],
    'betweenness simulado': [g.nodes[n]['mean_betweenness'] for n in g.nodes],
    'betweenness analítico': [bc[n] for n in g.nodes],
})

Unnamed: 0,família,closeness simulado,closeness analítico,betweenness simulado,betweenness analítico
0,ginori,0.333333,0.333333,0.0,0.0
1,lambertes,0.325581,0.325581,0.0,0.0
2,albizzi,0.482759,0.482759,0.210055,0.212454
3,guadagni,0.466667,0.466667,0.256429,0.260073
4,pazzi,0.285714,0.285714,0.0,0.0
5,salviati,0.388889,0.388889,0.142857,0.142857
6,medici,0.56,0.56,0.521758,0.521978
7,tornabuon,0.482759,0.482759,0.09022,0.091575
8,bischeri,0.4,0.4,0.12,0.120879
9,ridolfi,0.482759,0.482759,0.090495,0.086081


E agora, vamos pensar um pouco...

* Onde você precisa mudar o código para usar uma *trajetória* que não seja a *geodésica*? (caminho, trilha, passeio)

* Onde você precisa mudar o código para usar uma *difusão* que não seja a *transferência*? (duplicação)

Considere então a seguinte **hipótese**:

>Quando consideramos outros tipos de trajetória e outros tipos de difusão, os nós com maior *closeness simulado* e *betweenness simulado* não são necessariamente os nós com maior *closeness* e *betweenness* segundo as fórmulas clássicas. (que correspondem ao uso de geodésica e transferência na simulação)

Queremos:

1. Operacionalização e teste dessas hipótese. (Objetivo 3)
2. Interpretação dos resultados na linguagem de Análise de Redes Sociais (Objetivo 4)

Um *feedback* da atividade sobre *coreness no Jazz* será dado em breve, para vocês terem uma melhor referência do item 2.

Para alterar o tipo de trajetória deve-se alterar a simulate_single_flow quando ela chama a função de escolha aleatória de tipo de trajetória:

    para geodésica: m = random_geodesic_successor(g, n)
    
    para caminho:   m = random_path_successor(g, n)
    
    para trilha:    m = random_trail_successor(g, n)
    
    para passeio:   m = random_walk_successor(g, n)
    

Para mudar o código para que ele configure a duplicação devemos alterar devemos fazer a seguinte alteração na simulate_single_flow:

    # Deixa de ser dono do insumo.
            g.nodes[n]['owner'] = True

Para a análise das amostras utilizou-se o Test-T,  que é um teste bilateral para a hipótese nula. Este teste é apropriado para o este estudo, pois ele vai permitir verificar o quão difere as amostras dos diferentes tipos de trajetoria e difusão em relação a fórmula clássica - geodésica e transferência.

Pode-se considerar que a hipótese nula consiste em dizer que ao alterar a trajetória e a difusão será verificado uma diferença significativa entre os nós com o maior closeness e betweennes em relação a fórmula clássica - geodésica e transferencia. 

De acordo, com a teoria estatística do Teste T quando o valor de p for inferior a 0.05 tem-se a rejeição da hipótese nula de amostras iguais. Isto significa que nos casos em que o valor de p for bem próximo de zero, a hipotese de que os nós com maiores closeness e betweennes não sejam necessariamente os mesmos das fórmulas clássicas é verdadeira. Em outras palavras, um valor de p baixo quer dizer que as amostras comparadas são diferentes, enquanto um valor de p alto quer dizer que as amostras comparadas são parecidas.

Ao aplicar-se o cálculo do modelo estatístico da t-student sobre as médias das famílias em trajetórias de geodésica, caminho, trilha, ou passeio com difusões tanto de duplicação quanto de transferência, verificou-se que a hipótese que queremos validar é verdadeira em quase todos os casos. Estes casos são:
        - geodésica e duplicação para betweenness;
        - caminho e transferência para closenness;
        - caminho e duplicação para closenness;
        - trilha e transferência para closenness;
        - trilha e duplicação para closenness;
        - passeio e transferência para closenness e betweenness;
        - passeio e duplicação para closenness e betweenness;

Os resultados corroboram a teoria das centralidades. Isto porque em teoria caminhos, trilhas e passeios de duplicação estão associados ao closeness, como foi observado na simulação acima. Enquanto, as geodésicas de transferência estão associadas ao betweenness e ao closeness.

Esses resultados também eram esperados. Isto porque a geodésica por ser o caminho mais curto entre dois nós pode eliminar uma série de nuances da rede que só ficam evidenciadas quando outros nós são incorporados para  a análise de closenness e betweenness. Ao aplicar a geodésica sobre uma rede perde-se toda a qualidade de informações que é tão interessante para a análise de closenness e betweenness. 

Por isso quando analisa-se centralidade para outras configurações de trajetória e difusão que não sejam geodésica e transferência, verifica-se nós que não tinham maior score de centralidade, fiquem evidenciados. Sendo que detalhes de rede até então desapercebidos sejam expostos para enriquecer a análise. 
