# Encontro 13: Medidas de Centralidade

Importando a biblioteca:

In [1]:
import sys
sys.path.append('..')

from random import choice
from itertools import permutations

import pandas as pd
import networkx as nx

import socnet as sn

Configurando a biblioteca:

In [2]:
sn.node_size = 10
sn.node_color = (255, 255, 255)

sn.edge_width = 1
sn.edge_color = (192, 192, 192)

sn.node_label_position = 'top center'

Carregando rede de casamentos entre famílias de Florença durante a Renascença.

J. F. Padgett e C. K. Ansell. *Robust action and the rise of the Medici, 1400–1434.* American Journal of
Sociology 98, págs. 1259-1319, 1993.

In [3]:
g = sn.load_graph('Renaissance.gml', has_pos=True)

sn.show_graph(g, nlab=True)

Função que registra, em cada nó, seus sucessores em geodésicas de $s$ a $t$.

In [4]:
def set_geodesic_successors(g, s, t):
    for n in g.nodes:
        g.nodes[n]['geodesic_successors'] = set()

    for p in nx.all_shortest_paths(g, s, t):
        for i in range(len(p) - 1):
            g.nodes[p[i]]['geodesic_successors'].add(p[i + 1])

Funções que representam uma escolha aleatória de sucessor para diferentes tipos de trajetórias.

In [5]:
# Pense que o atributo 'passages' abaixo indica quantas
# vezes um fluxo já passou por um nó ou por uma aresta.

def random_geodesic_successor(g, n):
    return choice([m for m in g.nodes[n]['geodesic_successors']])

def random_path_successor(g, n):
    return choice([m for m in g.neighbors(n) if g.nodes[m]['passages'] == 0])

def random_trail_successor(g, n):
    return choice([m for m in g.neighbors(n) if g.edges[n, m]['passages'] == 0])

def random_walk_successor(g, n):
    return choice([m for m in g.neighbors(n)])

Função que faz uma simulação de fluxo de $s$ a $t$, que pode ou não ser bem-sucedida.

In [6]:
def simulate_single_flow(g, s, t, whichSuccessorGo, shouldKeep):
    # Inicializa o atributo 'passages' de cada nó.
    for n in g.nodes:
        g.nodes[n]['passages'] = 0
        
    g.nodes[s]['passages'] = 1

    # Inicializa o atributo 'passages' de cada aresta.
    for n, m in g.edges:
        g.edges[n, m]['passages'] = 0

    # Inicializa s como o único dono do insumo.
    for n in g.nodes:
        g.nodes[n]['owner'] = False
    g.nodes[s]['owner'] = True

    # Simula o fluxo, contando o número total de passos.

    steps = 0
    
    funcs = [random_geodesic_successor,random_path_successor,random_trail_successor, random_walk_successor ]

    while True:
        # O conjunto reached representa todos os nós
        # que o fluxo consegue alcançar no passo atual.
        reached = set()

        # Verifica cada um dos donos atuais do insumo.

        owners = [n for n in g.nodes if g.nodes[n]['owner']]

        for n in owners:
            # Deixa de ser dono do insumo.
            if(not shouldKeep):
                g.nodes[n]['owner'] = False

            # Escolhe aleatoriamente um dos sucessores.
            try:
                m = funcs[whichSuccessorGo-1](g, n)
            except:
                continue
                

            # Incrementa o atributo 'passages' do nó.
            g.nodes[m]['passages'] += 1

            # Incrementa o atributo 'passages' da aresta.
            g.edges[n, m]['passages'] += 1

            # Registra que consegue alcançar esse nó.
            reached.add(m)

        # Todo nó alcançado passa a ser dono do insumo.

        for n in reached:
            g.nodes[n]['owner'] = True

        # Isso conclui o passo atual da simulação.
        steps += 1

        # Se o passo alcançou t, chegamos ao fim da simulação.
        # Ela foi bem-sucedida: devolvemos o número de passos.
        if t in reached:
            return steps

        # Se o passo não alcançou ninguém, chegamos ao fim da
        # simulação. Ela não foi bem-sucedida: devolvemos -1.
        if not reached:
            return -1

Função que faz simulações de fluxo de $s$ a $t$ até uma ser bem-sucedida.

In [7]:
def simulate_successful_flow(g, s, t, whichSuccessorGo, shouldKeep):
    set_geodesic_successors(g, s, t)

    while True:
        steps = simulate_single_flow(g, s, t, whichSuccessorGo, shouldKeep)

        if steps != -1:
            return steps

Função que faz simulações de fluxo para todo $s$ e $t$ possíveis, e tira disso um *closeness simulado* e um *betweenness simulado*.

In [8]:
def simulate_all_flows(g,whichSuccessorGo, shouldKeep):
    for n in g.nodes:
        g.nodes[n]['closeness'] = 0
        g.nodes[n]['betweenness'] = 0

    for s, t in permutations(g.nodes, 2):
        steps = simulate_successful_flow(g, s, t, whichSuccessorGo, shouldKeep)

        g.nodes[s]['closeness'] += steps
        for n in g.nodes:
            if n != s and n != t:
                g.nodes[n]['betweenness'] += g.nodes[n]['passages']

    # Normalizações necessárias para comparar com os
    # resultados analíticos. Não é preciso entender.
    for n in g.nodes:
        g.nodes[n]['closeness'] = (g.number_of_nodes() - 1) / g.nodes[n]['closeness']
        g.nodes[n]['betweenness'] /= (g.number_of_nodes() - 1) * (g.number_of_nodes() - 2)

Cálculo de *closeness* e *betweenness* a partir das funções prontas da NetworkX, para comparação.

In [9]:
cc = nx.closeness_centrality(g)

bc = nx.betweenness_centrality(g)

E agora, vamos pensar um pouco...

* Onde você precisa mudar o código para usar uma *trajetória* que não seja a *geodésica*? (caminho, trilha, passeio)

* Onde você precisa mudar o código para usar uma *difusão* que não seja a *transferência*? (duplicação)

Considere então a seguinte **hipótese**:

>Quando consideramos outros tipos de trajetória e outros tipos de difusão, os nós com maior *closeness simulado* e *betweenness simulado* não são necessariamente os nós com maior *closeness* e *betweenness* segundo as fórmulas clássicas. (que correspondem ao uso de geodésica e transferência na simulação)

Queremos:

1. Operacionalização e teste dessas hipótese. (Objetivo 3)
2. Interpretação dos resultados na linguagem de Análise de Redes Sociais (Objetivo 4)

Um *feedback* da atividade sobre *coreness no Jazz* será dado em breve, para vocês terem uma melhor referência do item 2.

In [10]:
def simulate(g,whichFunc, shouldKeep, TIMES):
    
    bt = []
    cl = []


    for n in g.nodes:
        g.nodes[n]['mean_closeness'] = 0
        g.nodes[n]['mean_betweenness'] = 0

    for _ in range(TIMES):
        simulate_all_flows(g, whichFunc, shouldKeep)

        for n in g.nodes:
            
            bt.append(g.nodes[n]['betweenness'])
            cl.append(g.nodes[n]['closeness'])
            
            g.nodes[n]['mean_closeness'] += g.nodes[n]['closeness']
            g.nodes[n]['mean_betweenness'] += g.nodes[n]['betweenness']

    for n in g.nodes:
        g.nodes[n]['mean_closeness'] /= TIMES
        g.nodes[n]['mean_betweenness'] /= TIMES

    return pd.DataFrame({
        'família': [g.nodes[n]['label'] for n in g.nodes],
        'closeness simulado': [g.nodes[n]['mean_closeness'] for n in g.nodes],
        'closeness analítico': [cc[n] for n in g.nodes],
        'betweenness simulado': [g.nodes[n]['mean_betweenness'] for n in g.nodes],
        'betweenness analítico': [bc[n] for n in g.nodes],
    })
    

In [11]:
a = simulate(g,1, True, 100)
a

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.0,0.333333,0.333333,ginori
1,0.0,0.0,0.325581,0.325581,lambertes
2,0.212454,0.570385,0.482759,0.482759,albizzi
3,0.260073,0.688132,0.466667,0.466667,guadagni
4,0.0,0.0,0.285714,0.285714,pazzi
5,0.142857,0.406593,0.388889,0.388889,salviati
6,0.521978,1.390824,0.56,0.56,medici
7,0.091575,0.246374,0.482759,0.482759,tornabuon
8,0.120879,0.311978,0.4,0.4,bischeri
9,0.086081,0.251538,0.482759,0.482759,ridolfi


In [12]:
b = simulate(g,1, False, 100)
b

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.0,0.333333,0.333333,ginori
1,0.0,0.0,0.325581,0.325581,lambertes
2,0.212454,0.209286,0.482759,0.482759,albizzi
3,0.260073,0.254231,0.466667,0.466667,guadagni
4,0.0,0.0,0.285714,0.285714,pazzi
5,0.142857,0.142857,0.388889,0.388889,salviati
6,0.521978,0.523242,0.56,0.56,medici
7,0.091575,0.09011,0.482759,0.482759,tornabuon
8,0.120879,0.120989,0.4,0.4,bischeri
9,0.086081,0.091703,0.482759,0.482759,ridolfi


In [13]:
c = simulate(g,2, True, 100)
c

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.393956,0.333333,0.230717,ginori
1,0.0,0.402857,0.325581,0.23236,lambertes
2,0.212454,0.616648,0.482759,0.260352,albizzi
3,0.260073,0.742198,0.466667,0.261725,guadagni
4,0.0,0.262747,0.285714,0.204169,pazzi
5,0.142857,0.437692,0.388889,0.223677,salviati
6,0.521978,0.823462,0.56,0.260408,medici
7,0.091575,0.682582,0.482759,0.275649,tornabuon
8,0.120879,0.650769,0.4,0.264431,bischeri
9,0.086081,0.701868,0.482759,0.277214,ridolfi


In [14]:
d = simulate(g,2, False, 100)
d

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.0,0.333333,0.206473,ginori
1,0.0,0.0,0.325581,0.213169,lambertes
2,0.212454,0.230824,0.482759,0.261651,albizzi
3,0.260073,0.407527,0.466667,0.272935,guadagni
4,0.0,0.0,0.285714,0.20032,pazzi
5,0.142857,0.142857,0.388889,0.24508,salviati
6,0.521978,0.626044,0.56,0.300209,medici
7,0.091575,0.336319,0.482759,0.253408,tornabuon
8,0.120879,0.366813,0.4,0.252371,bischeri
9,0.086081,0.365604,0.482759,0.25526,ridolfi


In [15]:
e = simulate(g,3, True, 100)
e

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.367198,0.333333,0.22333,ginori
1,0.0,0.397418,0.325581,0.225785,lambertes
2,0.212454,0.681593,0.482759,0.247924,albizzi
3,0.260073,0.902253,0.466667,0.253937,guadagni
4,0.0,0.264451,0.285714,0.19937,pazzi
5,0.142857,0.42511,0.388889,0.221259,salviati
6,0.521978,1.253022,0.56,0.252287,medici
7,0.091575,0.92489,0.482759,0.267403,tornabuon
8,0.120879,0.785385,0.4,0.254421,bischeri
9,0.086081,0.929505,0.482759,0.261299,ridolfi


In [16]:
f = simulate(g,3, False, 100)
f

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.0,0.333333,0.217085,ginori
1,0.0,0.0,0.325581,0.207886,lambertes
2,0.212454,0.261538,0.482759,0.269548,albizzi
3,0.260073,0.407418,0.466667,0.263999,guadagni
4,0.0,0.0,0.285714,0.200422,pazzi
5,0.142857,0.142857,0.388889,0.244411,salviati
6,0.521978,0.699341,0.56,0.276922,medici
7,0.091575,0.321319,0.482759,0.253043,tornabuon
8,0.120879,0.34467,0.4,0.235004,bischeri
9,0.086081,0.329505,0.482759,0.242994,ridolfi


In [17]:
h = simulate(g,4, True, 100)
h

Unnamed: 0,betweenness analítico,betweenness simulado,closeness analítico,closeness simulado,família
0,0.0,0.804066,0.333333,0.146411,ginori
1,0.0,0.688022,0.325581,0.144658,lambertes
2,0.212454,3.013022,0.482759,0.160735,albizzi
3,0.260073,4.436484,0.466667,0.162046,guadagni
4,0.0,0.770604,0.285714,0.128214,pazzi
5,0.142857,1.812747,0.388889,0.141634,salviati
6,0.521978,6.91,0.56,0.176479,medici
7,0.091575,2.402363,0.482759,0.178015,tornabuon
8,0.120879,2.742418,0.4,0.158434,bischeri
9,0.086081,2.499121,0.482759,0.167528,ridolfi


In [1]:
t = simulate(g,4, False, 100)
t

NameError: name 'simulate' is not defined

# Análisando se os valores encontrados podem ser usados para estudo, afinal,  foram gerados a partir de uma média de 100 vezes, vai que representa algo aleatório 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy.stats as stats
import math

In [None]:
#@todo
def betweenness_tests(df):
    print()

## Analise de erro entre Simulações e Analíticas

In [None]:
def getErrors(df):
    result_b = np.abs(df["betweenness analítico"] - df["betweenness simulado"])
    result_b = np.mean(result_b)
    result_c =  np.abs(df["closeness analítico"] - df["closeness simulado"])
    result_c =  np.mean(result_c)
    print("Média de erro entre simulado e analítico (betweenness: {0})".format(result_b))
    print("Média de erro entre simulado e analítico (closeness: {0})".format(result_c))
    print("\n")
    return result_b,result_c

In [None]:
getErrors(a)
getErrors(b)
getErrors(c)
getErrors(d)
getErrors(e)
getErrors(f)
getErrors(h)
getErrors(t)

## Análise de intensidade de importância para diferentes funções (betweenness)

In [None]:
print('Geodésicas clonando: ')
print(np.mean(a["betweenness simulado"]))
print('Geodésicas transferindo: ')
print(np.mean(b["betweenness simulado"]))
print("\n")

print('Caminho clonando: ')
print(np.mean(c["betweenness simulado"]))
print('Caminho transferindo: ')
print(np.mean(d["betweenness simulado"]))
print("\n")

print('Trilha clonando: ')
print(np.mean(e["betweenness simulado"]))
print('Trilha transferindo: ')
print(np.mean(f["betweenness simulado"]))
print("\n")

print('Passeio clonando: ')
print(np.mean(h["betweenness simulado"]))
print('Passeio transferindo: ')
print(np.mean(t["betweenness simulado"]))
print("\n")

## Análise de ordem importância para diferentes funções

Por enquanto analisando esses resultados percebe-se que manter o pacote influenciou mais na disparidade dos resultados em relação ao betweness do que ao closeness. Vamos analisar agora se a sequência de "importância" mantêm-se.

In [None]:
def generateAnalisys(a):

    listaBA = a["betweenness analítico"]
    sortedListBA = []
    for i in range(0,len(listaBA)):
        sortedListBA.append((i,listaBA[i]))

    sortedListBA = sorted(sortedListBA, key=lambda x: x[1], reverse=True)
    #print(sortedListBA)
    
    listaBS = a["betweenness simulado"]

    sortedListBS = []
    for i in range(0,len(listaBS)):
        sortedListBS.append((i,listaBS[i]))

    sortedListBS = sorted(sortedListBS, key=lambda x: x[1], reverse=True)
    #print(sortedListBS)

    listaCA = a["closeness analítico"]
    sortedListCA = []
    for i in range(0,len(listaCA)):
        sortedListCA.append((i,listaCA[i]))

    sortedListCA = sorted(sortedListCA, key=lambda x: x[1], reverse=True)
    #print(sortedListCA)

    listaCS = a["closeness simulado"]
    sortedListCS = []
    for i in range(0,len(listaCS)):
        sortedListCS.append((i,listaCS[i]))

    sortedListCS = sorted(sortedListCS, key=lambda x: x[1], reverse=True)
    #print(sortedListCS)
    
    return(sortedListBA, sortedListBS, sortedListCA, sortedListCS)

In [None]:
BAa, BSa, CAa, CSa = generateAnalisys(a)
print("Betweenness Analítico")
print(BAa)
print("\n")
print("Betweenness Simulado")
print(BSa)
print("\n")
print("Closeness Analítico")
print(CAa)
print("\n")
print("Closeness Simulado")
print(CSa)


In [None]:
BAb, BSb, CAb, CSb = generateAnalisys(b)
print("Betweenness Analítico")
print(BAb)
print("\n")
print("Betweenness Simulado")
print(BSb)
print("\n")
print("Closeness Analítico")
print(CAb)
print("\n")
print("Closeness Simulado")
print(CSb)

In [None]:
BAc, BSc, CAc, CSc = generateAnalisys(c)
print("Betweenness Analítico")
print(BAc)
print("\n")
print("Betweenness Simulado")
print(BSc)
print("\n")
print("Closeness Analítico")
print(CAc)
print("\n")
print("Closeness Simulado")
print(CSc)

In [None]:
BAd, BSd, CAd, CSd = generateAnalisys(d)
print("Betweenness Analítico")
print(BAd)
print("\n")
print("Betweenness Simulado")
print(BSd)
print("\n")
print("Closeness Analítico")
print(CAd)
print("\n")
print("Closeness Simulado")
print(CSd)

In [None]:
BAe, BSe, CAe, CSe = generateAnalisys(e)
print("Betweenness Analítico")
print(BAe)
print("\n")
print("Betweenness Simulado")
print(BSe)
print("\n")
print("Closeness Analítico")
print(CAe)
print("\n")
print("Closeness Simulado")
print(CSe)

In [None]:
BAf, BSf, CAf, CSf = generateAnalisys(f)
print("Betweenness Analítico")
print(BAf)
print("\n")
print("Betweenness Simulado")
print(BSf)
print("\n")
print("Closeness Analítico")
print(CAf)
print("\n")
print("Closeness Simulado")
print(CSf)

In [None]:
BAh, BSh, CAh, CSh = generateAnalisys(h)
print("Betweenness Analítico")
print(BAh)
print("\n")
print("Betweenness Simulado")
print(BSh)
print("\n")
print("Closeness Analítico")
print(CAh)
print("\n")
print("Closeness Simulado")
print(CSh)

In [None]:
BAt, BSt, CAt, CSt = generateAnalisys(t)
print("Betweenness Analítico")
print(BAt)
print("\n")
print("Betweenness Simulado")
print(BSt)
print("\n")
print("Closeness Analítico")
print(CAt)
print("\n")
print("Closeness Simulado")
print(CSt)

Vamos dar uma verificada no comportamento desses testes para diferentes posições, analisando as extremidades, quando se tratando de betweenness.

In [None]:
allListsB = [BSa, BSb,  BSc, BSd, BSe, BSf,  BSh,  BSt]

In [None]:
for i in allListsB:
    print('Primeiro elemento é o nó: {0}'.format(i[0][0]))
    print('Segundo elemento é o nó: {0}'.format(i[1][0]))
    print('Penultimo elemento é o nó: {0}'.format(i[len(i)-2][0]))
    print('Ultimo elemento é o nó: {0}'.format(i[len(i)-1][0]))
    print('\n')

In [None]:
allListsC = [CSa, CSb,  CSc, CSd, CSe, CSf,  CSh,  CSt]

In [None]:
for i in allListsC:
    print('Primeiro elemento é o nó: {0}'.format(i[0][0]))
    print('Segundo elemento é o nó: {0}'.format(i[1][0]))
    print('Penultimo elemento é o nó: {0}'.format(i[len(i)-2][0]))
    print('Ultimo elemento é o nó: {0}'.format(i[len(i)-1][0]))
    print('\n')

As divergências entre posições de importâncias das familias do período renascentista tende a ser mais estável trocando o algoritmo de locomoção de algo de um nó ao outro quando o indicador que determina a importância é o betweenness, as variações acontecem de forma mais aguda quando o fator determinante é o closeness.