<h1 style='font-size:40px'>Influence Measures and Network Centralization </h1>

<h2 style= 'font-size:30px'> Degree and Closeness Centrality</h2>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como medir o grau de importância de um nó? Tudo depende do contexto em que nossa pesquisa está inserida. Por isso, estudaremos diversas métricas sobre importância de pontos nos próximos vídeos.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Degree Centrality</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Sua suposição é a de que nós importantes estão ligados a vários pontos.
        </li>
        <li> 
            Para redes bidirecionais, sua fórmula é $C=\frac{d}{N-1}$ em que d é o degree do nó e N, a quantidade total de nós na rede.
        </li>
    </ul>
</div>

In [5]:
import networkx as nx

# Medindo a Degree Centrality pertencente a um nó aleatório do clube de karatê.
G = nx.karate_club_graph()
G = nx.convert_node_labels_to_integers(G, first_label=1)

# Veja que o NetworkX mede todas as DC's dos nós e as armazena em um dicionário.
nx.degree_centrality(G)[34]

0.5151515151515151

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Quando tratamos de redes unidirecionais, podemos medir tanto com o in-degree, quanto com o out-degree (quantidade de conexões recebidas ou feitas pelo nó).
        </li>
    </ul>
</div>

In [11]:
# Criando uma rede unidirecional.
G = nx.DiGraph()
G.add_edges_from([('A', 'B'), ('B', 'D'), ('D', 'A'), ('D', 'B'), ('D', 'E'), ('B', 'E'), ('E', 'B'), ('F', 'A')])

# Qual é a In-degree Centrality do nó 'A'?
print(nx.in_degree_centrality(G)['A'])

# Qual é a Out-degree Centrality de 'A'?
nx.out_degree_centrality(G)['A']

0.5


0.25

<h3 style='font-size:30px;font-style:italic'> Closeness Centrality</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Sua suposição é a de que nós importantes estão mais próximos de todos os outros nós.
        </li>
        <li> 
            Essa métrica é calculada com a fórmula $C=\frac{N-1}{\sum{d(v,u)}}$, em que d(v,u) é a distância do nó v a cada um dos outros pontos.
        </li>
    </ul>
</div>

In [12]:
G = nx.karate_club_graph()
G = nx.convert_node_labels_to_integers(G, first_label=1)

# Qual a Closeness do nó 34 do Clube de Karatê?
nx.closeness_centrality(G)[34]

0.55

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Disconnected Graphs</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Para redes em que os nós podem não se conectar totalmente (como é o caso das unidirecionais), a fórmula passa a ser $C=\frac{|R(L)|}{|N-1|}\frac{|R(L)|}{|\sum{d(L,u)}|}$, em que R(L) é o conjunto de nós alcançáveis para o ponto L.
        </li>
    </ul>
</div>

In [20]:
G = nx.DiGraph()
G.add_edges_from([('A', 'B'), ('B', 'D'), ('D', 'A'), ('D', 'B'), ('D', 'E'), ('B', 'E'), ('E', 'B'), ('F', 'A')])

# Quando souber que a rede não é totalmente ligada, normalize a Closeness Centrality.
# No NetworkX do curso, o argumento é 'normalized', mas aqui ele se chama 'wf_improved'.
nx.closeness_centrality(G, wf_improved=True)

{'A': 0.5714285714285714,
 'B': 0.8,
 'D': 0.5,
 'E': 0.5714285714285714,
 'F': 0.0}

In [27]:
G = nx.DiGraph()
G.add_edges_from([('A', 'B'), ('B', 'C'), ('C', 'D')])
nx.closeness_centrality(G, wf_improved=True)

{'A': 0.0, 'B': 0.3333333333333333, 'C': 0.4444444444444444, 'D': 0.5}

<div> 
    <hr>
    <h2 style='font-size:30px'> Betweenness Centrality</h2>
</div>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Betweenness é uma métrica cuja suposição estipula que nós importantes conectam outros nós.
        </li>
        <li> 
            Para um nó v, sua Betweenness é $C{btw}=\sum{\frac{\sigma{s,t}(v)}{\sigma{s,t}}}$, em que $\sigma{s,t}$ é o número de shortest paths entre cada par de nós da rede (s,t) e $\sigma{s,t}(v)$ é a quantidade desses paths que passam por v.
        </li>
        <li> 
            Um dos dilemas desse cálculo é se devemos ou não considerar os paths que se originam com o próprio nó v.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Betweenness Centrality Normalizada</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O problema da fórmula mostrada é que ela providencia Betweennesses maiores para redes grandes e menores para aquelas com menos nós. Para consertarmos isso, podemos dividir as pontuações obtidas por $\frac{1}{2}(|N|-1)(|N|-2)$ para gráficos bidirecionais e $(|N|-1)(|N|-2)$ para os unidirecionais, em que N é a quantidade de pontos na rede.
        </li>
    </ul>
</div>

In [52]:
G = nx.Graph()
G.add_edges_from([('A', 'B'), ('B', 'C'), ('A', 'C'), ('C', 'D'), ('D', 'E'), ('E', 'F'), ('E', 'G'), ('F', 'G')])

# Medindo as Betweennesses da sociedade. Use 'normalized' para normalizar o cálculo e 'endpoints' para considerar os paths
# que se originam no ponto sob análise.
nx.betweenness_centrality(G, normalized=True, endpoints=False)

{'A': 0.0,
 'B': 0.0,
 'C': 0.5333333333333333,
 'D': 0.6,
 'E': 0.5333333333333333,
 'F': 0.0,
 'G': 0.0}

<h3 style='font-size:30px;font-style:italic'> Betweenness Centrality - Approximation</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O cálculo de Betweenness Centrality pode se tornar custoso ao computador em redes enormes. Para isso, é possível medir essa métrica com uma sub-amostra de k instâncias para cada nó.
        </li>
    </ul>
</div>

In [36]:
from operator import itemgetter
G = nx.karate_club_graph()
nx.convert_node_labels_to_integers(G, first_label=1)

# Use o 'itemgetter' do módulo 'operator' para resgatar os n itens mais altos dos valores de um dicionário.
sorted(nx.betweenness_centrality(G, k=10, normalized=True, endpoints=False).items(), key=itemgetter(1), reverse=True)[:5]

[(33, 0.41234607984607985),
 (0, 0.3997560425685425),
 (32, 0.16837481962481962),
 (2, 0.1342358104858105),
 (31, 0.10017857142857141)]

<h3 style='font-size:30px;font-style:italic'> Betweenness Centrality - Subsets</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Também somos capazes de medir a Betweenness de um nó com base em um subconjunto de nós fonte e alvo.
        </li>
    </ul>
</div>

In [43]:
sorted(nx.betweenness_centrality_subset(G, [1,3,32, 20], [21, 28, 7, 9], normalized=True).items(), key=itemgetter(1), reverse=True)[:5]

[(2, 0.0070075757575757585),
 (33, 0.0032354797979797984),
 (0, 0.0015940656565656566),
 (32, 0.001341540404040404),
 (1, 0.0012468434343434343)]

<h3 style='font-size:30px;font-style:italic'> Betweenness Centrality - Edges</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Os Edges podem ter a sua Betweenness medida.
        </li>
    </ul>
</div>

In [50]:
# Betweenness de maneira geral.
print(sorted(nx.edge_betweenness_centrality(G, k=12).items(), key=itemgetter(1), reverse=True)[:5], end='\n\n')

# Betweenness com base em um subconjunto.
print(sorted(nx.edge_betweenness_centrality_subset(G, [1,5,20,23], [12, 16, 17, 29], normalized=True).items(), key=itemgetter(1),
            reverse=True)[:5])

[((0, 5), 0.051099227569815796), ((0, 31), 0.04186189627366098), ((0, 11), 0.0392156862745098), ((19, 33), 0.0373956653368418), ((26, 33), 0.035612426788897374)]

[((0, 5), 0.004010695187165775), ((0, 12), 0.0026985541691424042), ((5, 16), 0.002228163992869875), ((20, 33), 0.0020393889879183995), ((0, 17), 0.0019459298871063579)]


<div> 
    <hr>
    <h2 style='font-size:30px'> Basic Page Rank</h2>
</div>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Basic Page Rank é um sistema que mede a importância dos nós criado pelos fundadores do Google. É recomendável usar essa metodologia em redes unidirecionais.
        </li>
        <li> 
            Cada ponto é inicializado com um Page Rank de $\frac{1}{N}$, em que N é a quantidade de pontos na rede. Após isso, as importâncias são atualizadas iterativamente, com o Page Rank de um nó se igualando à soma das importâncias dos pontos que se ligam a ele divididas pelo número de pontos com os quais esses mesmos também se conectam.
        </li>
        <li> 
            Buscando melhor ilustrar esse raciocínio, segue a imagem abaixo:
        </li>
    </ul>
</div>
<center> 
    <h1> Cálculo de Page Rank após uma iteração</h1>
    <img src='pagerank1.png'>
</center>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            O ponto D recebe conexão apenas do B, cuja importância inicial é $\frac{1}{5}$. Como B se liga também a outro nó (fazendo, portanto, duas ligações) , o novo Page Rank de D será $\frac{1}{2}\times \frac{1}{5}=\frac{1}{10}$.
        </li>
        <li> 
            Quando $k \to \infty$, os Page Ranks tendem a convergir a um valor único. Esse funcionamento lembra um pouco à clusterização do K-Means.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> O Significado do Page Rank</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O que a estatística Page Rank quer evidenciar é a probabilidade, para um nó n, de um caminhante após k passos aterrissar em n, tendo iniciado o seu trajeto em um nó aleatório.
        </li>
    </ul>
</div>

<div> 
    <hr>
    <h2 style='font-size:30px'> Scaled Page Rank</h2>
</div>

<h3 style='font-size:30px;font-style:italic'> Page Rank Problem</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A metodologia do Page Rank apresentada na aula passada é limitada. Por exemplo, um conjunto de nós que apenas se ligam entre si acabará monopolizando o grau de importância da rede. Segue um exemplo abaixo:
        </li>
    </ul>
</div>
<center> 
    <img src='pagerank2.png'>
</center>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Observe: os nós F e G acabarão ficando com Page Ranks de 0.5, enquanto o restante com 0 após infinitas iterações.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Solução com a probabilidade $\alpha$</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A fim de evitar esse resultado extremado, utilizamos uma probabilidade $\alpha$, responsável por indicar que, à cada passo do caminhante pela rede, haverá $\alpha$ de chance de ele escolher um nó vizinho devidamente ligado ao seu atual e $1-\alpha$ de ele simplesmente escolher qualquer outro ponto da rede aleatoriamente.
        </li>
    </ul>
</div>

In [8]:
# Montando uma rede unidirecional no NetworkX.
import networkx as nx
G = nx.DiGraph()
# Aqui, os nós F e G apenas se ligam entre si.
G.add_edges_from([('A', 'B'), ('B', 'C'), ('B', 'D'), ('A', 'E'), ('C', 'A'), ('D', 'E'), ('E', 'B'),
                 ('E', 'F'), ('F', 'G'), ('G','F')])

# Medindo o Page Rank com 'pagerank'.
nx.pagerank(G, alpha=0.8, max_iter=1000)

{'A': 0.08742994144514556,
 'B': 0.11250420121916287,
 'C': 0.07357312225100279,
 'D': 0.07357312225100279,
 'E': 0.122401927882733,
 'F': 0.2788605571521379,
 'G': 0.25165712779881516}

<div> 
    <hr>
    <h2 style='font-size:30px'> Hubs and Authorities</h2>
</div>

<h3 style='font-size:30px;font-style:italic'> HITS Algorithm</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O HITS algorithm busca impor uma hierarquia entre os nós com a seguinte lógica: aqueles que são alvos de conexão para muitos pontos tendem a ser considerados nós de autoridade, já os que fazem muitas ligações sem serem alvos de outras ligações são nomeados como nós hubs. Isso lembra à clusterização do DBSCAN.
        </li>
    </ul>
</div>
<center> 
    <img src='hits1.png'>
</center>

<h3 style='font-size:30px;font-style:italic'> HITS Algorithm</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Todos os nós são inicializados com os mesmos Authority e Hub scores. À cada iteração, o novo Authority score do nó é a soma dos Hub scores dos pontos que se conectam a ele; já o Hub score será a soma dos Authority scores dos pontos com os quais ele se conecta.
        </li>
    </ul>
</div>
<center> 
    <img src='hits2.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            No final, as novas pontuações são normalizadas, dividindo-as pela soma total dos Authorities e Hub scores da rede.
        </li>
    </ul>
</div>

In [15]:
G = nx.DiGraph()
# Montando uma pequena rede
G.add_edges_from([('A', 'B'), ('A', 'C'), ('B', 'E'), ('B', 'A'), ('E', 'D'), ('D', 'A'), ('F', 'G'), ('F', 'A')])

# Medindo os Authority e Hub scores da rede.
nx.hits(G)

  A = nx.adjacency_matrix(G, nodelist=list(G), dtype=float)


({'A': 3.4679260649421526e-17,
  'B': 0.3660254037844386,
  'C': -0.0,
  'E': 2.1674537905888454e-18,
  'D': 0.2679491924311227,
  'F': 0.3660254037844386,
  'G': -0.0},
 {'A': 0.5773502691896257,
  'B': 3.736171079595148e-17,
  'C': 3.736171079595148e-17,
  'E': 0.21132486540518708,
  'D': 4.670213849493935e-18,
  'F': -0.0,
  'G': 0.2113248654051871})

<div> 
    <hr>
    <h2 style='font-size:30px'> Quiz</h2>
</div>

In [17]:
# Ex 1.
G = nx.Graph()
G.add_edges_from([('A', 'B'), ('A','C'), ('B', 'D'), ('C', 'D'), ('C', 'E'), ('D', 'E'), ('D', 'G'), ('E', 'G'), ('G', 'F')])

nx.degree_centrality(G)['D']

0.6666666666666666

In [18]:
# Ex 2.
nx.closeness_centrality(G)['G']

0.6

In [19]:
# Ex. 3
nx.betweenness_centrality(G)['G']

0.3333333333333333

In [22]:
# Ex. 4
nx.edge_betweenness_centrality(G, normalized=False)[('G', 'F')]

6.0

In [26]:
# Ex. 7
import numpy as np
G = nx.DiGraph()
G.add_edges_from([('A', 'B'), ('B', 'A'), ('A', 'C'), ('C', 'D'), ('D', 'C')])

alphas = [.5, .8, .9, .95]
pr = np.array([nx.pagerank(G, alpha=alpha)['D'] for alpha in alphas])

# .95
alphas[np.argmax(pr)]

0.95

In [38]:
# Ex. 8
G = nx.DiGraph()
G.add_edges_from([('A', 'B'), ('A', 'C'), ('B', 'C'), ('C', 'A'), ('D', 'C')])

1/4 + (1/2 * 1/4) + 1/4

0.625

In [60]:
# Ex. 9
#round(nx.hits(G, max_iter=2, nstart={'A':1., 'B':1., 'C':1., 'D':1.})[0]['C'],4)
nx.hits(G, max_iter=2)

({'A': 0.414213562373095,
  'B': 0.2928932188134525,
  'C': -7.039376538613738e-17,
  'D': 0.2928932188134525},
 {'A': -1.699455831017226e-16,
  'B': 0.29289321881345254,
  'C': 0.7071067811865476,
  'D': 0.0})

In [61]:
# Ex. 10
nx.hits(G, max_iter=2, tol=.1)#, 
nx.pagerank(G, max_iter=4, tol=1)

{'A': 0.25, 'B': 0.14375, 'C': 0.56875, 'D': 0.037500000000000006}

In [9]:
! mv /Users/felipeveiga/Desktop/Screen\ Shot\ 2022-08-05\ at\ 13.41.40.png ./hits2.png

<p style='color:red'> Hubs and Authorities (2:10)