# Redes Complexas: medidas de centralidade


Redes são **heterogêneas**: a distribuição do número de conexões dessas redes seguem a Lei de Potência, ou _Lei de Pareto_ ( $P(k) \approx k^{-\gamma}$ ).
Escrevendo a distribuição em uma escala $log$ x $log$, $\gamma$ equivale à inclinação da reta.

* **Heterogêneas**:
    * Alguns nós são mais importantes do que outros.
    
**Questão:** Podemos medir a importância de cada nó a partir da estrutura da rede? Podemos quantificar o efeito da importância do nó em redes dinâmicas?


## Centralidade

### Grau de centralidade

* Trata-se do grau do vértice, ou seja, o número de conexões.

$$ k_i = \sum_j{a_{ij}} $$

* **Limitações:** o grau do vértice define uma centralidade **local**, mas não é o suficiente para garantir uma centralidade global. Um vértice com um um grau alto pode ser um **hub local**.
![hub_periferico-2.png](attachment:hub_periferico-2.png)

### k-core

* Um _k-core_ de um grafo $G$ é o máximo subgrafo conectado de $G$ no qual todos os vértices têm grau no mínimo $k$
* Desta forma, as redes podem ser vistas como compostas por camadas, que se referem aos vértices de grau $1$ até $k$.
* O processo consiste em remover todos os nós que possuem graus $1$ até $k-1$. 
    * _Atenção_: o processo deve ser repetido enquanto houverem vértices de grau $n$. Após a remoção de todos os vértices de grau $n$, é possível que novos vértices de grau $n$ surjam, que também devem ser removidos no processo.
    
* **Limitação**: se calcularmos os $k-cores$ da rede inteira, veremos que muitos vértices possuem mesma medida, ou muito similares. Portanto, não dá para diferenciar muito os vértices utilizando apenas esta medida.
    
  ![k-core.png](attachment:k-core.png)

### Clonseness centrality

* Calcula a distância mínima entre os vértices $i$ e $j$. Neste caso, assume-se que os vértices que possuem as distâncias mais curtas aos demais véritces são os mais centrais.

$$ C_i = \frac{N}{\sum_{j=1,j\neq i}^N{d_{ij}}} $$

* **Limitação**: é baseado apenas nas disâncias mais curtas e, por isso, a variabilidade é muito baixa. A maioria das redes complexas possuem distâncias relativamente curtas entre os vértices, o que torna difícil diferenciar um vértice do outro.

### Betweenness centrality

* Representa o **quanto de carga** um vértice recebe.
* São considerados vértices centrais aqueles que são mais utilizados na tranferência de informação na rede, não apenas nos números de conexões e nas distâncias.

$$ B_i = \sum_{(a,b)}{\frac{\eta (a,i,b)}{\eta (a,b)}} $$

![betweenness_centrality01.png](attachment:betweenness_centrality01.png)

* **Limitações**: Computacionalmente muito caro. Considera apenas as menores distâncias, ou seja, caso haja uma informação que caminhe por distâncias maiores, ela acaba por não ser incluída.

### Random walk betweenness centrality

* Usado para corrigir o problema dos curtos caminhos no método de _betweenness centrality_.
* Definimos um caminho aleatório a ser seguido entre os vértices e contamos quantos deles passam por um dado vértice $i$. 
* Uma das vantagens é que o cálculo é fácil.

$$ B_i = \sum_{a=1}^N \sum_{b=1}^N w(a,i,b) $$

* **Limitação**: É necessário determinar o número de passos da caminhada aleatória.

### Eigenvector centrality
* Define **o quão visitado** é um vértice quando se segue uma caminhada aleatória.
* Para calcular a centralidade, leva em consideração não apenas o grau do vértice, mas também o quão próximo ele está de outros vértices mais centrais.

$$ x^{(k)} = x^{(k-1)}$$

* O método da potência para aproximação de autovalores e autovetores dos diz que:

$$ x^{(0)} = \{1,1,1,...,1\}^T$$

![eigenvector_centratily01.png](attachment:eigenvector_centratily01.png)

Na imagem acima, vemos que, em $x_4$, é notável que o vértice 7 é mais central do que o vértice 8 ou que o vértice 3.

$$ \lambda x = x A $$

$\lambda=1$ e é máximo.

* As entradas de $x$ são chamadas de **eigenvector centrality**.

Na prática, normalmente dividimos as entradas pela soma do vetor, para ficar no intervalo entre 0 e 1.



* **Vantagem**: generaliza o conceito de grau.

* **Limitações:** dependendo da estrutura da rede, a maioria dos pesos dos autovetores se concentram em apenas alguns poucos nós, como hubs. Neste caso, temos o efeito de **Localização**

    * **Localização**
    ![eigenvector_centratily02.png](attachment:eigenvector_centratily02.png)
    No caso da rede acima, as conexões estão muito conectadas em apenas um nó.

* Calculando o **Inverse Participation Ratio** (IPR), conforme o grau do hub aumenta, sua importância não aumenta muito por um tempo; porém, chega-se em um valor onde ocorre uma **transição de fase**, onde sua importância sofre um salto e aumenta demais.

![eigenvector_centratily03.png](attachment:eigenvector_centratily03.png)

### PageRank

* Mais usado para redes dirigidas.
* É uma generalização do **Eigenvector centrality**, onde a matriz é modificada.
* Para um vértice ser importante, é necessário que esteja conectado com outros vértices importantes.
* Matriz Google:

$$ G = \kappa ( P + \frac{a e^T}{N}) + \frac{1 - \kappa}{N} e e^T $$

O elemento $a$ é um vetor binário chamado de _dangling node vector_ ( $a_i$ é igual a 1 se $i$ é um _dangling node_ ou 0 caso contrário). $e$ é um vetor de 1 do comprimento $N$ e $P$ é a transição de probabilidades da matriz da respectiva rede:

$$ P_{ij} = \frac{A_{ij}}{\sum_j{A_{ij}}}$$

* **Cálculo do PageRank**
    
    $$ \pi^T = \pi^T G$$
    * Trata-se das entradas do autovetor $\pi^T$ da matriz Google $G$, e essas entradas vão definir as importâncias dos vértices.
    
    

* **Vantagem**: fácil de interpretar.
* **Desvantagem**: modifica a matriz de adjacências.

### Random walk accessibility

* Um tipo específico de caminhada aleatória, onde os vértices têm um certo _fitness_ associado.
* Ocorre uma caminhada aleatória quando este fitness for decrescendo ao longo da caminhada.

* Da matriz de transição de probabilidade $P$:

$$ W = \sum_{k=0}^\infty{ \frac{1}{k!}P^k} = e^P $$ 

* $e^P$ é uma _exponencial matricial_ da matriz de probabilidade de transição da rede, ou seja, $P_{ij}$ é a probabilidade de se ir de $i$ para $j$ em 1 passo.

* $W(i,j)$ fornece a média do número de visitas que o nó $j$ recebe quando o agente começa no nó $i$ e segue o **accessibility random walk (ARM)**.
* Calculando-se a exponencial exponencial, podemos calcular a matriz $W$, o que possibilita o cálculo da matriz de probabilidade de transição.
* A probabiliade da transição entre quaisquer pares de vértices através do ARW é dada por:

$$ P = \frac{W}{e} $$

* **RANDOM WALK ACCESSIBILITY**

$$ \alpha(i) = exp( - \sum_j{P(i,j) log P(i,j)} ) $$

* Trata-se da exponencial da **entropia de Shannon** da matriz de probabilidade de transição.

![random_walk_accessibility01.png](attachment:random_walk_accessibility01.png)

### Comparando o uso de cada uma das centralidades

![comparacao01.png](attachment:comparacao01.png)

Dependendo do método que uso, os vértices centrais mudam. Portanto, é importante avaliar a natureza do problema analisado para se saber qual método utilizar.

Por exemplo, em uma rede social, se formos analisar como celebridades probagam informações para seus vizinhos, o uso do _grau_ é uma boa medida. Se formos ver como uma informação se propaga para mais vértices, boas escolhas seriam a _closeness centrality_. Para vermos como vértices importantes estão influenciando outros menos importantes, _eigenvector centrality_. Para analisarmos a carga de uma rede, a _betweeness centrality_ funciona bem.