# Redes Complexas: detecção de comunidades


## Comunidades

* Redes podem apresentar organização modular, onde os módulos são feitos de nós densamente conectados.
* Podem ser do tipo sem _overlap_ (não existem nós em mais de uma comunidade) ou com _overlap_ (_fuzzy_)

## Detecção de comunidades

### Algoritmo de Girvan-Newman
* Utiliza a _Betweenness centrality_. $B_i= \sum_{(a,b)}\frac{\eta (a,i,b)}{\eta (a,b)}$
* 1) Cálculo da centralidade para todas as arestas
* 2) Remoção da aresta com maior centralidade: em caso de empate com outras arestas, uma é escolhida aleatoriamente.
* 3) Recalcula-se as centralidades do grafo
* 4) Iteração do ciclo do passo 2 até remover todas as arestas

## Modularidade
* Vamos assumir que temos véritces divididos em classes, onde cada classe está associada a um inteiro.
* Considerando $c_i$ como a classe dos nos $i, c_i \in \{1,2,...,n_c\}$, onde $n_c$ é o número de classes.
* Para quantificar a tendência dos vértices da mesma classe a se conectar, podemos comparar a fração de conexões enre estes vértices com um grafo aleatório. O número total de vértices a mesma classe é dado por:

$$ H = \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N A_{ij} \delta (c_i, c_j) $$

onde $\delta (c_i, c_j) = 1$ caso $c_i = c_j$ e 0 caso contrário.

* O número de conexões esperado entre os nós do mesmo tipo em uma rede aleatória é dado por:

$$ R = \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \frac{k_i k_j}{2M}\delta(c_i, c_j) $$

* O número de conexões entre $i$ e $j$:

$$ E_{ij} = k_i \frac{k_j}{2M} $$

* A diferença entre $H$ e $R$ quantifica a tendência de nós da mesma classe de se conectarem em uma rede. $H-R$ é a medida de modularidade

$$ Q = (H - R) \frac{1}{2M} = \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \left[A_{ij} - \frac{k_i k_j}{2M} \right] \delta (c_i, c_j) $$

* $Q > 0.3$ **indica uma rede com estrutura modular**.


* **Modularidade**:

$$ M = Q = \frac{1}{2M} \sum_{ij} \left[ A_{ij} - \frac{k_i k_j}{2m} \right] \delta_{s_i,s_j} $$

* A modularidade compara a número de conexões da rede real com uma rede aleatoriamente gerada a partir da rede real.

_**Imagem 02_modularidade**_

* O objetivo é maximizar o valor da modularidade para que as comunidades se destaquem na rede.

### Algoritmo de Girvan-Newman com modularidade

1. Cálculo da centralidade para todas as arestas
2.  Remoção da aresta com maior centralidade: em caso de empate com outras arestas, uma é escolhida aleatoriamente.
3. <span style="color:red">Cálcular a modularidade e armazenar este valor em um vetor </span>.
4. Recalcula-se as centralidades do grafo
5. Iteração do ciclo do passo 2
6. <span style="color:red">Depois de remover todas as arestas, retornar as redes originais e remover todas as arestas até alcançar a modularidade máxima<\span>

* A modularidade cresce até atingir um ápice e depois decresce.
    
* **Vantagens**
    * Fácil de se entender e de implementar
    * Não precisa tomar muitas decisões aribitrárias.
* **Desvantagens**
    * Muito lento, complexidade $NL^2$, onde $L$ é o número de arestas.
    * Resultados dependem da centralidade.

### Fast-greedy

* Se a modularidade está associada à melhor partição, então um método possível é maximizar o valor da modularidade.
* Entretanto, otimização exata da modularidade é um problema que é computacionalmente difícil e então algoritmos de aproximação são necessários quando lidamos com redes muito grandes

$$ \frac{1}{2m} \sum_{vw} \left[ A_{vw} - \frac{k_v k_w}{(2m)} \right] \delta (c_v, c_w) = \sum_{i=1}^c{ (e_{ii} - a_i^2) }$$

* **Algoritmo**
1. Associar cada nó a uma comunidade própria, começando com $N$ comunidades de nós singulares
2. Inspecionar cada par de comunidades conectados por pelo menos uma conexão e computar a diferença modular $\Delta Q$ obitda se nós os mesclarmos.
3. Identificar o par de comunidade para o qual $\Delta Q$ é o maior e os mesclar. Note que a modularidade é sempre calculada para a rede **inteira**
4. Repita o passo 2 até que todos os nós estejam mesclados em uma única comunidade, armazenando $M$ para cada passo
5. Selecionar a partição para o qual $Q$ é máximo.

* Embora seja melhor que o método de Girvan-Newman, ele não fornece uma solução ótima, podendo ser aprimorado. Um aprimoramento do método foi o **Método de Louvain**.

### Método de Louvain

* Similar ao _Fast-greedy_.
1. Associar os vértices a diferentes comunidades aleatoriamente e tentar mesclar duas comunidades (mover um vértice para outra comunidade), calculando a diferença de modularidade e juntar os vértices que apresentar a maior variação
2. Pegar as comunidades formadas e as tratar como vértices
3. Repetir os processos até chegar apenas a uma comunidade.

## Métodos de geração de redes modulares

### Gilvan-Newman benchmark

### LFR benchmark
* Gera redes que seguem lei de potência


## Há muitos outros métodos

* **Locais**: em vez de achar uma divisão global, acha a comunidade á qual um dado nó pertence
* **Espectral**: baseado no espectro do grafo Laplaciano
* **Dinâmico**: Potts-model, osciladores, random walks
* **Stochastic block models**: