# Grafos

## O que são grafos ?

Um grafo é definido formalmente como $G = (V,E)$ onde $V$ é o conjunto de **vertices** (entidades) conectados por $E$ **arestas** (relacionamentos).

### Rede direcional

O mapeamento ocorre de um sentido para outro.

```
grafo = {
    'A': ['B','C','D'],
    'B': ['C', 'E'],
    'C': [],
    'D': ['F'],
    'E': ['D'],
    'F': []
}
```

### Rede não direcional ou bidierecional

```
grafo = {
    'A': ['B', 'C', 'D'],
    'B': ['A', C', 'E'],
    'C': ['A', 'B'],
    'D': ['A', 'E', 'F'],
    'E': ['B', 'D'],
    'F': ['D']
}
```

### Pesos nas conexões

```
grafo = {
    'A': ['B', 'C', 'D'],
    'B': ['A', C', 'E'],
    'C': ['A', 'B'],
    'D': ['A', 'E', 'F'],
    'E': ['B', 'D'],
    'F': ['D'],
    pesos: {
        'A': {
            'B': 5,
            'C': 3,
            'D':8
        },
        'B': {
            'A': 5,
            'C':8,
            'E': 1
        },
        'C':{
            'A': 3,
            'B': 8,
        },
        'D': {
            'A': 8,
            'E': 2,
            'F': 9
        },
        'F': {
            'D': 9
        }
    }
}
```

## Por que estudar grafos/redes ?

* Importante **ferramenta matemática** com aplicação em diversas áreas de conhecimento.

* Existem centenas de problemas computacionais que usam grafos com sucesso.

* Identificar a habilidade de comunicação entre duas entidades em uma rede.

* Criar heurísticas ótimas/sub-otimas para realizar busca de padrões em redes reais.

## Modelagem em grafo

* Internet
* Sistema de metrô
* Contatos sexuais
* Colaboração entre cientistas
* Partidos políticos
* Interações proteicas

## Métricas em redes complexas

### Medidas de centralidade

* Grau
* Closeness (proximidade)
* Betweenness (intermediação)

#### Grau do nó (vertice)

É uma medida relativa aos **vertices** de um grafo. O grafo de um vertice é dado pelo **número** de areas que lhe são **incidentes**

Exemplo: 

```
grafo = {
    'A': ['B', 'C', 'D'],
    'B': ['A', C', 'E'],
    'C': ['A', 'B'],
    'D': ['A', 'E', 'F'],
    'E': ['B', 'D'],
    'F': ['D']
}
```

* Grau 3: A, B, C
* Grau 2: C, E
* Grau 1: F

#### Closeness - Proximidade

É definida pelo **comprimento** de caminhos mais curtos.

**Caminhos mais curtos** representam a menor distãncia entre pares de vértices.

Em um grafo sem arestas ponderadas o caminho é definido pelo **número de arestas** de um ponto a outro.

Ex: A-F = (A-C-B-E-D-F) -> 5
          (A-B-E-D-F) -> 4
          (A-D-F) -> 2

Exemplo: F= 11

1-D + 2-E + 2-A + 3-B + 3-C = 11

D=7

1-F + 2-E + 2-A + 2-B + 2C = 7

#### Betweenness - Intermediação (Vértice/Aresta)

Define o número de vezes que um **vertíce** age como **ponte** ao longo do **caminho** mais curto entre dois vértices.

* Para cada par de vértices **calcular** os **caminhos mais curtos** entre eles.

* Para cada par de vertices determinar a **fração de caminhos** mais curtos que **passam através** do vertice em questão.

* **Somar esta fração** de todos os pares de vertices.

Ex: D
A-E; A-F;C-F

## Medidas de Importância

### PageRank

PageRank procura expressar a probabilidade de um caminhante aleatório no grafo chegar a um vértice P.

Considera o quanto um vértice é referenciado. Se quem aponta para o vértice também é importante.

A importãncia de um vértice P é dad pela seguinte equação.

$PR(A) - \frac{PR(B)}{L(B)} + \frac{PR(C)}{L(C)} + \frac{PR(D)}{L(D)}$

* $PR(i)$ - PR do vértice $i$ que aponta para $A$.

    * Probabilidade inicial de todos $\frac{1}{N}$

* $L(i)$ Probabilidade de links de saída em $i$.

#### Desafios - vértices sem ligações

**A** não recebe links de ninguém e passa a ter **PR=0** e **B** recebe **0 de A**

#### Desafios - Ciclos

Cálculo do PageRank fica "preso" no **ciclo infinito**. Em cada iteração o valor de PageRank é transmitido de um vértice para outro do cliclo e **não há convergência**.

```
grafo = {
    'A': ['B'],
    'B: ['C'],
    'C': ['D'],
    'D': ['A']
}
````

### Dump Factor

$PR(A) = \frac{1 - d}{N} + d + (\frac{PR(B)}{L(B)} + \frac{PR(C)}{L(C)} + \frac{PR(D)}{L(D)} ...)$

* $d$ - dump factor (gerador entre 0.1 e 0.9)
    * Probabilidade de **continuar seguindo** os links.
    * Do contrário acontecerá um **"teletransporte** para qualquer outro vértice

* $N$ - Total de páginas

### HITS - Hubs