---

## Breve histórico de grafos

"I think the next century will be the century of complexity." - Stephen Hawking


Estamos cercados por sistemas extremamente complicados.
Considere, por exemplo, a sociedade que requer cooperação entre bilhões de indivíduos, ou infra-estruturas de comunicação que integram bilhões de telefones celulares com computadores e satélites. Nossa capacidade de raciocinar e compreender nosso mundo requer a atividade coerente de bilhões de neurônios em nosso cérebro.
Nossa existência biológica está enraizada em interações contínuas entre milhares de genes e metabólitos dentro de nossas células.


Esses sistemas são chamados coletivamente de **sistemas complexos**, captando o fato de que é difícil derivar seu comportamento coletivo de um conhecimento dos componentes do sistema. Dado o importante papel que os sistemas complexos desempenham em nossa vida diária, na ciência e na economia, sua compreensão, descrição matemática, previsão e, eventualmente, controle é um dos maiores desafios intelectuais e científicos do século XXI.

O surgimento da ciência de redes complexas no início do século 21 é uma demonstração vívida de que a ciência pode estar à altura desse desafio. Na verdade, por trás de cada sistema complexo, há uma rede intrincada que codifica as interações entre os componentes do sistema:


- A rede que codifica as **interações entre genes, proteínas e metabólitos** integra esses componentes em células vivas. A própria existência dessa rede celular é um pré-requisito da vida.
- O diagrama de fiação que captura as conexões entre os neurônios, chamado de **rede neural**, é a chave para a nossa compreensão de como o cérebro funciona e para a nossa consciência.
- A soma de todos os laços profissionais, de amizade e de família, muitas vezes chamada de **rede social**, é o tecido da sociedade e determina a difusão do conhecimento, do comportamento e dos recursos.
- As **redes de comunicação**, que descrevem quais dispositivos de comunicação interagem entre si, por meio de conexões de Internet com fio ou links sem fio, estão no coração do sistema de comunicação moderno.
- A **rede elétrica**, uma rede de geradores e linhas de transmissão, abastece de energia praticamente toda a tecnologia moderna.
- As **redes de comércio** mantêm nossa capacidade de trocar bens e serviços, sendo responsáveis pela prosperidade material que o mundo tem desfrutado desde a segunda guerra mundial. 

As redes também estão no centro de algumas das tecnologias mais revolucionárias do século 21, capacitando tudo, do Google ao Facebook, CISCO e Twitter. No final, as redes permeiam a ciência, a tecnologia, os negócios e a natureza em um grau muito mais alto do que pode ser evidente em uma inspeção casual.   
Conseqüentemente, nunca entenderemos sistemas complexos, a menos que desenvolvamos uma compreensão profunda das redes por trás deles.

---

## As pontes de Königsberg

Poucos campos de pesquisa podem traçar seu nascimento a um único momento e lugar na história. A teoria dos grafos, o arcabouço matemático por trás da ciência de redes, pode.  
Suas raízes remontam a 1735 em Königsberg, a capital da Prússia Oriental, uma próspera cidade comercial de seu tempo. O comércio apoiado por sua movimentada frota de navios permitiu que os funcionários da cidade construíssem sete pontes sobre o rio Pregel, que cercava a cidade. Cinco delas conectavam ao continente a elegante ilha Kneiphof, apanhada entre os dois braços do Pregel. Os dois restantes cruzaram os dois braços do rio. Esse arranjo peculiar deu origem a um quebra-cabeça contemporâneo: é possível atravessar todas as sete pontes e nunca cruzar a mesma duas vezes? Apesar de muitas tentativas, ninguém conseguiu encontrar esse caminho. O problema permaneceu sem solução até 1735, quando Leonard Euler, um matemático nascido na Suíça, ofereceu uma prova matemática rigorosa de que tal caminho não existe.
 
Euler representou cada uma das quatro áreas de terra separadas pelo rio com as letras A, B, C e D. Em seguida, ele conectou com linhas cada pedaço de terra que tinha uma ponte entre eles. Ele então construiu um grafo, cujos nós eram pedaços de terreno e os elos eram as pontes. Então Euler fez uma observação simples: se há um caminho que cruza todas as pontes, mas nunca a mesma ponte duas vezes, então os nós com número ímpar de links devem ser o ponto inicial ou o ponto final desse caminho. Na verdade, se você chegar a um nó com um número ímpar de links, poderá descobrir que não há um link não utilizado para deixá-lo.

<img src="images/the_bridges_of_Konigsberg.jpg" width=600px height=600px />    

In [89]:
from IPython.display import Video

Video("images/video-2-1.m4v")

--- 

## Estruturas de grafos

Um gráfico consiste em nós (também chamados de vértices), que são conectados por relacionamentos (também chamados de arestas ou links)

<img src="images/graph.png" width=600px height=600px />

---

## Tipos de grafos

Os grafos vêm em vários formatos e formas. Por exemplo, no Twitter, você pode seguir alguém, mas eles não necessariamente o seguem de volta.   
Em outras plataformas de mídia social, um vínculo de amizade existe apenas se ambas as partes concordarem com ele.  
Às vezes, a força de um relacionamento desempenha um fator importante.   
Também podemos diferenciar entre diferentes tipos de nós e vários tipos de relacionamentos em uma rede.


---

### Grafos direcionados versus não direcionados

No caso de um **grafo direcionado**, a direção de um relacionamento é importante.   
Em nosso exemplo, o feed de **Aaliyah** e **Phillip** conterá postagens de **Sam**. Por outro lado, o feed de Sam conterá apenas as postagens de Phillip, pois ele não segue Aaliyah.

<img src="images/directed-graph.png" width=600px height=600px />

Em um **grafo não direcionado**, um único relacionamento representa um link entre os nós em ambas as direções. Por exemplo, Aaliyah e Sam podem ser amigos ou não. Um cenário onde Aaliyah é amiga de Sam, mas Sam não é amigo de Aaliyah, não é possível.

Um relacionamento não direcionado também pode ser representado como dois relacionamentos direcionados, em que um relacionamento aponta na direção oposta de outro.

<img src="images/undirected-graph.png" width=600px height=600px />

--- 

### Grafos não ponderados versus ponderados

Em um **grafo não ponderado**, um relacionamento entre um par de nós não tem custo associado ou peso atribuído a ele. Portanto, nenhuma noção da força de um relacionamento existe.

<img src="images/unweighted-graph.png" width=600px height=600px />

Ao lidar com **grafos ponderados**, atribuímos a cada relacionamento um peso que representa a força ou o custo de atravessar o relacionamento. O peso deve ser um número.   
Uma aplicação típica para usar uma rede ponderada é uma rede de transporte, onde procuramos o caminho mais curto ponderado entre um par de nós.

Dependendo do domínio, às vezes um valor de peso maior é melhor, enquanto outras vezes, um valor de peso menor é preferido.

<img src="images/weighted-graph.png" width=600px height=600px />

--- 

### Grafos monopartidos e multipartidos

Um grafo monopartido consiste em um único conjunto de nós. Em termos de Neo4j, significa que temos nós com um único rótulo. Este é um exemplo de grafo monopartido, onde temos apenas rótulos Person para nós.

<img src="images/monopartite-graph.png" width=600px height=600px />

Um grafo **multipartido** consiste em muitos conjuntos independentes de nós. Em termos de Neo4j, significa que temos nós com muitos rótulos. Este é um exemplo de um grafo bipartido, onde temos rótulos de Pessoa e Empresa para os nós.

<img src="images/multipartite-graph.png" width=600px height=600px />

Medidas de centralidade e algoritmos de detecção de comunidade são projetados principalmente para rodar em gráficos monopartidos.  
Normalmente, é um erro executar algoritmos de centralidade em um grafo bipartido. Para resolver esse obstáculo, podemos facilmente inferir um grafo monopartido a partir de um grafo bipartido.

--- 

### Projeção monopartida

Este é um exemplo de projeção monopartida, onde inferimos que duas pessoas são colegas de trabalho se trabalharem na mesma organização. Uma projeção monopartida pode ser entendida como um processo de tradução de relacionamentos indiretos em relacionamentos diretos. Na análise de grafos do mundo real, frequentemente lidamos com redes multipartidas e, portanto, a projeção monopartida é uma etapa comum do fluxo de trabalho de análise de gráfos.

<img src="images/monopartite-projection.png" width=600px height=600px />

--- 

### Multigrafo versus grafos simples

Um grafo simples permite apenas um único relacionamento entre um par de nós, enquanto um multigrafo é um grafo que permite várias conexões entre um único par de nós.

<img src="images/multigraph.png" width=600px height=600px />

Esses relacionamentos podem ser de tipos diferentes, mas também podemos ter muitos relacionamentos de um único tipo entre um par específico de nós. O Graph Data Science Library oferece suporte para multigrafos, bem como procedimentos para transformar multigrafos em grafos simples.

---

## Quando não usar grafos  

Quando não usar grafos e algoritmos de grafos!

Em geral, dados muito organizados que seguem um esquema regular e têm relativamente poucas conexões entre seus elementos de dados não garantem armazenamento e computação específicos de grafos.

Alguns exemplos:

- Perguntas com poucas conexões ou planas (não aninhadas).

- Perguntas resolvidas com consultas específicas e bem elaboradas.

- Resultados estatísticos simples (somas, médias, proporções).
    Exemplo: relatórios regulares com base em critérios definidos e dados bem organizados:

---

# Algoritmos de grafos

Algoritmos de grafos são usados para calcular métricas para grafos, nós ou relacionamentos. <br/>
Eles podem fornecer insights sobre entidades relevantes (centralidades, classificação) no gráfico ou estruturas inerentes, como comunidades (detecção de comunidade, particionamento de grafo, clustering).

Na natureza, podemos observar a formação e evolução de muitas redes sociais e físicas. Cada pessoa é membro de uma rede de amizades. Podemos representar o cérebro humano como uma rede de neurônios e conexões sinapses. Artigos de pesquisa formam uma rede de citações se seguirmos suas citações. Cada cidade possui uma rede de transporte que inclui transporte público e infraestrutura.
 
Graph analytics, também conhecida como análise de redes complexas, concentra-se no estudo de relacionamentos em redes do mundo real.

Devido ao grande volume de dados, os insights às vezes são difíceis de detectar a olho nu.  
Os algoritmos de grafos são tão interessantes porque são os métodos que usamos para entender as redes do mundo real. Eles nos ajudam a descobrir a essência de sistemas complexos, analisando suas conexões. 

--- 

## Tipos de algoritmos de grafos

Vários problemas de grafos requerem diferentes algoritmos de grafos para resolvê-los.  
Aqui estão algumas das categorias de algoritmo de gráfico estudadas hoje:

<img src="images/types-of-algorithms.png" width=1200px height=1000px />

---

### Community detection (Clustering) algorithms

<img src="images/community-detection.png" width=180px height=180px /> 

Algoritmos de detecção de comunidade são usados para localizar clusters de comunidades que os nós formam em uma rede.   
Eles também são usados para examinar o quão unidas algumas dessas comunidades são.

Esta categoria inclui algoritmos populares:
- Connected Components
- Label Propagation 
- Louvain Modularity 

Essas informações ajudam a prever comportamento ou preferências semelhantes, estimar resiliência, encontrar entidades duplicadas ou simplesmente preparar dados para outras análises.  

--- 

### Algoritmos de centralidade

<img src="images/centrality.png" width=180px height=180px /> 

Os algoritmos de centralidade são usados para encontrar os nós mais influentes e sua função em uma rede com base na topologia de grafo. 
Esses algoritmos são usados para inferir a dinâmica de grupo, como credibilidade, vulnerabilidade e pontes entre grupos. 

Alguns exemplos de algoritmos de centralidade:
- Pagerank
- Centralidade de Grau ( Degree Centrality ) 
- Centralidade de intermediação ( Betweeness Centrality )
- Centralidade de proximidade ( Closeness Centrality )

--- 

### Algoritmos de Pathfinding


<img src="images/pathfinding.png" width=180px height=180px /> 

Os algoritmos de Pathfinding geralmente são usados para encontrar o caminho mais curto entre os nós em uma rede.  
O algoritmo mais comum é o algoritmo de **Dijkstra**.  
Eles são usados para avaliar rotas para usos como logística física e chamadas de menor custo ou roteamento IP. 

--- 

### Algoritmos de similaridade 


<img src="images/similarity.png" width=180px height=180px /> 


Algoritmos de similaridade são usados para localizar nós semelhantes em uma rede com base na topologia de grafo ou em suas propriedades.  
Essa abordagem é usada em aplicativos como recomendações personalizadas e desenvolvimento de hierarquias categóricas.  
Os algoritmos mais comuns nesta categoria são os algoritmos **Jaccard Similarity** e **Cosine Similarity**.  

--- 

### Link prediction

<img src="images/link-prediction.png" width=180px height=180px /> 

Os algoritmos de Link prediction ajudam a determinar a proximidade de um par de nós.   
Eles consideram a proximidade de nós, bem como elementos estruturais, para **prever relacionamentos não observados ou futuros**.  

--- 

### Node embeddings


<img src="images/node-embedding.png" width=180px height=180px /> 

Os algoritmos de node embedding calculam representações vetoriais de baixa dimensionalidade de nós em um gráfo.   
Esses vetores são chamados de embeddings e podem ser usados como uma entrada de aprendizado de máquina.

--- 

## Libraries

> <img src="images/networkx_logo.svg" width=200px height=200px />     [NetworkX](https://networkx.org/) é um pacote Python para a criação, manipulação e estudo da estrutura, dinâmica e funções de redes complexas.

> <img src="images/graphx_logo.png" width=200px height=200px />  [GraphX](https://spark.apache.org/docs/latest/graphx-programming-guide.html) é um componente do Spark para grafos e computação paralela de grafos. Em um alto nível, GraphX estende o Spark RDD introduzindo uma nova abstração de Grafo: um multigrafo direcionado com propriedades anexadas a cada vértice e aresta. Para oferecer suporte à computação de gráfico, GraphX expõe um conjunto de operadores fundamentais (por exemplo, subgraph, joinVertices e aggregateMessages), bem como uma variante otimizada da API Pregel. Além disso, o GraphX inclui uma coleção crescente de algoritmos e construtores de grafos para simplificar as tarefas de analises de grafos.

> <img src="images/ampligraph.png" width=200px height=200px />  [AmpliGraph](https://docs.ampligraph.org/en/1.3.2/) é um conjunto de modelo redes neurais para aprendizado relacional, um ramo do aprendizado de máquina que lida com o aprendizado supervisionado em grafos de conhecimento.

> <img src="images/dlg.png" width=180px height=180px />  [DLG](https://www.dgl.ai/) deep learning on graphs.

> <img src="images/pythorch-biggraph.svg" width=230px height=230px /> [PyTorch-BigGraph (PBG)](https://github.com/facebookresearch/PyTorch-BigGraph) é um sistema distribuído para aprender embeddings de grandes grafos,com até bilhões de entidades e trilhões de arestas.

> <img src="images/OrientdbLogo.png" width=200px height=200px /> [OrientDB](https://orientdb.org/) o primeiro Multi-Model Open Source NoSQL DBMS que reúne o poder dos grafos e a flexibilidade dos documentos em um banco de dados operacional escalonável de alto desempenho.

> <img src="images/neo4j-logo.svg" width=200px height=200px /> [Neo4j](https://neo4j.com/) O Neo4j é um banco de dados gráfico nativo altamente escalável, desenvolvido especificamente para alavancar não apenas os dados, mas também os relacionamentos de dados.


---

# Hands ON

## Neo4j & Graph Data Science Library & Game of Thrones

A rede de Game of Thrones é um grafo monopartido contendo nós de personagens e suas interações nos programas de TV.
As interações entre os personagens são agrupadas por temporadas da série.


Por exemplo, um relacionamento **INTERACTS_SEASON1** representa uma interação entre personagens na primeira temporada,
**INTERACTS_SEASON2** significa interação na segunda temporada e assim por diante.
O peso do relacionamento representa a força da interação, e porque dois personagens podem interagir em mais de uma única temporada, estamos lidando com um multigrafo ponderado.

<img src="images/got.png" width=1200px height=1200px /> 


---

**py2neo** é uma biblioteca cliente e kit de ferramentas para trabalhar com Neo4j de dentro de aplicativos Python.   
É adequado para fluxos de trabalho de ciência de dados e tem excelente integração com outras ferramentas de ciência de dados Python. 

In [143]:
from py2neo import Graph

import pandas as pd
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

graph = Graph("bolt://localhost:7687", auth=("neo4j", "got"))

--- 

### Linguagem Cypher

[Cypher](https://neo4j.com/developer/cypher/) é a linguagem de consulta de grados do Neo4j que permite aos usuários armazenar e recuperar dados do banco de dados de grafos.
A linguagem Cypher tem como objetivo tornar a consulta de dados grafos fácil de aprender, entender e usar para todos, e também incorporar o poder e a funcionalidade de outras linguagens de acesso a dados padrão. 

A sintaxe do Cypher fornece uma maneira visual e lógica para combinar padrões de nós e relacionamentos no grafo. Ele nos permite declarar o que queremos selecionar, inserir, atualizar ou excluir de nossos dados de grafos sem uma descrição de como fazer isso exatamente. 

O projeto [openCypher](https://www.opencypher.org/) fornece uma especificação de linguagem aberta, kit de compatibilidade técnica e implementação de referência do analisador, planejador e tempo de execução para Cypher. É apoiado por várias empresas na indústria de banco de dados e permite que os implementadores de bancos de dados e clientes se beneficiem, usem e contribuam para o desenvolvimento da linguagem openCypher livremente.


In [144]:
query = """
Match(c:Character {id:'NED'})-[r:INTERACTS_SEASON1]->(c1:Character) 
return c.name as character1, 
       r.weight as nr_interactions,
       c1.name as character2 
       order by nr_interactions DESC
       LIMIT 10
"""

relationships = graph.run(query).to_data_frame()

In [145]:
relationships

Unnamed: 0,character1,nr_interactions,character2
0,Ned,192,Robert
1,Ned,96,Varys
2,Ned,68,Pycelle
3,Ned,49,Sansa
4,Ned,30,Renly
5,Ned,23,Robb
6,Ned,15,Yoren
7,Ned,13,Theon
8,Ned,11,Tywin
9,Ned,11,Tyrion


In [146]:
query = """
MATCH path=()-[:INTERACTS_SEASON1*0..]->(c:Character)
where c.id = 'NED'
with nodes(path) as nds, path where length(path) > 0
return nds as nos, nds[0].name, [n IN nds| n.name] AS persons, size(nds) as nr_nos
LIMIT 10
"""

relationships = graph.run(query).to_data_frame()

In [147]:
relationships

Unnamed: 0,nos,nds[0].name,persons,nr_nos
0,"[{'name': 'Lancel', 'id': 'LANCEL'}, {'name': ...",Lancel,"[Lancel, Ned]",2
1,"[{'name': 'Cersei', 'id': 'CERSEI'}, {'name': ...",Cersei,"[Cersei, Lancel, Ned]",3
2,"[{'name': 'Arya', 'id': 'ARYA'}, {'name': 'Cer...",Arya,"[Arya, Cersei, Lancel, Ned]",4
3,"[{'name': 'Barristan', 'id': 'BARRISTAN'}, {'n...",Barristan,"[Barristan, Cersei, Lancel, Ned]",4
4,"[{'name': 'Aerys', 'id': 'AERYS'}, {'name': 'B...",Aerys,"[Aerys, Barristan, Cersei, Lancel, Ned]",5
5,"[{'name': 'Aegon', 'id': 'AEGON'}, {'name': 'A...",Aegon,"[Aegon, Aerys, Barristan, Cersei, Lancel, Ned]",6
6,"[{'name': 'Benjen', 'id': 'BENJEN'}, {'name': ...",Benjen,"[Benjen, Cersei, Lancel, Ned]",4
7,"[{'name': 'Bran', 'id': 'BRAN'}, {'name': 'Cer...",Bran,"[Bran, Cersei, Lancel, Ned]",4
8,"[{'name': 'Arya', 'id': 'ARYA'}, {'name': 'Bra...",Arya,"[Arya, Bran, Cersei, Lancel, Ned]",5
9,"[{'name': 'Assassin', 'id': 'ASSASSIN'}, {'nam...",Assassin,"[Assassin, Bran, Cersei, Lancel, Ned]",5


---

### Algoritmos de Path finding

O algoritmo de caminho mais curto calcula o caminho mais curto entre um par de nós.   
Nesta categoria, o algoritmo de Dijkstra é o mais conhecido.   

In [148]:
query = """
MATCH (c:Character {id: 'NED'} ),
      (c1:Character {id: 'BRONN'}),
p = shortestPath((c)-[:INTERACTS_SEASON1*..]-(c1))
with nodes(p) as nds
RETURN [n IN nds| n.name] AS persons
"""

relationships = graph.run(query).to_data_frame()

In [149]:
relationships

Unnamed: 0,persons
0,"[Ned, Rodrik Cassel, Bronn]"


---

## Algoritmos de detecção de comunidade

Os algoritmos de detecção de comunidade são projetados para ajudá-lo a descobrir e compreender a estrutura de redes complexas.

A compreensão da estrutura da comunidade tem muitas aplicações no mundo real em sociologia, biologia e ciência da computação.  
Você pode pensar em uma comunidade como um grupo densamente conectado de nós, semelhante a como um grupo de amigos é altamente interconectado.

- Weakly Connected Components (unionFind)

- Label Propagation

- Louvain Modularity

### Weakly Connected Components - WCC (Componentes Fracamente Conectados)

O algoritmo Weakly Connected Components (WCC) é usado para localizar subgrafos ou ilhas desconectadas em nossa rede.

Em um único componente conectado, cada nó pode atingir todos os outros nós ao desconsiderar a direção dos relacionamentos, tratando efetivamente as conexões como não direcionadas. 

Entender quantos componentes conectados existem em nossa rede é crucial para entender a estrutura do grafo.   
Por esse motivo, o algoritmo WCC é frequentemente usado no início da análise de grafos. Uma prática recomendada é executar o WCC para testar se um gráfico está conectado como uma etapa preparatória para todos os outros algoritmos de grafos.   

A execução desse teste rápido pode evitar a execução acidental de algoritmos em apenas um componente desconectado de um grafo e a obtenção de resultados incorretos.  
Também pode ajudá-lo a compreender melhor os resultados de outros algoritmos.

In [154]:
query = """
CALL gds.wcc.stream(({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON2',
      orientation: 'UNDIRECTED',
      properties: {
        weight: {
          property: 'weight',
          defaultValue: 1
        }
      }
    }
  }
})) YIELD nodeId, componentId AS community
WITH gds.util.asNode(nodeId) AS node, community
WITH collect(node) AS allNodes, community
RETURN community, allNodes[0..10] AS nodes, size(allNodes) AS size
ORDER BY size DESC
LIMIT 10"""

wcc = graph.run(query).to_data_frame()

In [155]:
wcc

Unnamed: 0,community,nodes,size
0,1,"[{'name': 'Aegon', 'id': 'AEGON'}, {'name': 'A...",115
1,19,"[{'name': 'Daenerys', 'id': 'DAENERYS'}, {'nam...",14
2,3,"[{'name': 'Allister', 'id': 'ALLISER_THORNE'}]",1
3,6,"[{'name': 'Baelor', 'id': 'BAELOR'}]",1
4,8,"[{'name': 'Barristan', 'id': 'BARRISTAN'}]",1
5,10,"[{'name': 'Beric', 'id': 'BERIC'}]",1
6,12,"[{'name': 'Bowen', 'id': 'BOWEN_MARSH'}]",1
7,11,"[{'name': 'Borcas', 'id': 'BORCAS'}]",1
8,14,"[{'name': 'Brandon', 'id': 'BRANDON_STARK'}]",1
9,5,"[{'name': 'Assassin', 'id': 'ASSASSIN'}]",1


--- 

### Label Propagation


O algoritmo Label Propagation (LPA) é um algoritmo rápido para descrever comunidades em um grafo.   
Ele detecta esses grupos usando apenas a topologia de rede e não requer nenhuma informação prévia sobre as comunidades ou sua estrutura.

No LPA, os nós selecionam sua comunidade com base em seus vizinhos diretos usando os rótulos de nó.   
Além disso, pesos em nós e relacionamentos também podem ser considerados.   
A ideia é que um único rótulo pode rapidamente se tornar dominante em um grupo densamente conectado de nós, mas terá problemas para cruzar uma região escassamente conectada.
 
<img src="images/label-propagation-explanation.png" width=1200px height=1200px /> 

Primeiro, cada nó é inicializado com uma propriedade. Por padrão, a propriedade inicial é exclusiva para cada nó.  
No entanto, o LPA também se presta bem ao aprendizado semissupervisionado porque você pode semear as propriedades iniciais com rótulos de nó pré-atribuídos que você sabe que são preditivos.

Neste exemplo, começamos com 2 nós A, mas deixamos todos os outros nós como únicos. Estamos usando os pesos padrão do nó de 1. Os nós são então processados aleatoriamente, com cada nó adquirindo o rótulo de seu vizinho com o peso máximo. Assim, na primeira iteração, a esquerda A adquire o rótulo F, B adquire o rótulo D e C agora se torna A. O peso máximo é calculado com base nos pesos dos nós vizinhos e seus relacionamentos. Além disso, os laços são quebrados de maneira uniforme e aleatória. Haverá momentos em que um rótulo não será atualizado porque o vizinho com o peso máximo tem o mesmo rótulo. As iterações continuam até que cada nó tenha o rótulo da maioria de seus vizinhos ou alcance o limite máximo de iteração. Um limite máximo de iteração evitará ciclos infinitos em que o algoritmo não pode convergir para uma solução, essencialmente sendo pego em um ciclo de flip-flop para alguns rótulos. Em contraste com outros algoritmos, o LPA pode retornar estruturas de comunidade diferentes quando executado várias vezes no mesmo gráfico. A ordem em que o LPA avalia os nós pode influenciar as comunidades finais que ele retorna. Outro fator é o processo de desempate aleatório.


**Por que usar a propagação de rótulos?**

- Detecção de comunidade

- Detecção de comunidade semissupervisionada

- Pré-processamento (classificação)

Exemplos:

- Atribuição de polaridade de tweets como parte da análise semântica. Nesse cenário, rótulos de sementes positivos e negativos de um classificador são usados em combinação com o gráfico de seguidor do Twitter. Para obter mais informações, consulte a classificação de polaridade do Twitter com propagação de rótulo em links lexicais e o gráfico do seguidor.

- Encontrar combinações potencialmente perigosas de possíveis medicamentos co-prescritos, com base na semelhança química e nos perfis de efeitos colaterais. Este estudo é encontrado aqui.

- Predição de propagação de rótulo de interações medicamentosas com base em efeitos colaterais clínicos.

In [158]:
query = """
CALL gds.labelPropagation.stream(({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON2',
      orientation: 'UNDIRECTED',
      properties: {
        weight: {
          property: 'weight',
          defaultValue: 1
        }
      }
    }
  },
  relationshipWeightProperty: 'weight'
})) YIELD nodeId, communityId AS community
WITH gds.util.asNode(nodeId) AS node, community
WITH collect(node) AS allNodes, community
RETURN community, allNodes[0..10] AS nodes, size(allNodes) AS size 
ORDER BY size DESC
LIMIT  10
"""

propagated_labels = graph.run(query).to_data_frame()

In [159]:
propagated_labels.head()

Unnamed: 0,community,nodes,size
0,115,"[{'name': 'Bronn', 'id': 'BRONN'}, {'name': 'C...",39
1,154,"[{'name': 'Aegon', 'id': 'AEGON'}, {'name': 'A...",20
2,92,"[{'name': 'Aerys', 'id': 'AERYS'}, {'name': 'C...",17
3,77,"[{'name': 'Balon', 'id': 'BALON'}, {'name': 'B...",17
4,48,"[{'name': 'Daenerys', 'id': 'DAENERYS'}, {'nam...",14


--- 

## Louvain Modularity


O algoritmo Louvain Modularity é usado para detectar comunidades em grandes redes. Você pode pensar no algoritmo fazendo uma análise do tipo "e se" para experimentar vários agrupamentos com o objetivo de, eventualmente, alcançar um ótimo de modularidade global.

O algoritmo Louvain Modularity consiste na aplicação repetida de duas etapas. O primeiro passo é uma atribuição “gananciosa” de nós às comunidades, favorecendo otimizações locais de modularidade.   

A pontuação de modularidade quantifica a qualidade de uma atribuição de nós às comunidades.  

Esse processo avalia o quanto os nós de uma comunidade estão mais densamente conectados, em comparação com o quão conectados eles estariam em uma rede aleatória.  
Ele começa calculando a mudança na modularidade se esse nó se juntar a uma comunidade com cada um de seus vizinhos imediatos. O nó então se junta ao nó com a maior alteração de modularidade. O processo é repetido para cada nó até que as comunidades ótimas sejam formadas.  
A segunda etapa é definir uma nova rede de granulação grossa, com base nas comunidades encontradas na primeira etapa. Essas duas etapas são repetidas até que não sejam possíveis novas reatribuições de comunidades que aumentem a modularidade.

 
<img src="images/louvain-modularity.png" width=600px height=600px /> 


Neste exemplo, podemos ver como funciona o algoritmo Louvain Modularity. Primeiro, o algoritmo atribui nós às comunidades, favorecendo a otimização local da modularidade. Em nosso caso, o algoritmo encontrou quatro grupos de nós, que são indicados pela cor do nó. Na segunda etapa, o algoritmo mescla cada grupo de nós em um único nó. A contagem de links entre nós dentro da mesma comunidade e entre várias comunidades agora é representada como um relacionamento ponderado entre os nós recém-mesclados. Uma vez que a nova rede é criada, todo o processo é repetido até que um máximo de modularidade seja alcançado. O algoritmo Louvain Modularity é interessante, pois você pode observar tanto as comunidades finais quanto as intermediárias que são calculadas ao final de cada nível. É considerado um algoritmo de agrupamento hierárquico porque uma hierarquia de comunidades é produzida como resultado. Como regra geral, as comunidades nos níveis mais baixos são menores e mais refinadas do que as comunidades encontradas nos níveis mais altos e finais.

**Onde pode ser utilizada?**

- Detecção de comunidade em grandes redes
- Descoberta de estruturas hierárquicas em dados

Exemplos:

- Extração de tópicos de plataformas sociais online, como Twitter e YouTube, com base na coocorrência de termos em documentos como parte do processo de modelagem de tópicos.

- Encontrar estruturas hierárquicas da comunidade dentro da rede funcional do cérebro.

- Avaliação de redes criminosas e buracos na estrutura.

In [160]:
query = """
CALL gds.louvain.stream( ({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON3',
      orientation: 'UNDIRECTED',
      properties: {}
    }
  },
  relationshipWeightProperty: null,
  includeIntermediateCommunities: false,
  seedProperty: ''
}))
YIELD nodeId, communityId AS community, intermediateCommunityIds AS communities
WITH gds.util.asNode(nodeId) AS node, community, communities
WITH community, communities, collect(node) AS nodes
RETURN community, communities, nodes[0..20] AS nodes, size(nodes) AS size
ORDER BY size DESC
LIMIT 10"""

louvain = graph.run(query).to_data_frame()

In [161]:
louvain

Unnamed: 0,community,communities,nodes,size
0,144,,"[{'name': 'Bran', 'id': 'BRAN'}, {'name': 'Bra...",30
1,238,,"[{'name': 'Bronn', 'id': 'BRONN'}, {'name': 'C...",28
2,141,,"[{'name': 'Aegon', 'id': 'AEGON'}, {'name': 'A...",24
3,200,,"[{'name': 'Catelyn', 'id': 'CATELYN'}, {'name'...",23
4,227,,"[{'name': 'Barristan', 'id': 'BARRISTAN'}, {'n...",12
5,233,,"[{'name': 'Balon', 'id': 'BALON'}, {'name': 'T...",7
6,3,,"[{'name': 'Allister', 'id': 'ALLISER_THORNE'}]",1
7,12,,"[{'name': 'Bowen', 'id': 'BOWEN_MARSH'}]",1
8,6,,"[{'name': 'Baelor', 'id': 'BAELOR'}]",1
9,11,,"[{'name': 'Borcas', 'id': 'BORCAS'}]",1


---

## Algoritmos de centralidade

Na análise de rede, as medidas de centralidade identificam os nós mais importantes ou influentes em um grafo. Os conceitos de centralidade foram introduzidos pela primeira vez na análise de redes sociais para identificar os principais participantes de uma rede social, mas desde então encontraram aplicações em uma variedade de setores e campos.

## PageRank

O PageRank é o algoritmo de classificação de páginas da web popular do Google.

Ele funciona contando o número e a qualidade dos links para um nó para estimar sua importância. A suposição subjacente é que um nó é tão importante quanto os nós que estão vinculados a ele. Um exemplo desse tipo de influência pode ser ter o ouvido de um general que o considera muito confiável, provavelmente o tornará mais poderoso do que ser popular com seus colegas soldados.

O PageRank mede a importância em comparação com outros nós usando um processo iterativo para atualizar as classificações. Ele começa atribuindo valores aos nós como 1/n (n é o número total de nós vinculados) e valor aos relacionamentos como o valor/número dos nós de seus links de saída.

Existem muitas variações específicas de domínio para análises diferentes, por exemplo, PageRank personalizado para recomendações personalizadas. O PageRank personalizado é uma variação do PageRank, que se inclina para um conjunto de nós de origem predefinidos.

**Por que usar o PageRank?**

- Recomendações

- Detecção de fraude

- Feature engineering para aprendizado de máquina

Exemplos:

O Twitter usa o PageRank personalizado para apresentar aos usuários recomendações de outras contas que eles desejam seguir. O algoritmo é executado em um grafo que contém interesses compartilhados e conexões comuns.

O PageRank tem sido usado para classificar espaços públicos ou ruas, prevendo o fluxo de tráfego e o movimento humano nessas áreas. O algoritmo é executado em um grafo de interseções de estradas, onde a pontuação do PageRank reflete a tendência das pessoas de estacionar ou encerrar sua jornada em cada rua.

O PageRank também é usado como parte de um sistema de detecção de anomalias e fraudes nos setores de saúde e seguros. Ele ajuda a revelar médicos ou provedores que estão se comportando de maneira incomum e, em seguida, alimenta a pontuação em um algoritmo de aprendizado de máquina.

In [162]:
query = """
CALL gds.pageRank.stream(({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON1',
      orientation: 'UNDIRECTED',
      properties: {}
    }
  },
  relationshipWeightProperty: null,
  dampingFactor: 0.85,
  maxIterations: 20
})) YIELD nodeId, score
WITH gds.util.asNode(nodeId) AS node, score
RETURN node, score
ORDER BY score DESC
LIMIT 10
"""

pagerank_df = graph.run(query).to_data_frame()

In [163]:
pagerank_df

Unnamed: 0,node,score
0,"{'name': 'Ned', 'id': 'NED'}",5.773324
1,"{'name': 'Tyrion', 'id': 'TYRION'}",4.190598
2,"{'name': 'Catelyn', 'id': 'CATELYN'}",3.686004
3,"{'name': 'Robert', 'id': 'ROBERT'}",3.374287
4,"{'name': 'Robb', 'id': 'ROBB'}",2.962096
5,"{'name': 'Arya', 'id': 'ARYA'}",2.763848
6,"{'name': 'Jon', 'id': 'JON'}",2.565797
7,"{'name': 'Cersei', 'id': 'CERSEI'}",2.538828
8,"{'name': 'Joffrey', 'id': 'JOFFREY'}",2.453336
9,"{'name': 'Petyr', 'id': 'LITTLEFINGER'}",2.326795


--- 

### Betweenness Centrality

Às vezes, a engrenagem mais crítica do sistema não é aquela com o poder mais evidente ou o status mais alto. Às vezes, são os intermediários que conectam grupos com maior controle sobre os recursos ou o fluxo de informações.

A centralidade de intermediação é uma forma de detectar a quantidade de influência que um nó tem sobre o fluxo de informações em uma rede. É normalmente usado para localizar nós que servem como ponte de uma parte de um grafo para outra.


<img src="images/betweenness-centrality.png" width=600px height=600px /> 


O algoritmo de centralidade de intermediação primeiro calcula o caminho mais curto entre cada par de nós em um grafo conectado. Cada nó recebe uma pontuação com base no número desses caminhos mais curtos que passam pelo nó. Quanto mais caminhos mais curtos um nó estiver, maior será sua pontuação.

A centralidade de intermediação não escalona bem em grafos grandes, pois o algoritmo tem que calcular o caminho mais curto entre todos os pares de nós em uma rede. Por causa disso, algoritmos de aproximação de centralidade de intermediação foram desenvolvidos para permitir um cálculo mais rápido. O algoritmo RA-Brandes é o algoritmo mais conhecido para calcular uma pontuação aproximada para a centralidade do meio. Em vez de calcular o caminho mais curto entre cada par de nós, o algoritmo RA-Brandes considera apenas um subconjunto de nós. Brandes define várias estratégias para selecionar o subconjunto de nós. A implementação do GDSL é baseada na estratégia de seleção de grau aleatório, que seleciona nós com uma probabilidade proporcional ao seu grau. A ideia por trás dessa estratégia é que esses nós provavelmente estão em muitos caminhos mais curtos no gráfico e, portanto, têm uma contribuição maior para a pontuação de centralidade de intermediação.


**Por que usar Betweenness Centrality?**

Aqui está porque você usa a centralidade de intermediação:

- Identificar pontes

- Descubrir pontos de controle

- Encontre gargalos e vulnerabilidades

Exemplos:

- A centralidade de intermediação é usada para identificar influenciadores em várias organizações. Indivíduos poderosos não estão necessariamente em cargos de gestão, mas podem ser encontrados em "posições de corretagem" usando a centralidade entre as duas. A remoção de tais influenciadores desestabiliza seriamente a organização. Isso pode ser uma interrupção bem-vinda pela aplicação da lei se a organização for criminosa, ou pode ser um desastre se uma empresa perder funcionários importantes que nunca conheceu.

- Betweenness Centrality revela os principais pontos de transferência em redes, como redes elétricas. Contra-intuitivamente, a remoção de pontes específicas pode realmente melhorar a robustez geral por “ilhamento” de perturbações.

- Betweenness Centrality também é usado para ajudar os microbloggers a espalhar seu alcance no Twitter, com um mecanismo de recomendação para direcionar os influenciadores.

In [169]:
query = """
CALL gds.betweenness.stream(({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON3',
      orientation: 'UNDIRECTED',
      properties: {}
    }
  }
})
) YIELD nodeId, score
WITH gds.util.asNode(nodeId) AS node, score
RETURN node, score
ORDER BY score DESC
LIMIT 10
"""

betweeness = graph.run(query).to_data_frame()

In [170]:
betweeness

Unnamed: 0,node,score
0,"{'name': 'Robb', 'id': 'ROBB'}",1786.587028
1,"{'name': 'Ned', 'id': 'NED'}",1309.685467
2,"{'name': 'Robert', 'id': 'ROBERT'}",1209.538234
3,"{'name': 'Bran', 'id': 'BRAN'}",1110.616222
4,"{'name': 'Jon', 'id': 'JON'}",1020.311531
5,"{'name': 'Tywin', 'id': 'TYWIN'}",964.765495
6,"{'name': 'Catelyn', 'id': 'CATELYN'}",926.736354
7,"{'name': 'Sam', 'id': 'SAM'}",766.64777
8,"{'name': 'Tyrion', 'id': 'TYRION'}",740.183945
9,"{'name': 'Stannis', 'id': 'STANNIS'}",577.221646


---

## Centralidade de Grau


O algoritmo Grau de centralidade pode ser usado para localizar nós populares em um gráfico.
A centralidade de grau mede o número de relacionamentos de entrada ou saída (ou ambos) de um nó, dependendo da orientação de uma projeção de relacionamento. 

Pode ser aplicado a gráficos ponderados ou não ponderados.
No caso ponderado, o algoritmo calcula a soma de todos os pesos positivos de relacionamentos adjacentes de um nó, para cada nó do gráfico. Pesos não positivos são ignorados.

Onde é utilizado?

- A centralidade de grau é um componente importante de qualquer tentativa de determinar as pessoas mais importantes em uma rede social. 
- Determinar pontos de ônibus com alta demanda de passageiros ou oferta de linhas.

In [175]:
query = """
CALL gds.alpha.degree.stream(({
  nodeProjection: 'Character',
  relationshipProjection: {
    relType: {
      type: 'INTERACTS_SEASON1',
      orientation: 'UNDIRECTED',
      properties: {}
    }
  },
  relationshipWeightProperty: null
})) YIELD nodeId, score
WITH gds.util.asNode(nodeId) AS node, score
RETURN node.name as name, score
ORDER BY score DESC
LIMIT 10
"""

centrality_degree_df = graph.run(query).to_data_frame()

In [174]:
centrality_degree_df

Unnamed: 0,name,score
0,Ned,57.0
1,Tyrion,41.0
2,Catelyn,37.0
3,Robert,36.0
4,Robb,30.0
5,Cersei,29.0
6,Arya,28.0
7,Joffrey,27.0
8,Jon,26.0
9,Petyr,26.0


---

# REFERÊNCIAS

[networksciencebook](http://networksciencebook.com/) <br/>
[graphacademy](https://neo4j.com/graphacademy/)  
[graph-data-science-library](https://neo4j.com/product/graph-data-science-library/)