# Instalação

A fim de desenvolver modelos de deep learning para grafos, será necessário instalar o módulo Pytorch Geometric. Para tanto, iremos desinstalar a versão atual do Pytorch pelo seguinte código:

In [1]:
'''
!pip3 uninstall torchtext -y
!pip3 uninstall torchvision -y
!pip3 uninstall torch -y
'''

'\n!pip3 uninstall torchtext -y\n!pip3 uninstall torchvision -y\n!pip3 uninstall torch -y\n'

A partir disso, iremos instalar a versão 1.9.0, anterior a atual:

In [2]:
#!pip3 install torch==1.9.0

Com isso, poderemos baixar o pacote do Pytorch Geometric. Caso não seja instalado, reinicie a máquina, pois a instalação da nova versão do Pytorch pode não ter sido salva corretamente na máquina virtual.

In [3]:
'''
import torch

if torch.__version__ != '1.9.0+cu102':
    print('Versão do pytorch inadequada! Favor reiniciar a máquina virtual.')
else:    
    pytorch_version=f'torch-{torch.__version__}.html'
    !pip3 install --no-index torch-scatter -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-sparse -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-cluster -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-spline-conv -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install torch-geometric
'''

"\nimport torch\n\nif torch.__version__ != '1.9.0+cu102':\n    print('Versão do pytorch inadequada! Favor reiniciar a máquina virtual.')\nelse:    \n    pytorch_version=f'torch-{torch.__version__}.html'\n    !pip3 install --no-index torch-scatter -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-sparse -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-cluster -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-spline-conv -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install torch-geometric\n"

# 1- Representação de um grafo

Como introdução ao PyG, vamos construir o grafo definido pela equação abaixo:

$$ G = \{ V, E \} $$

Em que:

$$ V = \{ \{0, 1, 2 \} \} $$
$$ E = \{ \{0, 1\}, \{1, 2\} \} $$

Note que o grafo G é composto por três vértices {0,1,2} e por duas arestas {{0,1},{1,2}}, sendo não dirigido.

No PyG, um grafo é representado como uma instância da classe <code>torch_geometric.data.Data</code>. Portanto, devemos importá-la de modo a construir o grafo. 

Além disso, importaremos também o módulo <code>torch</code> com a finalidade de utilizar algumas funcionalidades do Pytorch, como os tensores.

In [4]:
import torch
from torch_geometric.data import Data

## 1.1- Representando as arestas

A classe <code>Data</code> espera receber a representação das arestas no formato <code>COO</code> (COOrdinate). Nele, a conectividade do grafo é representada por meio de uma matriz com duas linhas, a primeira se referindo aos vértices de origem; a segunda, aos de destino. Dessa forma, os dois vértices em uma mesma coluna compõem a aresta em questão.

Usualmente,tal matriz é referida como <code>edge_index</code>, sendo implementada por um tensor do tipo <code>torch.long</code>:

In [5]:
edge_index = torch.tensor([[0, 1, 1, 2],
                          [1, 0, 2, 1]], dtype=torch.long)
edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

Perceba que, na primeria coluna, encontram-se os vértices 0 e 1 respectivamente, representando uma aresta que parte de 0 em direção a 1. Já na segunda coluna, novamente encontramos os vértices 0 e 1, porém na ordem inversa, indicando que agora a aresta parte de 1 em direção a 0. 


Tal notação, embora pareça redundante, é necessária para sinalizar que o grafo é não dirigido. O mesmo padrão se repete para as duas últimas colunas, as quais representam a aresta {1,2}.

Outra forma de definir as arestas seria por meio de uma lista de tuplas. Porém, de modo a manter o formato COO, precisamos realizar a transposição do tensor, por meio do método <code>t</code>, além de aplicar o método <code>contiguous</code> em seguida.

In [6]:
edge_index = torch.tensor([[0,1],
                           [1,0],
                           [1,2],
                           [2,1]], dtype=torch.long)

edge_index = edge_index.t().contiguous()
edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

## 1.2 - Representando as _features_

Para esse exemplo, cada nó terá apenas uma _feature_. Dessa forma, podemos definir o tensor como uma matriz coluna, em que cada linha representa as _features_ dos nós 0, 1 e 2 respectivamente. 

Como as _features_ são as variáveis independentes do modelo, iremos referenciar tal tensor como <code>x</code>, além de atribuir o tipo de dado <code>torch.float</code>.

In [7]:
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
x

tensor([[-1.],
        [ 0.],
        [ 1.]])

## 1.3 - Criando a representação do grafo

Por fim, de modo a representar o grafo G, precisamos apenas criar uma instância da classe <code>Data</code>, passando os tensores como argumentos do construtor.

In [8]:
data = Data(x=x, edge_index=edge_index)
data

Data(x=[3, 1], edge_index=[2, 4])

Dessa forma, criamos a representação do grafo G, indicado pela imagem abaixo, no PyG. 

<figure>
<img src="img/graph.svg" alt="Grafo" width='400'>
    <figcaption>
        <em>Fonte: 
            <a href='https://pytorch-geometric.readthedocs.io/en/latest/'>Documentação do Pytorch Geometric</a>
        </em>
    </figcaption>
</figure>



## 1.4 - Atributos e métodos

A classe <code>Data</code> contem diversos parâmetros que retornam informações importantes da representação do grafo. Por exemplo, podemos visualizar a matriz que representa as arestas no formato COO:

In [9]:
data.edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

A fim da melhor visualização, podemos transpor essa matriz:

In [10]:
data.edge_index.t()

tensor([[0, 1],
        [1, 0],
        [1, 2],
        [2, 1]])

Podemos visualizar também a matriz de _features_ que guarda as variáveis independentes do modelo:

In [11]:
data.x

tensor([[-1.],
        [ 0.],
        [ 1.]])

Podemos saber a quantidade de nós do grafo:

In [12]:
data.num_nodes

3

Bem como o número de arestas:

In [13]:
data.num_edges

4

Além da quantidade de _features_ por nó:

In [14]:
data.num_features

1

Além disso, há métodos que retornnam também outras informações gerais acerca do grafo, como se ele possui nós isolados:

In [15]:
data.has_isolated_nodes()

False

Se possui grafos conectados a si (_self loops_):

In [16]:
data.has_self_loops()

False

Por fim, se o grafo é dirigido:

In [17]:
data.is_directed()

False

# 2- Dataset Cora

Até o presente momento, apenas verificamos como o PyG representa um grafo, bem como as informações que podemos extrair dele. A partir disso, já podemos trabalhar com um exemplo real.

Para tanto, o PyG disponibiliza diversos datasets, dentre eles, o <code>Cora</code>, presente na coleção <code>Planetoid</code>, um dos mais empregados para benchmark. Abaixo, há uma breve descrição do dataset:

>
>O dataset Cora é constituído por 2708 publicações de Machine Learning classificadas entre 7 categorias:
> - Baseado em Caso
> - Algortimos Genéticos
> - Redes Neurais
> - Métodos Probabilísticos
> - Aprendizagem por Reforço
> - Regra de Aprendizagem
> - Teoria
>
>Os artigos foram selecionados de sorte que todos citam ou são citados por ao menos outro artigo. No total, há 5429 links de citação.
>
>Com base na frequência de palavras relevantes dos documentos, foi criado um vocabulário com 1433 palavras únicas. Cada publicação é descrito por um vetor binário que corresponde a presença ou ausência de determinada palavra do vocabulário.
>
>_Fonte: https://linqs.soe.ucsc.edu/data_

A partir da descrição acima, podemos inferir algumas características do grafo que representa o dataset <code>Cora</code>. Nesse contexto, as publicações são referentes aos nós; as citações, às arestas. Além disso, o vetor binário indicando a presença ou ausência de palavras do vocabulário na publicação representa o vetor de _features_ de cada nó. 

Dessa forma, teríamos um grafo com 2708 nós (publicações), 5429 arestas (links de citação) e 1433 _features_ para cada nó. Podemos ter uma breve ideia da forma desse grafo com base na imagem abaixo. Cada cor represente uma dentre as 7 classes (_labels_) possíveis para os nós:

<figure>
<img src="img/cora.jpg" alt="Cora" width='450'>
    <figcaption>
        <em>Fonte: 
            <a href='https://paperswithcode.com/dataset/cora'>PapersWithCode</a>
        </em>
    </figcaption>
</figure>


## 2.1- Importando o dataset

Para ter acesso a qualquer dataset disponibilizado pelo PyG, deve-se importar a classe referente à coleção do dataset a partir de <code>torch_geometric.datasets</code>. Nesse caso, o Cora está presente na coleção <code>Planetoid</code>. 

In [18]:
from torch_geometric.datasets import Planetoid

Agora, devemos especificar o diretório de destino (<code>root</code>), bem como o nome (<code>name</code>) do dataset. Caso não se encontre no local, então o PyG irá realizar o download dos arquivos brutos (_raw_) do dataset, convertendo posteriormente para o formato <code>Data</code> já discutido. 

In [19]:
dataset = Planetoid(root='.', name='Cora')

No exemplo acima, o destino final do dataset é o mesmo diretório deste notebook <code>'.'</code>. Então, é possível visualizar a criação da pasta Cora. Dentro dela, há duas pastas: _raw_ e _processed_. Na primeira, constam os arquivos originais do dataset; na segundo, os empregados pelo PyG para representar o dataset como um grafo no formato <code>Data</code> originados a partir do processamentos dos primeiros.

## 2.2- Visualizando o dataset

Uma vez inicializado, podemos visualizar algumas informações do dataset. Por exemplo, seu tamanho, isto é, a quantidade de grafos que possui:

In [20]:
len(dataset)

1

No total, há apenas um grande grafo que representa todo o dataset. Além disso, podemos verificar a quantidade de classes (_labels_) dos nós:

In [21]:
dataset.num_classes

7

Conforme exposto pela descrição, há de fato 7 classes. Podemos também verificar o número de _features_ dos nós:

In [22]:
dataset.num_node_features

1433

Dessa forma, é possível constatar que há 1433 _features_ de fato por nó.

Agora, vamos referenciar o grafo do dataset. Nesse caso, como mencionado, há apenas um grande grafo, porém há datasets que contêm diversos grafos, especialmente para problemas de classificação em nível de nó, cada um acessado por meio de um index posicional.

In [23]:
data = dataset[0]

A partir disso, podemos verificar se o grafo retornado realmente é uma instância da classe <code>Data</code> conforme mencionado.

In [24]:
text = 'O grafo é instâncida de Data' if isinstance(data, Data) else 'O grafo não é instância de Data'
print(f'>> {text}')

>> O grafo é instâncida de Data


Além disso, podemos verificar também se é um grafo dirigido ou não:

In [25]:
text = 'O grafo não é dirigido' if data.is_undirected() else 'O grafo é dirigido'
print(f'>> {text}')

>> O grafo não é dirigido


Bem como a quantidade de nós e de arestas. Lembre que as arestas são computadas duas vezes na representação de um grafo não dirigido. Portando, devemos dividir o resultado pela metade.

In [27]:
num_nodes = data.num_nodes
num_edges = data.num_edges
print(f'>> # de nós: {num_nodes}')
print(f'>> # de arestas: {num_edges//2}')

>> # de nós: 2708
>> # de arestas: 5278


Dessa forma, constatamos haver 2708 nós (_publicações_), porém um pouco menos de arestas (_links de citações_) mencionadas na descrição. 

Outra forma 