# Instalação

A fim de desenvolver modelos de deep learning para grafos, será necessário instalar o módulo Pytorch Geometric. Para tanto, iremos desinstalar a versão atual do Pytorch pelo seguinte código:

In [1]:
'''
!pip3 uninstall torchtext -y
!pip3 uninstall torchvision -y
!pip3 uninstall torch -y
'''

'\n!pip3 uninstall torchtext -y\n!pip3 uninstall torchvision -y\n!pip3 uninstall torch -y\n'

A partir disso, iremos instalar a versão 1.9.0, anterior a atual:

In [2]:
#!pip3 install torch==1.9.0

Com isso, poderemos baixar o pacote do Pytorch Geometric. Caso não seja instalado, reinicie a máquina, pois a instalação da nova versão do Pytorch pode não ter sido salva corretamente na máquina virtual.

In [3]:
'''
import torch

if torch.__version__ != '1.9.0+cu102':
    print('Versão do pytorch inadequada! Favor reiniciar a máquina virtual.')
else:    
    pytorch_version=f'torch-{torch.__version__}.html'
    !pip3 install --no-index torch-scatter -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-sparse -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-cluster -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install --no-index torch-spline-conv -f https://pytorch-geometric.com/whl/$pytorch_version
    !pip3 install torch-geometric
'''

"\nimport torch\n\nif torch.__version__ != '1.9.0+cu102':\n    print('Versão do pytorch inadequada! Favor reiniciar a máquina virtual.')\nelse:    \n    pytorch_version=f'torch-{torch.__version__}.html'\n    !pip3 install --no-index torch-scatter -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-sparse -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-cluster -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install --no-index torch-spline-conv -f https://pytorch-geometric.com/whl/$pytorch_version\n    !pip3 install torch-geometric\n"

# 1- Representação de um grafo

Como introdução ao PyG, vamos construir o grafo definido pela equação abaixo:

$$ G = \{ V, E \} $$

Em que:

$$ V = \{ \{0, 1, 2 \} \} $$
$$ E = \{ \{0, 1\}, \{1, 2\} \} $$

Note que o grafo G é composto por três vértices {0,1,2} e por duas arestas {{0,1},{1,2}}, sendo não dirigido.

No PyG, um grafo é representado como uma instância da classe <code>torch_geometric.data.Data</code>. Portanto, devemos importá-la de modo a construir o grafo. 

Além disso, importaremos também o módulo <code>torch</code> com a finalidade de utilizar algumas funcionalidades do Pytorch, como os tensores.

In [4]:
import torch
from torch_geometric.data import Data

## 1.1- Representando as arestas

A classe <code>Data</code> espera receber a representação das arestas no formato <code>COO</code> (COOrdinate). Nele, a conectividade do grafo é representada por meio de uma matriz com duas linhas, a primeira se referindo aos vértices de origem; a segunda, aos de destino. Dessa forma, os dois vértices em uma mesma coluna compõem a aresta em questão.

Usualmente,tal matriz é referida como <code>edge_index</code>, sendo implementada por um tensor do tipo <code>torch.long</code>:

In [5]:
edge_index = torch.tensor([[0, 1, 1, 2],
                          [1, 0, 2, 1]], dtype=torch.long)
edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

Perceba que, na primeria coluna, encontram-se os vértices 0 e 1 respectivamente, representando uma aresta que parte de 0 em direção a 1. Já na segunda coluna, novamente encontramos os vértices 0 e 1, porém na ordem inversa, indicando que agora a aresta parte de 1 em direção a 0. 


Tal notação, embora pareça redundante, é necessária para sinalizar que o grafo é não dirigido. O mesmo padrão se repete para as duas últimas colunas, as quais representam a aresta {1,2}.

Outra forma de definir as arestas seria por meio de uma lista de tuplas. Porém, de modo a manter o formato COO, precisamos realizar a transposição do tensor, por meio do método <code>t</code>, além de aplicar o método <code>contiguous</code> em seguida.

In [6]:
edge_index = torch.tensor([[0,1],
                           [1,0],
                           [1,2],
                           [2,1]], dtype=torch.long)

edge_index = edge_index.t().contiguous()
edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

## 1.2 - Representando as _features_

Para esse exemplo, cada nó terá apenas uma _feature_. Dessa forma, podemos definir o tensor como uma matriz coluna, em que cada linha representa as _features_ dos nós 0, 1 e 2 respectivamente. 

Como as _features_ são as variáveis independentes do modelo, iremos referenciar tal tensor como <code>x</code>, além de atribuir o tipo de dado <code>torch.float</code>.

In [7]:
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
x

tensor([[-1.],
        [ 0.],
        [ 1.]])

## 1.3 - Criando a representação do grafo

Por fim, de modo a representar o grafo G, precisamos apenas criar uma instância da classe <code>Data</code>, passando os tensores como argumentos do construtor.

In [8]:
data = Data(x=x, edge_index=edge_index)
data

Data(x=[3, 1], edge_index=[2, 4])

Dessa forma, criamos a representação do grafo G, indicado pela imagem abaixo, no PyG. 

<figure>
    <img src="img/graph.svg" alt="Grafo" width='400'>
    <figcaption style="font-size: 12px; text-align: center;">
        <em> 
            Fonte: 
                <a href="https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html"> 
                    Documentação do Pytorch Geometric
                </a> 
        </em> 
    </figcaption>
</figure>


## 1.4 - Atributos e métodos

A classe <code>Data</code> contem diversos parâmetros que retornam informações importantes da representação do grafo. Por exemplo, podemos visualizar a matriz que representa as arestas no formato COO:

In [9]:
data.edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

A fim da melhor visualização, podemos transpor essa matriz:

In [10]:
data.edge_index.t()

tensor([[0, 1],
        [1, 0],
        [1, 2],
        [2, 1]])

Podemos visualizar também a matriz de _features_ que guarda as variáveis independentes do modelo:

In [11]:
data.x

tensor([[-1.],
        [ 0.],
        [ 1.]])

Podemos saber a quantidade de nós do grafo:

In [12]:
data.num_nodes

3

Bem como o número de arestas:

In [13]:
data.num_edges

4

Além da quantidade de _features_ por nó:

In [14]:
data.num_features

1

Além disso, há métodos que retornnam também outras informações gerais acerca do grafo, como se ele possui nós isolados:

In [15]:
data.has_isolated_nodes()

False

Se possui grafos conectados a si (_self loops_):

In [16]:
data.has_self_loops()

False

Por fim, se o grafo é dirigido:

In [17]:
data.is_directed()

False

# 2- Datasets

O PyG disponibiliza diversas coleções comuns de datasets para benchmark. Dentre elas, podemos citar a <a href='https://chrsmrrs.github.io/datasets/docs/datasets/'>TUDataset</a>, contendo diversos datasets para classificação e regressão de grafos em campos como química, bioinformática, visão computacional e redes sociais.

## 2.1 - Inicializando o dataset

Para ter acesso a um dataset específico, deve-se importar a classe com o nome da coleção a partir de <code>torch_geometric.datasets</code>. Então, repassar para o construtor o local onde se deseja realizar o download do dataset (<code>root</code>), bem como o nome (<code>name</code>). 

O PyG então irá realizar o download dos arquivos brutos (_raw_) do dataset, convertendo posteriormente para o formato <code>Data</code> já discutido. Por exemplo, podemos inicializar o dataset ENZYMES da referida coleção <a href='https://chrsmrrs.github.io/datasets/docs/datasets/'>TUDataset</a>. 

In [18]:
from torch_geometric.datasets import TUDataset

dataset = TUDataset(root='.', name='ENZYMES')

Se verificarmos o diretório deste notebook, encontraremos agora uma pasta denominada ENZYMES. Dentro dela, haverá a pasta _raw_, contendo os arquivos originais do dataset, e _processed_, contendo os arquivos empregados pelo PyG para representar os grafos no formato <code>Data</code>.

Se entrarmos em _raw_, encontraremos o arquivo <a href='ENZYMES/raw/README.txt'>README.txt</a>, contendo uma breve descrição do dataset:

>ENZYMES é um dataset de estruturas terciárias de proteínas obtido de (Borgwardt et al., 2005) consistindo de 600 enzimas do dataset de enzimas BRENDA (Schomburg et al., 2004). Nesse caso, a tarefa é atribuir corretamente cada enzima para uma das 6 classes de EC(Enzyme Commission).

## 2.2- Visualizando informações do dataset

Apesar do texto abordar conceitos fora do nosso conhecimento, vamos focar em duas propriedades importantes desse dataset. 

A primeira é o número de grafos. Segundo a descrição, há 600 enzimas, ou seja, 600 grafos, o que pode ser constatado por meio de:

In [19]:
len(dataset)

600

A segunda é o número de classes, isto é, aquilo que desejamos predizer. Segunda a descrição, há 6 classes, o que pode ser constatado por meio de:

In [20]:
dataset.num_classes

6

Além disso, podemos verificar a quantidade de _features_ por nó:

In [21]:
dataset.num_node_features

3

## 2.3- Visualizando informações de uma amostra

Agora, vamos pegar uma amostra do dataset:

In [22]:
data = dataset[0]

Inicialmente, podemos verificar que a amostra realmente é do tipo <code>Data</code> conforme mencionado:

In [65]:
print('>> O grafo{} é instâncida de Data'.format('' if isinstance(data, Data) else ' não'))

>> O grafo é instâncida de Data


A partir disso, podemos aplicar alguns métodos apresentados anteriormente. Por exemplo, podemos verificar se o grafo é dirigido ou não:

In [66]:
print('>> O grafo{} é dirigido'.format('' if data.is_directed() else ' não'))

>> O grafo não é dirigido


Podemos verificar a quantidade de nós e de arestas do grafo. Como o grafo é não dirigido, o número de arestas é computado duas vezes. Então, devemos dividir por dois:

In [58]:
print('>> # de nós: ', data.num_nodes)
print('>> # de arestas: ', data.num_edges//2)

>> # de nós:  37
>> # de arestas:  84


Podemos visualizar a matriz de _features_ do grafo:

In [61]:
data.x

tensor([[1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [1., 0., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.]])

Conforme informado anteriormente, podemos notar que há 3 _features_ por nó realmente.

Por fim, podemos visualizar a qual classe pertence esse grafo:

In [67]:
data.y

tensor([5])

## 2.4- Dividindo o dataset

Um passo importante no treinamento de qualquer modelo de Deep Learning é separar o dataset em conjunto de treinamento e de validação. 

Antes da divisão, é interessante que o dataset seja embaralhado aleatoriamente, o que pode ser feito por meio de:

In [68]:
dataset = dataset.shuffle()

Então, podemos empregar slices para dividir o dataset. Por exemplo, se desejarmos reserver 90% do dataset para o treinamento, podemos realizar o seguinte cálculo:

In [79]:
index= 90*len(dataset)//100
index

540

Empregando posteriormente na divisão:

In [82]:
train_dataset = dataset[:index]
valid_dataset = dataset[index:]

train_dataset, valid_dataset

(ENZYMES(540), ENZYMES(60))

# To be continued

In [84]:
from torch_geometric.datasets import Planetoid

dataset = Planetoid(root='/tmp/Cora', name='Cora')

Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.x
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.tx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.allx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.y
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ty
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ally
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.graph
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.test.index
Processing...
Done!


In [85]:
len(dataset)

1

In [86]:
dataset.num_classes

7

In [87]:
dataset.num_node_features

1433

In [88]:
data = dataset[0]

In [92]:
data.y

tensor([3, 4, 4,  ..., 3, 3, 3])

In [97]:
data.train_mask.sum()

tensor(140)

In [98]:
data.val_mask.sum()

tensor(500)

In [99]:
data.test_mask.sum()

tensor(1000)

In [100]:
data

Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708], train_mask=[2708], val_mask=[2708], test_mask=[2708])