In [6]:
import torch
import torch_geometric

# PyG 의 Data 자료형 

> ref: <https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html#data-handling-of-graphs>

`-` 자료는 [PyG의 Data 오브젝트](https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html#data-handling-of-graphs)를 기반으로 한다. 



##### **예제1**: 아래와 같은 그래프자료를 고려하자.

![](https://pytorch-geometric.readthedocs.io/en/latest/_images/graph.svg)

`-` 이러한 자료형은 아래와 같은 형식으로 저장한다. 

In [81]:
edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = torch_geometric.data.Data(x=x, edge_index=edge_index) # torch_geometric.data.Data는 그래프자료형을 만드는 클래스

`-` data 의 자료형 

In [45]:
type(data)

torch_geometric.data.data.Data

`-` data의 `__str__`

In [83]:
data

Data(x=[3, 1], edge_index=[2, 4])

- `x=[3, 1]`: 이 자료는 3개의 노드가 있으며, 각 노드에는 1개의 feature가 있음
- `edge_index=[2, 4]`: ${\cal E}$는 총 4개의 원소가 있음. 

`-` 각 노드의 feature를 확인하는 방법 (즉 $f:{\cal V} \to \mathbb{R}^k$를 확인하는 방법)

In [46]:
data.x

tensor([[-1.],
        [ 0.],
        [ 1.]])

`-` ${\cal E}$를 확인하는 방법

In [47]:
data.edge_index

tensor([[0, 1, 1, 2],
        [1, 0, 2, 1]])

`-`

In [86]:
len(data)

2

##### **예제2**: 잘못된 사용 

`-` `edge_index`는 예제1과 같이 $[2,|{\cal E}|]$ 의 shape으로 넣어야 한다. 그렇지 않으면 에러가 난다.

In [41]:
edge_index = torch.tensor([[0, 1],
                           [1, 0],
                           [1, 2],
                           [2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = torch_geometric.data.Data(x=x, edge_index=edge_index)

In [42]:
#data.validate(raise_on_error=True)
data.validate()

ValueError: 'edge_index' needs to be of shape [2, num_edges] in 'Data' (found torch.Size([4, 2]))

##### **예제3**: 예제2의 수정

`-` `edge_index`의 shape이 $[|{\cal E}|,2]$ 꼴로 저장되어 있었을 경우 트랜스포즈이후 countiguous()함수를 사용하면 된다.^[그런데 그냥 transpose만 해도되는것 같음]

In [50]:
edge_index = torch.tensor([[0, 1],
                           [1, 0],
                           [1, 2],
                           [2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)

data = torch_geometric.data.Data(
    x=x, 
    edge_index=edge_index.t().contiguous()
)

In [51]:
#data.validate(raise_on_error=True)
data.validate()

True

# 벤치마크 데이터셋

`-` 데이터셋은 아래의 모듈안에 정리되어 있음 

In [55]:
dir(torch_geometric.datasets)[:5]

['AMiner', 'AQSOL', 'Actor', 'AirfRANS', 'Airports']

##### **데이터셋1**: TUDataset

`-` 다운로드 

In [57]:
dataset = torch_geometric.datasets.TUDataset(root='/tmp/ENZYMES', name='ENZYMES')

Downloading https://www.chrsmrrs.com/graphkerneldatasets/ENZYMES.zip
Extracting /tmp/ENZYMES/ENZYMES/ENZYMES.zip
Processing...
Done!


In [73]:
!ls /tmp

ENZYMES
quarto-sessiond5b3ef79
snap-private-tmp
systemd-private-4f024f2d80b94518847be2e97856b876-ModemManager.service-1Qybgi
systemd-private-4f024f2d80b94518847be2e97856b876-colord.service-mq8m9i
systemd-private-4f024f2d80b94518847be2e97856b876-switcheroo-control.service-Rmqqbh
systemd-private-4f024f2d80b94518847be2e97856b876-systemd-logind.service-yAqcVf
systemd-private-4f024f2d80b94518847be2e97856b876-systemd-resolved.service-Zl6rij
systemd-private-4f024f2d80b94518847be2e97856b876-systemd-timesyncd.service-VuyXbh
systemd-private-4f024f2d80b94518847be2e97856b876-upower.service-LtEUgj
tracker-extract-files.1000
tracker-extract-files.125


- `/tmp` 에 다운로드되어있음 

`-` 기본정보:  ENZYMES dataset

> (ChatGPT) ENZYMES는 그래프 분류를 위한 벤치마크 데이터셋 중 하나입니다. 이 데이터셋은 600개의 그래프로 구성되어 있으며, 6개의 클래스로 분류됩니다. 각 그래프는 효소(enzyme) 분자의 구조를 나타내며, 그래프의 노드는 원자(atom)를 나타내고, 엣지(edge)는 원자 간의 연결을 나타냅니다. ENZYMES 데이터셋은 화학 및 생물 정보학 분야에서 그래프 분류 알고리즘의 성능을 평가하기 위해 사용될 수 있습니다. 그래프 분류 알고리즘은 주어진 그래프를 특정 클래스 레이블로 분류하는 작업을 수행하는데 사용됩니다. 예를 들어, ENZYMES 데이터셋의 그래프는 특정 효소 종류를 나타내며, 그래프 분류 알고리즘은 주어진 효소 그래프가 어떤 종류의 효소인지 예측할 수 있습니다. PyG를 사용하여 ENZYMES 데이터셋을 초기화하면 해당 데이터셋을 다운로드하고 필요한 전처리를 자동으로 수행할 수 있습니다. 그래프 데이터를 다루는 머신 러닝 모델을 구축하고 훈련시키기 위해 ENZYMES 데이터셋을 사용할 수 있습니다.

In [104]:
dataset # 데이터셋 이름

ENZYMES(600)

In [105]:
len(dataset) # 이 데이터셋에는 600개의 그래프가 있음

600

In [106]:
dataset.num_classes # 6개의 클래스

6

In [107]:
dataset.num_node_features # 각 노드에는 3개의 피처가 있음

3

`-` 600개의 그래프중 첫번째 그래프에 접근 

In [111]:
dataset[0]

Data(edge_index=[2, 168], x=[37, 3], y=[1])

- `x=[37, 3]`: $|{\cal V}|=37$, $f \in \mathbb{R}^3$
- `edge_index=[2, 168]`: $|{\cal E}|=168$

`-` 600개의 그래프중 540를 train으로, 60개를 test로 

In [113]:
train_dataset = dataset[:540]
test_dataset = dataset[540:] 

##### **데이터셋2**: Cora

> ChatGPT: Cora는 그래프 분류를 위한 벤치마크 데이터셋 중 하나로, PyG에서도 사용할 수 있습니다. 이 데이터셋은 기계 학습 및 정보 검색 분야에서 널리 사용되는 학술 논문들의 인용 네트워크를 나타냅니다. Cora 데이터셋은 컴퓨터 과학 분야의 논문을 대상으로 합니다. 각 논문은 그래프의 노드로 표현되며, 노드는 논문을 나타냅니다. 노드 간의 엣지는 논문들 사이의 인용 관계를 나타냅니다. 따라서 Cora 데이터셋은 논문의 텍스트 기반 정보와 인용 관계에 대한 그래프 구조를 제공합니다. Cora 데이터셋은 7개의 클래스로 분류되며, 각 논문은 특성 벡터(feature vector)로 표현됩니다. 이 특성 벡터에는 논문의 단어 등 다양한 정보가 포함될 수 있습니다. PyG를 사용하여 Cora 데이터셋을 초기화하면 해당 데이터셋을 다운로드하고 전처리를 자동으로 수행할 수 있습니다. 이를 통해 머신 러닝 모델을 훈련시켜 Cora 데이터셋의 논문을 분류하거나 다양한 작업을 수행할 수 있습니다.

`-` 다운로드

In [114]:
dataset = torch_geometric.datasets.Planetoid(root='/tmp/Cora', name='Cora')

Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.x
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.tx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.allx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.y
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ty
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ally
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.graph
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.test.index
Processing...
Done!


`-` 기본정보

In [116]:
len(dataset) # 하나의 그래프가 있음

1

In [118]:
dataset.num_classes # 7개의 클래스가 있음

7

In [123]:
dataset.num_node_features # 각 노드는 1433개의 특징이 있음. (논문에 포함된 단어등 다양한 특성이 담겨있을 수 있음) 

1433

`-` 그래프에 접근

In [134]:
dataset[0] # 기본정보

Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708], train_mask=[2708], val_mask=[2708], test_mask=[2708])

- `x=[2708, 1433]`: 2708개의 논문이 있고, 각 논문은 1433개의 특징벡터들로 이루어져 있음. 
- `edge_index=[2, 10556]`: 논문간의 인용은 약 10556. 
- `y=[2708]`: 

In [131]:
dataset[0].x.shape # 2708개의 논문이 있고 1433개의 특징벡터를 가짐

torch.Size([2708, 1433])

In [129]:
dataset[0].y.unique() # 논문이 7개의 카테고리로 분류되는듯

tensor([0, 1, 2, 3, 4, 5, 6])

In [138]:
dataset[0].train_mask 
# dataset[0].train_mask 는 True, False로 이루어져 있는 길이가 2708(=노드수=논문수)인 벡터
# 여기에서 True인 노드만 훈련함

tensor([ True,  True,  True,  ..., False, False, False])

In [141]:
dataset[0].train_mask.sum() # 140개의 노드만 훈련함? 

tensor(140)

In [143]:
dataset[0].val_mask.sum() # val은 500개의 노드?

tensor(500)

In [144]:
dataset[0].test_mask.sum() # test set은 1000?

tensor(1000)