In [29]:
import torch_geometric

In [67]:
dataset = torch_geometric.datasets.TUDataset(
    root='/tmp/ENZYMES', 
    name='ENZYMES', 
    use_node_attr=True
)

> (ChatGPT) ENZYMES는 그래프 분류를 위한 벤치마크 데이터셋 중 하나입니다. 이 데이터셋은 600개의 그래프로 구성되어 있으며, 6개의 클래스로 분류됩니다. 각 그래프는 효소(enzyme) 분자의 구조를 나타내며, 그래프의 노드는 원자(atom)를 나타내고, 엣지(edge)는 원자 간의 연결을 나타냅니다. ENZYMES 데이터셋은 화학 및 생물 정보학 분야에서 그래프 분류 알고리즘의 성능을 평가하기 위해 사용될 수 있습니다. 그래프 분류 알고리즘은 주어진 그래프를 특정 클래스 레이블로 분류하는 작업을 수행하는데 사용됩니다. 예를 들어, ENZYMES 데이터셋의 그래프는 특정 효소 종류를 나타내며, 그래프 분류 알고리즘은 주어진 효소 그래프가 어떤 종류의 효소인지 예측할 수 있습니다. PyG를 사용하여 ENZYMES 데이터셋을 초기화하면 해당 데이터셋을 다운로드하고 필요한 전처리를 자동으로 수행할 수 있습니다. 그래프 데이터를 다루는 머신 러닝 모델을 구축하고 훈련시키기 위해 ENZYMES 데이터셋을 사용할 수 있습니다.

In [31]:
len(dataset) # 이 데이터셋에는 600개의 그래프가 있음

600

In [32]:
dataset.num_classes # 6개의 클래스

6

In [33]:
dataset.num_node_features # 각 노드에는 3개의 피처가 있음

21

`-` 600개의 그래프중 첫번째 그래프에 접근 

In [34]:
dataset[0]

Data(edge_index=[2, 168], x=[37, 21], y=[1])

- `x=[37, 3]`: $|{\cal V}|=37$, $f \in \mathbb{R}^3$
- `edge_index=[2, 168]`: $|{\cal E}|=168$

`-` dataset $\to$ loader 

In [35]:
loader = torch_geometric.loader.DataLoader(dataset, batch_size=32, shuffle=True)

In [36]:
for i,batch in enumerate(loader):
    print(i,batch)

0 DataBatch(edge_index=[2, 3638], x=[963, 21], y=[32], batch=[963], ptr=[33])
1 DataBatch(edge_index=[2, 4268], x=[1073, 21], y=[32], batch=[1073], ptr=[33])
2 DataBatch(edge_index=[2, 3848], x=[997, 21], y=[32], batch=[997], ptr=[33])
3 DataBatch(edge_index=[2, 4378], x=[1096, 21], y=[32], batch=[1096], ptr=[33])
4 DataBatch(edge_index=[2, 3998], x=[1045, 21], y=[32], batch=[1045], ptr=[33])
5 DataBatch(edge_index=[2, 4006], x=[1043, 21], y=[32], batch=[1043], ptr=[33])
6 DataBatch(edge_index=[2, 4412], x=[1154, 21], y=[32], batch=[1154], ptr=[33])
7 DataBatch(edge_index=[2, 3998], x=[1043, 21], y=[32], batch=[1043], ptr=[33])
8 DataBatch(edge_index=[2, 4388], x=[1205, 21], y=[32], batch=[1205], ptr=[33])
9 DataBatch(edge_index=[2, 3606], x=[1054, 21], y=[32], batch=[1054], ptr=[33])
10 DataBatch(edge_index=[2, 3848], x=[997, 21], y=[32], batch=[997], ptr=[33])
11 DataBatch(edge_index=[2, 3736], x=[991, 21], y=[32], batch=[991], ptr=[33])
12 DataBatch(edge_index=[2, 3908], x=[1017, 21

In [44]:
600/32 # 600개 그래프를 32개씩 쪼개서 배치를 만듬

18.75

`-` batch에 대하여 알아보자. 

In [52]:
type(batch)

torch_geometric.data.batch.DataBatch

In [66]:
dataset[0].x.shape

torch.Size([37, 21])