[How to do Deep Learning on Graphs with Graph Convolutional Networks](https://towardsdatascience.com/how-to-do-deep-learning-on-graphs-with-graph-convolutional-networks-7d2250723780)보면서 공부한거 정리

GCN의 간단한 예시를 numpy로 구현

In [1]:
import numpy as np

## 그래프

아래와 같은 그래프가 있다고 해보자

![1_jtw7doi_cqc_p9xqrmuu9a](https://user-images.githubusercontent.com/26184454/53575139-505dfe00-3bb4-11e9-84f0-2cf42d3244db.png)

이 그래프의  adjacency matrix는 아래와 같다.

In [2]:
A = np.matrix([
    [0, 1, 0, 0],
    [0, 0, 1, 1], 
    [0, 1, 0, 0],
    [1, 0, 1, 0]],
    dtype=float)
A

matrix([[0., 1., 0., 0.],
        [0., 0., 1., 1.],
        [0., 1., 0., 0.],
        [1., 0., 1., 0.]])

각 노드에서 나오는 방향의 연결을 나타낸 것이다.

- 0번째, [0., 1., 0., 0.]은 0번 노드에 1번으로 가서 두번째 인덱스만 1로 된 것이다.
- 1번째, [0, 0, 1, 1]은 1번에서 3번으로 가고, 1번과 2번은 양뱡향이여서 이렇게 표기된것이다. 이하 같은 방법으로 나타낸것이다.

A를 만들었으니, 이제 input feature X를 만들어 보자

가정 : 노드의 번호로 정하자

In [8]:
X = np.matrix([
            [i, -i]
            for i in range(A.shape[0])], dtype=float)
X

matrix([[ 0.,  0.],
        [ 1., -1.],
        [ 2., -2.],
        [ 3., -3.]])

Propagation을 적용할때 weight 초기값을 적용해서 행렬곱 AX라고 전파는 가정하자

In [9]:
A * X

matrix([[ 1., -1.],
        [ 5., -5.],
        [ 1., -1.],
        [ 2., -2.]])

결과는 매우 놀랍다! 
- 0번째 1은 0번 노드에서 뻗어나온 방향으로 1이 있어서 1이 되었다.
- 1번째 5는 1번 노드에서 2번과 3번 노드로 향하기 때문에 둘의 합인 5가 나왔다.
- 2번째 1은 2번 노드에서 1번 노드랑만 양방향으로 연결되서 1이 나왔다.
- 3번째 2는 3번 노드가 0번과 2번 노드에 연결되어 있고 둘의 합은 2이다.

즉 연결된 노드의 합이 결과로 나왔다!

하지만 아래와 같은 문제점들이 있다.

- represent에 노드 자체의 feature가 없다!
- Nodes with large degrees will have large values in their feature representation while nodes with small degrees will have small values. 나중에 기울기 알고리즘 적용할때 발산하거나 없어질 수도 있다. 

첫번째 문제를 해결 하기 위해 self-looping 을 추가하며, 두번째 문제를 해결하기 위해 노멀라이제이션을 적용한다.

## Self - Looping

In [10]:
I = np.matrix(np.eye(A.shape[0]))
I

matrix([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]])

In [12]:
A_hat = A + I
A_hat

matrix([[1., 1., 0., 0.],
        [0., 1., 1., 1.],
        [0., 1., 1., 0.],
        [1., 0., 1., 1.]])

In [13]:
A_hat * X

matrix([[ 1., -1.],
        [ 6., -6.],
        [ 3., -3.],
        [ 5., -5.]])

노드 자기 자신의 feature까지 포함됐다!

## Normalizing the Feature Representations

Degree matrix (얼마나 연결 되어있는가, 즉 edge의 수가 담긴 행렬?)의 역행렬을 곱해서 해결

In [15]:
# Degree
D = np.array(np.sum(A, axis=0))[0]
D = np.matrix(np.diag(D))
D

matrix([[1., 0., 0., 0.],
        [0., 2., 0., 0.],
        [0., 0., 2., 0.],
        [0., 0., 0., 1.]])

In [17]:
# Normalization 적용
D**-1 * A

matrix([[0. , 1. , 0. , 0. ],
        [0. , 0. , 0.5, 0.5],
        [0. , 0.5, 0. , 0. ],
        [1. , 0. , 1. , 0. ]])

이제 두 해결법을 합치면서, 가중치랑 활성화 함수도 도입하자

In [20]:
#가중치
W = np.matrix([
             [1, -1],
             [-1, 1]])

# D_hat
D_hat = D + I

# 다 합친거
D_hat**-1 * A_hat * X * W

matrix([[ 1., -1.],
        [ 4., -4.],
        [ 2., -2.],
        [ 5., -5.]])

In [21]:
# 다른 가중치 (차원 축소를 원할 경우)
W = np.matrix([
             [1],
             [-1]
         ])
# D_hat
D_hat = D + I

# 다 합친거
D_hat**-1 * A_hat * X * W

matrix([[1.],
        [4.],
        [2.],
        [5.]])

## 활성화 함수

In [30]:
def relu(x):
    return np.maximum(x, 0)

In [31]:
W = np.matrix([
             [1, -1],
             [-1, 1]])

D_hat**-1 * A_hat * X * W

matrix([[ 1., -1.],
        [ 4., -4.],
        [ 2., -2.],
        [ 5., -5.]])

In [32]:
relu(D_hat**-1 * A_hat * X * W)

matrix([[1., 0.],
        [4., 0.],
        [2., 0.],
        [5., 0.]])