# Reference

[공식홈](https://docs.pygod.org/en/latest/generated/pygod.detector.ANOMALOUS.html)

[paper](https://www.ijcai.org/Proceedings/2018/0488.pdf)

[교수님께서 알려주신 사이트](https://pycaret.gitbook.io/docs/get-started/quickstart#anomaly-detection)

`Summary`

- 노드당 매핑된 attribute로 이상치를 계산해낸다.
- 그래서 attribute 특징마다 나오는 이상치라고 칭하는 노드가 다른 것 같다.
- 노드 정보와 네트워크를 기반으로 rare하거나 상당히 differ한 인스턴스 집합 찾는 것을 목표로 한다.

[데이터셋 논문](https://arxiv.org/pdf/1603.08861.pdf)

# Import

In [1]:
import pygod
import numpy as np
import torch_geometric.transforms as T
from torch_geometric.datasets import Planetoid

import torch
from pygod.generator import gen_contextual_outlier, gen_structural_outlier

from pygod.utils import load_data

from pygod.metric import eval_roc_auc

from pygod.detector import ANOMALOUS

  from .autonotebook import tqdm as notebook_tqdm


# Tutorial

## CiteSeer Dataset

In [68]:
data = Planetoid('./data/CiteSeer', 'CiteSeer', transform=T.NormalizeFeatures())[0]

In [69]:
data

Data(x=[3327, 3703], edge_index=[2, 9104], y=[3327], train_mask=[3327], val_mask=[3327], test_mask=[3327])

`gen_contextual_outlier`의 역할: Generating contextual outliers

- 임의로 선택한 노드 중 그 노드들끼리 얼마나 떨어져 있나?

In [70]:
data, ya = gen_contextual_outlier(data, n=100, k=50)

In [71]:
ya

tensor([0, 0, 0,  ..., 0, 0, 0])

In [72]:
len(sum(np.where(ya==1)))

100

In [73]:
len(sum(np.where(ya==0)))

3227

In [74]:
len(ya)

3327

`gen_structural_outlier`의 역할: Generating structural outliers

- 임의로 선택한 노드들이 fully connected 되어있을때 그 집단과 얼마나 많이 다른가??

In [75]:
data, ys = gen_structural_outlier(data, m=10, n=10)

In [76]:
ys

tensor([0, 1, 0,  ..., 0, 0, 0])

In [77]:
len(sum(np.where(ys==1)))

100

In [78]:
len(sum(np.where(ys==0)))

3227

In [79]:
len(ys)

3327

위에서 찾은 이상치 간에 `torch.logical_or` 논리 or 생성

In [80]:
data.y = torch.logical_or(ys, ya).long()

In [81]:
data.y

tensor([0, 1, 0,  ..., 0, 0, 0])

In [82]:
len(sum(np.where(data.y==1)))

196

In [83]:
len(sum(np.where(data.y==0)))

3131

In [84]:
len(data.y)

3327

In [85]:
data = load_data('inj_cora')
data.y = data.y.bool()

In [86]:
data.y

tensor([False, False, False,  ..., False, False, False])

`self.bool` 로 참인지 거짓인지 가릴 수 있다.

- 여기서는 참이면 이상치인듯

'ANOMALOUS' 함수 사용

In [87]:
detector = ANOMALOUS(gamma=1.,
                     weight_decay=0.,
                     lr=0.01,
                     epoch=50,
                     gpu=-1,
                     contamination=0.1,
                     verbose=0)

In [88]:
detector.fit(data)

ANOMALOUS(contamination=0.1, epoch=50, gamma=1.0, gpu=None, lr=0.01,
          verbose=0, weight_decay=0.0)

```python
class ANOMALOUSBase(nn.Module):
    def __init__(self, w, r):
        super(ANOMALOUSBase, self).__init__()
        self.w = nn.Parameter(w)
        self.r = nn.Parameter(r)

    def forward(self, x):
        return x @ self.w @ x, self.r
```

In [89]:
detector.decision_function(data)



tensor([0.0754, 0.0740, 0.0731,  ..., 0.0788, 0.0767, 0.0741])

위에서 decision_function의 결과로 나오는 decision_score는 r의 제곱이며, 이 r은 model에서 나온 결과인데 이 model은 ANOMALOUSBase(w_init, r_init)의 결과이다.

이 r_init은 ANOMALOUS class 내에 있는 x, s, l, w_init, r_init = self.process_graph(data) 여기서 나온다.

`-` return되는 거는 순서대로 x, s, laplacian, w_init, r_init

`x`

In [90]:
detector.process_graph(data)[0]

tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.]])

In [91]:
detector.process_graph(data)[0].shape

torch.Size([2708, 1433])

$X \in \mathbb{R}^{d \times n}$

2708 = `n` = the number of nodes

1433 = `d` = dimensiotnalattribute

`s`

In [92]:
detector.process_graph(data)[1]

tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 1.,  ..., 0., 0., 0.],
        [0., 1., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 1.],
        [0., 0., 0.,  ..., 0., 1., 0.]])

In [93]:
detector.process_graph(data)[1].shape

torch.Size([2708, 2708])

$A \in \mathbb{R}^{n \times n}$

`laplacian`

In [94]:
detector.process_graph(data)[2]

tensor([[ 3.,  0.,  0.,  ...,  0.,  0.,  0.],
        [ 0.,  3., -1.,  ...,  0.,  0.,  0.],
        [ 0., -1.,  5.,  ...,  0.,  0.,  0.],
        ...,
        [ 0.,  0.,  0.,  ...,  1.,  0.,  0.],
        [ 0.,  0.,  0.,  ...,  0.,  4., -1.],
        [ 0.,  0.,  0.,  ...,  0., -1.,  4.]])

In [95]:
detector.process_graph(data)[2].shape

torch.Size([2708, 2708])

`generated Laplacian`

$\tilde{R} L \tilde{R}^T$

`w_init`

In [96]:
detector.process_graph(data)[3]

tensor([[ 2.0754,  1.2338,  0.9617,  ...,  2.6156, -1.0217,  1.8668],
        [ 1.4610, -0.8811,  1.3313,  ..., -0.2908,  1.3030,  0.0659],
        [ 0.3992,  2.1653, -0.8973,  ...,  2.0430, -2.0153, -1.2801],
        ...,
        [ 0.7717, -0.0710,  0.6834,  ...,  0.2379, -0.1838, -0.1985],
        [-1.5314,  1.1365,  0.4966,  ...,  1.5934, -0.5084,  0.1991],
        [ 0.1556,  0.3437,  0.3008,  ...,  0.4034,  0.5208, -0.8790]])

In [97]:
detector.process_graph(data)[3].shape

torch.Size([1433, 2708])

`r_init`

In [98]:
detector.process_graph(data)[4]

tensor([[1.1096e-04, 1.9785e-04, 4.0764e-04,  ..., 1.8104e-05, 6.9121e-03,
         1.5390e-04],
        [1.8015e-05, 4.5550e-05, 1.5299e-04,  ..., 1.6462e-05, 8.0427e-03,
         4.3956e-05],
        [3.6342e-05, 1.1395e-04, 3.9942e-04,  ..., 3.5643e-05, 1.8391e-03,
         6.1595e-05],
        ...,
        [5.4851e-05, 1.2452e-04, 5.3171e-04,  ..., 1.6553e-05, 2.3374e-04,
         2.9871e-05],
        [2.3802e-04, 1.3623e-04, 5.8658e-04,  ..., 2.2358e-05, 1.6297e-04,
         4.2289e-04],
        [3.6244e-04, 1.9283e-04, 8.4447e-04,  ..., 3.0226e-05, 2.3002e-04,
         6.4480e-04]])

In [99]:
detector.process_graph(data)[4].shape

torch.Size([2708, 1433])