In [39]:
# 격리 포레스트를 사용한 비정상 행위 감지 Isolation Forest
# 비정상 행위 탐지 Anomaly Detection
# 데이터셋에서 기대 패턴(Expected Pattern)에 부합하지 않는 사건(Event)을 식별
# 특이점(Outlier)을 격리하기 쉽지만 정상 데이터 점(Normal Data Point)을 설명하는 것은 매우 어렵다
# 알고리즘에 비정상 데이터(Anomalous Data)에 관한 어떠한 정보도 주지 않는다
# 오탐지(Flase Position)의 수가 상당수 발생할 수 있다.
# 분류기를 미세하게 조정할 수 있어야 한다.

import numpy as np
import pandas as pd

# 랜덤 시드 생성
random_seed = np.random.RandomState(12)

# 랜덤값으로 데이터 배열 생성
X_train = 0.5 * random_seed.randn(500,2)



# np.r_[배열1,배열2]
# 두 배열의 columns의 개수는 같아야한다.
# 배열1과 2를 아래로 붙이기

X_train = np.r_[X_train+3, X_train]
X_train = pd.DataFrame(X_train, columns=['x','y'])
X_train

Unnamed: 0,x,y
0,3.236493,2.659287
1,3.121220,2.149632
2,3.376571,2.232639
3,3.002564,2.939886
4,2.596509,4.435910
...,...,...
995,-0.254036,0.703852
996,-0.350087,0.238489
997,-0.493695,0.199137
998,0.364794,0.429025


In [40]:
a = random_seed.randn(1,2)
np.r_[a+3,a]

array([[4.88914924, 4.73383888],
       [1.88914924, 1.73383888]])

In [41]:
X_test = 0.5 * random_seed.randn(500,2)
X_test = np.r_[X_test+3, X_test]
X_test = pd.DataFrame(X_test, columns=['x','y'])
X_test

Unnamed: 0,x,y
0,2.984853,3.142150
1,3.501735,2.168262
2,2.906300,3.233826
3,3.273225,3.261790
4,2.423190,3.490672
...,...,...
995,-0.195411,0.730686
996,0.289706,-0.451753
997,-0.161865,-1.269818
998,0.322896,-0.338665


In [42]:
# 랜덤값의 최대값과 최소값을 지정해서 랜덤 배열 생성
random_seed.uniform(low=-5, high=5, size=(2,2))

array([[ 0.41397603, -2.02584098],
       [-2.64447565, -3.48078293]])

In [43]:
# 이건 뭐지 ㅋㅋ
10 -+- 1

11

In [44]:
X_outliers = random_seed.uniform(low=-5, high=5, size=(50,2))
X_outliers = pd.DataFrame(X_outliers, columns=['x','y'])
X_outliers

Unnamed: 0,x,y
0,-0.518212,-3.386443
1,2.977669,2.215355
2,1.253172,4.716696
3,-0.563004,3.15293
4,4.465082,4.672671
5,1.876305,0.22953
6,-1.245007,-1.508179
7,-1.346963,-3.628121
8,1.543676,-4.541167
9,0.92658,1.255121


In [45]:
import plotly.graph_objects as go

# 인스턴스 생성
fig = go.Figure()
# Scatter 방식으로 마크 생성
# add_trace 개수에 따라서 데이터 출력 개수가 늘어남
fig.add_trace(
    go.Scatter(
        x=X_train['x'],
        y=X_train['y'],
        mode='markers',
        marker=dict(
            color='Aqua',
            line=dict(
                color='DarkBlue',
                width=2
            )
        ),
        name='훈련 데이터셋'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_test['x'],
        y=X_test['y'],
        mode='markers',
        marker=dict(
            color='Yellow',
            line=dict(
                color='Gold',
                width=2
            )
        ),
        name='테스트 데이터셋'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_outliers['x'],
        y=X_outliers['y'],
        mode='markers',
        marker=dict(
            color='DarkRed',
            line=dict(
                color='Red',
                width=2
            )
        ),
        name='특이점'
    )
)
fig.show()

In [46]:
marker=dict(
    color='Yellow',
    line=dict(
        color='Gold',
        width=2
    )
)
marker

{'color': 'Yellow', 'line': {'color': 'Gold', 'width': 2}}

In [47]:
type(X_train)

pandas.core.frame.DataFrame

In [48]:
# 격리 포레스트
from sklearn.ensemble import IsolationForest

clf = IsolationForest()
# 데이터가 입력되는게 이렇게 들어가도 되네
clf.fit(X_train)
# 데이터 학습 후 예측
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

In [49]:
from tabulate import tabulate
# 표 출력하는 라이브러리

X_outliers['pred'] = y_pred_outliers

tble = tabulate(
    tabular_data=X_outliers.head(), # 데이터
    headers=X_outliers.columns, # columns name
    tablefmt='psql' # psql : PostgreSQL, 테이블 포멧
)

print(tble)

+----+-----------+----------+--------+
|    |         x |        y |   pred |
|----+-----------+----------+--------|
|  0 | -0.518212 | -3.38644 |     -1 |
|  1 |  2.97767  |  2.21535 |      1 |
|  2 |  1.25317  |  4.7167  |     -1 |
|  3 | -0.563004 |  3.15293 |     -1 |
|  4 |  4.46508  |  4.67267 |     -1 |
+----+-----------+----------+--------+


In [50]:
import plotly.graph_objects as go

fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x=X_train['x'],
        y=X_train['y'],
        mode='markers',
        marker=dict(
            color='Aqua',
            line=dict(
                color='DarkBlue',
                width=2
            )
        ),
        name='훈련 데이터'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_outliers.loc[X_outliers.pred == -1, ['x']].x,
        y=X_outliers.loc[X_outliers.pred == -1, ['y']].y,
        mode='markers',
        marker=dict(
            color='DarkRed',
            line=dict(
                color='Red',
                width=2
            )
        ),
        name='탐지된 특이점'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_outliers.loc[X_outliers.pred == 1, ['x']].x,
        y=X_outliers.loc[X_outliers.pred == 1, ['y']].y,
        mode='markers',
        marker=dict(
            color='Yellow',
            line=dict(
                color='Gold',
                width=2
            )
        ),
        name='잘못 탐지된 특이점'
    )
)
fig.show()

In [51]:
from tabulate import tabulate

X_test = X_test.assign(pred=y_pred_test)

tble = tabulate(
    tabular_data=X_test.head(),
    headers=X_test.columns,
    tablefmt='psql'
)

print(tble)

+----+---------+---------+--------+
|    |       x |       y |   pred |
|----+---------+---------+--------|
|  0 | 2.98485 | 3.14215 |      1 |
|  1 | 3.50174 | 2.16826 |     -1 |
|  2 | 2.9063  | 3.23383 |      1 |
|  3 | 3.27322 | 3.26179 |      1 |
|  4 | 2.42319 | 3.49067 |      1 |
+----+---------+---------+--------+


In [52]:
import plotly.graph_objects as go

fig = go.Figure()
fig.add_trace(
    go.Scatter(
        x=X_train['x'],
        y=X_train['y'],
        mode='markers',
        marker=dict(
            color='Aqua',
            line=dict(
                color='DarkBlue',
                width=2
            )
        ),
        name='훈련 데이터'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_test.loc[X_test.pred == 1, ['x']].x,
        y=X_test.loc[X_test.pred == 1, ['y']].y,
        mode='markers',
        marker=dict(
            color='Yellow',
            line=dict(
                color='Gold',
                width=2
            )
        ),
        name='탐지된 특이점'
    )
)
fig.add_trace(
    go.Scatter(
        x=X_test.loc[X_test.pred == -1, ['x']].x,
        y=X_test.loc[X_test.pred == -1, ['y']].y,
        mode='markers',
        marker=dict(
            color='DarkRed',
            line=dict(
                color='Red',
                width=2
            )
        ),
        name='잘못 탐지된 특이점'
    )
)
fig.show()

In [53]:
# 인덱스 + 데이터 출력, 조건 : X_test의 예측이 -1이고 column이 x일 경우 .x 는 데이터 형식으로 뽑아줌
X_test.loc[X_test.pred == -1, ['x']].x

1      3.501735
10     2.539814
11     2.832054
16     3.179465
21     3.705726
         ...   
972   -0.630690
974    0.731224
980   -0.382819
988   -0.702465
997   -0.161865
Name: x, Length: 209, dtype: float64