## PyCaret 설치

In [None]:
import urllib.request

url = 'https://www.dropbox.com/s/pq6n1vg90a4v6t4/pycaret_colab.py?dl=1'
urllib.request.urlretrieve(url, 'pycaret_colab.py')
%run pycaret_colab.py

## 필요한 모듈 import

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

pd.options.display.max_columns = None

## 이상치 탐지 알고리즘

**이상치 탐지 알고리즘의 활용 분야**

- **제조**
  - 공정 불량 원인을 감지
  - 설비의 이상 동작을 미리 감지/탐지

- **금융**
  - 신용카드 탈취, 악용 사례 탐지
  - 금융 분야의 비정상 거래 탐지 (피싱)

- **고객 관리**
  - 제품/서비스 고객의 이탈을 사전에 감지

- **보안**
  - 네트워크 침해사고 예방/탐지

- **헬스케어**
  - 건강의 이상신호 감지 및 사전 알림

- **자연어**
  - 소비자 의견 수렴 (독특하고 창의적인 의견 수렴)

**관련 캐글 대회/데이터셋**

- [신용카드 비정상 사용 탐지](https://www.kaggle.com/mlg-ulb/creditcardfraud)

## 실습을 위한 데이터셋 로드

In [None]:
from pycaret.datasets import get_data

dataset = get_data('mice')

이 튜토리얼에서는 `Mice Protein Expression`이라는 UCI의 데이터 세트를 사용합니다. 데이터세트는 피질의 핵 분획에서 감지 가능한 신호를 생성한 77개의 단백질/단백질 변형의 발현 수준으로 구성됩니다. 데이터 세트에는 단백질당 총 1080개의 측정값이 포함되어 있습니다. 각 측정은 독립적인 샘플/마우스로 간주될 수 있습니다.

In [None]:
train = dataset.sample(frac=0.8, random_state=123)
test = dataset.drop(train.index)
train.reset_index(inplace=True, drop=True)
test.reset_index(inplace=True, drop=True)
print('학습용 데이터셋: ' + str(train.shape))
print('예측용 데이터셋: ' + str(test.shape))

## 셋업 setup

In [None]:
from pycaret.anomaly import *           # 이상 탐지

`MouseID`는 순차적인 단순 ID 값이기 때문에 데이터 분석 및 모델의 학습에서 제외합니다.

In [None]:
s = setup(train,
          normalize=True,                # 데이터 정규화
          ignore_features=['MouseID'],   # 학습에 무시할 컬럼 지정
          session_id=123)                # 시드(SEED) 지정

## 모델 생성

**`iforest` 모델**



In [None]:
from IPython.display import Image

Image(url='https://miro.medium.com/max/1400/1*4P2vi2YVj4nHbU5SZ9i7Ig.png', width=750)

In [None]:
# isolation forest 모델 생성
iforest = create_model('iforest')

## 이상치 탐지: assign_model()

In [None]:
iforest_results = assign_model(iforest)
iforest_results.head()

## 결과 시각화

In [None]:
plot_model(iforest)

## 예측 predict_model

In [None]:
predicitons = predict_model(iforest, data=test)
predicitons[['Anomaly', 'Anomaly_Score']]