## **15. 이상치 탐지**

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
from matplotlib import pyplot as plt

### **데이터 탐색**

In [None]:
"""
    데이터셋 로딩
"""

def parser(x):
    return datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

path = './data/'
file = 'AirQualityUCI_refined.csv'

df = pd.read_csv(
    path + file,
    index_col=[0],
    parse_dates=[0],
    date_parser=parser
)

df.head()

In [None]:
# [+] 일산화탄소 변수 (CO(GT)) 시각화
...

In [None]:
# [+] 결측 데이터 처리: 선형 보간
co = ... # Series 복사
... # 선형 보간

In [None]:
# 결측치 처리 결과 시각화
plt.plot(df['CO(GT)'], label='original', zorder=2)
plt.plot(co, label='linear interpolation', zorder=1)
plt.legend(loc='best')

In [None]:
# [+] 이상치 시각화: 박스플롯
...
plt.xlabel('CO(GT)')
plt.ylabel('Concentration (${mg/m^3}$)')

In [None]:
# [+] 변수 간 상관관계 측정
corr_matrix = ...
corr_matrix

In [None]:
# 일산화탄소와 가장 상관관계가 약한 변수 선택
rh = df['RH'].copy().interpolate() # RH: 상대습도

In [None]:
# 산포도 시각화
plt.scatter(co, rh, s=12, c='black')
plt.xlabel('CO(GT)')
plt.ylabel('RH')

In [None]:
# 일산화탄소와 가장 상관관계가 강한 변수 선택
nmhc = df['PT08.S2(NMHC)'].copy().interpolate() # NMHC: 비메탄계 탄화수소

In [None]:
# 산포도 시각화
plt.scatter(co, nmhc, s=12, c='black')
plt.xlabel('CO(GT)')
plt.ylabel("NMHC")

### **사분위수 범위 기반 이상치 탐지**

In [None]:
# [+] Q1, Q2, Q3 계산
q1 = ...
q2 = ...
q3 = ...
print(q1, q2, q3)

In [None]:
co

In [None]:
# [+] IQR, 상한(upper_fence), 하한(lower_fence)
iqr = ...
upper_fence = ...
lower_fence = ...
print(iqr, upper_fence, lower_fence)

In [None]:
# [+] 이상치 선택
outliers = ...
outliers

In [None]:
# [+] 이상치 여부 마스킹
mask = ...
mask[:50]

In [None]:
# 정상 데이터 / 이상치 시각화
plt.plot(co[~mask], label='normal', color='blue',
    marker='o', markersize=3, linestyle='None')
plt.plot(outliers, label='outliers', color='red',
    marker='x', markersize=3, linestyle='None')
plt.legend(loc='best')

In [None]:
# [+] 이상치 제거
co_refined = co.copy()
...
co_refined[mask]

In [None]:
# [+] 제거된 이상치에 대한 대치: 선형보간
...
co_refined.plot()

### **Z-점수 기반 이상치 탐지**

In [None]:
# 일산화탄소 변수 분포 시각화
import seaborn as sns
sns.distplot(co)

In [None]:
# [+] 평균, 표준편차
mean = ...
std = ...
print(mean, std)

In [None]:
# [+] 데이터 포인트별 Z-점수 계산
outliers = []
thres = 3

...

In [None]:
# [+] 이상치 선택
outliers = ...

In [None]:
# [+] 마스킹
mask = ...
mask[:50]

In [None]:
# 이상치 제거 전/후 분포 시각화
sns.distplot(co, axlabel='CO(GT)', label='original')
sns.distplot(co[~mask], label='outliers removed')
plt.legend(loc='best')

In [None]:
# 기타 이상치 제거 방법: Flooring, Capping
floor = co.quantile(0.1)
cap = co.quantile(0.9)

co.loc[co < floor] = floor
co.loc[co > cap] = cap

In [None]:
# 시각화
co.plot()