# **👻 이상치 탐지(Outlier Detection)**

- 정의
    - 일반적인 데이터 패턴에서 벗어난 값
    - 통계 분석 결과에 영향을 미쳐 연구의 목적을 훼손

## **1. 데이터 불러오기 및 변환**

### **1-1 모듈 및 데이터 불러오기**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

data = pd.read_csv('../data/housing.csv')

**California Housing Prices dataset**

- 1990년 캘리포니아 각 지역구의 주택과 지역의 요약 통계 정보 
- 각 열(column)에 대한 정보
    - longitude: 지역구의 경도
    - latitude: 지역구의 위도
    - housing_median_age: 주택의 중위연령
    - total_rooms: 방의 총 개수
    - total_bedrooms: 침실의 총 개수
    - population: 인구
    - households: 가구 수
    - median_income: 중위 소득
    - median_house_value: 주택 중위 가격
    - ocean_proximity: 해안 근접도

In [None]:
# 데이터 확인
data.head(10)

In [None]:
data.columns

In [None]:
# 데이터의 결측치를 확인해보세요


### **1-2 결측치 처리**

In [None]:
# [total_bedrooms] 열의 중앙값을 활용한 결측치 처리
data['total_bedrooms'] = data['total_bedrooms'].fillna(data['total_bedrooms'].median())

In [None]:
# 결과 확인
data.isnull().sum()

***

## **2. 이상치 탐지**

### **2-1 단변량 측면 탐지**

#### **(0) 전체 데이터의 분포 확인**

In [None]:
data.hist(bins=50, figsize=(12, 11))
plt.show()

#### **(1) Boxplot 을 활용한 탐지**

In [None]:
# 주택 가격[median_house_value] 열의 이상치에 대한 탐지
plt.boxplot(data['median_house_value'], vert=False)

# boxplot의 제목 설정
plt.title("Detecting outliers using Boxplot")

# x축 레이블에 대한 지정
plt.xlabel("house value")
plt.show()

In [None]:
# 인구 수[population] 열의 이상치에 대한 탐지를 위한 boxplot을 그려보세요


# boxplot의 제목 설정
plt.title("Detecting outliers using Boxplot")

# x축 레이블에 대한 지정
plt.xlabel("house value")
plt.show()

#### **(2) Scatter plot을 활용한 이상치 탐지**

In [None]:
# scatter plot을 선언
# kind= 'scatter': plot의 종류를 scatter plot으로 선언
# x= 'median_income': x축을 선언
# y= 'median_house_value': y축을 선언
# alpha= 0.3: 각 점의 투명도를 선언
# grid= True: plot에 격자선 표시 여부 결정
data.plot(kind='scatter', 
          x='median_income',
          y='median_house_value',
          alpha=0.3,
          grid=True)

plt.show()

In [None]:
# 주택 중위 연령[housing_median_age] 열의 이상치를 탐지하기 위한 scatter plot을 그려보세요
# 이때 x축은 [median_income]으로 선언합니다
data.plot(kind='scatter', 
          x='median_income',
          y='housing_median_age',
          alpha=0.3,
          grid=True)

plt.show()

#### **(3) Z-score를 활용한 이상치 탐지**

- 변수가 가우스 분포를 따른다는 가정 하에 평균에서 벗어난 표준편차의 수를 나타낸다

\begin{equation}
{z} = (x-\mu) / \sigma  \tag{1}
\end{equation}

 + $z$: 표준화된 값
 + $x$: 원본 데이터 값
 + $\mu$: 데이터의 평균값
 + $\sigma$: 데이터의 표준편차

In [None]:
# z-score를 그리기 위한 함수 선언
def detect_outlier_zscore(dataframe, column):
    # 이상치를 저장할 list 선언
    outliers=[]

    # z-score를 저장할 list 선언
    z_scores = []

    # 이상치를 선언할 기준치 값 설정
    thres= 2.5

    # 주어진 데이터에 대한 평균값 연산
    mean = np.mean(dataframe[column])

    # 주어진 데이터에 대한 표준편차 연산
    std = np.std(dataframe[column])

    # for문을 통해 모든 데이터에 대해서 반복적으로 z-score를 연산
    for i in dataframe[column]:
        z_score = (float(i)-mean)/std
        
        # z-score는 list에 별도로 저장
        z_scores.append(z_score)

        # 만약 z-score의 값이 +- 기준치를 넘어선다면 list에 저장
        if (np.abs(z_score)>thres):
            outliers.append(i)
    return outliers, z_scores

In [None]:
# z-score를 활용한 주택 가격[median_house_value]의 이상치 탐지
outlier, zscore = detect_outlier_zscore(data, 'median_house_value')
print("Outliers from Z-score method: ", outlier)
print("lengths: ", len(outlier))

In [None]:
# 히스토그램을 통한 z-score의 시각화화
plt.hist(zscore, bins=30, color='blue', alpha=0.7)

# 양의 임계값을 나타내는 수직선을 표현
plt.axvline(x=2.5, color='r', linestyle='--', label=f'Threshold: {2.5}')

# 음의 임계값을 나타내는 수직선을 표현
plt.axvline(x=-2.5, color='r', linestyle='--')

# x축의 레이블을 표현
plt.xlabel('Z-score')

# y축의 레이블을 표현
plt.ylabel('Frequency')   

# plot의 제목을 표현
plt.title(f'Z-score Distribution')

# plot의 범례를 추가
plt.legend()

# plot을 시각화
plt.show()

- [🧩 퀴즈1] <span style="color: #ffd33d">위의 이상치 탐지를 통해 확인할 수 있는 내용은 무엇인가요?

A.

- [🧩 퀴즈2] <span style="color: #ffd33d"> 이상치에 대해서 어떠한 처리를 취하는 것이 적절할까요?

A. 

#### **(4) 이상치 처리**

In [None]:
# 50001에 해당하는 데이터는 이상치로 간주하여, 이를 제거하는 마스크를 생성
mask = data.median_house_value != 500001
# 이상치가 제거된 데이터만을 선택하여 새로운 데이터프레임으로 복사
data = data[mask].copy()

In [None]:
# 이상치 처리에 대한 결과를 확인하기 위한 산점도
data.plot(kind="scatter", 
             x="median_income", 
             y="median_house_value",
             alpha=0.5, 
             grid=True)
plt.show()

- [📝실습] [total_rooms] 열의 이상치에 대해서 boxplot을 통해 탐지해보세요.

In [None]:
# 방의 전체 개수 [total_rooms] 열의 이상치에 대한 탐지

# boxplot의 제목 설정


# x축 레이블에 대한 지정


In [None]:
# Scatter plot을 이용한 주택 중위 연령[housing_median_age] 열의 이상치 탐지 코드를 작성하세요
# 이때 x 축은 [median_income] 으로 설정합니다


In [None]:
# Z-score을 이용한 주택 중위 연령[housing_median_age] 열의 이상치 탐지 코드를 작성하세요
# 기존에 선언한 detect_outlier_zscore 함수를 사용합니다


# outlier의 가장 작은 값을 확인합니다
outlier_array = np.array(outlier)
print("Mean of outlier:", outlier_array.min())

# outlier의 개수를 확인하세요

In [None]:
# 히스토그램을 통한 z-score의 시각화화


# 양의 임계값을 나타내는 수직선을 표현


# 음의 임계값을 나타내는 수직선을 표현


# x축의 레이블을 표현


# y축의 레이블을 표현
 

# plot의 제목을 표현


# plot의 범례를 추가


# plot을 시각화


In [None]:
# 8076.0을 초과하는 값에 대해서는 이상치로 처리

# 이상치가 제거된 데이터만을 선택하여 새로운 데이터프레임으로 복사


In [None]:
# 이상치 처리에 대한 결과를 확인하기 위한 산점도


### **2-2 다변량 이상탐지**

#### **(1) Cook Distance**

- 다중 회귀 분석에서 각 관측치가 회귀 모델에 미치는 영향력을 측정하는 통계량
- Cook distance가 큰 값을 가질 때 관측치가 모델에 큰 영향을 미치고 있으며 이상치일 가능성이 높음을 의미

\begin{equation}
{Di} = (1/p) * (e_i^2 / 1-h_i) *  (h_i/1-h_i) \tag{2}
\end{equation}
 + $p$: 회귀 모델에서 독립변수의 개수
 + $e_i$: i번째 관측치의 잔차(실제값-예측값)
 + $h_i$: i번째 관측치의 leverage 값

In [None]:
# cook distance를 연산하기 위한 모듈 불러오기
import statsmodels.api as sm

In [None]:
# 독립변수와 종속변수 선언
x = data['population']
y = data['median_house_value']

# OLS 회귀 모델의 독립변수에 상수항을 직접 추가
X = sm.add_constant(x)

# OLS 회귀 모델 적합
model = sm.OLS(y, X).fit()

# Cook's Distance 계산
# 모델의 영향력 분석을 수행
influence = model.get_influence()

# Cook's distance값을 계산
cooks_d, _ = influence.cooks_distance

# Cook's Distance 시각화
plt.figure(figsize=(10, 6))

# 산점도를 그리기 위한 함수
plt.scatter(np.arange(len(cooks_d)), cooks_d, color='blue', alpha=0.5)

# Cook's Distance의 임계값을 설정하기 위한 선을 그림
plt.axhline(y=100/len(X), color='r', linestyle='--', label='Threshold: 100/n')

# plot의 제목 설정
plt.title("Cook's Distance")

# plot의 x축 제목 설정
plt.xlabel('Observation Index')

# plot의 y축 제목 설정
plt.ylabel("Cook's Distance")

# plot의 범례를 추가
plt.legend()
plt.show()

# Cook's Distance가 임계값을 넘는 이상치 찾기
threshold = 100 / len(X)

# Cook's distance가 임계값을 초과하는 데이터 포인트의 인덱스 찾기
outliers = np.where(cooks_d > threshold)[0]

# 이상치의 인덱스를 출력
print(f"Outliers: {outliers}")