# **💢 결측치 처리(Missing values hadling)**

- **정의**
    - 범주형 데이터 및 연속형 데이터에 대한 결측치

## **1. 데이터의 특징 확인하기**

**Titanic dataset**
- 타이타닉 호의 침몰 사건의 승객 별 정보를 포함하는 데이터셋
- 각 열(column)에 대한 정보
    - PassengerID: 각 승객의 고유 식별 번호
    - Survived: 생존 여부(0=사망, 1=생존)
    - Pclass: 승객의 좌석 등급(1=1등석, 2=2등석, 3=3등석)
    - Name: 승객 이름
    - Sex: 승객의 성별(male=남성, female=여성)
    - Age: 승객의 나이
    - SibSp: 함께 탑승한 형제/자매 또는 배우자의 수
    - Parch: 함께 탑승한 부모 또는 자녀의 수
    - Ticket: 승객의 티켓 번호
    - Fare: 승객이 지불한 요금
    - Embarked: 승선한 항구(C=Cherbourg, Q=Queenstown, S=Southampton)
    - Cabin_Serial: 승객의 객실 번호 이니셜
    - Cabin: 승객의 객실 번호

### **1-1 모듈 불러오기**

In [None]:
# pandas: 데이터 분석과 조작을 위한 데이터 프레임 및 시리즈 구조를 제공하는 라이브러리
# numpy: 다차원 배열 연산과 수학적 계산을 위한 핵심 라이브러리
# matplotlib: 2D 그래프와 플롯을 생성하기 위한 데이터 시각화 라이브러리
# seaborn: 통계적 데이터 시각화를 간단하고 아름답게 그릴 수 있는 라이브러리
# scipy: 과학적 계산을 위한 고급 수학 함수와 알고리즘을 제공하는 라이브러리

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from scipy.stats import norm

### **1-2 데이터 불러오기**

In [None]:
data = pd.read_csv("./data/titanic.csv")

In [None]:
data.head()

In [None]:
# 데이터프레임의 구조 및 기본적인 정보 확인
data.info()

In [None]:
# 결측치의 합계에 대한 확인
data.isnull().sum()

***

## **2. 연속형 데이터의 결측치 처리**

- 결측 데이터가 존재하는 [Age]에 대해서 처리

In [None]:
# 결측 데이터에 대해 수정한 데이터프레임 생성을 위한 복사
df_1 = data.copy()

### **2-1 중앙값, 최빈값, 평균값을 사용한 결측치 처리**

In [None]:
print(df_1['Age'].dtype)

In [None]:
# Age 열 데이터 중앙값 출력
median = df_1['Age'].median()
print(median)

- [📝실습] Age 열의 데이터 최빈값과 평균값을 출력하세요.
    - 최빈값: mode(), 평균값: mean()

In [None]:
# [Age] 열의 최빈값, 평균값을 출력하세요

In [None]:
# 결측값에 대해서 중앙값으로 대체
# fillna(): 지정한 열에서의 결측값(NaN)을 지정한 값으로 채움
df_1["Age_median_imputed"] = df_1['Age'].fillna(median)

In [None]:
# 데이터프레임의 두 열에 대한 표준편차를 출력
print(df_1['Age'].std())
print(df_1['Age_median_imputed'].std())

- 커널 밀도 추정(Kernel Density Estimation, KDE): 데이터의 분포를 부드럽고 연속적인 곡선으로 표현

In [None]:
# 새로운 그림을 그릴 figure 선언
fig = plt.figure()
# 1*1 그리드 상에 첫번째 subplot을 생성
ax = fig.add_subplot(111)
# 데이터프레임의 'Age' 열에 대해 커널 밀도 추정(KDE) 플롯을 생성
df_1['Age'].plot(kind="kde", ax=ax)
# 데이터프레임의 'Age_median_imputed' 열에 대해 커널 밀도 추정(KDE) 플롯을 생성
df_1['Age_median_imputed'].plot(kind='kde', ax=ax, color='red')
# 현재 서브플롯에서 레전드에 사용할 핸들과 레이블 정보를 가져옴
lines, labels = ax.get_legend_handles_labels()
# 서브플롯에 레전드를 추가하여 각 플롯의 색상과 레이블을 표시
ax.legend(lines, labels, loc='best')

- [📝실습] Age 열의 데이터 평균값을 이용해 결측치를 대체하는 코드를 작성하세요.

In [None]:
# 결측치에 대해 데이터의 평균값으로 대체하는 코드를 작성하세요.


# 데이터프레임의 두 열에 대한 표준편차를 출력하세요.



In [None]:
# 평균값을 통해 결측치를 대체한 데이터의 분포 확인

# 새로운 그림을 그릴 figure 선언
fig = plt.figure()
# 1*1 그리드 상에 첫번째 subplot을 생성
ax = fig.add_subplot(111)
# 데이터프레임의 'Age' 열에 대해 커널 밀도 추정(KDE) 플롯을 생성
df_1['Age'].plot(kind="kde", ax=ax, color='blue')
# 데이터프레임의 'Age_Imputed' 열에 대해 커널 밀도 추정(KDE) 플롯을 생성
df_1['Age_mean_imputed'].plot(kind='kde', ax=ax, color='red')
# 현재 서브플롯에서 레전드에 사용할 핸들과 레이블 정보를 가져옴
lines, labels = ax.get_legend_handles_labels()
# 서브플롯에 레전드를 추가하여 각 플롯의 색상과 레이블을 표시
ax.legend(lines, labels, loc='best')

### **2-2 랜덤 데이터를 활용한 결측치 처리**

In [None]:
# 새로운 데이터 프레임 복사
df_2 = data.copy()

**랜덤 샘플을 대체값으로 입력하는 함수**
- dropna(): NaN이 아닌 값들만 남기고 나머지는 제거
- sample(DataFrame[ColumnName].isnull().sum(), random_state=0): 비결측값만을 활용하여 결측값의 개수만큼 무작위 샘플을 선택


In [None]:
def impute_random_nan(dataframe, column):
    dataframe[column+"_random"]=dataframe[column]
    random_sample=dataframe[column].dropna().sample(dataframe[column].isnull().sum(), random_state=0)
    # random_sample의 인덱스에 NaN의 인덱스를 할당
    random_sample.index = dataframe[dataframe[column].isnull()].index

    # 데이터프레임에 새로운 열을 추가, 앞서 random_sample의 값을 채워줌
    dataframe.loc[dataframe[column].isnull(), column+'_random']=random_sample

In [None]:
# 결측치 Age 값을 랜덤한 값으로 채움
impute_random_nan(df_2, 'Age')

In [None]:
# 데이터프레임의 두 열에 대한 표준편차를 출력 
print(df_2['Age'].std())
print(df_2['Age_random'].std())

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)
# 데이터프레임의 'Age' 열에 대해 커널 밀도 추정 플롯을 생성
df_2['Age'].plot(kind='kde', ax=ax)
df_2['Age_random'].plot(kind='kde', ax=ax, color='red')
lines, labels = ax.get_legend_handles_labels()
ax.legend(lines, labels, loc='best')

### **2-3 KNN(k-nearest neighbor)을 이용한 결측치 처리**
- 결측치를 채우기 위해서 가장 가까운 k개의 이웃을 탐색, 이웃은 거리 측정 방식으로 결정
- 이웃의 값을 활용하여 결측값을 처리, 이때 이웃의 값은 평균 또는 가중 평균으로 계산됨

In [None]:
# 사전에 정의된 KNN imputer를 사용하기 위한 라이브러리
from sklearn.impute import KNNImputer

In [None]:
# 새로운 데이터 프레임 복사
df_3 = data.copy()

In [None]:
# KNN을 활용한 결측치 처리를 위한 함수 선언

def impute_nan_knn(dataframe, column, n_value):
    # 결측치가 존재하는 열의 데이터를 복사
    values = dataframe[[column]].values
    # KNNImputer 인스턴스를 생성
    # n_neighbors: 몇 개의 이웃을 기준으로 계산할 지 결정
    # weight: 이웃한 값의 가중치는 어떻게 할 것인지 결정(uniform= 모든 이웃이 동일하게 반영, distance= 가까운 이웃에 더 큰 가중치, 
    # custom_function= 사용자 정의 함수에 따라 가중치 계산)
    imputer = KNNImputer(n_neighbors= n_value, weights = "uniform")

    # 결측치가 존재하는 데이터에 가장 가까운 이웃을 활용하여 대체
    imputed_values = imputer.fit_transform(values)
    # 새롭게 대체된 값을 원본 데이터프레임에 추가
    dataframe[column+"_knn_imputed"] = imputed_values
    

In [None]:
# 2개의 이웃값을 이용해 결측치를 처리
impute_nan_knn(df_3, "Age", 2)

In [None]:
# 데이터프레임의 두 열에 대한 표준편차를 출력 
print(df_3['Age'].std())
print(df_3['Age_knn_imputed'].std())

In [None]:
# 결측치 처리가 된 데이터의 시각화
fig = plt.figure()
ax = fig.add_subplot(111)
# 데이터프레임의 'Age' 열에 대해 커널 밀도 추정 플롯을 생성
df_3['Age'].plot(kind='kde', ax=ax)
df_3['Age_knn_imputed'].plot(kind='kde', ax=ax, color='red')
lines, labels = ax.get_legend_handles_labels()
ax.legend(lines, labels, loc='best')

- [📝실습] impute_nan_knn2() 함수를 작성하세요. 
    - 이때 knn을 연산하는 weight는 가까운 이웃에 더 높은 가중치를 부여하는 코드로 작성하세요.

In [None]:
# impute_nan_knn2() 함수를 작성하세요

- [📝실습] 작성한 함수(impute_nan_knn_2())를 기반으로 6개의 이웃을 이용해 결측치를 처리하는 코드를 작성하세요.
    - 처리한 값에 대한 표준편차를 출력하세요.
    - 처리한 데이터에 대한 시각화 결과를 출력하세요.

In [None]:
# 6개의 이웃을 통해 결측치를 처리하는 코드


In [None]:
# 처리한 데이터에 대한 표준편차를 출력하는 코드

In [None]:
# 처리한 데이터에 대한 시각화 결과를 출력하는 코드

### **2-4 MICE Forest를 활용한 결측치 처리**

**MICE(Multiple Imputation by Chained Equation)**
- 여러 변수 간의 관계를 고려하고 결측치를 예측하고 대체하는 기법
- 각 변수의 결측치를 다른 변수의 정보를 사용하여 예측
- MICE의 적용 방법
    1) 데이터셋 준비
    2) MICE 알고리즘을 설정하고, 결측치를 예측하기 위한 회귀 모델 선택
    3) MICE 알고리즘을 활용하여 결측치를 대체. 여러 번 반복하면서 결측치가 점진적으로 개선됨

In [None]:
# miceforest: 랜덤 포레스트 기반의 MICE방법을 사용해 데이터의 결측치를 처리하는 라이브러리
import miceforest as mf

In [None]:
# 새로운 데이터 프레임 복사
df_4 = data.copy()

In [None]:
# 결측치가 존재하는 열만 별도로 추출하여 데이터 프레임 생성
df_age = df_4['Age'].copy()
df_age = pd.DataFrame(df_age)

In [None]:
# Imputation kernel 생성
# df_age: 생성한 dataframe에 대해서 적용
# num_datasets: 대체 데이터를 몇 개 생성할 지 결정
# random_state: 재현성을 위한 랜덤 시드
# save_all_iterations_data: 모든 반복 과정을 저장할 지 여부

kernel = mf.ImputationKernel(
    df_age, 
    num_datasets=5,
    random_state =42,
    save_all_iterations_data=True
)

In [None]:
# mice 수행: 결측값 대체 
# iterations: 반복 회수 설정
# verbose: 진행 상황 출력 여부
kernel.mice(
    iterations=0,
    verbose = True
)

In [None]:
# 결측값 대체된 데이터 가져오기
df_imputed = kernel.complete_data(0)

In [None]:
# 기존 df_4 데이터 프레임으로 결측치 처리된 결과 복사
df_4['Age_mice_imputed'] = df_imputed['Age']

In [None]:
# 결측치 처리가 된 데이터의 시각화
fig = plt.figure()
ax = fig.add_subplot(111)
# 데이터프레임의 'Age' 열에 대해 커널 밀도 추정 플롯을 생성
df_4['Age'].plot(kind='kde', ax=ax)
df_4['Age_mice_imputed'].plot(kind='kde', ax=ax, color='red')
lines, labels = ax.get_legend_handles_labels()
ax.legend(lines, labels, loc='best')

df_imputed 데이터를 추출하는 complete_data() 안의 숫자값을 0~4로 입력하여 변경하고 KDE plot을 출력해보세요!

***

## **3. 범주형 데이터의 결측치 처리**

- 결측치가 존재하는 [Cabin], [Cabin_Serial], [Embarked] 데이터에 대해서 결측치 처리

### **3-1. 데이터 불러오기 및 결측치 확인**

In [None]:
# 데이터 불러오기
data = pd.read_csv('../data/titanic.csv')

In [None]:
# 데이터의 결측치 확인하기
data.isnull().sum()

In [None]:
# 결측치에 해당하는 Cabin, Cabin_Serial, Embarked 데이터의 데이터타입은 범주형 데이터
data.dtypes

### **3-2 최빈값을 활용한 결측치 처리**

In [None]:
# 결측치 처리에 대한 데이터 처리를 위해 새로운 데이터프레임 복사
df_1 = data.copy()

In [None]:
# [Cabin]의 고유한 데이터 범주를 연산
len(df_1['Cabin'].unique())

In [None]:
# [Cabin_Serial]의 고유한 데이터 범주를 연산
len(df_1['Cabin_Serial'].unique())

In [None]:
# [Embarked]의 고유한 데이터 범주를 연산
len(df_1['Embarked'].unique())

In [None]:
df_1['Cabin'].value_counts().head(10).plot.bar()

- [📝실습] [Cabin_Serial] 열의 데이터에 대해서 각 범주별 개수를 확인할 수 있는 플롯을 그리세요.

In [None]:
# [Cabin_Serial] 열의 데이터에 대해서 각 범주별 개수를 나타내는 플롯


- [📝실습] [Embarked] 열의 데이터에 대해서 각 범주별 개수를 확인할 수 있는 플롯을 그리세요.

In [None]:
# [Embarked] 열의 데이터에 대해서 각 범주별 개수를 나타내는 플롯 


**최빈값을 이용한 결측치 처리 함수**
- mode()[0]: 카테고리 중 가장 자주 등장하는 값을 선택

In [None]:
def impute_nan_most_frequent_cagetory(dataframe, column):
    # column에서 가장 빈번하게 등장하는 값을 most_fre_category에 할당
    most_fre_category = dataframe[column].mode()[0]

    # 결측치에 대해 처리한 데이터를 저장할 새로운 열을 생성
    dataframe[column+'_imputed']= dataframe[column]
    # 결측치에 대해 앞서 정의한 most_fre_category를 할당
    dataframe[column+'_imputed'] = dataframe[column+'_imputed'].fillna(most_fre_category)

In [None]:
# for 반복문을 통해 결측치가 존재하는 열에 대해 최빈값을 통해 결측치 처리
for col in ['Cabin', 'Cabin_Serial', 'Embarked']:
    impute_nan_most_frequent_cagetory(df_1, col)

#상단의 5개 행에 대한 결과 출력
df_1.head()

- [📝실습] 최빈값을 통해 결측치 처리를 수행한 [Cabin_Serial] 데이터의 플롯을 시각화하세요.

In [None]:
# 최빈값을 통해 결측치 처리를 수행한 [Cabin_Serial] 데이터의 플롯의 시각화


- [📝실습] 최빈값을 통해 결측치 처리를 수행한 [Cabin] 데이터의 플롯을 시각화하세요.

In [None]:
# 최빈값을 통해 결측치 처리를 수행한 [Cabin] 데이터의 플롯의 시각화


- [📝실습] 최빈값을 통해 결측치 처리를 수행한 [Embarked] 데이터의 플롯을 시각화하세요.

In [None]:
# 최빈값을 통해 결측치 처리를 수행한 [Embarked] 데이터의 플롯의 시각화


### **3-3 임의의 값을 활용해 결측치 처리**

In [None]:
# 결측치 처리에 대한 데이터 처리를 위해 새로운 데이터프레임 복사
df_2 = data.copy()

In [None]:
# 새로운 범주형 데이터를 활용해 결측치 처리
def impute_nan_create_category(dataframe, column):
    # 결측치에 대해서 "Unknown" 등 원하는 값을 입력하여 할당
    dataframe[column]= np.where(dataframe[column].isnull(), "Unknown", dataframe[column])

In [None]:
# for 반복문을 통해 결측치가 존재하는 열에 대해서 특정 값을 통해 처리
for col in ['Embarked', 'Cabin', 'Cabin_Serial']:
    impute_nan_create_category(df_2, col)

# 처리한 결과를 확인
df_2[['Embarked','Cabin_Serial','Cabin']].head(10) 