## 참고
- 단순한 케이스
    - 모든 변수의 타입이 일치하는 경우
- 복잡한 케이스
    - 다른 타입의 변수가 존재하는 경우

## Import modules

In [1]:
import os
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
os.chdir('/Users/gangtaro/data_science_repository/example_data')

# [Case 1] 단순한 케이스
- **모든 변수의 타입이 같은 경우**

## Load the data

data from [here -> https://archive.ics.uci.edu](https://archive.ics.uci.edu/ml/datasets/heart+Disease) 

In [2]:
df = pd.read_csv("cleveland.csv")
df.tail()

Unnamed: 0,Age,Sex,Cp,Trestbps,Chol,Fbs,Restecg,Thalach,Exang,Oldpeak,Slope,Ca,Thal,Output
214,58,0,4,130,197,0,0,131,0,0.6,2,0.0,3.0,0
215,35,1,2,122,192,0,0,174,0,0.0,1,0.0,3.0,0
216,56,1,2,120,240,0,0,169,0,0.0,3,0.0,3.0,0
217,63,0,4,124,197,0,0,136,1,0.0,2,0.0,3.0,1
218,57,0,4,140,241,0,0,123,1,0.2,2,0.0,7.0,1


In [3]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [4]:
# 학습 데이터와 평가 데이터로 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

### 결측치 확인

In [5]:
Train_X.isnull().sum()

Age         0
Sex         0
Cp          0
Trestbps    0
Chol        0
Fbs         0
Restecg     0
Thalach     0
Exang       0
Oldpeak     0
Slope       0
Ca          2
Thal        1
dtype: int64

- 결측치가 많지 않음 =>
- 결측치가 발견된 행 단위로 삭제 시켜도 됨.  
    **하지만,** 예측해야 할 데이터에 결측이 발생 할 수도 있다는 도메인 전제 하에 결측치 처리 시행.

In [6]:
# 평균 상관계수 확인
(Train_X.corr().sum()-1 )/(len(Train_X.columns)-1)

Age         0.107791
Sex         0.049988
Cp          0.039582
Trestbps    0.068749
Chol        0.040896
Fbs         0.004750
Restecg     0.083188
Thalach    -0.171148
Exang       0.091824
Oldpeak     0.099632
Slope       0.056938
Ca          0.092151
Thal        0.113143
dtype: float64

 *주의 : <u>모든 변수가 연속형이라 가능한 접근</u>  
 
수치가 그렇게 높지 않다고 판단  =>  특징 간에 뚜렷한 상관성이 보이지 않음  =>  대표값 대체 활용가능

### 결측치 처리 : 대표값으로 대체

In [7]:
# 대표값을 활용한 결측치 대체
from sklearn.impute import SimpleImputer

# SimpleImputer 인스턴스화
SI = SimpleImputer(strategy = 'mean')

# 학습
SI.fit(Train_X)

# sklearn instance의 출력은 ndarray이므로 다시 DataFrame으로 바꿔줌
Train_X = pd.DataFrame(SI.transform(Train_X), columns = Train_X.columns)
Test_X = pd.DataFrame(SI.transform(Test_X), columns = Test_X.columns)

In [8]:
Train_X.isnull().sum()

Age         0
Sex         0
Cp          0
Trestbps    0
Chol        0
Fbs         0
Restecg     0
Thalach     0
Exang       0
Oldpeak     0
Slope       0
Ca          0
Thal        0
dtype: int64

# [Case 2] 복잡한 케이스
- **다른 타입의 특징이 있는 경우**

## Load the data

data from 

In [9]:
df = pd.read_csv("saheart.csv")
df.tail()

Unnamed: 0,Sbp,Tobacco,Ldl,Adiposity,Typea,Obesity,Alcohol,Age,Famhist,Chd
457,152,10.1,4.71,24.65,65,26.21,24.53,57,,0
458,162,5.3,7.95,33.58,58,36.06,8.23,48,1.0,0
459,126,0.0,5.98,29.06,56,25.39,11.52,64,1.0,1
460,138,2.0,5.11,31.4,49,27.25,2.06,64,1.0,1
461,114,0.0,1.94,11.02,54,20.17,38.98,16,0.0,0


In [10]:
# 특징과 라벨 분리
X = df.drop('Chd', axis = 1)
Y = df['Chd']

In [11]:
# 학습 데이터와 평가 데이터로 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

### 결측치 확인

In [12]:
# 결측치 확인
Train_X.isnull().sum()
# 결측치가 많지 않음
# 지워도 무방한 수치이지만, 새로 들어온 데이터에 결측이 있을 수도 있다는 도메인 지식이 있다고 가정

Sbp           0
Tobacco       0
Ldl           0
Adiposity     0
Typea         0
Obesity      10
Alcohol       4
Age           0
Famhist       4
dtype: int64

- 결측치가 많지 않음 =>
- 결측치가 발견된 행 단위로 삭제 시켜도 됨.  
    **하지만,** 예측해야 할 데이터에 결측이 발생 할 수도 있다는 도메인 전제 하에 결측치 처리 시행.

In [13]:
# 평균 상관계수 확인
(Train_X.corr().sum()-1 )/(len(Train_X.columns)-1)

Sbp          0.178375
Tobacco      0.104760
Ldl          0.186163
Adiposity    0.313419
Typea       -0.008839
Obesity      0.245097
Alcohol      0.097138
Age          0.250219
Famhist      0.125601
dtype: float64

 *주의 : <u>모든 변수가 연속형이라 가능한 접근</u>  
 
수치가 그렇게 높지 않다고 판단  =>  특징 간에 뚜렷한 상관성이 보이지 않음  =>  대표값 대체 활용가능

**변수 타입 확인**
- Famhist :  범주형 변수
- 그 외 변수:  연속형 변수 

대표값으로 **평균**을 사용해야할지, **최빈값**을 사용해야할지 결정이 어려움   
=> 둘 다 사용해야함. **따라서 데이터 분할이 필요**

In [14]:
Train_X_cate = Train_X[['Famhist']]
Train_X_cont = Train_X.drop('Famhist', axis = 1)

Test_X_cate = Test_X[['Famhist']]
Test_X_cont = Test_X.drop('Famhist', axis = 1)

### 결측치 처리 : 대표값으로 대체

In [15]:
# 대표값을 활용한 결측치 대체
from sklearn.impute import SimpleImputer

# SimpleImputer 인스턴스화
SI_mode = SimpleImputer(strategy = 'most_frequent')
SI_mean = SimpleImputer(strategy = 'mean')

# 학습
SI_mode.fit(Train_X_cate)
SI_mean.fit(Train_X_cont)

# sklearn instance의 출력은 ndarray이므로 다시 DataFrame으로 바꿔줌
Train_X_cate = pd.DataFrame(SI_mode.transform(Train_X_cate),
                            columns = Train_X_cate.columns)

Test_X_cate = pd.DataFrame(SI_mode.transform(Test_X_cate),
                           columns = Test_X_cate.columns)

Train_X_cont = pd.DataFrame(SI_mean.transform(Train_X_cont),
                            columns = Train_X_cont.columns)

Test_X_cont = pd.DataFrame(SI_mean.transform(Test_X_cont),
                           columns = Test_X_cont.columns)

# 다시 두 데이터를 이어붙여야 함
Train_X = pd.concat([Train_X_cate, Train_X_cont], axis = 1)
Test_X = pd.concat([Test_X_cate, Test_X_cont], axis = 1)

In [16]:
Train_X.isnull().sum()

Famhist      0
Sbp          0
Tobacco      0
Ldl          0
Adiposity    0
Typea        0
Obesity      0
Alcohol      0
Age          0
dtype: int64

### Tip.
이진형 변수와 연속형 변수만으로 이루어진 데이터라면,  
SI_mean 만 사용하여 결측치를 평균으로 대체한 뒤에,  
이진형 변수에 대해서만 Round 처리를 해주면 하나의 인스턴스만 활용해도 된다.

# [Case 3] 결측치 예측 모델 활용 (Shallow)
###