### Import module

In [1]:
import os
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
os.chdir('/Users/gangtaro/data_science_repository/example_data')

## Load the data

data from [here -> https://archive.ics.uci.edu](https://archive.ics.uci.edu/ml/datasets/Mammographic+Mass) 

In [139]:
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/mammographic-masses/mammographic_masses.data', header= None)
df.columns = ['BI-RADS', 'Age', 'Shape', 'Margin', 'Density', 'Output']
col_type = {val : 'float' for val in df.columns}
df = df.replace('?', 'NaN')
df = df.astype(col_type)
df.tail()

Unnamed: 0,BI-RADS,Age,Shape,Margin,Density,Output
956,4.0,47.0,2.0,1.0,3.0,0.0
957,4.0,56.0,4.0,5.0,3.0,1.0
958,4.0,64.0,4.0,5.0,3.0,0.0
959,5.0,66.0,4.0,5.0,3.0,1.0
960,4.0,62.0,3.0,3.0,3.0,0.0


In [140]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [141]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y, random_state = 42)

# index 저장
Train_X_index = Train_X.index
Test_X_index = Test_X.index

### 결측치 확인

In [142]:
# 열별 결측치 비율 확인
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.001389
Age        0.005556
Shape      0.033333
Margin     0.050000
Density    0.077778
dtype: float64

결측치 비율이 하나의 변수에 편향되지 않았음과 각각의 비율 또한 그리 높지 않은것으로 확인

### 특징 간 상관성 확인

In [143]:
# 특징 간 상관 계수 평균 확인
(Train_X.corr().sum()-1) / (len(Train_X.columns)-1)

BI-RADS    0.110886
Age        0.227506
Shape      0.358476
Margin     0.363142
Density    0.073095
dtype: float64

평균적으로 20 ~ 40%로 매우 높게 나오는 특징들이 있는 것을 확인

### 결측치 처리 :  KNNImputer 함수 사용 
- 결측치 처리 모델을 활용한 결측치 처리

In [144]:
# KNN Imputer 인스턴스화
from sklearn.impute import KNNImputer
KI = KNNImputer(n_neighbors = 5)

# KNN Imputer 학습
KI.fit(Train_X)

# 결측 대체
Train_X = pd.DataFrame(KI.transform(Train_X), columns = Train_X.columns)
Test_X = pd.DataFrame(KI.transform(Test_X), columns = Test_X.columns)

Train_X.index = Train_X_index
Test_X.index = Test_X_index

In [145]:
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64

In [146]:
Test_X.isnull().sum() / len(Test_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64