# 결측치 다루기

- NaN : 결측치라고 하면 보통 이것을 의미. 
- None : 서베이 해서, 직업이 없다고 답했음. 그래서 그 직업이없는게 답이였던 것. 값이 없는게 값인 결측. 그래서 직업 란에 못 써 놓은 것. 이런 경우는 삭제하지 않고, `직업 - 백수` 로 바꿔 놓는 방식으로 처리함. 

![4_18.png](../materials/4_18.png)

- 결측 레코드 : 하나의 컬럼이라도 결측치를 포함하고 있는 레코드(행)
    - 아래 1, 3, 5, 8이 결측레코드
- 결측 비율 : `결측 레코드 수`/ `전체 행 갯수`
    - 전체 10개 중 4개가 결측 레코드 : 40%
- 변수별 결측치 비율
    - 컬럼 별로 살펴보는 것. 
    - V1 컬럼은 10개 중 결측치 1개. 10%

![4_18.png](../materials/4_19.png)

# 결측치 삭제

- 지우고 난 다음에, 데이터가 충분히 안남으면 그게 문제인 것. 
    - 근데 그 충분한 데이터라는 말 자체도 애매함. 
    - 수렴 여부를 확인. 
    - 지워가면서 수렴 하는지 계속 봐야 하는 것. 
- 새로운 데이터가 들어와서 예측하려고 하는데 거기에 결측이 있으면 또 문제. 
    - 새로 들어온 데이터에도 충분히 결측이 있을 것 같다고 생각하면 행단위로 지워버리면 안된다. 
    - 새로 들어온 데이터에 결측이 있으면 그 다음 해결방법이 없음. 
    - 근데 새로운 데이터를 지금 어떻게 알아. 도메인 지식 기반으로 판단해야 함. 

![4_20.png](../materials/4_20.png)

- 결측이 있는 열을 지우면, 어차피 새로 들어오는 데이터의 해당 컬럼에 결측이 있더라도 어차피 지워지는 거라 큰 문제가 없음. 
- 다만, 근데 이거는 feature를 지워버리는건데, 당연히 해당 변수가 중요하면 지우면 안되지. 너무 당연하잖아. 
    - 중요한 변수인데 지워버리고 속편하면 예측이 제대로 될 리가 없다. 

![4_20.png](../materials/4_21.png)

- isnull과 notnull은 완벽히 반대로 작동한다. 
    - 허나 대부분은 `isnull` 혹은 `~isnull`을 쓴다. 

![4_20.png](../materials/4_22.png)

- 결측치 제거. 
- default `axis=0`
- how는 보통 `any`로 설정하는 경우가 많다. 

![4_20.png](../materials/4_23.png)

In [1]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 4. 머신러닝을 위한 필수 전처리/데이터/")

#### 행 단위 삭제

In [2]:
# 데이터 불러오기
df = pd.read_csv("mammographic.csv")

In [3]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [5]:
X.head()

Unnamed: 0,BI-RADS,Age,Shape,Margin,Density
0,5.0,67.0,3.0,5.0,3.0
1,4.0,43.0,1.0,1.0,
2,5.0,58.0,4.0,5.0,3.0
3,4.0,28.0,1.0,1.0,3.0
4,5.0,74.0,1.0,5.0,


In [6]:
# 학습 데이터와 평가 데이터 분할
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [7]:
Train_X.isnull().sum(axis = 0) # 열별 결측치 개수 확인

BI-RADS     1
Age         4
Shape      26
Margin     39
Density    58
dtype: int64

In [11]:
len(Train_X)
Train_X.shape

(720, 5)

In [12]:
Train_X.isnull().sum(axis = 0) / len(Train_X) # 열별 결측치 비율 확인
# 결측이 전체적으로 많은 편이 아니나, 모든 컬럼에 결측이 1회 이상 발생 => 열 삭제 불가

BI-RADS    0.001389
Age        0.005556
Shape      0.036111
Margin     0.054167
Density    0.080556
dtype: float64

In [13]:
Train_X.dropna(inplace = True) # 결측이 포함된 레코드 제거
# Train_X = Train_X.dropna()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Train_X.dropna(inplace = True) # 결측이 포함된 레코드 제거


In [14]:
Test_X.dropna(inplace = True) # 결측이 포함된 레코드 제거 (주의: 새로 들어온 레코드의 결측이 있으면 처리하지 못함을 의미)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Test_X.dropna(inplace = True) # 결측이 포함된 레코드 제거 (주의: 새로 들어온 레코드의 결측이 있으면 처리하지 못함을 의미)


In [15]:
Test_X.head()

Unnamed: 0,BI-RADS,Age,Shape,Margin,Density
768,4.0,67.0,4.0,5.0,3.0
513,4.0,70.0,4.0,4.0,3.0
267,3.0,53.0,4.0,3.0,3.0
485,4.0,28.0,2.0,1.0,3.0
338,4.0,46.0,4.0,4.0,3.0


#### 열 단위 삭제

In [16]:
# 데이터 불러오기
df = pd.read_csv("post_operative.csv")

In [17]:
# 특징과 라벨 분리
X = df.drop('Decision', axis = 1)
Y = df['Decision']

In [18]:
# 학습 데이터와 평가 데이터 분할
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [19]:
Train_X.head() # COMFORT 변수에 '?'로 결측이 표시되어 있음을 확인

Unnamed: 0,L-CORE,L-SURF,L-O2,L-BP,SURF-STBL,CORE-STBL,BP-STBL,COMFORT
56,high,mid,good,high,stable,stable,unstable,?
19,mid,mid,good,mid,stable,stable,stable,?
25,low,mid,good,mid,unstable,stable,stable,10
2,high,low,excellent,high,stable,stable,mod-stable,?
65,mid,mid,good,high,stable,stable,stable,?


In [21]:
import numpy as np
# 결측이 '?'로 표시되어 있음 => 데이터에 대한 이해가 없으면 적절히 처리가 안될 수 있음

# 이런 작업 안해주면, 그냥 결측 없다고 나와버림. 
Train_X.replace('?', np.nan).isnull().sum() / len(Train_X)

L-CORE       0.000000
L-SURF       0.000000
L-O2         0.000000
L-BP         0.000000
SURF-STBL    0.000000
CORE-STBL    0.000000
BP-STBL      0.000000
COMFORT      0.298507
dtype: float64

In [14]:
# 모든 결측이 COMFORT에 쏠렸으며, 해당 변수가 중요하지 않다는 도메인 지식 기반 하에 삭제
Train_X.dropna(axis = 1, inplace = True)


# Test_X = Test_X[Train_X.columns]
# Test에서는 그 컬럼에 결측이 없을 수도 있어서, Drop으로 안전하게 한 것. 

Test_X.drop('COMFORT', axis = 1, inplace = True) # Test_X에는 COMFORT가 결측이 없었을 수도 있으므로, drop을 이용하여 삭제

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [22]:
Train_X.isnull().sum(axis = 0)

L-CORE       0
L-SURF       0
L-O2         0
L-BP         0
SURF-STBL    0
CORE-STBL    0
BP-STBL      0
COMFORT      0
dtype: int64

# 대표값을 활용한 결측치 대체

- V1에 결측이 쏠려 있고, V2에는 결측값이 없음. 
    - 아래 표에서 V1을 대푯값이랍시고 1로 대체해버리면? 위험하지. 
    - 그리고, 1로 대체하는 순간 모든 V1이 다 같은 값을 갖게 됨. 변수로서 기능이 없음. 
    - 때문에, 소수의 특징에 결측이 쏠린 경우는 잘 쓰지 않는다. 
- 또한 컬럼끼리 상관성이 큰 경우    
    - 이런 경우도, V1과 V2사이 관계가 명확한데, V1만 보고 결정해 버리기가 어려움. 


![4_24.png](../materials/4_24.png)

- 사이킷런의 모든 전처리에 포함되는 내용
    - .fit은 데이터를 기억만 하고 있을 뿐이지, 실제로 아무것도 한게 아님. 
    - .transform을 해야 트레이닝이 되고, 결측치도 대체가 되고 하는 것. 
    - 이제 이 preprocessing model을 가지고, test데이터에도 적용시킴. 
    - 단 중요한 것은 test data에 대해서는 fit이 적용되지 않는다. 

![4_24.png](../materials/4_25.png)

- fit을 하면, 이 대푯값을 기억하고, 
- transform에서 실제로 대체하는 것. 

![4_24.png](../materials/4_26.png)

![4_24.png](../materials/4_27.png)

![4_24.png](../materials/4_28.png)

#### 단순한 케이스: 모든 특징의 타입이 같은 경우

In [23]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 4. 머신러닝을 위한 필수 전처리/데이터/")

In [24]:
df = pd.read_csv("cleveland.csv")

In [25]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [28]:
X.head()

Unnamed: 0,Age,Sex,Cp,Trestbps,Chol,Fbs,Restecg,Thalach,Exang,Oldpeak,Slope,Ca,Thal
0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0
1,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0
2,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0
3,56,1,2,120,236,0,0,178,0,0.8,1,0.0,3.0
4,57,0,4,120,354,0,0,163,1,0.6,1,0.0,3.0


In [29]:
Y.head()

0    0
1    0
2    0
3    0
4    0
Name: Output, dtype: int64

In [30]:
# 학습 데이터와 평가 데이터로 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [31]:
# 결측치 확인
Train_X.isnull().sum()
# 결측치가 많지 않음
# 지워도 무방한 수치이지만, 새로 들어온 데이터에 결측이 있을 수도 있다는 도메인 지식이 있다고 가정

Age         0
Sex         0
Cp          0
Trestbps    0
Chol        0
Fbs         0
Restecg     0
Thalach     0
Exang       0
Oldpeak     0
Slope       0
Ca          3
Thal        1
dtype: int64

In [None]:
# 상관계수 높으면, Simpleimputer쓰기 전에 다시 생각해 봐야함. 

In [36]:
Train_X.corr()

Unnamed: 0,Age,Sex,Cp,Trestbps,Chol,Fbs,Restecg,Thalach,Exang,Oldpeak,Slope,Ca,Thal
Age,1.0,-0.200992,0.081034,0.2358022,0.2681,0.136374,0.161876,-0.4733389,0.055372,0.189158,0.133727,0.252447,0.121502
Sex,-0.200992,1.0,-0.134247,0.07734126,-0.184299,0.107057,-0.091255,0.09910778,0.040302,0.104824,-0.019709,0.080483,0.422075
Cp,0.081034,-0.134247,1.0,-0.1688649,0.067232,-0.107129,-0.066803,-0.1991036,0.299046,0.012214,-0.033181,0.054824,0.060322
Trestbps,0.235802,0.077341,-0.168865,1.0,0.075812,0.137208,0.179282,7.791398e-07,-0.033123,0.192599,0.080783,-0.064322,0.159719
Chol,0.2681,-0.184299,0.067232,0.07581215,1.0,0.011681,0.219068,0.03228679,0.004037,-0.008832,-0.032735,0.006632,0.048694
Fbs,0.136374,0.107057,-0.107129,0.1372079,0.011681,1.0,0.124728,-0.01883215,0.075122,0.077063,0.101679,0.120008,-0.016509
Restecg,0.161876,-0.091255,-0.066803,0.1792816,0.219068,0.124728,1.0,-0.04183578,0.037741,0.067388,0.133482,0.014075,-0.052387
Thalach,-0.473339,0.099108,-0.199104,7.791398e-07,0.032287,-0.018832,-0.041836,1.0,-0.266268,-0.233896,-0.22007,-0.171389,-0.173791
Exang,0.055372,0.040302,0.299046,-0.03312278,0.004037,0.075122,0.037741,-0.2662679,1.0,0.14214,0.134293,0.118001,0.21297
Oldpeak,0.189158,0.104824,0.012214,0.1925988,-0.008832,0.077063,0.067388,-0.2338964,0.14214,1.0,0.523991,0.023849,0.132789


In [35]:
# corr찍으면 복잡하게 나오니깐, 그냥 열별로 합해버린 것. 
Train_X.corr().sum()

Age         1.961062
Sex         1.300687
Cp          0.865344
Trestbps    1.872237
Chol        1.507677
Fbs         1.748450
Restecg     1.685358
Thalach    -0.667130
Exang       1.819636
Oldpeak     2.223286
Slope       1.931090
Ca          1.451261
Thal        2.152437
dtype: float64

In [32]:
# 평균 상관 계수 확인 (주의: 모든 변수가 연속형이므로 가능한 접근)
# 분모에서는 대각 행렬인 1을 빼준 것. 
Train_X.corr().sum() / (len(Train_X.columns) - 1)

# 수치가 높지 않다고 판단 => 특징 간 관계가 크지 않음 => 대표값 대체 활용 가능 판단

Age         0.163422
Sex         0.108391
Cp          0.072112
Trestbps    0.156020
Chol        0.125640
Fbs         0.145704
Restecg     0.140447
Thalach    -0.055594
Exang       0.151636
Oldpeak     0.185274
Slope       0.160924
Ca          0.120938
Thal        0.179370
dtype: float64

In [37]:
# 대표값을 활용한 결측치 대체
from sklearn.impute import SimpleImputer

# SimpleImputer 인스턴스화
SI = SimpleImputer(strategy = 'mean')

# 학습, 실제 대푯값 등을 학습
SI.fit(Train_X)

# sklearn instance의 출력은 ndarray이므로 다시 DataFrame으로 바꿔줌
Train_X = pd.DataFrame(SI.transform(Train_X), columns = Train_X.columns)
Test_X = pd.DataFrame(SI.transform(Test_X), columns = Test_X.columns)

In [38]:
Train_X.isnull().sum()

Age         0
Sex         0
Cp          0
Trestbps    0
Chol        0
Fbs         0
Restecg     0
Thalach     0
Exang       0
Oldpeak     0
Slope       0
Ca          0
Thal        0
dtype: int64

In [39]:
Train_X.head()

Unnamed: 0,Age,Sex,Cp,Trestbps,Chol,Fbs,Restecg,Thalach,Exang,Oldpeak,Slope,Ca,Thal
0,60.0,1.0,4.0,130.0,253.0,0.0,0.0,144.0,1.0,1.4,1.0,1.0,7.0
1,58.0,1.0,4.0,146.0,218.0,0.0,0.0,105.0,0.0,2.0,2.0,1.0,7.0
2,53.0,1.0,4.0,140.0,203.0,1.0,2.0,155.0,1.0,3.1,3.0,0.0,7.0
3,58.0,1.0,2.0,120.0,284.0,0.0,2.0,160.0,0.0,1.8,2.0,0.0,3.0
4,42.0,1.0,1.0,148.0,244.0,0.0,2.0,178.0,0.0,0.8,1.0,2.0,3.0


#### 복잡한 케이스: 다른 타입의 특징이 있는 경우

In [41]:
df = pd.read_csv("saheart.csv")

In [42]:
# 특징과 라벨 분리
X = df.drop('Chd', axis = 1)
Y = df['Chd']

In [43]:
# 학습 데이터와 평가 데이터로 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [44]:
# 결측치 확인
Train_X.isnull().sum()
# 결측치가 많지 않음
# 지워도 무방한 수치이지만, 새로 들어온 데이터에 결측이 있을 수도 있다는 도메인 지식이 있다고 가정

Sbp          0
Tobacco      0
Ldl          0
Adiposity    0
Typea        0
Obesity      7
Alcohol      4
Age          0
Famhist      4
dtype: int64

In [45]:
# 평균 상관 계수 확인 (주의: 모든 변수가 연속형이므로 가능한 접근)
Train_X.corr().sum() / (len(Train_X.columns) - 1)

# 수치가 높지 않다고 판단 => 특징 간 관계가 크지 않음 => 대표값 대체 활용 가능 판단

Sbp          0.307972
Tobacco      0.229889
Ldl          0.296297
Adiposity    0.429504
Typea        0.107424
Obesity      0.340740
Alcohol      0.206673
Age          0.363220
Famhist      0.244280
dtype: float64

In [46]:
# Famhist: 범주형 변수
# 그 외 변수: 연속형 변수

# 대표값을 평균을 사용할지, 최빈값을 사용할지 결정이 어려움 => 둘 다 사용해야 함
# 따라서 데이터를 분할해야 함

Train_X_cate = Train_X[['Famhist']]
Train_X_cont = Train_X.drop('Famhist', axis = 1)

Test_X_cate = Test_X[['Famhist']]
Test_X_cont = Test_X.drop('Famhist', axis = 1)

In [47]:
# 대표값을 활용한 결측치 대체
from sklearn.impute import SimpleImputer

# SimpleImputer 인스턴스화
SI_mode = SimpleImputer(strategy = 'most_frequent')
SI_mean = SimpleImputer(strategy = 'mean')

# 학습
SI_mode.fit(Train_X_cate)
SI_mean.fit(Train_X_cont)

# sklearn instance의 출력은 ndarray이므로 다시 DataFrame으로 바꿔줌
Train_X_cate = pd.DataFrame(SI_mode.transform(Train_X_cate),
                            columns = Train_X_cate.columns)

Test_X_cate = pd.DataFrame(SI_mode.transform(Test_X_cate),
                           columns = Test_X_cate.columns)

Train_X_cont = pd.DataFrame(SI_mean.transform(Train_X_cont),
                            columns = Train_X_cont.columns)

Test_X_cont = pd.DataFrame(SI_mean.transform(Test_X_cont),
                           columns = Test_X_cont.columns)

# 다시 두 데이터를 이어붙여야 함
Train_X = pd.concat([Train_X_cate, Train_X_cont], axis = 1)
Test_X = pd.concat([Test_X_cate, Test_X_cont], axis = 1)

In [49]:
Train_X_cont

Unnamed: 0,Sbp,Tobacco,Ldl,Adiposity,Typea,Obesity,Alcohol,Age
0,132.0,0.0,4.63,27.86,46.0,23.39,0.510000,52.0
1,144.0,0.0,8.13,35.61,46.0,27.38,13.370000,60.0
2,128.0,0.0,3.58,20.71,55.0,24.15,0.000000,52.0
3,194.0,0.0,6.89,33.88,69.0,29.33,0.000000,41.0
4,182.0,0.0,4.41,32.10,52.0,28.61,16.400965,52.0
...,...,...,...,...,...,...,...,...
341,160.0,0.0,8.12,29.30,54.0,25.87,12.860000,43.0
342,128.0,0.0,4.90,31.35,57.0,26.42,0.000000,64.0
343,120.0,0.0,15.33,22.00,60.0,25.31,34.490000,49.0
344,162.0,5.6,4.24,22.53,29.0,22.91,5.660000,60.0


In [50]:
Train_X.isnull().sum()

Famhist      0
Sbp          0
Tobacco      0
Ldl          0
Adiposity    0
Typea        0
Obesity      0
Alcohol      0
Age          0
dtype: int64

In [None]:
# Tip. 이진형 변수와 연속형 변수만 포함된 경우에는 SI_mean만 사용하여 결측치를 평균으로 대체한 뒤에, 
# 이진형 변수에 대해서만 round 처리를 하면 하나의 인스턴스만 활용할 수 있음

# 시계열 결측치 대체

- 시계열 변수 한정, 근처값으로 대체.
- 바로 이전값과 굉장히 비슷하게 나오기 때문에 쓰는 방법. 

![4_29.png](../materials/4_31_1.png)

![4_29.png](../materials/4_33.png)

- 시간에 따른 정렬이 되어 있다고 전제된 상태. 
- 맨 앞이나 뒤는 보통 남게 되니깐, 한 방법으로 먼저 채우고, 다른 방법 한번 더 쓰는 방식을 자주 씀. 

In [51]:
# 데이터를 train_test_split을 이용하여 임의로 분할한 경우에는 적용이 불가능
# 분할하기 전에 결측치 대체가 가능한 유일한 케이스

In [52]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 4. 머신러닝을 위한 필수 전처리/데이터/")

In [53]:
df = pd.read_excel("AirQuality.xlsx")

In [54]:
df.isnull().sum()

Date              0
Time              0
CO(GT)            1
PT08.S1(CO)       2
NMHC(GT)          2
C6H6(GT)         10
PT08.S2(NMHC)     4
NOx(GT)           6
PT08.S3(NOx)      7
NO2(GT)           6
PT08.S4(NO2)      6
PT08.S5(O3)       1
T                 0
RH                0
AH                0
dtype: int64

In [55]:
df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-10,18:00:00,2.6,1360.0,150.0,11.881723,1045.5,166.0,1056.25,113.0,1692.0,1267.5,13.6,48.875001,0.757754
1,2004-03-10,19:00:00,2.0,1292.25,112.0,9.397165,954.75,103.0,1173.75,92.0,1558.75,972.25,13.3,47.7,0.725487
2,2004-03-10,20:00:00,2.2,1402.0,88.0,8.997817,939.25,131.0,1140.0,114.0,1554.5,1074.0,11.9,53.975,0.750239
3,2004-03-10,21:00:00,2.2,1375.5,80.0,9.228796,948.25,172.0,1092.0,122.0,1583.75,1203.25,11.0,60.0,0.786713
4,2004-03-10,22:00:00,1.6,1272.25,51.0,6.518224,835.5,131.0,1205.0,116.0,1490.0,1110.0,11.15,59.575001,0.788794


보통은 ffill을 먼저 쓰는게 더 바람직하다. 새로 들어온 데이터는 맨 뒤로 가니깐. 

In [56]:
df = df.fillna(method = 'ffill').fillna(method = 'bfill')

In [57]:
df.isnull().sum()

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
NMHC(GT)         0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

# 결측치 예측 모델 활용

- 결측이 있을 때, 그 값이 원래 어떤 값이였을지 예측해서 활용하는 것. 
- 결측치 컬럼 자체를 새로운 라벨로 보고, 나머지는 feature로 봐서 예측 모델을 만드는 것. 

![4_34.png](../materials/4_34.png)

- 결측치가 특정 컬럼에서 비율이 너무 높으면, 그 컬럼이 label로 쓰여야 되는데 라벨값 자체가 적은 상황. 예측 모델이 잘 안돌아갈 수 있지. 
    - 근데 한 90%여도, 남은 레코드가 한 10만개 되면 상관 없지. 
- 특징간 관계가 있어야 한다. 그래야, 예측이 가능하지. 완벽하게 독립이면 쓸모가 없다. 

![4_34.png](../materials/4_35_1.png)

- 현재 하단에서, a/c/d에 결측이 있고, b/e는 결측을 처리할 필요가 없다. 
- a, c, d에 대해서만 이웃을 찾는다. 
    - 그럼 d는 이웃이 c랑 b라는데 어떻게 계산된걸까?
    - d와 c의 거리는 |7-5|, d와 b의 거리는 |7-4| 이렇게 해서 나왔겠지. 
- 되는 애들로만, 거리 계산해서 이웃을 찾는 것 같다.  
- 공식문서 : `Two samples are close if the features that neither is missing are close.`

![4_34.png](../materials/4_36.png)

importance reference : [nan_euclidean_distance](https://www.analyticsvidhya.com/blog/2020/07/knnimputer-a-robust-way-to-impute-missing-values-using-scikit-learn/)

In [61]:
X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]
pd.DataFrame(X)

Unnamed: 0,0,1,2
0,1.0,2,
1,3.0,4,3.0
2,,6,5.0
3,8.0,8,7.0


In [62]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 4. 머신러닝을 위한 필수 전처리/데이터/")

In [63]:
df = pd.read_csv("mammographic.csv")

In [64]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [65]:
X.head()

Unnamed: 0,BI-RADS,Age,Shape,Margin,Density
0,5.0,67.0,3.0,5.0,3.0
1,4.0,43.0,1.0,1.0,
2,5.0,58.0,4.0,5.0,3.0
3,4.0,28.0,1.0,1.0,3.0
4,5.0,74.0,1.0,5.0,


In [66]:
Y.head()

0    1
1    1
2    1
3    0
4    1
Name: Output, dtype: int64

In [67]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [68]:
# 열별 결측치 비율 확인 => 그리 높지 않음을 확인
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.001389
Age        0.005556
Shape      0.031944
Margin     0.050000
Density    0.084722
dtype: float64

In [69]:
# 특징 간 상관 계수 확인 => 평균적으로 40 ~ 50%로 매우 높음을 확인
Train_X.corr().sum() / len(Train_X.columns)

BI-RADS    0.450414
Age        0.418170
Shape      0.518559
Margin     0.547298
Density    0.265533
dtype: float64

In [70]:
# KNN Imputer 인스턴스화
from sklearn.impute import KNNImputer
KI = KNNImputer(n_neighbors = 5)

# KNN Imputer 학습
KI.fit(Train_X)

# 결측 대체
Train_X = pd.DataFrame(KI.transform(Train_X), columns = Train_X.columns)
Test_X = pd.DataFrame(KI.transform(Test_X), columns = Test_X.columns)

In [71]:
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64

In [72]:
Test_X.isnull().sum() / len(Test_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64