## 결측치 처리 방법 
- 제거 (Deletion)
- 대치 (Imputation)
- 예측 모델 (Prediction model)

## 결측치 처리 가이드라인
- 10% 미만
    - 삭제 or 대치
- 10% ~ 50%
  - regression or model based imputation
- 50% 이상
    - 해당 컬럼(변수) 자체 제거

In [1]:
import pandas as pd

In [2]:
df_ROS = pd.read_csv('../dataset/RecurrenceOfSurgery.csv')
df_ROS[:2]

Unnamed: 0.1,Unnamed: 0,환자ID,Large Lymphocyte,Location of herniation,ODI,가족력,간질성폐질환,고혈압여부,과거수술횟수,당뇨여부,...,Modic change,PI,PT,Seg Angle(raw),Vaccum disc,골밀도,디스크단면적,디스크위치,척추이동척도,척추전방위증
0,0,1PT,22.8,3,51.0,0.0,0,0,0,0,...,3,51.6,36.6,14.4,0,-1.01,2048.5,4,Down,0
1,1,2PT,44.9,4,26.0,0.0,0,0,0,0,...,0,40.8,7.2,17.8,0,-1.14,1753.1,4,Up,0


#### 결측치 확인 

In [107]:
 #결측치 여부 확인
    
df_ROS.isnull().sum()
# df_ROS.notnull().sum()

Unnamed: 0                  0
환자ID                        0
Large Lymphocyte            0
Location of herniation      0
ODI                         0
가족력                         0
간질성폐질환                      0
고혈압여부                       0
과거수술횟수                      0
당뇨여부                        0
말초동맥질환여부                    0
빈혈여부                        0
성별                          0
스테로이드치료                     0
신부전여부                       0
신장                          0
심혈관질환                       0
암발병여부                       0
연령                          0
우울증여부                       0
입원기간                        0
입원일자                        0
종양진행여부                      0
직업                        415
체중                          0
퇴원일자                        0
헤모글로빈수치                     1
혈전합병증여부                     0
환자통증정도                      0
흡연여부                        0
통증기간(월)                     4
수술기법                       81
수술시간                        0
수술실패여부    

In [73]:
 # 결측치 개수 확인

df_ROS['수술시간'].isnull().value_counts()

False    1840
True       54
Name: 수술시간, dtype: int64

### 제거(Deletion)
- 결측치가 있는 행은 삭제해주는 함수 : dropna() 
    - dropna( ) 의 인자로는 axis , how , thresh 
        - axis : 기준 축을 정해주는 것 ex) axis = 1 로 설정할 경우 칼럼기준으로 결측치를 삭제한다. 열기준
        - how : 어떤 결측치를 삭제할 건지를 조건 설정 ex)  how = 'all' 을 해줄경우 행의 모든내용이 비어있는 경우에만 삭제
        - thresh : threshold 는 역치(경계) 라는 뜻 ex) thresh = 3 이라고 할 경우 4개이상의 결측치가 있는 행만 제거

In [75]:
# 결측치 삭제 
df_ROS_drop = df_ROS.dropna() 

## (axis = 1) --> 결측치가 있는 열은 전부 삭제
## (how='all') --> 모든 데이터가 null인 행만 삭제
## (thresh=3) --> 데이터가 최소4개 이상 없을 때 drop
## (subset=['col1', 'col2', 'col3'], thresh = 1 ) --> 특정열에 1개 초과의 결측치가 있을 경우 해당 행 삭제
## (inplace = True) --> 데이터프레임을 지정해서 저장하지 않고도 바로 적용

### 대치(Imputation) 

#### 단일값으로 채우기

In [55]:
df_ROS['가족력'].value_counts()

0.0    1751
1.0      92
Name: 가족력, dtype: int64

In [66]:
df_ROS['가족력'] = df_ROS['가족력'].fillna(0) ## null값 0으로 채우기

In [None]:
df_ROS['가족력'].isnull().sum()

#### 평균값, 중위값 , 최빈값(가장 많은 빈도수)으로 채우기
- .mean() .median() .mode()
- inplace=True : 원본데이터를 바꾸겠다는 뜻

In [58]:
df_ROS['ODI'].value_counts()

40.0    34
36.0    25
31.0    23
44.0    23
37.0    22
33.0    21
26.0    21
19.0    19
29.0    17
27.0    17
43.0    16
35.0    16
15.0    14
34.0    13
30.0    13
28.0    13
32.0    11
25.0    11
42.0    10
22.0    10
24.0    10
38.0     9
18.0     9
21.0     8
23.0     8
12.0     7
39.0     6
20.0     6
14.0     5
13.0     5
11.0     4
46.0     4
51.0     4
17.0     4
41.0     4
55.0     4
68.0     3
49.0     3
10.0     3
45.0     2
16.0     2
47.0     1
9.0      1
4.0      1
Name: ODI, dtype: int64

In [61]:
df_ROS['ODI'].mean()

31.142857142857153

In [65]:
df_ROS['ODI'].fillna(df_ROS['ODI'].mean(), inplace=True) #평균값

In [64]:
df_ROS['ODI'].isnull().sum()

0

#### 결측치 바로 이후 값으로 채우기

In [105]:
 df_ROS['수술시간'].fillna(method = 'bfill', inplace = True)

In [106]:
df_ROS['수술시간'].isnull().sum()

0

#### 결측치 바로 이전 값으로 채우기

In [108]:
 df_ROS['지방축적도'].fillna(method = 'ffill', inplace = True)
df_ROS['지방축적도'].isnull().sum()

0

In [82]:
df_ROS['수술시간'].replace(to_replace = np.nan, value = 35)


54

#### GroupBy를 이용하여 평균값, 중위값 , 최빈값(가장 많은 빈도수)으로 채우기

In [67]:
df_ROS.groupby('성별')['ODI'].mean()

성별
1    31.105186
2    31.203463
Name: ODI, dtype: float64

In [70]:
#성별로 나눠서 평균값을 집어 넣기

df_ROS['ODI'].fillna(df_ROS.groupby('성별')['ODI'].transform('mean'), inplace=True) 

### 예측모델(Prediction model)

In [3]:
df_ROS_extract = df_ROS[['환자통증정도','입원기간', '통증기간(월)', '연령', '체중', 'Large Lymphocyte', '수술기법']]

In [4]:
df_ROS_extract.isnull().sum()

환자통증정도               0
입원기간                 0
통증기간(월)              4
연령                   0
체중                   0
Large Lymphocyte     0
수술기법                81
dtype: int64

In [9]:
df_ROS_dropna= df_ROS_extract.dropna()

In [10]:
df_ROS_dropna.isnull().sum()

환자통증정도              0
입원기간                0
통증기간(월)             0
연령                  0
체중                  0
Large Lymphocyte    0
수술기법                0
dtype: int64

### 예측 모델 (Prediction model)

In [11]:
target_forfillingna = df_ROS_dropna['통증기간(월)']
features_forfillingna = df_ROS_dropna.drop(columns=['통증기간(월)','수술기법'])

In [12]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(features_forfillingna, target_forfillingna)

In [13]:
# Prediction
target_pred = model.predict(df_ROS_extract.loc[:, ['환자통증정도', '입원기간', '연령', '체중', 'Large Lymphocyte']])


In [14]:
target_pred

array([4.36540182, 4.25714142, 6.02211847, ..., 6.31144615, 5.40575204,
       4.58886641])

In [15]:
def predict_missing_duration(row):
    if pd.isnull(row['통증기간(월)']):
        # 모델을 사용하여 결측치 예측
        features_forfillingna = row[['환자통증정도', '입원기간', '연령', '체중', 'Large Lymphocyte']].values.reshape(1, -1)
        predicted_duration = model.predict(features_forfillingna)
        return predicted_duration[0]
    else:
        # 값이 있는 경우 그대로 반환
        return row['통증기간(월)']

In [16]:
df_ROS_extract['통증기간(월)_filledna'] = df_ROS_extract.apply(predict_missing_duration, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['통증기간(월)_filledna'] = df_ROS_extract.apply(predict_missing_duration, axis=1)


In [18]:
df_ROS_extract['통증기간(월)'].isnull().sum()

4

### 방법 2

In [19]:
'y_pred' 는  2D numpy array 형태이므로, 이를 flatten() 메소드를 사용해서  1D array 로 바꾸어주고, 
이를  pd.Series() 메소드를 사용해서 Series 데이터 유형으로 변환을 해주었습니다.   
inplace=True 옵션을 사용해서 df DataFrame 내에서 결측값이 선형회귀모형 추정값으로 대체되고 나서 저장되도록 하였습니다. 

SyntaxError: invalid decimal literal (3298558693.py, line 1)

In [30]:
df_ROS_extract['통증기간(월)_방법2']= df_ROS_extract['통증기간(월)'].fillna(pd.Series(target_pred.flatten())) #inplace=True

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['통증기간(월)_방법2']= df_ROS_extract['통증기간(월)'].fillna(pd.Series(target_pred.flatten())) #inplace=True


In [31]:
df_ROS_extract['통증기간(월)_방법2'].isnull().sum()

0

In [28]:
df_ROS_extract['통증기간(월)_방법2']

0        1.0
1        1.0
2        1.0
3        2.0
4        1.0
        ... 
1889    12.0
1890     6.0
1891     1.0
1892    24.0
1893     6.0
Name: 통증기간(월)_방법2, Length: 1894, dtype: float64

### 방법 3

In [33]:
 numpy의 where() 메소드를 사용해서,  
    결측값인 경우  (즉,  isnull() 이 True)  pd.Series(y_pred.flatten()) 값을 가져옥,
    결측값이 아닌 경우 기존 값을 가져와서  'whole_weight' 에 값을 할당하도록 

SyntaxError: invalid syntax (3896289228.py, line 1)

In [34]:
import numpy as np

In [35]:
df_ROS_extract['통증기간(월)_방법3'] = np.where(df_ROS_extract['통증기간(월)_방법2'].isnull(), 
                              pd.Series(target_pred.flatten()), 
                              df_ROS_extract['통증기간(월)_방법2'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['통증기간(월)_방법3'] = np.where(df_ROS_extract['통증기간(월)_방법2'].isnull(),


In [36]:
df_ROS_extract['통증기간(월)_방법3'].isnull().sum()

0

In [37]:
df_ROS_extract['통증기간(월)_방법3']

0        1.0
1        1.0
2        1.0
3        2.0
4        1.0
        ... 
1889    12.0
1890     6.0
1891     1.0
1892    24.0
1893     6.0
Name: 통증기간(월)_방법3, Length: 1894, dtype: float64

####  ref :  https://rfriend.tistory.com/636

In [100]:
df_ROS.isnull().sum()

Unnamed: 0                  0
환자ID                        0
Large Lymphocyte            0
Location of herniation      0
ODI                         0
가족력                         0
간질성폐질환                      0
고혈압여부                       0
과거수술횟수                      0
당뇨여부                        0
말초동맥질환여부                    0
빈혈여부                        0
성별                          0
스테로이드치료                     0
신부전여부                       0
신장                          0
심혈관질환                       0
암발병여부                       0
연령                          0
우울증여부                       0
입원기간                        0
입원일자                        0
종양진행여부                      0
직업                        415
체중                          0
퇴원일자                        0
헤모글로빈수치                     1
혈전합병증여부                     0
환자통증정도                      0
흡연여부                        0
통증기간(월)                     4
수술기법                       81
수술시간                       54
수술실패여부    

### KNN Algorithm (k-최근접 이웃 알고리즘)
- NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘

In [85]:
from sklearn.impute import KNNImputer
Imputer= KNNImputer()

In [86]:
imputer=KNNImputer(n_neighbors=5)

In [96]:
# train = df_ROS['수술시간'].array.reshape(-1, 1)
train = df_ROS['수술시간']

In [None]:
train = df_ROS['수술시간'].array.reshape(-1, 1)
filled_train=imputer.fit_transform(train)

In [109]:
train = df_ROS['수술시간']  # return : array값
# 사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴
df_ROS['수술시간']=pd.DataFrame(imputer.fit_transform(train_knn))

In [110]:
df_ROS['수술시간'].isnull().sum()

0

In [111]:
df_ROS_extract['수술기법'].value_counts()

TELD    1673
IELD     140
Name: 수술기법, dtype: int64

In [112]:
# 매핑 딕셔너리 생성
mapping_dict = {'TELD': 1, 'IELD': 2}

In [113]:
# '수술기법' 열의 값을 매핑 딕셔너리를 사용하여 변환
df_ROS_extract['수술기법'] = df_ROS_extract['수술기법'].map(mapping_dict)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['수술기법'] = df_ROS_extract['수술기법'].map(mapping_dict)


In [114]:
train_knn = df_ROS_extract['수술기법'].array.reshape(-1, 1) 

In [115]:
df_ROS_extract['수술기법'] = imputer.fit_transform(train_knn)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ROS_extract['수술기법'] = imputer.fit_transform(train_knn)


In [116]:
df_ROS_extract['수술기법'].isnull().sum()

0

In [117]:
df_ROS_extract['수술기법'].value_counts()

1.00000    1673
2.00000     140
1.07722      81
Name: 수술기법, dtype: int64