<a href="https://colab.research.google.com/github/ohjisu320/study_data_analytics/blob/main/docs/pandas/07_pandas_preprocessing_missingvalues.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 전처리(preprocessing)
-  정형 데이터 기준: 이상치/결측치에 대한 값 처리 방법

### 결측치(missing values) 처리 : Null, NaN, None, ""
- 결측치 확인 : pd.isnull(df).sum() / df.isnull().sum()
- 결측치 처리
    - 결측치 삭제 : pd.dropna(subset=[]) -- 행 단위 적용
    - 결측치 치환 : 대표값 or 머신러닝 예측값 -- 열 단위 적용


In [4]:
import pandas as pd
import numpy as np

In [28]:
# 데이터셋 생성
data = {
    "수치형": [1, None, 3, np.nan, 5],
    "범주형": [None, 'B', 'C', np.nan, 'E'],
    "datetime": pd.date_range(start='2021-01-01', periods=4).insert(3, np.nan)
}
df_temp = pd.DataFrame(data)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


#### 결측치 확인

In [16]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   수치형       3 non-null      float64       
 1   범주형       3 non-null      object        
 2   datetime  4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 248.0+ bytes


In [15]:
df_temp.isnull().sum() # 각 컬럼 별로 결측치 총합 표시

수치형         2
범주형         2
datetime    1
dtype: int64

In [11]:
pd.isnull(df_temp).sum()

수치형         2
범주형         2
datetime    1
dtype: int64

#### 결측치 처리

##### 행에서 제거

In [29]:
df_temp.dropna()  # na = NaN  # row에 하나라도 결측치가 있으면 행 전체 삭제
# df_temp.dropna(inplace=True)  # inplace
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


In [30]:
df_temp.dropna(subset=['범주형']) # 특정 컬럼을 지정

Unnamed: 0,수치형,범주형,datetime
1,,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


#### 결측치 치환
- 대표값 설정
- 머신러닝 예측(KNN사용)

In [36]:
# df_temp.describe() # mean과 median이 같으면 정규분포를 띄고 있음을 알 수 있음, 다르면 median의 값쪽으로 쏠려 있는 분포라고 예상 가능
df_temp.describe().loc['mean', '수치형'] #  == df_temp.describe().loc['mean']['수치형']

3.0

In [37]:
df_temp['수치형'].fillna(3.0)

0    1.0
1    3.0
2    3.0
3    3.0
4    5.0
Name: 수치형, dtype: float64

In [39]:
df_temp['수치형'].fillna(2.0, inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
3,2.0,,NaT
4,5.0,E,2021-01-04


In [40]:
df_temp.describe(include=object)

Unnamed: 0,범주형
count,3
unique,3
top,B
freq,1


In [42]:
df_temp['범주형'].value_counts

<bound method IndexOpsMixin.value_counts of 0    None
1       B
2       C
3     NaN
4       E
Name: 범주형, dtype: object>

In [44]:
df_temp['범주형'].fillna('E', inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,E,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
3,2.0,E,NaT
4,5.0,E,2021-01-04


In [46]:
df_temp.describe(include='datetime') # 분포에 영향 많으므로 되도록 삭제

  df_temp.describe(include='datetime')


Unnamed: 0,datetime
count,4
unique,4
top,2021-01-01 00:00:00
freq,1
first,2021-01-01 00:00:00
last,2021-01-04 00:00:00


In [48]:
df_temp.dropna(inplace=True) #다른 결측치는 이미 처리되었기에 전체에서 dropna 사용
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,E,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04
