<a href="https://colab.research.google.com/github/skymined/study_data_analytics/blob/main/docs/pandas/07_pandas_preprocessing_missingvalues.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [37]:
import pandas as pd

## 전처리(Preprocessing)
- 정형 데이터 기준 : 이상치/결측치에 대한 값 처리방법

### 결측치(missing values) : Null, NaN, None, ""
- 결측치 확인 : pd.isnull()
- 결측치 처리
  - 결측치 삭제 : pd.dropna(subset=[(column이름)]), 행 단위 적용
  - 결측치 치환 : 대표값 or 머신러닝 예측값, 열 단위 적용


In [52]:
import numpy as np
# 데이터셋 생성
data = {
    "수치형": [1, None, 3, np.nan, 5],
    "범주형": [None, 'B', 'C', np.nan, 'E'],
    "datetime": pd.date_range(start='2021-01-01', periods=4).insert(3, np.nan)
}
df_temp = pd.DataFrame(data)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


#### 결측치 확인

In [39]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   수치형       3 non-null      float64       
 1   범주형       3 non-null      object        
 2   datetime  4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 248.0+ bytes


In [40]:
df_temp.isnull().sum() # 각 컬럼별로 결측치 총합 표시

수치형         2
범주형         2
datetime    1
dtype: int64

#### 결측치 처리

##### 결측치 제거 : 행 단위 적용

In [41]:
df_temp.dropna()  # na =~ NaN # row 에 하나라도 결측치가 있으면 바로 삭제해버림
# df_temp.dropna(inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


In [42]:
df_temp.dropna(subset=['범주형']) # 특정 컬럼을 지정

Unnamed: 0,수치형,범주형,datetime
1,,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


#### 결측치 채우기
- 대표값을 설정해 채움
- 머신러닝(KNN) 기술 사용해 채움

In [53]:
df_temp.describe()
# df_temp.describe().loc['mean', '수치형']

Unnamed: 0,수치형
count,3.0
mean,3.0
std,2.0
min,1.0
25%,2.0
50%,3.0
75%,4.0
max,5.0


In [54]:
df_temp['수치형'].fillna(2.5)
# df_temp['수치형'].fillna(2.5, inplace=True)

0    1.0
1    2.5
2    3.0
3    2.5
4    5.0
Name: 수치형, dtype: float64

In [55]:
df_temp.describe(include=object)

Unnamed: 0,범주형
count,3
unique,3
top,B
freq,1


In [56]:
df_temp['범주형'].value_counts()

B    1
C    1
E    1
Name: 범주형, dtype: int64

In [57]:
df_temp['범주형'].fillna('G', inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,G,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,G,NaT
4,5.0,E,2021-01-04


In [58]:
df_temp.describe(include='datetime') # 분포에 영향 많으므로 되도록 삭제

  df_temp.describe(include='datetime') # 분포에 영향 많으므로 되도록 삭제


Unnamed: 0,datetime
count,4
unique,4
top,2021-01-01 00:00:00
freq,1
first,2021-01-01 00:00:00
last,2021-01-04 00:00:00


In [59]:
df_temp.dropna(inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,G,2021-01-01
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04
