## 전처리(Preprocessing)
- 정형 데이터 기준 : 이상치/결측치 대한 값 처리 방법

###결측치(missing values) : Null, NaN, None,""
- 결측치 확인 : pd.isnull().sum()
- 결측치 처리
  - 결측치 치환 : pd.dropna(subset=[]), 행 단위 적용
  - 결측치 제거 : 대표값 or 머신러닝 예측값, 열 단위

In [32]:
import pandas as pd
import numpy as np
# 데이터셋 생성
data = {
    "수치형": [1, None, 3, np.nan, 5],
    "범주형": [None, 'B', 'C', np.nan, 'E'],
    "datetime": pd.date_range(start='2021-01-01', periods=4).insert(3, np.nan)
}
df_temp = pd.DataFrame(data)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


#### 결측치 확인

In [16]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   수치형       3 non-null      float64       
 1   범주형       3 non-null      object        
 2   datetime  4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 248.0+ bytes


In [15]:
df_temp.isnull().sum() # 각 컬럼별로 결측치 총합 표시

수치형         2
범주형         2
datetime    1
dtype: int64

#### 결측치 처리

##### 결측치 제거 : 행 단위 적용

In [28]:
# df_temp.dropna() # na =- NaN
df_temp.dropna(inplace=True) # na =- NaN
df_temp

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


In [26]:
df_temp.dropna(subset=['범주형'])

Unnamed: 0,수치형,범주형,datetime
1,,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


#### 결측치 채우기
- 대표값을 설정해 채움
- 머신러닝 (KNN) 기술 사용해 채움

In [20]:
df_temp.describe()

Unnamed: 0,수치형
count,3.0
mean,3.0
std,2.0
min,1.0
25%,2.0
50%,3.0
75%,4.0
max,5.0


In [33]:
df_temp['수치형'].fillna(2.0,inplace=True)

In [39]:
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,E,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
3,2.0,E,NaT
4,5.0,E,2021-01-04


In [38]:
df_temp.describe(include='object')

Unnamed: 0,범주형
count,5
unique,3
top,E
freq,3


In [36]:
df_temp['범주형'].fillna('E',inplace=True)

In [42]:
df_temp.describe(include='datetime') # 분포에 영향 많으므로 되도록 삭제

  df_temp.describe(include='datetime') # 분포에 영향 많으므로 되도록 삭제


Unnamed: 0,datetime
count,4
unique,4
top,2021-01-01 00:00:00
freq,1
first,2021-01-01 00:00:00
last,2021-01-04 00:00:00


In [44]:
df_temp.dropna(inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,E,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04
