<a href="https://colab.research.google.com/github/SeokcheonMoon/study_data_analytics/blob/main/docs/pandas/07_pandas_preprocessing_missingvalues.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np

## 전처리(Processing)
- 정형 데이터 기준 : 이상값/결측값에 대한 값처리 방법

### 결측값(missing values)
- 값이 존재하지 않다는 의미
- Null, NaN, None, "" (4가지)
- 결측값 확인 : pd.isnull().sum()
- 결측값 처리
  - 결측값 삭제 : pd.dropna(subset=[columnr값]) row단위로 삭제
  - 결측값 치환 : 대표값으로 바꿈 or 머신러닝 이용

In [None]:
# 데이터셋 생성
data = {
    "수치형": [1, None, 3, np.nan, 5],
    "범주형": [None, 'B', 'C', np.nan, 'E'],
    "datetime": pd.date_range(start='2021-01-01', periods=4).insert(3, np.nan)
}
df_temp = pd.DataFrame(data)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


#### 결측값 확인

In [None]:
df_temp.isnull()                    # null값인 부분은 True

Unnamed: 0,수치형,범주형,datetime
0,False,True,False
1,True,False,False
2,False,False,False
3,True,True,True
4,False,False,False


In [None]:
df_temp.isnull().sum()

수치형         2
범주형         2
datetime    1
dtype: int64

#### 결측값 처리

##### 행을 제거

In [None]:
df_temp.dropna()                    # 결측값이 있는 row는 모두 삭제
# df_temp.dropna(inplace=True) --------------------------------------------------------------해당 코드가 계속 df에 적용

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


In [None]:
df_temp.dropna(subset=["범주형"])                     # 범주형컬럼에 있는 결측값이 존재하는 행은 전부 삭제

Unnamed: 0,수치형,범주형,datetime
1,,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


#### 결측값 채우기
- 대표값을 설정해 채우기
- 머신러닝(KNN) 기술을 사용해 채우기

In [None]:
df_temp.describe()

Unnamed: 0,수치형
count,3.0
mean,3.0
std,2.0
min,1.0
25%,2.0
50%,3.0
75%,4.0
max,5.0


In [28]:
df_temp.describe().loc["mean"]

수치형    3.0
Name: mean, dtype: float64

In [29]:
df_temp.describe().loc["mean","수치형"]

3.0

In [37]:
df_temp["수치형"].fillna(2.0, inplace=True)                   # 결측값이 있는 row의 해당["수치형"] column에 결측값 대신 2.0을 집어넣음

In [39]:
df_temp["수치형"]

0    1.0
1    2.0
2    3.0
3    2.0
4    5.0
Name: 수치형, dtype: float64

In [40]:
df_temp.describe(include=object)

Unnamed: 0,범주형
count,5
unique,3
top,E
freq,3


In [41]:
df_temp["범주형"].value_counts()

E    3
B    1
C    1
Name: 범주형, dtype: int64

In [42]:
df_temp["범주형"].fillna("E", inplace=True)

In [43]:
df_temp["범주형"]

0    E
1    B
2    C
3    E
4    E
Name: 범주형, dtype: object

In [45]:
df_temp.describe(include="datetime")                    # 되도록 date는 삭제하는게 좋아서 할필요 x

  df_temp.describe(include="datetime")                    # 되도록 date는 삭제하는게 좋아서 할필요 x


Unnamed: 0,datetime
count,4
unique,4
top,2021-01-01 00:00:00
freq,1
first,2021-01-01 00:00:00
last,2021-01-04 00:00:00


In [46]:
df_temp.dropna(inplace=True)

In [47]:
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,E,2021-01-01
1,2.0,B,2021-01-02
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04
