<a href="https://colab.research.google.com/github/sweetmjkim/study_data_analytics/blob/main/docs/pandas/07_pandas_preprocessing_missingvalues.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 전처리(preprocessing)
- 정형 데이터 기준 : 이상치/결측치 대한 값 처리 방법

### 결측치(missing values) : Null, NaN, None, ""
- 결측치 확인 : pd.isnull().sum()
- 결측치 처리
  - 결측치 삭제 : pd.dropna(subset=[]), 행 단위 적용
  - 결측치 치환 : 대표값 or 머신러닝 예측값, 열 단위 적용

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 데이터셋 생성
data = {
    "수치형": [1, None, 3, np.nan, 5],
    "범주형": [None, 'B', 'C', np.nan, 'E'],
    "datetime": pd.date_range(start='2021-01-01', periods=4).insert(3, np.nan)
}
df_temp = pd.DataFrame(data)
df_temp

Unnamed: 0,수치형,범주형,datetime
0,1.0,,2021-01-01
1,,B,2021-01-02
2,3.0,C,2021-01-03
3,,,NaT
4,5.0,E,2021-01-04


### 결측치 확인

In [3]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   수치형       3 non-null      float64       
 1   범주형       3 non-null      object        
 2   datetime  4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 248.0+ bytes


In [4]:
df_temp.isnull().sum()      # 각 컬럼별로 결측치 총합 표시

수치형         2
범주형         2
datetime    1
dtype: int64

#### 결측치 처리

#### 결측치 제거 :행 단위 적용

In [5]:
# df_temp.dropna()      # na =~ NaN
df_temp.dropna(inplace=True)      # na =~ NaN     # inplace : 한번만 사용한다는경우만 사용한다
df_temp

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


In [16]:
df_temp.dropna(subset=['범주형']) # 특정 컬럼을 지정

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


#### 결측치 채우기
- 대표값을 설정해 채움
- 머신러닝(KNN) 기술 사용해 채움.

In [7]:
df_temp.describe()
# df_temp.describe().loc['mean','수치형']

Unnamed: 0,수치형
count,2.0
mean,4.0
std,1.414214
min,3.0
25%,3.5
50%,4.0
75%,4.5
max,5.0


In [8]:
df_temp['수치형'].fillna(2.0)

2    3.0
4    5.0
Name: 수치형, dtype: float64

In [9]:
df_temp

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04


In [10]:
df_temp.describe(include=object)

Unnamed: 0,범주형
count,2
unique,2
top,C
freq,1


In [11]:
df_temp['범주형'].value_counts()

C    1
E    1
Name: 범주형, dtype: int64

In [12]:
df_temp['범주형'].fillna('E', inplace=True)

In [13]:
df_temp.describe(include='datetime')      # 분포에 영향 많으므로 되도록 삭제

  df_temp.describe(include='datetime')      # 분포에 영향 많으므로 되도록 삭제


Unnamed: 0,datetime
count,2
unique,2
top,2021-01-03 00:00:00
freq,1
first,2021-01-03 00:00:00
last,2021-01-04 00:00:00


In [15]:
df_temp.dropna(inplace=True)
df_temp

Unnamed: 0,수치형,범주형,datetime
2,3.0,C,2021-01-03
4,5.0,E,2021-01-04
