In [22]:
import pandas as pd
import numpy as np

In [33]:
df = pd.DataFrame([[1,2,3,4],[5,6,np.nan,8],[10,11,12,np.nan]],
                 index=['first','second','third'],
                 columns=['A','B','C','D']
                 )
df

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,,8.0
third,10,11,12.0,


# ✔누락된 값 식별

### isnull() 
> * 셀(cell)이 수치값을 가지고 있는지 없는지 확인

### isnull().sum()
> * 누락된 값의 개수 확인

In [34]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

# ✔누락된 값이 있는 Sample, Feature 삭제

### dropna(axis=0)
> * 'Sample' 삭제

### dropna(axis=1)
> * 누락된 값 하나라도 있는 'Feature' 삭제

### dropna(how='all')
> * Feature의 모든 값이 NaN일 때만 Sample 삭제

### dropna(thresh=4)
> * NaN이 아닌 값이 네 개보다 작은 행 삭제

### dropna(subset=['C']
> * C열에 NaN이 있는 Sample 삭제

In [37]:
df

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,,8.0
third,10,11,12.0,


In [38]:
df.dropna()

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0


In [39]:
df.dropna(1)

Unnamed: 0,A,B
first,1,2
second,5,6
third,10,11


In [40]:
df.dropna(how='all')

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,,8.0
third,10,11,12.0,


In [41]:
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0


In [42]:
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
third,10,11,12.0,


#  ✔ 누락된 값 대체
> * NaN가 있는 열의 평균값으로 대체
> * 다음 행의 값으로 대체 (method='bfill')
> * 이전 행의 값으로 대체 (method='ffill')

In [43]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,7.5,8.0
third,10,11,12.0,6.0


In [45]:
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,12.0,8.0
third,10,11,12.0,


In [46]:
df.fillna(method='ffill')

Unnamed: 0,A,B,C,D
first,1,2,3.0,4.0
second,5,6,3.0,8.0
third,10,11,12.0,8.0


# 따릉이 데이터셋으로 실습

In [48]:
df1 = pd.read_csv('../data/train_trans.csv')

In [49]:
df1.isnull().sum()

id                          0
hour                        0
hour_bef_temperature        2
hour_bef_precipitation      2
hour_bef_windspeed          9
hour_bef_humidity           2
hour_bef_visibility         2
hour_bef_ozone             76
hour_bef_pm10              90
hour_bef_pm2.5            117
count                       0
dtype: int64

# ✔결측치 비율 확인

In [51]:
for col in df1.columns:
    msperc = 'column: {:>10}\t Percent of NaN value: {: .2f}%'.format(col, 
                        100 * (df1[col].isnull().sum() / df1[col].shape[0]))
    print(msperc)

column:         id	 Percent of NaN value:  0.00%
column:       hour	 Percent of NaN value:  0.00%
column: hour_bef_temperature	 Percent of NaN value:  0.14%
column: hour_bef_precipitation	 Percent of NaN value:  0.14%
column: hour_bef_windspeed	 Percent of NaN value:  0.62%
column: hour_bef_humidity	 Percent of NaN value:  0.14%
column: hour_bef_visibility	 Percent of NaN value:  0.14%
column: hour_bef_ozone	 Percent of NaN value:  5.21%
column: hour_bef_pm10	 Percent of NaN value:  6.17%
column: hour_bef_pm2.5	 Percent of NaN value:  8.02%
column:      count	 Percent of NaN value:  0.00%


# ✔결측치 대체

In [59]:
#_isna_sum에 널값의 갯수 저장
_isna_sum=df1.isna().sum()

#널값이 있는 특성 추출
na_col=_isna_sum[_isna_sum != 0].index

In [60]:
#널값을 평균값으로 대체하는 함수 정의
def fill_na(df,column):
    df[column] = df[column].fillna(df[column].mean())

In [61]:
#함수 호출
fill_na(df1, 'hour_bef_pm2.5')

In [65]:
#확인
df1['hour_bef_pm2.5']

0       33.0
1       40.0
2       19.0
3       64.0
4       11.0
        ... 
1454    27.0
1455    19.0
1456    21.0
1457    36.0
1458    17.0
Name: hour_bef_pm2.5, Length: 1459, dtype: float64