# 6.4. 누락된 데이터 다루기

## 6.4.2. 누락치 데이터 조사하기

In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.notebook_repr_html', False)

null_data = pd.DataFrame({'number':[1, 2, np.nan, 4 ], 'obj':['pandas', None, pd.NA, None]})
null_data

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [2]:
# 결측치 데이터 부울마스크
null_data.isna()

   number    obj
0   False  False
1   False   True
2    True   True
3   False   True

In [3]:
#isna와 isnull함수가 동일한지 확인
null_data.isna().equals(null_data.isnull())

True

In [4]:
# 결측치가 아닌 데이터 부울 마스크
null_data.notnull()

   number    obj
0    True   True
1    True  False
2   False  False
3    True  False

## 6.4.3 결측치 데이터 추출하기

In [5]:
# 반대로 obj 컬럼 결측치 행만 슬라이싱으로 추출
null_data[ null_data['obj'].isnull() ]

   number   obj
1     2.0  None
2     NaN  <NA>
3     4.0  None

In [7]:
# obj 컬럼 결측치 아닌 행만 슬라이싱으로 추출
null_data[ null_data['obj'].notnull() ]


   number     obj
0     1.0  pandas

## 6.4.4. 결측치 집계 구하기

In [8]:
# 결측치 집계
null_data.isna().sum()

number    1
obj       3
dtype: int64

In [9]:
# 결측치 총수
null_data.isna().sum().sum()

4

In [10]:
# 열별 결측치 아닌 요소의 수
null_data.count()

number    3
obj       1
dtype: int64

In [11]:
# 결측치 아닌 모든 요소의 총수
null_data.count().sum()

4

## 6.4.5. 결측치를 특정값으로 채워넣기

In [12]:
# 결측치를 'LOVE'로 채우기
null_data.fillna('LOVE')

  number     obj
0    1.0  pandas
1    2.0    LOVE
2   LOVE    LOVE
3    4.0    LOVE

In [13]:
# 결측치를 '0'로 채우기
null_data.fillna(0)

   number     obj
0     1.0  pandas
1     2.0       0
2     0.0       0
3     4.0       0

In [14]:
# 이전값으로 채우기
null_data.pad()

   number     obj
0     1.0  pandas
1     2.0  pandas
2     2.0  pandas
3     4.0  pandas

In [15]:
null_data.fillna(method='ffill')

   number     obj
0     1.0  pandas
1     2.0  pandas
2     2.0  pandas
3     4.0  pandas

In [16]:
# 이후 값으로 채우기
null_data.backfill()


   number     obj
0     1.0  pandas
1     2.0    None
2     4.0    None
3     4.0    None

In [17]:
null_data.fillna(method='bfill')

   number     obj
0     1.0  pandas
1     2.0    None
2     4.0    None
3     4.0    None

In [18]:
# 결측치를 평균값으로 채우기
null_data['number'].fillna(null_data['number'].mean())

0    1.000000
1    2.000000
2    2.333333
3    4.000000
Name: number, dtype: float64

In [19]:
# 결측치를 최대값으로 채우기
null_data['number'].fillna(null_data['number'].max())

0    1.0
1    2.0
2    4.0
3    4.0
Name: number, dtype: float64

In [20]:
null_data.interpolate()

   number     obj
0     1.0  pandas
1     2.0    None
2     3.0    <NA>
3     4.0    None

In [21]:
# 딕셔너리로 열별로 다른 값으로 결측치를 채우기
NA_val = {'number': 11, 'obj':'python'}
null_data.fillna(NA_val)


   number     obj
0     1.0  pandas
1     2.0  python
2    11.0  python
3     4.0  python

## 6.4.6. 결측치 데이터 처리

In [22]:
null_data

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [23]:
null_data2 = pd.DataFrame({'number':[0, np.nan, 2, 2 ], 'obj':['pandas', None, pd.NA, None]})
null_data2

   number     obj
0     0.0  pandas
1     NaN    None
2     2.0    <NA>
3     2.0    None

In [24]:
null_data.add(null_data2)

   number           obj
0     1.0  pandaspandas
1     NaN           NaN
2     NaN           NaN
3     6.0           NaN

In [25]:
null_data.add(null_data2, fill_value=0)

   number           obj
0     1.0  pandaspandas
1     2.0           NaN
2     2.0           NaN
3     6.0           NaN

## 6.4.7. 결측치 제거하기

In [27]:
null_data3 = pd.DataFrame({'number':[1, 2, np.nan, 4 ],
                            'obj':['pandas', None, pd.NA, None],
                            'opt':[None, None, None, None]})
null_data3

   number     obj   opt
0     1.0  pandas  None
1     2.0    None  None
2     NaN    <NA>  None
3     4.0    None  None

In [28]:
null_data3.dropna()

Empty DataFrame
Columns: [number, obj, opt]
Index: []

In [29]:
null_data3.dropna(axis=1, how='all')

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [30]:
# 정상 데이터가 2개 이상만 남기고 나머지 제거
null_data3.dropna(thresh=2)


   number     obj   opt
0     1.0  pandas  None

In [31]:
# 열 이름으로 특정 열지정
null_data3.dropna(subset=['obj'])

   number     obj   opt
0     1.0  pandas  None