In [None]:
"""
결측 데이터의 표현

마스크 : 전체 결측 데이터를 부울 배열 또는 추가 비트로 표현

센티널 값 : 개별 결측 값을 표현

pandas는 센티널 값 방식으로 결측 값을 표현
"""

In [2]:
import numpy as np
import pandas as pd

# None 객체 : 아무것도 없는 데이터(null 값) 오브젝트 타입은 int형보다 느리다
arr1 = np.array([1, None, 3, 4]) 
arr1.t

array([1, None, 3, 4], dtype=object)

In [16]:
# NaN 값 : 숫자 형태의 null값 또는 결측 값을 표현 특수한형태의 실수값(floating point값) 실수로 인식한다 

arr1 = np.array([1, np.nan, 3, 4])
arr1.dtype

dtype('float64')

In [4]:
# 오류는 발생하지않는다

arr1.sum()

nan

In [17]:
np.nansum(arr1)

8.0

In [19]:
# pandas 에서는 None 을 NaN 값으로 변환 반드시 변환하는것은 아니다

ser = pd.Series([1, np.nan, 2, None])
ser

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [21]:
# 문자열이 섞이면 object type이다

ser = pd.Series([1, np.nan, '2', None])
ser

0       1
1     NaN
2       2
3    None
dtype: object

In [None]:
"""
Null 값 처리를 위한 Pandas 메서드

-isnull() : 전체 결측 데이터에 대한 부울 배열(마스크) 생성
-notnull() : isnull()의 역연산
-dropna() : null 값 제거
null 값을 포함하는 행 또는 열을 삭제
- axis = 'rows' 행삭제(default) axis = 'colums' 열 삭제
how 매개변수
- how = 'any' : Null 값이 한개라도 포함된 행/열 삭제
- how = 'all' : 모든 값이 전부 Null 값인 행/열 삭제
thresh 매개변수 : 임계치를 통해 삭제될 행/열 선택
- 삭제되지 않을 행/열 non-null 값의 최소 개수
df.dropna(axis = 'row', thresh = 3) 살아있는 값이 3개 이상인 경우
-fillna() : null 값 채우기 Null 값을 다른 값으로 대체
"""

In [9]:
print(ser, '\n')
print(ser.isnull()) # ser.notnull() isnull()의 역연산

0    1.0
1    NaN
2    3.0
3    4.0
dtype: float64 

0    False
1     True
2    False
3    False
dtype: bool


In [25]:
# dataframe

ser.dropna()

0    1
2    2
dtype: object

In [48]:
df = pd.DataFrame([[1, np.nan, 2],
                  [2, 3, 5],
                  [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [51]:
df.dropna(axis = 'columns', how = 'all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [54]:
ser = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
ser.fillna(9999)

a       1.0
b    9999.0
c       2.0
d    9999.0
e       3.0
dtype: float64

In [56]:
# Forward-fill 방식 = LOCF 결측 구간 직전 값으로 대체

ser.fillna(method = 'ffill') # ser.ffill

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [57]:
ser.fillna(method = 'bfill') # ser.bfill

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64