# 결측치 처리

# Indicating the Presence of Missing Data
 - 결측 데이터의 표현
     - 마스크: 전체 결측 데이터를 부울 배열 또는 추가 비트로 표현
 - 센티널 값: 개별 결측 값을 표현
     - 일반적으로 특수한 비트패턴으로 결측 값을 표현(Ex. -9999, NaN)
 - 언어/시스템에 따라 다른 결측 데이터 표현 방식을 사용
     - R언어: 센티널 값 방식(NA, NaN)
     - SciDB: 마스크 방식(모든 데이터의 결측 상태를 추가 바이트로 표현)
 - Pandas는 센티널 값 방식으로 결측 값을 표현
     - NaN(Not a Number)
     - None 객체

# None: Pythonic Missing Data

 - None 객체: 아무것도 없는 데이터( = null 값)
     - 데이터 타입이 'object'인 배열에서만 사용
     - numpy, pandas 객체에 대한 연산(Ex. 벡터화된 연산)이 호환되지 않음
    

# NaN: Missing Numerical Data

 - NaN 값: 숫자 형태의 null 값 또는 결측 값을 표현
     - IEEE 754 표준을 사용하는 모든 시스템들이 인식하는 특수한 floating point 값
     - 그 외에도 zero divided by zero, 무한대 등을 표현할 때 사용
 - NaN에 대한 산술 연산 결과: NaN(적어도 오류는 없음)
 - Numpy에서 제공하는 NaN 값을 무시하는 집계함수
 

# NaN and None in Pandas
 - Pandas에서는 None을 NaN 값으로 변환

# Operating on Null Values
 - Null 값 처리를 위한 pandas 메서드
     - isnull(): 전체 결측 데이터에 대한 부울 배열(마스크) 생성
     - notnull(): isnull()의 역연산
     - dropna(): null 값 제거
     - fillna(): null 값 채우기

# Detecting Null Values

 - isnull(), notnull(): 마스크를 통해 Null 값을 표현

# Dropping Null Values

 - dropna(): Null 값을 포함하는 행 또는 열을 삭제
     - axis = 'rows: 행 삭제(=listwise deletion, 디폴트)
     - axis = 'columns': 열 삭제(= variable deletion)
 - how 매개변수
     - how = 'any' : Null 값이 한개라도 포함된 행/열 삭제
     - how = 'all' : 모든 값이 전부 Null 값인 행/열 삭제

# Filling Null Values

 - fillna() : Null값을 다른 값으로 대체
 - foward-fill 방식 = LOCF
     - 결측 구간 직전 값으로 대체
 - Backward-fill 방식 = NOCB
     - 결측 구간 직후 값으로 대체
     

# Imputation Demo

 - Ex. Air Quality 데이터셋에 대한 결측치 처리

In [1]:
import numpy as np
import pandas as pd 

In [8]:
"""
None : Pythonic missing data
"""

# None objects as missing values

arr1 = np.array([1, None, 3, 4])
arr1

array([1, None, 3, 4], dtype=object)

In [10]:
# python objects are incompatible with numpy and pandas operation
# print(np.sum(arr1))

In [16]:
"""
NaN : Missing Numerical Data
"""
arr1 = np.array([1, np.nan, 3, 4])
print(arr1.dtype)
print(np.sum(arr1))

float64
nan


In [17]:
# Arithmetic with NaN will be another Data

In [27]:
# Pandas automatically converts the None to a NaN value.

ser = pd.Series([1,np.nan,2,None])
print(ser)
print(ser.dtype)
# ser[1] = 'string'
# print(ser)
# print(ser.dtype)

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64
float64


In [28]:
"""
Detecting null values
"""

# isnull()
print(ser)
ser.isnull()

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64


0    False
1     True
2    False
3     True
dtype: bool

In [29]:
# notnull()
ser.notnull()

0     True
1    False
2     True
3    False
dtype: bool

In [32]:
"""
Dropping null values
"""

#dropna() axis 매개변수는 dataFrame 경우만.
ser.dropna(how = 'all')

0    1.0
2    2.0
dtype: float64

In [41]:
"""
Filling Null Values
"""

# fillna()

ser = pd.Series([1, np.nan, 2, None, 3], index = list('abcde'))
print(ser)

print(ser.fillna(0))

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64
a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64


In [45]:
# Forwad-fill = LOCF
ser.fillna(method = 'ffill')
# Backward-fill = NOCB
print(ser.bfill())
print(ser.fillna(method = 'bfill'))

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64
a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64
