In [1]:
import numpy as np
import pandas as pd

None : Python 객체 
- 연산이 파이썬 수준에서 이루어지므로 연산이 느리고 더 많은 오버헤드 발생 

NaN : Not a Number
- 표준 IEEE 부동 소수점 표기를 사용하는 모든 시스템이 인식하는 특수 부동 소수점 값
- 어떤 연산이든 상관없이 NaN이 포함된 산술 연산의 결과는 또 다른 NaN이 됨

## Operating on Null Values (널 값 연산하기)

판다스는 None과 NaN을 근본적으로 누락된 값이나 널 값을 가리키기 위해 호환되는 값으로 처리함

### 널 값 탐지

isnull()과 notnull()

In [3]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [4]:
# Series나 DataFrame 인덱스로 직접 사용될 수 있음
data[data.notnull()]

0        1
2    hello
dtype: object

### 널 값 제거하기

앞에서 사용했던 마스킹 외에도 편리하게 사용할 수 있는 dropna() (NA값 제거하기) 와 fillna()(NA값 채우기) 메서드가 있다.

In [5]:
data.dropna()

0        1
2    hello
dtype: object

In [6]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


dropna()는 널 값이 있는 모든 행을 삭제

In [7]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


또 다른 방식으로 다른 축에 따라 NA 값을 삭제할 수 있음

axis = 1 은 널값을 포함하는 모든 열을 삭제

In [10]:
df.dropna(axis='columns')
#df.dropna(axis=1)

Unnamed: 0,2
0,2
1,5
2,6


In [13]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [15]:
#값이 모두 널인 행이나 열만 삭제
df.dropna(axis='columns', how='all')

#값이 하나라도 널인 행이나 열만 삭제
#df.dropna(axis='columns', how='any')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


좀 더 세부적으로 하기 위해 thresh 매개변수로 행이나 열에서 널이 아닌 최소 몇 개가 있어야 하는지 지정 가능

In [None]:
df.dropna(axis='rows', thresh=3)

# 0번, 2번 줄은 데이터가 2개여서 삭제되었음

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### 널 값 채우기

널 값을 대체한 배열의 사본을 반환하는 fillna()메서드를 제공

In [17]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [19]:
#단일 항목으로 채우기
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [20]:
# forward-fill
#이전 값으로 채우기
data.fillna(method='ffill')

  data.fillna(method='ffill')


a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [21]:
# back-fill
# 뒤에 있는 값을 앞으로 전달
data.fillna(method='bfill')

  data.fillna(method='bfill')


a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

DataFrame의 경우 옵션은 유사하지만, 값을 어느 축에 따라 채울 것인지 axis를 이용해 지정 가능

In [22]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [23]:
df.fillna(method='ffill', axis=1)

  df.fillna(method='ffill', axis=1)


Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0
