In [1]:
import numpy as np
import pandas as pd

## 누락된 데이터 처리하기
### 누락된 데이터 처리 방식의 트레이드오프
 일반적인 방식 두 가지
     1. 누락된 값을 전체적으로 가리키는 **마스크**를 사용
     2. 누락된 항목 하나를 가리키는 **센티널 값**을 선택
     
 마스킹 방식에서는 마스크는 완전히 별개의 부울(Boolean) 배열이거나 지역적으로 값의 널 상태를 가리키기 위해 데이터 표현에서 1비트를 전용으로 사용할 수 있다.
 
 센티널 방식에서 센티널 값은 누락된 정숫값을 -9999나 보기 드문 비트 패턴 방식, 또는 NaN을 사용한다.
 
 그러나 마스킹 방식의 경우 추가적인 배열 할당이 필요하고, 이에 따른 스토리지와 연산에 있어 오버헤드가 있다. 센티널 방식 역시 NaN과 같은 보편적인 특수 값은 모든 데이터 타입에서 사용할 수 없는 단점이 있다.

### Pandas에서 누락된 데이터
 Pandas에서 누락된 값을 처리하는 방식은 Pandas의 기반이 되는 NumPy 패키지가 부동 소수점이 아닌 다른 데이터 타입에는 NA 값 표기법이 기본으로 없다는 사실로 인해 제약을 받는다.
 ... 생략

### None: 파이썬의 누락된 데이터
 Pandas가 사용한 첫 번째 센티널 값은 None이다. None은 Python Object 이므로 데이터 타입이 'object'인 배열(즉, 파이썬 객체의 배열)에서만 사용할 수 있다.

In [2]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

dtype이 object라는 것은 파이썬 객체라는 것을 의미하고 데이터에 대한 연산은 파이썬 수준에서 이뤄지기 때문에 기본 데이터 타입의 배열에서 볼 수 있는 전형적인 빠른 연산보다 훨씬 더 많은 오버헤드가 발생한다.

In [4]:
for dtype in ['object', 'int']:
    print('dtype =', dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
58.8 ms ± 15.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
2.97 ms ± 262 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



배열에서 파이썬 객체를 사용한다는 것은 None 값을 가진 배열에서 sum()이나 min() 같은 집계 연산을 하면 일반적으로 오류가 발생할 것이라는 뜻이기도 하다.

In [5]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

### NaN: 누락된 숫자 데이터

In [6]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

In [7]:
1 + np.nan

nan

In [8]:
0 * np.nan

nan

In [9]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

> NumPy는 이 누락된 값을 무시하는 몇 가지 특별한 집계 연산을 제공한다.

In [10]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

> NaN은 부동 소수점 값이라는 것을 유념하자. **정수**나 **문자열** 등 다른 타입에는 NaN에 해당하는 값이 없다.

### Pandas에서 NaN과 None
 NaN과 None은 각자 맡은 역할이 있으며 Pandas는 이 둘을 거의 호환성 있게 처리하고 적절한 경우에 서로 변환할 수 있게 한다.

In [11]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

> 사용할 수 있는 센티널 값이 없는 타입의 경우, NA 값이 있으면 Pandas가 자동으로 타입을 변환한다.

In [12]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [13]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

### 널 값 연산하기

 - isnull()
  누락 값을 가리키는 부울 마스크를 생성
  
 - notnull()
  isnull()의 역
  
 - dropna()
  데이터에 필터를 적용한 버전을 반환
  
 - fillna()
  누락 값을 채우거나 전가된 데이터 사본을 반환

#### 널 값 탐지

In [17]:
data = pd.Series([1, np.nan, 'hello', None])
print(data)
data.isnull()

0        1
1      NaN
2    hello
3     None
dtype: object


0    False
1     True
2    False
3     True
dtype: bool

In [15]:
data[data.notnull()]

0        1
2    hello
dtype: object

#### 널 값 제거하기

In [16]:
data.dropna()

0        1
2    hello
dtype: object

In [18]:
df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]
                  ])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


> DataFrame에서는 단일 값만 삭제할 수 없으며, 전체 행이나 전체 열을 삭제하는 것만 가능하다.

In [19]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [22]:
df.dropna(axis=1) # axis='columns'도 가능

Unnamed: 0,2
0,2
1,5
2,6


 하지만 위의 방식은 일부 유효한 데이터도 삭제한다. 모두 NA 값으로 채워져 있거나 NA 값이 대부분을 차지하는 행이나 열을 삭제하고 싶을 때도 있을 것이다. 이것은 how나 thresh 매개변수를 통해 지정할 수 있는데, 이 매개변수가 통과할 수 있는 널 값의 개수를 세밀하게 조절하게 해준다.

 기본 설정값은 how = 'any'로, **널 값을 포함하는 행이나 열(axis 키워드에 따라 정해짐)을 모두 삭제**한다.
 
 how = 'all'로 지정해 **모두 널 값인 행이나 열만 삭제**할 수도 있다.

In [26]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [27]:
df.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


> 아래의 명령어 에서는 첫 번째와 마지막 행이 삭제되는데, 거기에서 **단 두 개의 값만이 널 값이 아니기 때문이다.**

In [28]:
df.dropna(axis=0, thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,
