# Doit! 판다스 입문
# 6장 누락값 처리하기

누락값 표기법 - NaN, NAN, nan  
데이터 자체가 없음을 의미

In [2]:
from numpy import NaN, NAN, nan

In [4]:
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')
print(NaN == nan) #값이 없기 때문에 자신과 비교해서 False 가 나옴

False
False
False
False
False


In [6]:
#누락값 확인 메서드 - isnull(), notnull()
import pandas as pd

print(pd.isnull(NaN))
print(pd.notnull(NaN))

True
False


## 누락값이 생기는 이유  
1. 누락값이 있는 데이터 집합을 연결한 경우  
2. 데이터를 입력할 때 잘못 입력한 경우  
3. 데이터 추출 시 범위를 잘못 지정한 경우

### 누락값의 개수

In [7]:
ebola = pd.read_csv('E:\\jupyter\\doitpandas\\doit_pandas-master\\data\\country_timeseries.csv')

In [8]:
#누락값이 아닌 값의 개수
print(ebola.count())

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [11]:
num_rows=ebola.shape[0]
num_missing = num_rows - ebola.count()
print(num_rows)
print(num_missing)
## scalar 값에서 시리즈의 값을 반복하면서 연산

122
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [12]:
#한번에 NaN계산 - count_nonzero, isnull 메서드

import numpy as np

print(np.count_nonzero(ebola.isnull()))
#isnull로 NaN을 추출 후, count_nonzero로 0이 아닌 값을 센다

1214


In [13]:
#지정한 열의 빈도 구하기 - value_counts 메서드

print(ebola.Cases_Guinea.value_counts(dropna=False).head())

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


### 누락값 처리하기

In [15]:
#누락값 변경하기 - fillna 메서드

print(ebola.fillna(0).iloc[0:10, 0:5]) # NaN 값을 매개인자 값으로 변경

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [18]:
#누락값을 앞의 데이터로 채우기
print(ebola.fillna(method ='ffill').iloc[0:10, 0:5])

#누락값을 뒤의 데이터로 채우기
print(ebola.fillna(method ='bfill').iloc[0:10, 0:5])

#누락값을 앞뒤 데이터의 중간값으로 채우기
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0
         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             97

In [22]:
#누락값 삭제하기 - dropna 메서드
print(ebola.shape)

(122, 18)


In [23]:
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

(1, 18)


In [26]:
#누락값이 포함된 데이터 계산하기 - skipna 인자
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(n=10))

   Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0        2776.0            NaN            10030.0             NaN
1        2775.0            NaN             9780.0             NaN
2        2769.0         8166.0             9722.0         20657.0
3           NaN         8157.0                NaN             NaN
4        2730.0         8115.0             9633.0         20478.0
5        2706.0         8018.0             9446.0         20170.0
6        2695.0            NaN             9409.0             NaN
7        2630.0         7977.0             9203.0         19810.0
8        2597.0            NaN             9004.0             NaN
9        2571.0         7862.0             8939.0         19372.0


In [28]:
print(ebola.Cases_Guinea.sum(skipna=True))
print(ebola.Cases_Guinea.sum(skipna=False))

84729.0
nan
