## 누락값 처리하기
- 누락값은 말 그대로 데이터가 없다는 것을 의미 (= 같다라는 개념이 없음)

In [29]:
import pandas as pd
import numpy as np

In [55]:
# 데이터 불러오기
ebola = pd.read_csv('data/country_timeseries.csv')
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,6.0,,,,,,66.0,6.0,5.0,,,,,
118,3/26/2014,4,86.0,,,,,,,,62.0,,,,,,,
119,3/25/2014,3,86.0,,,,,,,,60.0,,,,,,,
120,3/24/2014,2,86.0,,,,,,,,59.0,,,,,,,


In [19]:
# 데이터 갯수 파악 (누락값 포함X)
print(ebola.count())

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [28]:
# 전체 행의 데이터 개수에서 누락값이 아닌 값을 빼서 누락값 개수 파악
num_rows = ebola.shape[0] # 전체 데이터의 행과 열 파악  # 행의 개수만 출력
num_missing = num_rows - ebola.count()
print(num_missing)

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [31]:
# count_nozero, isnull 이용하여 구하기
# count_nozero : 배열에서 0이 아닌 값의 개수 구함
print(np.count_nonzero(ebola.isnull()))

1214


In [34]:
print(np.count_nonzero(ebola['Cases_Guinea'].isnull( )))

29


In [37]:
# value_counts 메서드 이용
print(ebola['Cases_Guinea'].value_counts(dropna=False).head())

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


### 누락값 처리하기

#### 누락값 변경하기

In [40]:
# fillna 메서드 사용
# 10개 행, 5개 열 적용
print(ebola.fillna(0).iloc[:10, :5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [41]:
# fillna(method= 'ffill') 사용
# 누락값이 나타나기전 값으로 변경
print(ebola.fillna(method='ffill').iloc[:10, :5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [42]:
# 누락값 전에 값이 없는 경우 'bfill' 사용
# 누락값이 나타난 이후의 값으로 처리
print(ebola.fillna(method='bfill').iloc[:10, :5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2730.0         8157.0             9633.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7977.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7862.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [46]:
# interpolate 누락값 양쪽에 있는 값을 이용하여 중간값을 구함
print(ebola.interpolate().iloc[:10, :5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


### 누락값이 포함된 데이터 계산하기

In [49]:
ebola['Cases_Mul'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia']+ ebola['Cases_SierraLeone']

In [50]:
# 누락값이 하나라도 있는 행을 계산하면 결과는 누락값이 나옴
ebola['Cases_Mul']

0          NaN
1          NaN
2      20657.0
3          NaN
4      20478.0
        ...   
117      117.0
118        NaN
119        NaN
120        NaN
121        NaN
Name: Cases_Mul, Length: 122, dtype: float64

In [59]:
# 누락값을 무시한채 계산하려면 skipna = True로 설정 -> 디폴트값이 True로 설정되어 있음
print(ebola.Cases_Guinea.sum(skipna= True))
print(ebola.Cases_Guinea.sum(skipna= False))

84729.0
nan
