<img src="http://image.yes24.com/goods/64625506/800x0" width="200" height="200"><br>
# Chapter 6 누락값 처리

데이터에 누락값(NA, Nan)등을 처리 하는 방법에 대해 알아보자. 목차는 다음과 같다. 

 - 6-1 누락값이란?

## 6-1 누락값이란?

### 누락값 확인하기

#### 1. 
먼저 누락값 을 사용하기 위해 numpy에서 누락값을 불러오자.

In [3]:
from numpy import NaN, NAN, nan

#### 2. 
누락값은 0이나 ' '같은 공백과는 다른 개념이다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미하고 그래서, '같다'라는 개념도 없다. 다음은 누락갑솩 True, False, 0, ' '을 비교한 결과이다.

In [2]:
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == " ")

False
False
False
False


#### 3. 
2번에서도 언급했듯이 누락값은 값값 자체가 없기 때문에 자기 자신과 비교해도 True가 아닌 False가 출력된다.

In [3]:
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False


#### 4. 
그러면 누락값은 어떻게 확인 가능한가? 다행히 판다스에는 누락값을 확인하는 메서드인 isnull이 있다. 다음은 isnull 메서드로 누락값을 검사한 코드이다.

In [4]:
import pandas as pd
print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


#### 5. 
누락값이 없는 경우도 검사가 가능하다. 다음은 notnull 메서드로 누락값이 아닌 경우를 검사한 예이다.

In [5]:
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


### 누락값이 생기는 이유 알아보기 

#### 1. 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우
이번에 사용할 데이터 집합은 누락값이 포함되어 있다. 누락값이 포암되어 있는 데이터 집합을 연결하면 어떻게 될까? 누락갑싱 포함되어 있는 데이터 집합을 연결하면 더 많은 누락값이 생기게 된다.

In [6]:
visited = pd.read_csv("data/survey_visited.csv")
survey = pd.read_csv("data/survey_survey.csv")

print(visited)
print(survey)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


#### 2. 
과정 1에서 구한 데이터의 집합을 연결해보자. 그러면 누락값이 많이 생격난 것을 볼 수 있다.

In [7]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

#### 3. 데이터를 입력할 때 누락값이 생기는 경우

누락값은 데이터를 잘 못 입력하여 생길 수도 있다. 다음은 시리즈를 생성할 때 데이터 프레임에 없는 열과 행 데이터를 입력하여 누락갑싱 생긴 것이다. scientists 데이터프레임을 확인하면 missing이라는 열과 함께 행 데이터에 누락갑싱 추가된 것을 확인할 수 있다.

In [8]:
num_legs = pd.Series({'goat': 4, 'amoeba': nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


#### 4. 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우
데이터 프레임에 존재하지 않는 데이터를 추출하면 누락갑싱 생기게 된다. 다음을 보자.

In [9]:
gapminder = pd.read_csv("data/gapminder.tsv", sep="\t")

#### 5. 
다음은 gapminder 데이터프레임을 연도별로 그룹화한 다음 lifeExp 열의 평균을 구한 것이다.

In [15]:
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


#### 6. 
다음은 range 메서드를 이용하여 life_Exp 열에서 2000~2009년의 데이터를 추출 해보자. 그런데 이렇게 데이터를 추출하면 처음부터 life_Exp 열에 없었던 연도가 포함되기 때문에 누락값이 많이 발생하게 된다. 이를 해결하기 위해서는 불린 추출을 이용하여 데이터를 추출하면 된다. 

In [18]:
y2000 = life_exp[life_exp.index > 2000]
y2000

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

### 누락값의 개수

누락값의 개수에 대해 알아보자.

#### 1.
다음과 같이 입력하여 데이터를 불러온다.

In [5]:
ebola = pd.read_csv("data/country_timeseries.csv")
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,6.0,,,,,,66.0,6.0,5.0,,,,,
118,3/26/2014,4,86.0,,,,,,,,62.0,,,,,,,
119,3/25/2014,3,86.0,,,,,,,,60.0,,,,,,,
120,3/24/2014,2,86.0,,,,,,,,59.0,,,,,,,


#### 2. 
먼저 count 메서드로 누락값이 아닌 값의 개수를 구해보자.

In [21]:
ebola.count()

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64

#### 3. 
이번에는 shape[0]에 전체 행 데이터가 저장되어 있다는 점을 이용하여 shape[0]에서 누락값이 아닌 값의 개수를 빼면 누락값의 개수를 구할 수 있다.

In [22]:
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
num_missing

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

#### 4. 
count_nonzero, isnull 메서드랄 사용해도 누락값의 개수를 구할 수 있다.

In [23]:
import numpy as np

print(np.count_nonzero(ebola.isnull()))

print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

1214
29


#### 5. 
시리즈에 포함된 value_counts 메서드는 지정한 열의 빈도를 구하는 메서드이다. value_counts 메서드를 사용해 Cases_Guinea 열의 누락값 개수를 구하기 위해서는 다음과 같이 입력한다.

In [24]:
print(ebola.Cases_Guinea.value_counts(dropna=False).head())

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


### 누락값 처리

누락값은 누락값을 임의의 값으로 변경하거나 데이터프레임에 이미 있는 값으로 대신 체우는 방법 등으로 처리할 수 있다. 그러면 누락값을 처리하는 방법을 하나씩 알아보자. 

### 누락값 처리 - 변경, 삭제

#### 1.  누락값 변경

데이터프레임에 포함된 fillna 메서드에 0을 대입하면 누락값을 0으로 변경한다. fillna메서드는 처리해야 하는 데이터프레임의 크기가 매우 크고 메모리를 효율적으로 사용해야 하는 경우에 자주 사용하는 메서드이다.

In [25]:
print(ebola.fillna(0).iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


#### 2. 
fillna 메서드의 method 인자값을 fill로 지정하면 누락값이 나타나기 전의 값으로 누락값이 변경된다.

In [29]:
print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


#### 3. 
method 인자값을 bfill로 지정하면 누락값이 나타난 이후의 첫 번째 값으로 앞쪽의 누락값이 모두 변경된다.

In [30]:
print(ebola.fillna(method='bfill').iloc[0:10,0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2730.0         8157.0             9633.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7977.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7862.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


#### 4. 
interpolate 메서드는 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리한다. 이렇게 하면 데이터프레임이 일정한 간격을 유지하고 있는 것처럼 수정할 수 있다.

In [31]:
print(ebola.interpolate().iloc[0:10,0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


#### 5. 누락값 삭제
누락값이 필요 없을 경우에는 누락값을 삭제해도 된다. 하지만 누락값을 무작정 삭제하면 데이터가 너무 편향되거나 데이터의 개수가 너무 적어질 수도 있다. 그래서 누락값을 삭제할 때는 분석하는 사람의 판단이 매우 중요하다. 누락값 삭제를 위해 dropna 메서드를 사용하자. 

In [32]:
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

print(ebola_dropna)

(1, 18)
          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
19  11/18/2014  241        2047.0         7082.0             6190.0   

    Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
19           20.0            1.0                 4.0          1.0         6.0   

    Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
19         1214.0          2963.0              1267.0             8.0   

    Deaths_Senegal  Deaths_UnitedStates  Deaths_Spain  Deaths_Mali  
19             0.0                  1.0           0.0          6.0  


### 누락값이 포함된 데이터 계산하기
다음은 여러 지역에서 발생한 ebola 발병 수를 구하는 과정이다. ebola 데이터프레임에는 누락값이 많이 있다.

#### 1. 
Guinea, Liberia, SierraLeone 열에는 누락값이 존재한다. 이에 대한 처리를 해보자.

In [7]:
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']
ebola['Cases_multiple']

0          NaN
1          NaN
2      20657.0
3          NaN
4      20478.0
        ...   
117      117.0
118        NaN
119        NaN
120        NaN
121        NaN
Name: Cases_multiple, Length: 122, dtype: float64

In [10]:
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali,Cases_multiple
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,,20657.0
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,,20478.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,6.0,,,,,,66.0,6.0,5.0,,,,,,117.0
118,3/26/2014,4,86.0,,,,,,,,62.0,,,,,,,,
119,3/25/2014,3,86.0,,,,,,,,60.0,,,,,,,,
120,3/24/2014,2,86.0,,,,,,,,59.0,,,,,,,,


#### 2. 
과정 1에서 계산한 Cases_Multiple 열을 포함하여 ebola_subset이라는 데이터프레임을 새로 만들어서 어떤 값이 존재하는지 확인해 보자. Caes_Guinea, Caes_Liberia, Cases_SierraLeone에서 누락갑싱 하나라도 있는 행은 계산결과가 NaN이 되었음을 알 수 있다. 즉, 계산 결과 누락값이 더 많이 생겼다.

In [13]:
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(n=10))

   Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0        2776.0            NaN            10030.0             NaN
1        2775.0            NaN             9780.0             NaN
2        2769.0         8166.0             9722.0         20657.0
3           NaN         8157.0                NaN             NaN
4        2730.0         8115.0             9633.0         20478.0
5        2706.0         8018.0             9446.0         20170.0
6        2695.0            NaN             9409.0             NaN
7        2630.0         7977.0             9203.0         19810.0
8        2597.0            NaN             9004.0             NaN
9        2571.0         7862.0             8939.0         19372.0


#### 3. 
cases_multile 열을 sum 메서드를 사용해 더하면 세 지역의 ebola 발병 수의 합을 구할 수 있다. 이때 sum 메서드를 그냥 사용하면 누락값을 포함해 계산한다. 따라서 결과값도 누락값이 되어 버린다. 누락값을 무시한 채 계산하기 위해서는 skipna 인자값을 True로 설정 해주자.

In [14]:
print(ebola.Cases_Guinea.sum(skipna = True))

print(ebola.Cases_Guinea.sum(skipna = False))

84729.0
nan
