# Chapter 6 누락값 처리

데이터에 누락값(NA, Nan)등을 처리 하는 방법에 대해 알아보자. 목차는 다음과 같다. 

 - 6-1 누락값이란?

## 6-1 누락값이란?

### 누락값 확인하기

#### 1. 
먼저 누락값 을 사용하기 위해 numpy에서 누락값을 불러오자.

In [1]:
from numpy import NaN, NAN, nan

#### 2. 
누락값은 0이나 ' '같은 공백과는 다른 개념이다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미하고 그래서, '같다'라는 개념도 없다. 다음은 누락갑솩 True, False, 0, ' '을 비교한 결과이다.

In [3]:
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == " ")

False
False
False
False


#### 3. 
2번에서도 언급했듯이 누락값은 값값 자체가 없기 때문에 자기 자신과 비교해도 True가 아닌 False가 출력된다.

In [4]:
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False


#### 4. 
그러면 누락값은 어떻게 확인 가능한가? 다행히 판다스에는 누락값을 확인하는 메서드인 isnull이 있다. 다음은 isnull 메서드로 누락값을 검사한 코드이다.

In [6]:
import pandas as pd
print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


#### 5. 
누락값이 없는 경우도 검사가 가능하다. 다음은 notnull 메서드로 누락값이 아닌 경우를 검사한 예이다.

In [9]:
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


### 누락값이 생기는 이유 알아보기 

#### 1. 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우
이번에 사용할 데이터 집합은 누락값이 포함되어 있다. 누락값이 포암되어 있는 데이터 집합을 연결하면 어떻게 될까? 누락갑싱 포함되어 있는 데이터 집합을 연결하면 더 많은 누락값이 생기게 된다.

In [10]:
visited = pd.read_csv("data/survey_visited.csv")
survey = pd.read_csv("data/survey_survey.csv")

print(visited)
print(survey)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


#### 2. 
과정 1에서 구한 데이터의 집합을 연결해보자. 그러면 누락값이 많이 생격난 것을 볼 수 있다.

In [11]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

#### 3. 데이터를 입력할 때 누락값이 생기는 경우

누락값은 데이터를 잘 못 입력하여 생길 수도 있다. 다음은 시리즈를 생성할 때 데이터 프레임에 없는 열과 행 데이터를 입력하여 누락갑싱 생긴 것이다. scientists 데이터프레임을 확인하면 missing이라는 열과 함께 행 데이터에 누락갑싱 추가된 것을 확인할 수 있다.

In [12]:
num_legs = pd.Series({'goat': 4, 'amoeba': nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


#### 4. 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우
데이터 프레임에 존재하지 않는 데이터를 추출하면 누락갑싱 생기게 된다. 다음을 보자.

In [14]:
gapminder = pd.read_csv("data/gapminder.tsv", sep="\t")

#### 5. 
다음은 gapminder 데이터프레임을 연도별로 그룹화한 다음 lifeExp 열의 평균을 구한 것이다.

In [15]:
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


#### 6. 
다음은 range 메서드를 이용하여 life_Exp 열에서 2000~2009년의 데이터를 추출 해보자. 그런데 이렇게 데이터를 추출하면 처음부터 life_Exp 열에 없었던 연도가 포함되기 때문에 누락값이 많이 발생하게 된다.