<a href="https://colab.research.google.com/github/IlTACK-OH/pandas_practice/blob/main/day3/06_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 누락값 확인하기

누락값(NaN)은 `NaN`,`NAN`,`nan`과 같은 방법으로 표시할 수 있다.<br>이 책에서는 누락값을 `NAN`이라고 표기하여 사용한다.<br>

---
먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러온다.

In [1]:
from numpy import NaN,NAN,nan

누락값은 0,''와 같은 값과는 **다른 개념**이라는 것에 주의해야 한다.<br>누락값은 말 그대로 데이터 자체가 없다는 것을 의미한다. 그래서 `같다`라는 개념도 없다.<br>

In [2]:
print(NaN==True)
print(NaN==False)
print(NaN==0)
print(NaN=='')

False
False
False
False


누락값은 앞 서 언급했듯이 자기 자신과 비교해도 `True`가 아닌 `False`가 출력된다

In [4]:
print(NaN==NaN)
print(NaN==nan)
print(NaN==NAN)
print(nan==NAN)

False
False
False
False


이런 특징을 가진 누락값을 확인하기 위해 `Pandas`에서는 누락값을 확인하는 메서드인 `isnull`이 있다. 

In [5]:
import pandas as pd

print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


반대의 경우도 검사할 수 있다.

In [6]:
print(pd.notnull(NaN))
print(pd.notnull(nan))
print(pd.notnull(NAN))

False
False
False


# 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우

In [8]:
visited = pd.read_csv('survey_visited.csv')
survey = pd.read_csv('survey_survey.csv')

In [10]:
vs = visited.merge(survey,left_on='ident',right_on='taken')
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


# 데이터를 입력할 때 누락값이 발생하는 경우

누락값은 데이터를 잘못 입력하여 생길 수도 있다. 다음은 시리즈를 생성할 때 데이터프레임에 없는 열과 행 데이터를 입력하여 누락값이 생긴 것이다.

In [11]:
num_legs = pd.Series({'goat':4,'amoeba':nan})
scientists = pd.DataFrame({
    'Name':['Rosaline Franklin','William Gosset'],
    'Occupation':['Chemist','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'missing':[NaN,nan]})

scientists

Unnamed: 0,Name,Occupation,Born,Died,missing
0,Rosaline Franklin,Chemist,1920-07-25,1958-04-16,
1,William Gosset,Statistician,1876-06-13,1937-10-16,


# 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우
데이터프레임에 존재하지 않는 데이터를 추출하면 누락값이 생긴다. 이번에는 갭마인더 데이터 집합을 불러와 실습해 보겠다.

In [18]:
gqpminder = pd.read_csv('gapminder.tsv',sep='\t')

In [23]:
life_exp=gqpminder.groupby(['year'])['lifeExp'].mean()
life_exp.loc[range(2000,2010),]

KeyError: ignored

# 누락값의 개수 구하기

In [24]:
ebola=pd.read_csv('country_timeseries.csv')

먼저 `count`메서드로 누락값이 아닌 값의 개수를 구해 보겠다.

In [25]:
ebola.count()

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64

shape[0]에 전체 행의 데이터 개수가 저장되어 있다는 점을 이용하여 shape[0]에서 누락값이 아닌 값의 개수를 빼면 누락값의 개수를 구할 수 있다.

In [27]:
num_rows=ebola.shape[0]
num_missing=num_rows-ebola.count()
num_missing

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

`count`메서드를 사용해도 되지만 `count_nonzero`,`isnull`메서드를 조합해도 누락값의 개수를 구할 수 있다.<br>
> `count_nonzero`메서드는 배열에서 0이 아닌 값의 개수를 세는 메서드이다.

In [29]:
import numpy as np
print(np.count_nonzero(ebola.isnull()))
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

1214
29


시리즈에 포함된 `value_counts`메서드는 지정한 열의 빈도를 구하는 메서드이다.

In [31]:
ebola.Cases_Guinea.value_counts(dropna=False).head()

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64

# 누락값 처리하기 - 변경,삭제

`fillna`메서드에 0을 대딥하면 누락값을 0으로 변경한다.<br>
`fillna`메서드는 처리해야 하는 데이터프레임의 크기가 매우 크고 메모리를 효율적으로 사용해야 하는 경우에 자주 사용하는 메서드이다.

In [32]:
ebola.fillna(0).iloc[0:10,0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,0.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


`fillna`메서드의 method인잣값을 `ffill`로 지정하면 누락값이 나타나기 전의 값으로 누락값이 변경된다.

In [35]:
ebola.fillna(method='ffill').iloc[0:10,0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7977.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


method인잣값을 `bfill`로 지정하면 누락값이 나타난 이후의 첫 번째 값으로 앞쪽의 누락값이 모두 변경된다.<br>하지만 이 방법도 마지막 값이 누락값인 경우에는 처리하지 못한다는 단점이 있다.

In [36]:
ebola.fillna(method='bfill').iloc[0:10,0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7977.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7862.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


`interpolate``메서드는 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리한다. <br>
이렇게 하면 데이터프레임이 일정한 간격을 유지하고 있는 것처럼 수정할 수 있다.

In [37]:
ebola.interpolate().iloc[0:10,0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7997.5,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7919.5,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


누락값이 필요 없을 경우에는 삭제해도 된다.<br>
누락값을 삭제하기 위해 `dropna`메서드를 사용한다.<br>이 메서드를 사용하면 누락값이 포함된 모든 행들이 삭제된다.

In [38]:
ebola.dropna()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


# 누락값이 포함된 데이터 계산하기

Guinea,Liberia,SierraLeone 열에는 누락값들이 존재한다. <br>다음은 Cases_Guinea, Cases_Liberia Cases_SierraLeone열을 더하여 새로운 열은 만든 코드이다.

In [39]:
ebola['Cases_multiple']=ebola['Cases_Guinea']+ebola['Cases_Liberia']+ebola['Cases_SierraLeone']

In [40]:
ebola_subset = ebola.loc[:,['Cases_Guinea','Cases_Liberia','Cases_SierraLeone','Cases_multiple']]
ebola_subset.head(10)

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0
5,2706.0,8018.0,9446.0,20170.0
6,2695.0,,9409.0,
7,2630.0,7977.0,9203.0,19810.0
8,2597.0,,9004.0,
9,2571.0,7862.0,8939.0,19372.0


Case_multiple열을 `sum`메서드를 사용해 더하면 세 지역의 ebola발병 수의 합을 구할 수 있다.<br><br> 이때 `sum`메서드를 그냥 사용하면 누락값을 포함해 계산한다. 따라서 결괏값도 누락값이 된다.<br><br>
누락값을 무시한 채 계산하려면 `skipna`인잣값을 True로 설정하면 된다.

In [41]:
ebola.Cases_Guinea.sum(skipna=True)


84729.0

In [42]:
ebola.Cases_Guinea.sum(skipna=False)

nan