# 06-1. 누락값이란?
 - 누락값: NaN, NAN, nan 등
 - 0, ' '(공백)과는 다른 개념이다.
 - 말 그대로 데이터 자체가 없다는 것을 의미한다. 비교할 값 자체가 없다. 
 - 따라서 '같다'라는 개념도 없다(비교 표현에 들어가면 전부 False 출력)
 - 파이썬에서 누락값을 사용하려면 numpy라이브러리 필요.

In [1]:
from numpy import NaN, NAN, nan

In [2]:
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

False
False
False
False


In [3]:
#값 자체가 없기 때문에 자기 자신과 비교해도 False가 출력된다.
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False


 - 누락값 검사 메서드: isnull

In [4]:
import pandas as pd
print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


 - 누락값이 아닌 경우를 검사하는 메서드: notnull

In [5]:
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


- 누락값이 생기는 이유①: 누락값이 있는 데이터 집합을 연결할 때.

In [7]:
visited = pd.read_csv('./data/survey_visited.csv')
survey = pd.read_csv('./data/survey_survey.csv')
print(visited)
print()
print(survey)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [8]:
vs = visited.merge(survey, left_on = 'ident', right_on = 'taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

- 누락값이 생기는 이유②: 데이터를 입력할 때 누락값이 생기는 경우

In [10]:
num_legs = pd.Series({'goat' : 4, 'amoeba' : nan})
print(num_legs)
print(type(num_legs))
print()

scients = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'missing' : [NaN, nan]
    })

print(scients)
print(type(scients))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


- 누락값이 생기는 이유③: 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우.

In [12]:
#데이터프레임에 존재하지 않는 데이터를 추출하면 누락값이 발생한다.

gapminder = pd.read_csv('./data/gapminder.tsv', sep = '\t')

life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


In [13]:
print(life_exp.loc[range(2000, 2010), ])

year
2000          NaN
2001          NaN
2002    65.694923
2003          NaN
2004          NaN
2005          NaN
2006          NaN
2007    67.007423
2008          NaN
2009          NaN
Name: lifeExp, dtype: float64


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


In [14]:
#범위 초과 문제를 방지하려면: Boolean 추출을 이용하여 데이터 추출하기.
y2000 = life_exp[life_exp.index > 2000]
print(y2000)

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


 - 누락값의 개수

In [15]:
ebola = pd.read_csv('./data/country_timeseries.csv')
print(ebola.count())    #누락값이 아닌 값의 개수 확인

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [16]:
# .shape[0]에 전체 행 데이터 개수가 저장되어있다. .shape[0] - ebola.count() = 누락값 개수
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
print(num_missing)

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [17]:
#count 메서드대신 count_nonzero, isnull 메서드를 조합해도 누락값의 개수를 구할 수 있음!
#count_nonzero: 배열에서 0이 아닌 값의 개수를 셈

import numpy as np
print(np.count_nonzero(ebola.isnull()))  #ebola.isnull()는 True, False =>nonzero(T/F) = T의 개수 
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

1214
29


In [44]:
#null_ = ebola.isnull()
#print(np.count_nonzero(null_))

n1 = np.array([True, True, True, True, False, False, False])
print(np.count_nonzero(n1))

4


In [48]:
#value_counts 메서드를 사용한 한 열의 누락값 개수 구하기/
#value_counts: 지정한 열의 빈도를 구하는 메서드. 해당 열이 갖는 값들이 각각 몇 번씩 나오는지 보여준다.

print(ebola.Cases_Guinea.value_counts(dropna = False).head())

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


 - 누락값 처리하기: 변경, 삭제

In [49]:
#1. 누락값 변경하기 : fillna()

print(ebola.fillna(0).iloc[0:10, 0:5])    #fillna(0): 결측치를 0으로 변경함. 
                                          #데이터프레임의 크기가 크고 메모리를 효율적으로 사용해야 하는 경우

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [50]:
#2. 누락값 변경하기 : fillna(method = 'ffill')
#누락값이 있는 위치상 바로 이전에 있는 데이터로 누락값을 변경.
#ex. Cases_Guinea열의 3행의 누락값은 2행의 데이터로 변경됨.
#    그러나 Cases_Liberia열의 0, 1행은 처음부터 누락값이기 때문에 그대로 남아있음.
print(ebola.fillna(method = 'ffill').iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [51]:
#3. 누락값 변경하기 : fillna(method = 'bfill')
#누락값이 있는 위치상 바로 다음에 있는 데이터로 누락값을 변경(method = 'ffill'과 반대방향!)
#ex. Cases_Guinea열의 3행의 누락값은 4행의 데이터로 변경됨.
#ex. Cases_Liberia열의 0, 1행은 2행의 데이터로 변경됨.
#단, 마지막 값이 누락값인 경우에는 처리하지 못한다.

print(ebola.fillna(method = 'bfill').iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2730.0         8157.0             9633.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7977.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7862.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [52]:
#4. 누락값 변경하기: interpolate()
#누락값 앞, 뒤에 있는 값의 중간값으로 결측치를 처리함.
#단, 앞, 뒤 데이터 중 하나가 결측치인 경우에는 그대로 NaN처리됨. 즉, 결측치가 2개 이상 연속될 경우 이 메서드로는 해결 불가.
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [53]:
#5. 누락값 삭제하기: dropna()
#누락값이 포함된 행들이 모두 삭제된다.
#삭제시에는 분석가의 판단이 필요함(데이터 개수가 적어지는 문제 or 데이터 편향이 발생하는 문제)

ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

(1, 18)


 - 누락값이 포함된 데이터 계산하기

In [58]:
#누락값이 존재하는 열들을 가지고 ebolo 발병 수의 합을 계산하기.

ebola['Cases_multiple'] = ebola['Cases_Guinea'] + \
                          ebola['Cases_Liberia'] + \
                          ebola['Cases_SierraLeone']   #새로운 행 생성: Cases_multiple

#ebola_subset이라는 새로운 데이터 프레임 생성하여 어떤 값이 존재하는지 확인
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(10))  #누락값이 하나라도 있는 행에서는 Cases_multiple의 값이 NaN임을 확인.

   Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0        2776.0            NaN            10030.0             NaN
1        2775.0            NaN             9780.0             NaN
2        2769.0         8166.0             9722.0         20657.0
3           NaN         8157.0                NaN             NaN
4        2730.0         8115.0             9633.0         20478.0
5        2706.0         8018.0             9446.0         20170.0
6        2695.0            NaN             9409.0             NaN
7        2630.0         7977.0             9203.0         19810.0
8        2597.0            NaN             9004.0             NaN
9        2571.0         7862.0             8939.0         19372.0


In [60]:
#Cases_multiple열의 데이터의 합계를 구하면 세 지역의 에볼라 발병 빈도를 구할 수 있다.
#이때 sum 메서드를 그냥 사용하면 누락값을 포함하므로, 결과도 NaN이 나온다.
#따라서, 누락값을 무시한 채 계산하려면 skipna 인잣값을 True로 설정한다.
print(ebola.Cases_Guinea.sum(skipna = True))
print(ebola.Cases_Guinea.sum(skipna = False))

84729.0
nan
