# 누락값 확인하기

#### ✨누락값은 0, ''와는 다른 개념, 아예 데이터 자체가 없다는 말이므로 0도 아니고 ,''도 아니고, False도 아님

In [2]:
from numpy import NaN, NAN, nan
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

False
False
False
False


In [3]:
#누락값은 값 자체가 없어서 자기 자신과 비교해도 False
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False


## ✨누락값을 확인하는 방법 : isnull 메서드 활용

In [4]:
import pandas as pd 

print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


## ✨누락값이 아닌 경우를 확인하는 방법 : notnull 메서드 활용

In [6]:
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


# 누락값이 생기는 이유

## ✨데이터 집합을 연결할 때 누락값이 발생하는 경우
#### 누락값이 포함되어 있는 데이터 집합을 연결하면 더 많은 누락값이 생긴다.

In [7]:
visited = pd.read_csv('../data/survey_visited.csv') 
survey = pd.read_csv('../data/survey_survey.csv')

print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [8]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [10]:
vs = visited.merge(survey, left_on='ident', right_on='taken') 
print(vs) #4개의 누락값 발생

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

## ✨데이터를 입력할 때 누락값이 발생하는 경우

### 데이터프레임에 없는 열과 행 데이터를 입력할 때

In [11]:
num_legs = pd.Series({'goat': 4, 'amoeba': nan}) 
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [12]:
scientists = pd.DataFrame({ 
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'missing': [NaN, nan]}) 

print(scientists)
print(type(scientists))

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


### ✨범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우

In [13]:
gapminder = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [16]:
#gapminder 데이터프레임을 연도별로 그룹화 후 lifeExp열의 평균 구하기
life_exp = gapminder.groupby(['year'])['lifeExp'].mean() 
print(life_exp)
print(life_exp.loc[range(2000, 2010), ]) 
#life_Exp에 없었던 연도가 포함되어 누락값이 많이 발생

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


KeyError: '[2000, 2001, 2003, 2004, 2005, 2006, 2008, 2009] not in index'

In [19]:
#불린 추출을 이용하여 데이터 추출하기
y2000 = life_exp[life_exp.index > 2000]  #인덱스가 2000 이상인 것만 추출하기
print(y2000)

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 누락값의 개수 구하기

In [20]:
ebola = pd.read_csv('../data/country_timeseries.csv')

In [21]:
print(ebola.count()) #count 메서드로 누락값이 아닌 값의 개수 구하기

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [24]:
num_rows = ebola.shape[0] #전체 행 데이터의 개수를 구하는 shape활용
print(num_rows)
num_missing = num_rows - ebola.count() #전체 행에서 count된 행의 값을 빼면 누락값을 알 수 있다.
print(num_missing)

122
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


## count_nonzero와 isnull메서드를 사용해서 구하기
### *count_nonzero는 배열에서 0이 아닌 값의 개수를 세는 메서드

In [25]:
#count_nonzero와 isnull 메서드를 조합해서 누락값을 개수를 구할 수 있다.
import numpy as np 

print(np.count_nonzero(ebola.isnull())) #ebola 전체 데이터 중 0이 아닌 값의 개수

1214


In [26]:
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

29


In [27]:
print(ebola.Cases_Guinea.value_counts(dropna=False).head())

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


## 누락값 처리하기 - 변경, 삭제

### 1.  누락값을 다른 값으로 변경하기
### - fillna 메서드에 0을 대입하면 누락값을 0으로 변경
처리하는 데이터프레임의 크기가 크고 메모리를 효율적으로 사용해야 하는 경우

In [28]:
print(ebola.fillna(0).iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


### - fillna 메서드의 method인잣값을 ffill로 지정하면 누락값이 나타나기 전의 값으로 누락값이 변경됨

In [30]:
print(ebola.fillna(method = 'ffill').iloc[0:10, 0:5])
#6행의 누락값이 5행의 8018.0으로 변경 됨.
#0, 1행은 처음부터 누락값이라 누락값이 그대로 남아있음

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


### - fillna 메서드의 method 인잣값을 bfill로 지정하면 누락값이 나타난 이후의 첫번째 값으로 앞쪽의 누락값이 모두 변경됨.

In [31]:
print(ebola.fillna(method='bfill').iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2730.0         8157.0             9633.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7977.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7862.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


### - interpolate 메서드는 누락값 양쪽에 있는 값의 중간값으로 누락값 지정

In [32]:
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


### 2. 누락값 삭제하기
### 유의사항 : 누락값을 무작정 삭제할 경우 데이터가 너무 편향되거나 데이터의 개수가 너무 적어질 수 있음

In [33]:
print(ebola.shape)

(122, 18)


In [37]:
ebola_dropna = ebola.dropna()
print(ebola_dropna)
print(ebola_dropna.shape) #데이터가 너무 많이 삭제됨

          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
19  11/18/2014  241        2047.0         7082.0             6190.0   

    Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
19           20.0            1.0                 4.0          1.0         6.0   

    Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
19         1214.0          2963.0              1267.0             8.0   

    Deaths_Senegal  Deaths_UnitedStates  Deaths_Spain  Deaths_Mali  
19             0.0                  1.0           0.0          6.0  
(1, 18)


# 누락값이 포함된 데이터 계산하기

### 누락값이 하나라도 있는 값은 계산 결과도 누락값이 됨
#### 누락값을 무시한 채 계산하려면 skipna 인잣값을 True로 설정

In [40]:
print(ebola.Cases_Guinea.sum(skipna = True)) #누락값 무시하고 계산
print(ebola.Cases_Guinea.sum(skipna = False)) #누락값이 있어 계산 결과도 누락됨

84729.0
nan
