# 누락값 처리

### 6-1 누락값

In [1]:
# 누락값(NaN, NAN, nan)
from numpy import NaN, NAN, nan

In [3]:
# 누락값은 0, ''등과는 개념적으로 다름, 누락값은 '데이터 자체가 없다'는 하나의 독립적 개념
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

False
False
False
False


In [4]:
# 누락값은 값 자체가 없기 때문에 자기 자신과 비교해도 False출력
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)


False
False
False
False


In [5]:
# pd.isnull(value) : 누락값 확인방법
import pandas as pd
print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))


True
True
True


In [6]:
# pd.notnull(value) : 반대의경우(누락값 없는경우) 확인법
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


### 누락값이 생기는 이유

##### 누락값이 있는 데이터 집합을 연결하는 경우

In [None]:
visited = pd.read_csv('./data/survey_visited.csv')
survey = pd.read_csv('./data/survey_survey.csv')

print(visited)
print()
print(survey)

In [11]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

##### 데이터 입력시 누락값 생기는 경우

In [13]:
num_legs = pd.Series({'goat':4, 'amoeba':nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [14]:
scientists = pd.DataFrame({
    'name':['Rosaline Franklin', 'William Gosset'],
    'Occupation':['Chemist', 'Statistician'],
    'Born':['1920-07-25', '1876-06-13'],
    'Died':['1958-04-16', '1937-10-16'],
    'missing':[NaN, nan]
})

print(scientists)
print(type(scientists))

                name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


##### 범위 지정, 데이터 추출 시 누락값 생기는 경우

In [15]:
# 데이터프레임에 존재하지 않는 데이터를 추출하면 누락값이 생김
gapminder = pd.read_csv('./data/gapminder.tsv', sep='\t')

In [17]:
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


In [19]:
print(life_exp.loc[range(2000, 2010),])

KeyError: '[2000, 2001, 2003, 2004, 2005, 2006, 2008, 2009] not in index'

In [20]:
y2000 = life_exp[life_exp.index > 2000]
print(y2000)

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


### 누락값 개수 구하기

In [22]:
# 정상데이터 개수
ebola = pd.read_csv('./data/country_timeseries.csv')
print(ebola.count())

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [23]:
# shape[0] : 전체행의 데이터 개수
    #shape[0] - 정상데이터 개수 : 누락값의 개수
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
print(num_missing)

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


##### numpy를 이용해 누락값 개수 구하기


In [None]:
import numpy as np
print(np.count_nonzero(ebola.isnull())) #count_nonzero : 0이 아닌 값의 개수를 세는 메서드

# ebola.isnull()가 T/F를 리턴 > np.count_nonzero가 True의 숫자를 합산

In [36]:
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

29


### 누락값 처리하기

##### fillna() : 누락값 변경

In [37]:
print(ebola.fillna(0).iloc[0:10, 0:5])  #fillna(0) : nan > 0으로 변경

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [38]:
#fillna(method='ffill') : 직전 행값으로 현재 행 nan 대체, 첫값이 누락값이면 처리하지 못한다는 단점
print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

#Cases_Liberia열 0,1은 이전값이 없어서 대체하지 못함
    #6, 8은 각 이전값으로 대체한 값임

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2769.0         8157.0             9722.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         8018.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7977.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [41]:
#fillna(method='bill') : 직후 행값으로 현재 행 nan 대체, 마지막 값이 누락값이면 처리하지 못한다는 단점
print(ebola.fillna(method='bfill').iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0         8166.0            10030.0
1    1/4/2015  288        2775.0         8166.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2730.0         8157.0             9633.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7977.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7862.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [42]:
# interpolate() : 누락값 이전, 이후 값으로 중간값 구해서 대체
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


##### 누락값 삭제 : dropna
    누락값 삭제의 경우, 데이터 편향, 표본수 감소 등의 문제가 발생할 수 있음
    분석자의 적절한 판단이 필요

In [43]:
print(ebola.shape)

(122, 18)


In [44]:
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

(1, 18)


In [45]:
print(ebola_dropna) #너무 많은 데이터가 삭제됨

          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
19  11/18/2014  241        2047.0         7082.0             6190.0   

    Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
19           20.0            1.0                 4.0          1.0         6.0   

    Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
19         1214.0          2963.0              1267.0             8.0   

    Deaths_Senegal  Deaths_UnitedStates  Deaths_Spain  Deaths_Mali  
19             0.0                  1.0           0.0          6.0  


### 누락값이 포함된 데이터 계산

In [46]:
# Cases_Guinea + Cases_Liberia + Cases_SierraLeone 3행을 합쳐 Cases_multiple 행 추가
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

In [49]:
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(n=10))

#하나의행이라도 NaN있으면 합결과가 NaN이 됨 > 누락값이 더 많아진 결과

   Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0        2776.0            NaN            10030.0             NaN
1        2775.0            NaN             9780.0             NaN
2        2769.0         8166.0             9722.0         20657.0
3           NaN         8157.0                NaN             NaN
4        2730.0         8115.0             9633.0         20478.0
5        2706.0         8018.0             9446.0         20170.0
6        2695.0            NaN             9409.0             NaN
7        2630.0         7977.0             9203.0         19810.0
8        2597.0            NaN             9004.0             NaN
9        2571.0         7862.0             8939.0         19372.0


In [50]:
# skipna = True : 누락값 무시한 채 계산
print(ebola.Cases_Guinea.sum(skipna = True))

print(ebola.Cases_Guinea.sum(skipna = False))

84729.0
nan
