# 누락값 확인하기
누락값은 NaN, NAN, nan 과 같은 방법으로 표기  
누락값 사용을 위해 numpy 라이브러리가 필요합니다.  

In [1]:
from numpy import NaN, NAN, nan

누락값은 0,  ' '과는 다른 개념임.  
말그대로 데이터 자체가 없다는 의미로 쓰임. 

In [2]:
# 비교할 값 자체가 없으니 모두 False 를 출력함
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

False
False
False
False


부등호의 의미도 없음.  같다라는 개념도 없음 . 


In [3]:
# 비교할 값 자체가 없으니 모두 False 를 출력함
print(NaN == NaN)
print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False


판다스에는 누락값을 확인하는 메서드인 isnull 이 존재함  

In [4]:
import pandas as pd
print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


반대의 경우(누락값이 아닌 경우) 도 검사할 수 있음 notnull 메서드가 존재함.  

In [5]:
print(pd.notnull(NaN))
print(pd.notnull(42))
print(pd.notnull('missing'))

False
True
True


# 누락값을 포함한 데이터를 불러올 때

누락값은 처음부터 누락값이 있는 데이터를 불러오거나 데이터를 연결, 입력하는 등의 과정에서 발생할 수 있음.  

In [7]:
visited = pd.read_csv('data/survey_visited.csv')
survey = pd.read_csv('data/survey_survey.csv')

In [8]:
# 누락값이 포함되어 있는 데이터프레임
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [10]:
# 누락값이 포함되어 있는 데이터프레임
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


# 데이터 집합을 연결할 때 누락값이 발생하는 경우

In [11]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


# 데이터를 입력할 때 누락값이 발생하는 경우
누락값은 데이터를 잘못 입력하여 생길 수 도 있음. 시리즈를 생성할때, 데이터프레임에 없는 열과 행 데이터를 입력하여 누락값이 생긴 것.  

In [12]:
# 시리즈에서 누락값 입력
num_legs = pd.Series({'goat':4, 'amobea':nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amobea    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [13]:
# 데이터프레임에서 누락값 입력
scientists = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'missing' : [NaN, nan]
})

print(scientists)
print(type(scientists))

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


# 인덱스를 다시 만들 때 누락값이 발생하는 경우

In [17]:
# 범위를 지정하여 데이터를 추출할때
gapminder = pd.read_csv('data/gapminder.tsv', sep='\t')

life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

# range 메서드를 이용하여 2000년 ~ 2009년의 데이터를 추출
# 없는 연도들은 누락값이 발생하게 됨. 
# 이전 버전에서는 가능했으나 지원안한다는 것 같음
print(life_exp.loc[range(2000, 2010), ])

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


KeyError: "Passing list-likes to .loc or [] with any missing labels is no longer supported. The following labels were missing: Int64Index([2000, 2001, 2003, 2004, 2005, 2006, 2008, 2009], dtype='int64', name='year'). See https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike"

# 누락값의 개수 구하기

In [20]:
ebola = pd.read_csv('data/country_timeseries.csv')

In [27]:
# isnull, sum 메서드로 누락값 개수 구하기 
ebola.isnull().sum()

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

In [23]:
# count 메서드를 활용하여 전체 누락값의 개수 구하기
rows = ebola.shape[0]
num_missing = rows - ebola.count()
print(num_missing)

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [24]:
# count_nonzero, isnull 메서드를 조합하여 전체 누락값의 개수 구하기
np.count_nonzero(ebola.isnull())

1214

In [25]:
# count_nonzero : 배열에서 0이 아닌 값의 개수를 세는 메서드
np.count_nonzero(ebola['Cases_Guinea'].isnull())

29

In [32]:
# value_count 메서드를 활용하여 특정 열의 누락값 개수 구하기
ebola.Cases_Guinea.value_counts(dropna=False).head()

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64

# 누락값을 다른 값으로 변경하기

In [33]:
# fillna 메서드로 누락값 0으로 변경하기
ebola.fillna(0).iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,0.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [34]:
# fillna 메서드, method='ffill' 로 누락값 전의 값으로 대체하기 (첫번째값은 NaN 이면 처리 못함)
ebola.fillna(method='ffill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7977.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [35]:
# fillna 메서드, method='bfill' 로 누락값 후의 값으로 대체하기 (마지막값은 NaN 이면 처리 못함)
ebola.fillna(method='bfill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7977.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7862.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [36]:
# interpolate 메서드로 양쪽의 값들의 중간값으로 대체하기
# 일정한 간격을 유지하고 있는 것 처럼 수정할 수 있음
ebola.interpolate().iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7997.5,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7919.5,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


# 누락값 삭제하기
누락값이 필요없을 경우에는 누락값을 삭제 해도 됨.  
하지만 누락값을 삭제하면 데이터 수가 적어지거나, 편향될 수 있음으로 분석자의 판단에 따라 시행되어야 함.  

In [37]:
ebola.shape

(122, 18)

삭제하였더니 데이터가 1개 밖에 남질 않아 분석이 불가능함  

In [40]:
# dropna 를 사용하면 누락값들이 삭제됨. 
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

ebola_dropna

(1, 18)


Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


# 누락값이 포함된 데이터 계산하기

In [42]:
ebola.columns

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')

In [43]:
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

누락값이 있는 열의 데이터들을 연산하면, 누락값이 하나라도 있는 행은 결과값으로 NaN 을 리턴함  
계산결과 누락값이 더 많이 생긴것을 확인할 수 있음  

In [46]:
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
ebola_subset

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0
...,...,...,...,...
117,103.0,8.0,6.0,117.0
118,86.0,,,
119,86.0,,,
120,86.0,,,


In [51]:
# sum 메서드에 skipna 인잣값을 Ture 로 하면 NaN 값을 무시하고 계산함  
print(ebola_subset.Cases_multiple.sum(skipna=True))
print(ebola_subset.Cases_multiple.sum(skipna=False))

197682.0
nan
