# 누락값 확인하기

In [None]:
from numpy import NaN, NAN, nan
# 누락값을 사용하기위해 불러옴

# 누락값: 데이터 자체가 없다는 것!
# 누락값은 '0', ''과 다른 개념
print(NaN == True)  # False
print(NAN == False)  # False
print(NaN == 0)  # False
print(NaN == '')  # False

# 자기 자신과 비교해도 False!!
print(NaN == NaN)  # False
print(NaN == nan)  # False
print(NaN == NAN)  # False
print(nan == NAN)  # False

In [None]:
# 누락값 확인 방법
import pandas as pd

print(pd.isnull(NaN))  # True
print(pd.isnull(nan))  # True
print(pd.isnull(NAN))  # True

# 누락값이 아닌 경우 확인 방법
print(pd.notnull(NaN))  # False
print(pd.notnull(42))  # True
print(pd.notnull('missing'))  # True

# 데이터 집합을 연결할 때 누락값이 발생하는 경우

In [None]:
visited = pd.read_csv('../data/survey_visited.csv')
survey = pd.read_csv('../data/survey_survey.csv')

print(visited)
#    ident   site       dated
# 0    619   DR-1  1927-02-08
# 1    622   DR-1  1927-02-10
# 2    734   DR-3  1939-01-07
# 3    735   DR-3  1930-01-12
# 4    751   DR-3  1930-02-26
# 5    752   DR-3         NaN
# 6    837  MSK-4  1932-01-14
# 7    844   DR-1  1932-03-22

print(survey)
#     taken person quant  reading
# 0     619   dyer   rad     9.82
# 1     619   dyer   sal     0.13
# 2     622   dyer   rad     7.80
# 3     622   dyer   sal     0.09
# 4     734     pb   rad     8.41
# 5     734   lake   sal     0.05
# 6     734     pb  temp   -21.50
# 7     735     pb   rad     7.22
# 8     735    NaN   sal     0.06
# 9     735    NaN  temp   -26.00
# 10    751     pb   rad     4.35
# 11    751     pb  temp   -18.50
# 12    751   lake   sal     0.10
# 13    752   lake   rad     2.19
# 14    752   lake   sal     0.09
# 15    752   lake  temp   -16.00
# 16    752    roe   sal    41.60
# 17    837   lake   rad     1.46
# 18    837   lake   sal     0.21
# 19    837    roe   sal    22.50
# 20    844    roe   rad    11.25

In [None]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

#     ident   site       dated  taken person quant  reading
# 0     619   DR-1  1927-02-08    619   dyer   rad     9.82
# ...
# 12    751   DR-3  1930-02-26    751   lake   sal     0.10
# 13    752   DR-3         NaN    752   lake   rad     2.19
# 14    752   DR-3         NaN    752   lake   sal     0.09
# 15    752   DR-3         NaN    752   lake  temp   -16.00
# 16    752   DR-3         NaN    752    roe   sal    41.60
# 17    837  MSK-4  1932-01-14    837   lake   rad     1.46
# 18    837  MSK-4  1932-01-14    837   lake   sal     0.21

# 원래 각자일때는 1개, 2개였지만, 합해지니까 더 많아짐. 
# why? ident와 taken이 동일해야하는데, 
#      752(ident)와 동일한 taken을 가지고있는 것이 합쳤을때 4개 이므로 
#      총 4개가 됨

# 데이터를 입력할 때 누락값이 발생하는 경우

In [None]:
num_legs = pd.Series({'goat':4, 'amoeba':nan})
print(num_legs)
print(type(num_legs))

# goat      4.0
# amoeba    NaN
# dtype: float64
# <class 'pandas.core.series.Series'>

In [None]:
scientists = pd.DataFrame({
    'Name': ['Rosa', 'William'],
    'Occupation': ['Chemist', 'Statistician'],
    'missing': [NaN, nan]
})

print(scientists)
print(type(scientists))

#       Name    Occupation  missing
# 0     Rosa       Chemist      NaN
# 1  William  Statistician      NaN
# <class 'pandas.core.frame.DataFrame'>

# 범위를 지정해 데이터를 추출할 때 생기는 경우

In [None]:
gapminder = pd.read_csv('../data/gapminder.tsv', sep='\t')

# gapminder 데이터프레임을 연도별로 그룹화한 다음 lifeExp 열의 평균을 구함
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)
# year
# 1952    49.057620
...
# 1997    65.014676
# 2002    65.694923
# 2007    67.007423
# Name: lifeExp, dtype: float64


# range를 이용해 life_Exp 열에서 200~2009년의 데이터 추출
print(life_exp.loc[range(2000, 2009), ])
# year
# 2000          NaN
# 2001          NaN
# 2002    65.694923
# 2003          NaN
# 2004          NaN
# 2005          NaN
# 2006          NaN
# 2007    67.007423
# 2008          NaN
# Name: lifeExp, dtype: float64

In [None]:
# 위의 문제를 불린 추출을 이요해 데이터 추출하기
y2000 = life_exp[life_exp.index > 2000]
print(y2000)

# year
# 2002    65.694923
# 2007    67.007423
# Name: lifeExp, dtype: float64

# life_exp데이터에서 인덱스가 2000이상인 것만 뽑아오면 누락값 없이 가지고올 수 있음

# 누락값의 개수 구하기

In [None]:
ebola = pd.read_csv('../data/country_timeseries.csv')

In [None]:
print(ebola.count())  # 누락 값이 아닌 값의 갯수구하기

# Date                   122
# Day                    122
# Cases_Guinea            93

In [None]:
# 누락값 갯수 구하는 방법 1
num_rows = ebola.shape[0]  # shape(행, 열) -> 행과 열의 갯수
num_missing = num_rows - ebola.count()  
# 누락값의 갯수 = 전체 행의 데이터갯수 - 누락값이 아닌 데이터 갯수
print(num_missing)

In [None]:
# 누락값 갯수 구하는 방법 2
import numpy as np

print(np.count_nonzero(ebola.isnull()))  # 총 누락값: 1214
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))  # 누락값: 29
# count_nonzero: 배열에서 0이 아닌 값의 갯수를 세는 메서드

In [None]:
# 열의 누락값 갯수 구하는 방법
print(ebola.Cases_Guinea.value_counts(dropna=False).head())

# 누락값을 다른 값으로 변경하기

In [None]:
# NaN값을 0으로 대체
print(ebola.fillna(0).iloc[0:8, 0:5])

#          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
# 0    1/5/2015  289        2776.0            0.0            10030.0
# 1    1/4/2015  288        2775.0            0.0             9780.0
# 2    1/3/2015  287        2769.0         8166.0             9722.0
# 3    1/2/2015  286           0.0         8157.0                0.0
# 4  12/31/2014  284        2730.0         8115.0             9633.0
# 5  12/28/2014  281        2706.0         8018.0             9446.0
# 6  12/27/2014  280        2695.0            0.0             9409.0
# 7  12/24/2014  277        2630.0         7977.0             9203.0

In [None]:
# NaN값을 바로 위 값에서 가지고 와 누락값 처리 -> ffill
print(ebola.fillna(method='ffill').iloc[0:8, 0:5])

#          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
# 0    1/5/2015  289        2776.0            NaN            10030.0
# 1    1/4/2015  288        2775.0            NaN             9780.0
# 2    1/3/2015  287        2769.0         8166.0             9722.0
# 3    1/2/2015  286        2769.0         8157.0             9722.0
# 4  12/31/2014  284        2730.0         8115.0             9633.0
# 5  12/28/2014  281        2706.0         8018.0             9446.0
# 6  12/27/2014  280        2695.0         8018.0             9409.0
# 7  12/24/2014  277        2630.0         7977.0             9203.0

In [None]:
# NaN값을 바로 아래 값에서 가지고 와 누락값 처리 -> bfill
print(ebola.fillna(method='bfill').iloc[0:8, 0:5])

#          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
# 0    1/5/2015  289        2776.0         8166.0            10030.0
# 1    1/4/2015  288        2775.0         8166.0             9780.0
# 2    1/3/2015  287        2769.0         8166.0             9722.0
# 3    1/2/2015  286        2730.0         8157.0             9633.0
# 4  12/31/2014  284        2730.0         8115.0             9633.0
# 5  12/28/2014  281        2706.0         8018.0             9446.0
# 6  12/27/2014  280        2695.0         7977.0             9409.0
# 7  12/24/2014  277        2630.0         7977.0             9203.0

In [None]:
# NaN값을 바로 아래와 바로 위 값에서 가지고 와 중간값으로 누락값 처리 -> interpolate
print(ebola.interpolate().iloc[0:8, 0:5])

#          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
# 0    1/5/2015  289        2776.0            NaN            10030.0
# 1    1/4/2015  288        2775.0            NaN             9780.0
# 2    1/3/2015  287        2769.0         8166.0             9722.0
# 3    1/2/2015  286        2749.5         8157.0             9677.5
# 4  12/31/2014  284        2730.0         8115.0             9633.0
# 5  12/28/2014  281        2706.0         8018.0             9446.0
# 6  12/27/2014  280        2695.0         7997.5             9409.0
# 7  12/24/2014  277        2630.0         7977.0             9203.0

# 누락값 삭제하기

In [None]:
print(ebola.shape)

In [None]:
ebola_dropna = ebola.dropna()
print(ebola_dropna)  # 데이터가 많이 삭제됨

# 누락값이 포함된 데이터 계산하기

In [None]:
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia']
+ ebola['Cases_SierraLeone']
print(ebola['Case_multiple'])

In [None]:
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head())

In [None]:
# sum : 누락값을 포함해 합을 구함 -> 결과값도 누락!
# 이때, skipna 사용하면 누락값 무시하고 계산
print(ebola.Cases_Guinea.sum(skipna = True))  # 84729.0
print(ebola.Cases_Guinea.sum(skipna = False))  # NaN