## 누락값 : NaN


### * 누락값이 생기는 이유
    1- 데이타 자체적으로 존재
    2- 데이타 연결하면서
    3- 데이타 입력시
    4- 데이타 추출하여 연산할 때
    

### * 누락값 확인하기
    1- 누락값 인지 확인
        + df.isnull()
        + df.notnull()
    
    2- 누락값 행수 확인
        + df.sharp[0] - df.count()
        
    3- 누락값 수 확인 
        +  numpy 라이브러리의 count_nonzero() 이용


    

### * 누락값 처리하기
     (1) 누락값 삭제하기 : dropna()
     (2) 누락값을 다른 값으로 대치하기 : fillna()

In [1]:
# 누락값 개념

from numpy import NaN, NAN, nan

print(NaN==False)
print(NaN==0)
print(NaN=='')

print(NaN==NaN)
# 누락값은 값 자체가 없기 때문에 자신과 비교도 안됨

False
False
False
False


In [2]:
# 누락값 비교 방법 : pandas 메소드 이용
from numpy import NaN, NAN, nan
import pandas as pd

print(pd.isnull(NaN))
print(pd.isnull(True))
print(pd.isnull(0))
print(pd.isnull(''))

print(pd.notnull(NaN))
print(pd.notnull(True))
print(pd.notnull(0))
print(pd.notnull(''))

True
False
False
False
False
True
True
True


In [4]:
""" 누락값이 생기는 이유
    1- 데이타 자체적으로 존재
    2- 데이타 연결하면서
    3- 데이타 입력시
    4- 데이타 추출하여 연산할 때
"""
import pandas as pd

survey = pd.read_csv('./data/survey_survey.csv')
# survey
visited = pd.read_csv('./data/survey_visited.csv')
# print(visited)

vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)


new_visited = pd.DataFrame([['900','DR-4']],columns=['ident','site'])
print(pd.concat([visited, new_visited]))
# NaN으로 문제가 야기될 수 있다는 warning 발생

# 하나의 행이라도 DataFrame으로 생성해서 연결해야 한다
# new_visited = pd.DataFrame([['900','DR-4','']],columns=['ident','site','dated'])
# print(pd.concat([visited, new_visited]))
# dated 컬럼에 공백이 들어가는데 dated값이 있다고 생각해서 넣은것이지만 
# 추후에 이런 데이타 처리가 더 어렵기에 값이 없으면 처음부터 NaN으로 들어가도록 하는 것도 낫다


    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




### Countires.tsv 파일에서

1. 년도별 각 나라의 생활비의 평균을 구한다

2. 1번의 데이타 셋에서 2000년도에서 2010년 동안의 데이타 셋을 추출

3. 값이 있는 데이타만 출력한다면

In [4]:
countries = pd.read_csv('./data/countries.tsv', sep='\t')
countries

# (1) 년도별 각 나라의 생활비의 평균을 구한다
expByYear = countries.groupby('year')['lifeExp'].mean()
print(expByYear)

# (2) 2000~2010 동안의 데이타를 추출하고자 한다면
print(expByYear.loc[range(2000,2010),])

# (3) 범위 지정으로 인해 NaN값이 생긴 경우 해결책 -> 해당 데이타만 추출하고자
resultData = expByYear[(expByYear.index>=2000)& (expByYear.index<=2010)]
print(resultData)



year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64
year
2000          NaN
2001          NaN
2002    65.694923
2003          NaN
2004          NaN
2005          NaN
2006          NaN
2007    67.007423
2008          NaN
2009          NaN
Name: lifeExp, dtype: float64
year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


## 누락값 처리하기

(0) 누락값 확인

(1) 누락값 삭제

(2) 누락값 대치

In [5]:
""" 누락값 확인 """
ebola = pd.read_csv('./data/ebola_timeseries.csv')
# ebola.head(20)
# ebola.tail(20)
print(ebola.shape)

# 누락값이 아닌 값의 개수 확인
# print(ebola.count())

# 누락값의 수 구하기
# shape는 행과 열을 출력하는데 shape[0]는 행수를 출력한다
# print( ebola.shape[0] - ebola.count())

# 전체적인 누락값의 수를 얻으려면 - numpy 라이브러리의 count_nonzero() 이용
import numpy as np
print(np.count_nonzero(ebola.isnull()))
print(np.count_nonzero(ebola.notnull()))

(122, 18)
1214
982


In [6]:
""" (1) 누락값 삭제하기 """
ebola.shape

ebola_dropna = ebola.dropna()
ebola_dropna
# ebola_dropna.shape  

# [결과] 122행에서 1행으로 너무 심하게 삭제됨 

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


In [7]:
""" (2) 누락값 대치하기 """

# ebola

# 에볼라 발병국가별 발병수를 구하고자 한다면 Guinea에서 발병수가 처음 발견되었기에 우선 Guinea의 발병수를 구한다
ebola['Cases_Guinea']
print('Cases_Guinea : ', ebola['Cases_Guinea'].sum()) # sum()은 기본적으로 NaN값을 제거하고 계산
# 하지말자 print(ebola['Cases_Guinea'].sum(skipna=False)) 

# 에볼라의 발병국가의 발병수를 합산하고자 한다면 -> 결과 Nan 연산은 NaN
print('Cases_Liberia', ebola['Cases_Liberia'].sum())

ebola['Cases_hap'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia']
print('Cases_hap', ebola['Cases_hap'].sum())

ebola.loc[:, ['Cases_Guinea','Cases_Liberia','Cases_hap']]

# ----------------------------------------------------------------------
# 누락값을 0으로 대치하기
re_ebola = ebola.fillna(0)
re_ebola

re_ebola['Cases_hap'] = re_ebola['Cases_Guinea'] + re_ebola['Cases_Liberia']
print('Cases_hap',re_ebola['Cases_hap'].sum())
# re_ebola.loc[:, ['Cases_Guinea','Cases_Liberia','Cases_hap']]

Cases_Guinea :  84729.0
Cases_Liberia 193833.0
Cases_hap 124294.0
Cases_hap 278562.0


Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_hap
0,2776.0,0.0,2776.0
1,2775.0,0.0,2775.0
2,2769.0,8166.0,10935.0
3,0.0,8157.0,8157.0
4,2730.0,8115.0,10845.0
5,2706.0,8018.0,10724.0
6,2695.0,0.0,2695.0
7,2630.0,7977.0,10607.0
8,2597.0,0.0,2597.0
9,2571.0,7862.0,10433.0


그럼 누락값 처리로 Data Cleaning 후 데이터 처리(Data Process)를 진행한다면?