# 누락값 확인하기

In [2]:
# 누락값은 자기자신 및 다른 자료와 비교할 수 없음
from numpy import NaN, NAN, nan

import pandas as pd
print(pd.isnull(NaN)) # isnull은 누락값 검사 메소드
print(pd.notnull(42)) # 누락값이 아닌 경우 검사 메소드

True
True


# 누락값을 포함한 데이터를 불러올 때

In [5]:
# 평소에 데이터를 불러오는 것과 별반 다르지 않음
visited = pd.read_csv('../data/survey_visited.csv')
survey = pd.read_csv('../data/survey_survey.csv')

# 하지만 두 df를 연결하면 누락값이 많이 생김
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

# 데이터를 입력할 때 누락값이 발생하는 경우

In [6]:
# Series 생성 시 key가 인덱스가 돼
num_legs = pd.Series({'goat': 4, 'amoeba': nan})
print(num_legs)
print(type(num_legs))

# DateFrame 생성 시 key가 컬럼 이름이 돼
scientists = pd.DataFrame({
    'Name': ['Rosaline Franklin', 'William Gosset'],
    'Occupation': ['Chemist', 'Statistician'],
    'Born': ['1920-07-25', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'missing': [nan, nan]
})
print(scientists)
print(type(scientists))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>
                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


In [7]:
# df에 존재하지 않는 데이터를 추출하면 누락값이 생김
gapminder = pd.read_csv('../data/gapminder.tsv', sep='\t')
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)

# range로 범위를 지정하여 추출해보면 누락값이 많이 발생해서 error 발생
# print(life_exp.loc[range(2000, 2010),])

# 위 문제를 해결하기 위해 불린 추출을 이용
y2000 = life_exp[life_exp.index>2000]
print(y2000)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64
year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 누락값의 개수 구하기

In [21]:
ebola = pd.read_csv('../data/country_timeseries.csv')
print(ebola.count()) # count 메서드로 누락값이 아닌 값의 개수를 구하기

# shape[0]에 전체 행의 데이터 수가 있으니 누락값의 개수를 차로 구해보자
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
print(num_missing)

# count_nonzero 메서드도 가능. 배열에서 0이 아닌 값의 개수를 세어줌
import numpy as np
print(np.count_nonzero(ebola.isnull()))
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

# 지정한 열의 빈도를 구하는 메서드 value_counts
print(ebola.Cases_Guinea.value_counts(dropna=False).head()) # dropna=False의 의미는 누락값도 포함해서 세겠다는 것



Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64
12

# 누락값을 다른 값으로 변경하기

In [22]:
# fillna 메서드에 0을 대입하면 누락값을 0으로 변경함
print(ebola.fillna(0).iloc[0:10, 0:5])

# fillna 메서드의 method 인잣값을 ffill로 지정하면 누락값이 나타나기 직전행의 값을 가져옴
print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

# method 인잣값을 bfill로 지정시 바로 위와 반대로 누락값이 나타난 직후행의 값을 가져와
print(ebola.fillna(method='bfill').iloc[0:10, 0:5])

# interpolate 메서드는 누락값 위, 아래행의 평균값을 구한 다음 누락값을 처리해
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0
         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             97

  print(ebola.fillna(method='ffill').iloc[0:10, 0:5])
  print(ebola.fillna(method='bfill').iloc[0:10, 0:5])
  print(ebola.interpolate().iloc[0:10, 0:5])


# 누락값 삭제하기

In [23]:
print(ebola.shape)

# 누락값이 포함된 모든 행 삭제
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

(122, 18)
(1, 18)


# 누락값이 포함된 데이터 계산하기

In [36]:
# ebola df엔 누락값이 많음을 염두하고 계산해보자
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

# 기존 3개의 열을 합쳐서 만든 Cases_multiple 컬럼을 포함한 df를 만들어 확인
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset)
# 누락값이 하나라도 있는 행은 계산 결과가 전부 NaN. NaN+10=NaN 인것. 마치 무한대

# sum 메서드만 사용하면 누락값을 포함해 NaN이 나옴.
# 누락값을 무시한 채 계산하려면 skipna 인잣값을 True로 설정하면 됩니다.
print(ebola.Cases_Guinea.sum(skipna = True))
print(ebola.Cases_Guinea.sum(skipna = False))

     Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0          2776.0            NaN            10030.0             NaN
1          2775.0            NaN             9780.0             NaN
2          2769.0         8166.0             9722.0         20657.0
3             NaN         8157.0                NaN             NaN
4          2730.0         8115.0             9633.0         20478.0
..            ...            ...                ...             ...
117         103.0            8.0                6.0           117.0
118          86.0            NaN                NaN             NaN
119          86.0            NaN                NaN             NaN
120          86.0            NaN                NaN             NaN
121          49.0            NaN                NaN             NaN

[122 rows x 4 columns]
84729.0
nan
