# 누락값 확인하기

### 누락값은 0, ' '와 같은 값과는 다른 개념이라는 것에 주의해야한다.
- 누락값은 말 그대로 데이터 자체가 없다는 것을 의미한다.
- 같다라는 개념도 없다.
- 누락값과 True, False, 0, ''을 비교한 결과이다.

In [2]:
from numpy import NaN, NAN, nan

In [3]:
print('NaN == True')
print(NaN == True)
print('-'*60)

print('NaN == False')
print(NaN == False)
print('-'*60)

print('NaN == 0')
print(NaN == 0)
print('-'*60)

print("NaN == ''")
print(NaN == '')
print('-'*60)

NaN == True
False
------------------------------------------------------------
NaN == False
False
------------------------------------------------------------
NaN == 0
False
------------------------------------------------------------
NaN == ''
False
------------------------------------------------------------


In [4]:
print('NaN == NaN')
print(NaN == NaN)
print('-'*60)

print('NaN == nan')
print(NaN == nan)
print('-'*60)

print('NaN == NAN')
print(NaN == NAN)
print('-'*60)

print("nan == NAN")
print(nan == NAN)
print('-'*60)

NaN == NaN
False
------------------------------------------------------------
NaN == nan
False
------------------------------------------------------------
NaN == NAN
False
------------------------------------------------------------
nan == NAN
False
------------------------------------------------------------


### 판다스에는 누락값을 확인하는 메서드  isnull이 있다.
### 아래 예시로  isnull 메서드로 누락값을 검사한 예이다.

In [5]:
import pandas as pd
print('pd.isnull(NaN)')
print(pd.isnull(NaN))
print('-'*60)
print('pd.isnull(nan)')
print(pd.isnull(nan))
print('-'*60)
print('pd.isnull(NAN)')
print(pd.isnull(NAN))
print('-'*60)

pd.isnull(NaN)
True
------------------------------------------------------------
pd.isnull(nan)
True
------------------------------------------------------------
pd.isnull(NAN)
True
------------------------------------------------------------


### 반대로 누락값이 아닌것도 검사할 수 있다.
### notnull 메서드로 누락값이 아닌 경우를 검사한 예시이다.

In [6]:
print('pd.notnull(NaN)')
print(pd.notnull(NaN))
print('-'*60)

print('pd.notnull(42)')
print(pd.notnull(42))
print('-'*60)

print("pd.notnull('missing')")
print(pd.notnull('missing'))
print('-'*60)

pd.notnull(NaN)
False
------------------------------------------------------------
pd.notnull(42)
True
------------------------------------------------------------
pd.notnull('missing')
True
------------------------------------------------------------


### 누락값이 생기는 이유
- 처음부터 누락된 데이터를 가져온 경우
- 데이터를 불러오거나 연결하는 과정에서 생길 수도 있다.

# 누락값을 포함한 데이터를 불러올 때

In [7]:
visited = pd.read_csv('../data/survey_visited.csv')
survey = pd.read_csv('../data/survey_survey.csv')

print(visited)
print('-'*60)
print(survey)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22
------------------------------------------------------------
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    ro

# 데이터 집합을 연결할 때 누락값이 발생하는 경우

In [8]:
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

# 데이터를 입력할 때 누락값이 발생하는 경우

In [9]:
num_legs = pd.Series({'goat' : 4, 'amoeba' : nan})
print(num_legs)
print('-'*60)
print('num_legs.columns')
print('AttributeError: Series object has no attribute columns')
print('-'*60)
print(num_legs.index)

goat      4.0
amoeba    NaN
dtype: float64
------------------------------------------------------------
num_legs.columns
AttributeError: Series object has no attribute columns
------------------------------------------------------------
Index(['goat', 'amoeba'], dtype='object')


In [10]:
scientists = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'Willam Goast'],
    'Occupation': ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'Missing' : [NaN, nan]
},
index = ['first', 'second'])

print(scientists)
print(type(scientists))

                     Name    Occupation        Born        Died  Missing
first   Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
second       Willam Goast  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


In [11]:
gapminder = pd.read_csv('../data/gapminder.tsv', sep='\t')
print(gapminder)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


In [12]:
life_exp = gapminder.groupby(['year', 'country'])[['lifeExp', 'gdpPercap']].mean()
print(life_exp)

                         lifeExp    gdpPercap
year country                                 
1952 Afghanistan          28.801   779.445314
     Albania              55.230  1601.056136
     Algeria              43.077  2449.008185
     Angola               30.015  3520.610273
     Argentina            62.485  5911.315053
...                          ...          ...
2007 Vietnam              74.249  2441.576404
     West Bank and Gaza   73.422  3025.349798
     Yemen, Rep.          62.698  2280.769906
     Zambia               42.384  1271.211593
     Zimbabwe             43.487   469.709298

[1704 rows x 2 columns]


In [13]:
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
print(life_exp)
print(life_exp.index)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64
Int64Index([1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, 2002,
            2007],
           dtype='int64', name='year')


### range 메서드를 이용하여 life_Exp 열에서 2000~2009년의 데이터를 추출을 하되 처음부터 life_Exp열에 없었던 연도가 포함되기 때문에 누락값이 많이 발생한다.

In [14]:
print(life_exp.loc[range(2000, 2010),  ])

KeyError: '[2000, 2001, 2003, 2004, 2005, 2006, 2008, 2009] not in index'

### 앞서 발생한 무제를 해결하기 위해서는 불린 추출을 이용하여 데이터를 추출하면 된다.

In [None]:
y2000 = life_exp[life_exp.index == 2000]
print(y2000)
print('-'*60)
y2000 = life_exp[life_exp.index > 2000]
print(y2000)

### 누락값이 갯수 구하기
- count 메서드를 이용하면 누락값이 아니 값의 갯수를 구할 수 있다.

In [20]:
ebola = pd.read_csv('../data/country_timeseries.csv')
print(ebola.shape)
print('-'*60)
print(ebola.count())
print('-'*60)
print(ebola)

(122, 18)
------------------------------------------------------------
Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64
------------------------------------------------------------
           Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0      1/5/2015  289        2776.0            NaN            10030.0   
1      1/4/2015  288        2775.0            NaN             9780.0   
2      1/3/2015  287        2769.0         8166.0             9722.0   
3      1/2/2015  286           NaN         8157.0                NaN   
4    12/3

# 누락값의 개수 구하기

#### 누락값의 갯수를 구하는 방법
- 전제열의 갯수 - 누락값이 아닌 값의 갯수
- count_nonzero, isnull메서드를 조합해도 누락값의 갯수를 구할 수 있다.

In [21]:
num_missing = ebola.shape[0] - ebola.count()
print(num_missing)

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [22]:
import numpy as np
# count_nonzero 메서드는 배열에서 0이 아닌 값의 개수를 세는 메서드이다.
print(ebola.shape)
print(np.count_nonzero(ebola.isnull()))
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

(122, 18)
1214
29


# 누락값을 다른 값으로 변경하기

# 인덱스를 다시 만들 때 누락값이 발생하는 경우
- fillna 메서드에 0을 대입하면 누락값을 0으로 변환시킨다.
- fillna 메서드는 처리해야하 하는 데이터 프레임의 크기는 매우 크고 메모리를 효율적으로 사용해야하는 경우 자주 사용하는 메서드이다.

# fillna
- 결측치에 대하여 원하는 값을 대입시켜준다.

# fillna(method='ffill')
- 결측값이 있다면 바로 위의 값으로 메꾼다.

# fillna(method='bfill')
- 결측값이 있다면 바로 아래의 값으로 메꾼다

In [23]:
print(ebola)
print('-'*60)
print(ebola.shape)

           Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0      1/5/2015  289        2776.0            NaN            10030.0   
1      1/4/2015  288        2775.0            NaN             9780.0   
2      1/3/2015  287        2769.0         8166.0             9722.0   
3      1/2/2015  286           NaN         8157.0                NaN   
4    12/31/2014  284        2730.0         8115.0             9633.0   
..          ...  ...           ...            ...                ...   
117   3/27/2014    5         103.0            8.0                6.0   
118   3/26/2014    4          86.0            NaN                NaN   
119   3/25/2014    3          86.0            NaN                NaN   
120   3/24/2014    2          86.0            NaN                NaN   
121   3/22/2014    0          49.0            NaN                NaN   

     Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  \
0              NaN            NaN                 NaN          Na

In [24]:
ebola.fillna(0).iloc[0:10, 0:5]
print(ebola.fillna(0).iloc[0:10, 0:5])
print(ebola.shape[0] - ebola.count())

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali          

### fillna 메서드의 method 인잣값을 ffill로 지정하면 누락값이 나타나기 전의 값으로 누락값이 변경된다.
 - 6행의 누락값은 나타나기 전의 값인 5행의 값을 사용하여 누락값을 처리한다.
 - 하지만 0,1행은 처음부터 누락값이기 때문에 누락깂이 그대로 나타난다.

In [25]:
#print(ebola.fillna(0).iloc[0:10, 0:5])
fillEbola = ebola.fillna(0).iloc[0:10, 0:5]
print(fillEbola)
print('*'*60)
print(fillEbola.fillna(method='ffill'))


         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0
************************************************************
         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2

In [26]:
print(ebola.fillna(method='ffill').iloc[0:10, 0:10])
print('*'*70)
print(ebola.iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0    1/5/2015  289        2776.0            NaN            10030.0   
1    1/4/2015  288        2775.0            NaN             9780.0   
2    1/3/2015  287        2769.0         8166.0             9722.0   
3    1/2/2015  286        2769.0         8157.0             9722.0   
4  12/31/2014  284        2730.0         8115.0             9633.0   
5  12/28/2014  281        2706.0         8018.0             9446.0   
6  12/27/2014  280        2695.0         8018.0             9409.0   
7  12/24/2014  277        2630.0         7977.0             9203.0   
8  12/21/2014  273        2597.0         7977.0             9004.0   
9  12/20/2014  272        2571.0         7862.0             8939.0   

   Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  
0            NaN            NaN                 NaN          NaN         NaN  
1            NaN            NaN                 NaN          NaN       

### interpolate 메서드는 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리한다.
- 이렇게 하면 데이터프레임이 일정한 간격을 유지하고 있는 것처럼 수정할 수 있다.

In [28]:
print(ebola.interpolate().iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            NaN            10030.0
1    1/4/2015  288        2775.0            NaN             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286        2749.5         8157.0             9677.5
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0         7997.5             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0         7919.5             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


# 누락값 삭제하기 dropna
- 누락값이 필요 없을 경우에는 누락값을 삭제해도된다.
- 누락값을 무작정 삭제하면 데이터가 너무 편향되거나 데이터의 개수가 너무 적어질 수 있다.

In [32]:
ebola_dropna = ebola.dropna()
print(ebola_dropna)
print('-'*60)
print(ebola)

          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
19  11/18/2014  241        2047.0         7082.0             6190.0   

    Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
19           20.0            1.0                 4.0          1.0         6.0   

    Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
19         1214.0          2963.0              1267.0             8.0   

    Deaths_Senegal  Deaths_UnitedStates  Deaths_Spain  Deaths_Mali  
19             0.0                  1.0           0.0          6.0  
------------------------------------------------------------
           Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0      1/5/2015  289        2776.0            NaN            10030.0   
1      1/4/2015  288        2775.0            NaN             9780.0   
2      1/3/2015  287        2769.0         8166.0             9722.0   
3      1/2/2015  286           NaN         8157.0           

# 누락값이 포함된 데이터 계산하기

In [33]:
print(ebola.columns)

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')


In [40]:
print(ebola['Cases_Guinea'])

0      2776.0
1      2775.0
2      2769.0
3         NaN
4      2730.0
        ...  
117     103.0
118      86.0
119      86.0
120      86.0
121      49.0
Name: Cases_Guinea, Length: 122, dtype: float64


In [36]:
print(ebola['Cases_Liberia'])

0         NaN
1         NaN
2      8166.0
3      8157.0
4      8115.0
        ...  
117       8.0
118       NaN
119       NaN
120       NaN
121       NaN
Name: Cases_Liberia, Length: 122, dtype: float64


In [42]:
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia']
print(ebola['Cases_multiple'])

0          NaN
1          NaN
2      10935.0
3          NaN
4      10845.0
        ...   
117      111.0
118        NaN
119        NaN
120        NaN
121        NaN
Name: Cases_multiple, Length: 122, dtype: float64


In [46]:
ebola_subset = ebola.loc[:,['Cases_multiple', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_Guinea']]
print(ebola_subset.head(n=10))

   Cases_multiple  Cases_Liberia  Cases_SierraLeone  Cases_Guinea
0             NaN            NaN            10030.0        2776.0
1             NaN            NaN             9780.0        2775.0
2         10935.0         8166.0             9722.0        2769.0
3             NaN         8157.0                NaN           NaN
4         10845.0         8115.0             9633.0        2730.0
5         10724.0         8018.0             9446.0        2706.0
6             NaN            NaN             9409.0        2695.0
7         10607.0         7977.0             9203.0        2630.0
8             NaN            NaN             9004.0        2597.0
9         10433.0         7862.0             8939.0        2571.0


In [48]:
print(ebola.Cases_Guinea.head(n=10))

0    2776.0
1    2775.0
2    2769.0
3       NaN
4    2730.0
5    2706.0
6    2695.0
7    2630.0
8    2597.0
9    2571.0
Name: Cases_Guinea, dtype: float64


### sum메서드에 인잣값으로 skipna 인잣값을 True로 설정하면 누락값을 무시한채 더한값을 표출해준다.

In [49]:
print(ebola.Cases_Guinea.sum(skipna = True))

84729.0


In [50]:
print(ebola.Cases_Guinea.sum(skipna = False))

nan
