## 누락값 처리

- 대부분의 데이터에 존재하는 누락값은 깔끔한 데이터를 위해 누락값을 처리해야 한다.
- 누락값은 NaN, NAN, nan과 같은 방법으로 표기할 수 있다.
- 누락값을 사용하려면 넘파이(numpy)라이브러리가 필요하다. 
- numpy는 수학이나 과학연산을 위해 만든 라이브러리 이다.

**누락값은 0,' '과 같은 값과는 다른 개념이다.**

누락값은 **데이터 자체가 없다는 것**을 의미한다. 그래서 **같다는 개념도 없다.**

numpy import후 누락값과 True, False, 0, ' '을 비교하면 모두 False이다.

In [2]:
from numpy import NaN, NAN, nan

In [3]:
NaN == True

False

In [4]:
NaN == False

False

In [5]:
NaN == 0

False

In [6]:
NaN == ''

False

Pandas의 누락값 확인 메소드로 확인한다.
누락값인지(isnull)와 누락값이 아닌지(notnull)를 확인할 수 있다.

In [7]:
import pandas as pd 

In [8]:
pd.isnull(NaN)

True

In [9]:
pd.isnull(nan)

True

In [10]:
pd.isnull(NAN)

True

In [11]:
pd.notnull(42) #숫자 42는 누락값이 아니다.

True

In [12]:
pd.notnull('missing') #'missing' 누락값이 아니다.

True

### 누락값이 생기는 이유

누락값은 처음부터 누락값이 있는 데이터를 불러오거나 데이터연결, 입력 등의 과정에서 생길 수 있다.

In [13]:
visited = pd.read_csv('../data2/survey_visited.csv')
survey = pd.read_csv('../data2/survey_survey.csv')

print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [14]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


### 데이터 입력할 때 누락값이 생기는 경우

**Series 생성**

직접 nan 값을 series에 입력할 수 있다.

In [15]:
num_legs = pd.Series({'goat':4, 'amoeba':nan}) #nan, NaN, NAN을 입력하여 누락시킨다.
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


**Dataframe생성**

직접 nan 값을 dataframe에 입력할 수 있다.

In [19]:
scientists = pd.DataFrame({
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'missing': [NaN, nan]}) #nan, NaN, NAN을 입력하여 누락시킨다.

print(scientists)
type(scientists)

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN


pandas.core.frame.DataFrame

### 누락값 처리하기 

count메서드는 누락값이 아닌 값의 개수를 알려준다.

전체개수 - count값  = 누락값 갯수

In [16]:
ebola = pd.read_csv('../data2/country_timeseries.csv')

In [17]:
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,6.0,,,,,,66.0,6.0,5.0,,,,,
118,3/26/2014,4,86.0,,,,,,,,62.0,,,,,,,
119,3/25/2014,3,86.0,,,,,,,,60.0,,,,,,,
120,3/24/2014,2,86.0,,,,,,,,59.0,,,,,,,


In [22]:
ebola.count() #각 열에 값이 있는 갯수를 count해서 알려준다

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64

In [19]:
ebola.shape

(122, 18)

In [20]:
ebola.shape[0]

122

In [23]:
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
num_missing #각 열에 누락값이 있는 갯수를 찾을 수 있다.

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

**count_nonzero, isnull 메서드** 

이 두개의 메서드 조합으로도 누락값의 갯수를 구할 수 있다.

In [24]:
import numpy as np

In [27]:
#ebola data set에 있는 모든 누락값의 갯수를 반환한다.
np.count_nonzero(ebola.isnull())

1214

In [35]:
#Cases_Guinea 열의 누락 값 갯수를 반환한다.
np.count_nonzero(ebola['Cases_Guinea'].isnull())

29

**Series의 value_counts 메서드도 지정한 열의 개수를 구한다.**

dropna=False 로 지정해야 누락값의 개수도 보여준다.

In [30]:
ebola.Cases_Guinea.value_counts() #각 값의 count (w/o 누락값)

86.0      3
112.0     2
495.0     2
390.0     2
1074.0    1
         ..
159.0     1
2775.0    1
344.0     1
1472.0    1
2706.0    1
Name: Cases_Guinea, Length: 88, dtype: int64

In [31]:
ebola.Cases_Guinea.value_counts(dropna=False) #각 값의 count (count하는 값중에 누락값도 포함한다)

NaN       29
86.0       3
112.0      2
390.0      2
495.0      2
          ..
2775.0     1
344.0      1
1472.0     1
510.0      1
2706.0     1
Name: Cases_Guinea, Length: 89, dtype: int64

**누락값 처리 - 변경, 삭제**

- 누락값은 누락값을 임의의 값으로 변경하거나 데이터프레임의 이미 존재하는
  값으로 대신 채우는 방법 등으로 처리할 수 있다.

**fillna(0)** 를 사용해서 누락값을 0으로 변경한다.

데이터프레임의 크기가 크고 메모리를 효율적으로 사용해야 하는 경우에 자주 사용한다.

In [41]:
ebola.fillna(0).iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,0.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


**fillna(method='ffill')** 로 지정하면 누락값의 앞행의 값으로 채워진다.

3행의 누락값은 2행의 값으로 대체한다. 0,1행은 처음부터 누락값이기 때문에 그대로 NaN값이 된다.

In [32]:
ebola.fillna(method='ffill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7977.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


**fillna(mthod='bfill')** 로 지정하면 누락값의 뒤행의 값으로 채워진다.

3행의 누락값은 4행의 값으로 대체한다. 마찬가지로 마지막 값이 누락값이면 처리하지 못한다.

In [33]:
ebola.fillna(method='bfill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7977.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7862.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


**interpolate 메서드**
누락값 앞,뒤 행의 값을 이용해서 중간값을 구한다음 누락값을 처리한다.

In [34]:
ebola.interpolate().iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7997.5,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7919.5,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


### 누락값 삭제하기

- 누락값이 필요없을 경우 삭제해도 되지만, 누락값을 무작정 삭제하면 데이터가
  너무 편향되거나 데이터의 개수가 너무 적어질 수도 있다.
- 분석하는 사람이 잘 판단해서 처리해야 한다.
- dropna 메서드로 누락값이 포함된 행들이 모두 삭제된다.

dropna 메서드 사용방법 참고 link:
https://www.geeksforgeeks.org/python-pandas-dataframe-dropna/


In [35]:
ebola.shape

(122, 18)

In [36]:
ebola_dropna = ebola.dropna()
ebola_dropna.shape

(1, 18)

In [52]:
ebola_dropna

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


### 누락값이 포함된 데이터 계산하기

- 누락값은 계산이 되지 않는다.
- ebola 데이터 집합에서 세개의 지역을 더해서 발병 수의 합을 구한다.
- 누락값이 존재하는 열을 더하면 누락값이 된다.

In [54]:
ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone']]

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,2776.0,,10030.0
1,2775.0,,9780.0
2,2769.0,8166.0,9722.0
3,,8157.0,
4,2730.0,8115.0,9633.0
...,...,...,...
117,103.0,8.0,6.0
118,86.0,,
119,86.0,,
120,86.0,,


In [55]:
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia']+ ebola['Cases_SierraLeone']

In [57]:
ebola_subset = ebola.loc[:, ['Cases_Guinea','Cases_Liberia','Cases_SierraLeone','Cases_multiple']]
ebola_subset.head(n=10)

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0
5,2706.0,8018.0,9446.0,20170.0
6,2695.0,,9409.0,
7,2630.0,7977.0,9203.0,19810.0
8,2597.0,,9004.0,
9,2571.0,7862.0,8939.0,19372.0


**하나의 열의 행들의 합계 sum구하기**

**sum 메서드와 skipna = True**

sum 메서드를 이용하여 합계를 구할때 skipna = True로 설정하면 누락값은 무시한 채 계산할 수 있다.

In [58]:
ebola.Cases_Guinea.sum(skipna = False)

nan

In [59]:
ebola.Cases_Guinea.sum(skipna = True)

84729.0

**하나의 행의 모든 열들의 합계 sum 구하기**

참고 link:
https://stackoverflow.com/questions/24386638/pandas-sum-two-columns-skipping-nan

 **frame["c"] = frame[["a", "b"]].sum(axis=1)**
 will fill sum of all NaNs as 0.


In [63]:
ebola['Cases_multiple'] = ebola[['Cases_Guinea','Cases_Liberia','Cases_SierraLeone']].sum(axis=1)
ebola_subset = ebola.loc[:, ['Cases_Guinea','Cases_Liberia','Cases_SierraLeone','Cases_multiple']]
ebola_subset.head(n=10)

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,12806.0
1,2775.0,,9780.0,12555.0
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,8157.0
4,2730.0,8115.0,9633.0,20478.0
5,2706.0,8018.0,9446.0,20170.0
6,2695.0,,9409.0,12104.0
7,2630.0,7977.0,9203.0,19810.0
8,2597.0,,9004.0,11601.0
9,2571.0,7862.0,8939.0,19372.0
