<a href="https://colab.research.google.com/github/dianakang/DIANA_Pandas/blob/master/Do_it_Pandas_6_%EB%88%84%EB%9D%BD%EA%B0%92%EC%B2%98%EB%A6%AC%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 목차

*   6.1. 누락값이란?
   *   6.1.1. 누락값과 누락값 확인하기
   *   6.1.2. 누락값이 생기는 이유
         *   (1) 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우
         *   (2) 데이터를 입력할 때 누락값이 생기는 경우
         *   (3) 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우

   *   6.1.3. 누락값의 개수
         *   (1) count 메서드 이용
         *   (2) count_nonzero, isnull 메서드 이용
         *   (3) value_counts 메서드 이용
   *   6.1.4. 누락값 처리하기
         *   (1) 누락값 변경하기
         *   (2) 누락값 삭제하기
   *   6.1.5. 누락값이 포함된 데이터 계산하기


---


# 6. 누락값 처리하기

데이터에 누락값이 없으면 좋겠지만 대부분의 데이터에는 누락값이 존재한다. 깔끔한 데이터를 위해 이런 누락값을 처리하는 것은 매우 중요하다. 

이번 6장에서는 누락값을 처리하는 방법에 대해 알아보자!

## 6. 1. 누락값이란?

### 6.1.1. 누락값과 누락값 확인하기

누락값(NaN)은 NaN, NAN, nan과 같은 방법으로 표현된다.

In [1]:
#  numpy에서 누락값 불러오기
from numpy import NaN, NAN, nan

여기서 주의할 점은 누락값은 0, ''와 같은 값과는 다른 개념이라는 것이다.

**누락값은 말 그대로 데이터 자체가 없다는 것**이다. 그래서 '같다'라는 개념도 없다.

다음은 누락값과 True, False, 0, ''을 비교한 결과이다.

In [2]:
print(NaN == True)
print("-"*50)

print(NaN == False)
print("-"*50)

print(NaN == 0)
print("-"*50)

print(NaN == '')
print("-"*50)

False
--------------------------------------------------
False
--------------------------------------------------
False
--------------------------------------------------
False
--------------------------------------------------


위에서도 언급했듯이 누락값은 값 자체가 없기 때문에 **자기 자신과 비교해도** True가 아닌 **False**가 출력된다.

In [3]:
print(NaN == NaN)
print("-"*50)

print(NaN == nan)
print("-"*50)

print(nan == nan)
print("-"*50)

print(nan == NaN)
print("-"*50)

False
--------------------------------------------------
False
--------------------------------------------------
False
--------------------------------------------------
False
--------------------------------------------------


그렇다면 누락값은 어떻게 해결할 수 있을까? 다행히 **판다스에는 누락값을 확인하는 메서드인 isnull**이 있다.

아래는 isnull 메서드로 누락값을 검사한 것이다.

In [4]:
# 누락값 확인 -> pandas의 isnull 메서드 이용
import pandas as pd
print(pd.isnull(NaN))
print("-"*50)
print(pd.isnull(nan))
print("-"*50)
print(pd.isnull(NAN))

True
--------------------------------------------------
True
--------------------------------------------------
True


In [5]:
# 누락값이 아닌 경우 확인 -> pandas의 notnull 메서드 이용
print(pd.notnull(NaN))
print("-"*50)
print(pd.notnull(42))
print("-"*50)
print(pd.notnull('missing'))

False
--------------------------------------------------
True
--------------------------------------------------
True


### 6.1.2. 누락값이 생기는 이유

누락값이 생기는 이유는 무엇일까? 누락값은 처음부터 누락값이 있는 데이터를 불러오거나 데이터를 연결, 입력하는 등의 과정에서 생길 수 있다. 

그러면 다음 예제를 통해 누락값이 생기는 이유에 대해 자세히 알아보자!

#### (1) 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우

이번에 사용할 데이터 집합은 누락값이 포함되어 있다. 누락값이 포함되어 있는 데이터 집합을 연결하면 어떻게 될까?

**누락값이 포함되어 있는 데이터 집합을 연결하면 더 많은 누락값이 생긴다.**

In [7]:
# 1. 데이터 불러와서 확인하기
visited = pd.read_csv('/content/drive/MyDrive/pandas/doit_pandas-master/data/survey_visited.csv')
survey = pd.read_csv('/content/drive/MyDrive/pandas/doit_pandas-master/data/survey_survey.csv')

print(visited)
print("-"*50)
print(survey)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22
--------------------------------------------------
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad   

In [9]:
# 데이터 연결
vs = visited.merge(survey, left_on='ident', right_on='taken')
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


-> 누락값이 많이 생겨났음을 확인할 수 있다.

#### (2) 데이터를 입력할 때 누락값이 생기는 경우

누락값은 데이터를 잘못 입력하여 생길 수도 있다. 다음은 시리즈를 생성할 때 데이터프레임에 없는 열과 행 데이터를 입력하여 누락값이 생긴 것이다.

scientists 데이터프레임을 확인하면 missing 이라는 열과 함께 행 데이터에 누락값이 추가된 것을 확인할 수 있다. 

In [10]:
# 시리즈에서 누락값 입력
num_legs = pd.Series({'goat':4, 'amoeba': nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [14]:
# 데이터프레임에서 누락값 입력
scientists = pd.DataFrame({
    'Name' : ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'missing' : [NaN, nan]
})

print(scientists)
print(type(scientists))

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


#### (3) 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우

데이터프레임에 존재하지 않는 데이터를 추출하면 누락값이 생긴다. 

In [15]:
# 데이터 불러오기
gapminder = pd.read_csv('/content/drive/MyDrive/pandas/doit_pandas-master/data/gapminder.tsv', sep='\t')

In [16]:
# 연도별로 그룹화 후, lifeExp 열의 평균 구하기
life_exp = gapminder.groupby(['year'])['lifeExp'].mean()
life_exp

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

다음은 range 메서드를 이용하여 life_exp 열에서 2000~2009년의 데이터를 추출한 것이다.

그런데 이렇게 데이터를 추출하면 처음부터 life_exp 열에 없었던 연도가 포함되기 때문에 누락값이 많이 발생한다.

In [19]:
## print(life_exp.loc[range(2000, 2010), ])

## -> 파이썬 문법이 변경되어 현재 해당 명령 실행시 에러가 출력된다.

앞서 발생한 문제를 해결하기 위해서는 '불린 추출'을 이용하여 데이터를 추출하면 된다.

In [20]:
# 불린 추출 이용하여 데이터 추출하기
year_2000 = life_exp[life_exp.index > 2000]
year_2000

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

### 6.1.3. 누락값의 개수

#### (1) count 메서드 이용

In [21]:
# 데이터 불러오기
ebola = pd.read_csv('/content/drive/MyDrive/pandas/doit_pandas-master/data/country_timeseries.csv')

In [22]:
# 누락값이 아닌 데이터의 개수 세기 -> count 메서드 이용
ebola.count()

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64

사실 위의 결과만 잘 활용해도 누락값의 개수를 쉽게 구할 수 있다.

shape[0]에 전체 행의 데이터 개수가 저장되어 있다는 점을 이용하여 shape[0]에서 누락값이 아닌 값의 개수를 빼면 누락값의 개수를 구할 수 있다.

In [24]:
# shape[0] 이용하여 누락값 개수 구하기
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count()
num_missing

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

#### (2) count_nonzero, isnull 메서드 이용

count 메서드를 사용해도 되지만 **count_nonzero, isnull 메서드를 조합해도 누락값의 개수를 구할 수 있다.**

(참고! count_nonzero 메서드는 배열에서 0이 아닌 값의 개수를 세는 메서드이다.)


In [25]:
# 누락값의 개수 구하기 -> count_nonzero, isnull 메서드 이용
import numpy as np
print(np.count_nonzero(ebola.isnull()))
print("-"*50)
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

1214
--------------------------------------------------
29


#### (3) value_counts 메서드 이용

시리즈에 포함된 **value_counts 메서드는 지정한 열의 빈도를 구하는 메서드**이다.

value_counts 메서드를 사용해 Cases_Guinea 열의 누락값 개수를 구하려면 다음과 같이 입력한다.

In [27]:
# 누락값의 개수 구하기 -> value_counts 메서드 이용
print(ebola.Cases_Guinea.value_counts(dropna=False).head())   ## dropna() : 결측치(누락데이터) 제거
                                                        ## 여기서는 dropna=False 옵션을 줬으므로 누락데이터(NaN)의 개수도 함께 카운트해줌.

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
Name: Cases_Guinea, dtype: int64


### 6.1.4. 누락값 처리하기

누락값은 누락값을 임의의 값으로 변경하거나 데이터프레임에 이미 있는 값으로 대신 채우는 방법 등으로 처리할 수 있다. 

#### (1) 누락값 변경하기

데이터프레임에 포함된 fillna 메서드에 0을 대입하면 누락값을 0으로 변경한다.

fillna 메서드는 처리해야 하는 데이터프레임의 크기가 매우 크고 메모리를 효율적으로 사용해야하는 경우에 자주 사용하는 메서드이다.


---

*   loc - index로 행 데이터 추출
*   iloc - integer로 행 데이터 추출





In [28]:
# 누락값을 0으로 변경하기 -> .fillna(0)
ebola.fillna(0).iloc[:10, :5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,0.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


**fillna 메서드의 method 인자값을 ffill로 지정하면 누락값이 나타나기 전의 값으로 누락값이 변경된다.**

예를 들어, 6행의 누락값은 누락값이 나타나기 전의 값인 5행의 값을 사용하여 누락값을 처리한다.

하지만 0,1행은 처음부터 누락값이기 대문에 누락값이 그대로 남아 있다. 

In [30]:
# 이전 값으로 누락값을 변경하기 -> .fillna(method='ffill')
ebola.fillna(method='ffill').iloc[:10, :5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7977.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


**method 인자값을 bfill로 지정하면** 누락값이 나타난 **이후 값으로 앞쪽의 누락값이 모두 변경된다.**

즉, 위의 과정과 반대 방향으로 누락값을 처리한다고 생각하면 된다.

하지만 이 방법도 마지막 값이 누락값인 경우네는 처리하지 못한다는 단점이 있다.

In [29]:
# 이후 값으로 누락값을 변경하기 -> .fillna(method='bfill')
ebola.fillna(method='bfill').iloc[:10, :5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7977.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7862.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


위의 두번째, 세번째 과정에서는 데이터프레임의 값을 그대로 사용하여 누락값을 처리했다.


---


이번에는 **interpolate 메서드를 이용하여 누락값 양쪽에 있는 값으로 중간값을 구한 다음 누락값을 처리**해보자.

-> 이렇게 하면 데이터프레임이 일정한 간격을 유지하고 있는 것처럼 수정할 수 있다.

In [31]:
# 이후 값으로 누락값을 변경하기 -> .interpolate()
ebola.interpolate().iloc[:10, :5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7997.5,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7919.5,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


#### (2) 누락값 삭제하기

누락값이 필요 없을 경우에는 누락값을 삭제해도 된다.

하지만 누락값을 무작정 삭제하면 데이터가 너무 편향되거나 데이터의 개수가 너무 적어질 수도 있다.

그래서 누락값을 삭제할 때는 분석하는 사람이 잘 판단하는 것이 중요하다.

In [32]:
# 누락값 삭제 전 데이터 구조 확인하기
ebola.shape

(122, 18)

**누락값을 삭제하기 위해 dropna 메서드를 사용**할 것이다. 누락값이 포함된 행들이 모두 삭제되기 때문에 많은 데이터가 삭제된다.

In [33]:
# 누락값 삭제 후 데이터 구조 확인하기
ebola_dropna = ebola.dropna()
ebola_dropna.shape

(1, 18)

-> 데이터의 행이 122에서 1로 변경되었음을 확인할 수 있다.

In [34]:
# 데이터 확인
ebola_dropna

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


### 6.1.5. 누락값이 포함된 데이터 계산하기

만약 누락값이 포함된 데이터를 계산하려면 어떻게 해야 할까? 다음은 여러 지역에서 발생한 ebola 발병 수를 구하는 실습이다. 

ebola 데이터프레임에는 누락값이 많다.

---

Guinea, Liberia, SierraLeone 열에는 누락값들이 존재한다.

만약 누락값이 존재하는 Guinea, Liberia, SierraLeone 열을 가지고 ebola 발병 수의 합을 계산하면 어떻게 될까? 

일단 Cases_Guinea, Cases_Liberia, Cases_SierraLeone 열을 더하여 Cases_multiple 열을 만들어보자!



In [35]:
# 모든 열을 합한 새로운 열 생성
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

위의 과정에서 계산한 Cases_multiple 열을 포함하여 ebola_subset이라는 데이터프레임을 새로 만들어서 어떤 값이 존재하는지 확인해보자. 

Cases_Guinea, Cases_Liberia, Cases_SierraLeone에서 **누락값이 하나라도 있는 행은 계산 결과**(Cases_multiple)가 **NaN이 되었음을 알 수 있다.** 

**즉, 계산 결과 누락값이 더 많이 생겼다.** 


In [38]:
# 데이터 확인
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
ebola_subset.head(n=10)

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0
5,2706.0,8018.0,9446.0,20170.0
6,2695.0,,9409.0,
7,2630.0,7977.0,9203.0,19810.0
8,2597.0,,9004.0,
9,2571.0,7862.0,8939.0,19372.0


Cases_multiple 열을 **sum 메서드**를 사용해 더하면 세 지역의 ebola 발병 수의 **합을 구할 수 있다.**

이때 **sum 메서드를 그냥 사용하면 누락값을 포함해 계산한다. 따라서 결과값도 누락값이 된다.**

따라서 **누락값을 무시한 채 계산하기 위해서는 skipna 인자값을 True로 설정해야한다.**

In [39]:
print(ebola.Cases_Guinea.sum(skipna = True))
print("-"*50)
print(ebola.Cases_Guinea.sum(skipna = False))

84729.0
--------------------------------------------------
nan


이번 6장에서는 누락값을 처리하는 방법에 대해 살펴보았다. 데이터 분석 분야에서 누락값을 처리하는 능력은 매우 중요하다. 

누락값은 언제 어디서든 생길 수 있기 때문에 처리방법을 반드시 알아두어야 한다!