## 누락값 확인하기(p138)

In [1]:
#numpy 라이브러리는 수학이나 과학 연산을 위해 만든 파이썬 라이브러리이다. 
from numpy import NaN, NAN, nan
import pandas as pd

In [2]:
#누락값은 데이터가 없음을 의미한다. ...비교불가 
print(NaN == True)
print(NaN == False)
print(NaN == 0)
print(NaN == '')

#누락값은 값이 없음을 의미....비교불가 
print(NaN == NaN)

print(NaN == nan)
print(NaN == NAN)
print(nan == NAN)

False
False
False
False
False
False
False
False


In [4]:
import pandas as pd 

print(pd.isnull(NaN))
print(pd.isnull(nan))
print(pd.isnull(NAN))

True
True
True


In [5]:
print(pd.notnull(NaN))
print(pd.notnull('missing'))
print(pd.notnull(42))

False
True
True


## 누락값이 생기는 이유 알아보기

### 1. 누락값이 포함된 데이터 

In [7]:
visited = pd.read_csv('data/survey_visited.csv') 
survey = pd.read_csv('data/survey_survey.csv')

visited.head(6)

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,


In [8]:
survey.iloc[7:10, :]

Unnamed: 0,taken,person,quant,reading
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0


### 2. 누락값이 있는 데이터 집합을 연결

In [9]:
vs = visited.merge(survey, left_on='ident', right_on='taken') 
vs

#indent 752인 부분 확인 

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


### 3. 데이터를 입력할 때 누락값이 생기는 경우

In [10]:
num_legs = pd.Series({'돼지': 4, '아메바': nan}) 
num_legs

돼지     4.0
아메바    NaN
dtype: float64

In [11]:
scientists = pd.DataFrame({ 
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'missing': [NaN, nan]}) 

scientists

Unnamed: 0,Name,Occupation,Born,Died,missing
0,Rosaline Franklin,Chemist,1920-07-25,1958-04-16,
1,William Gosset,Statistician,1876-06-13,1937-10-16,


### 4. 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우

In [12]:
gapminder = pd.read_csv('data/gapminder.tsv', sep='\t')

In [16]:
life_exp = gapminder.groupby(['year'])['lifeExp'].mean() 
life_exp

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

In [17]:
#2000년부터 2009년의 데이터 추출 ...누락값 발생 ...데이터에는 2002년과 2007년만 존재 
life_exp.loc[range(2000, 2010)]  #오류 ~~

KeyError: 'Passing list-likes to .loc or [] with any missing labels is no longer supported, see https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike'

In [18]:
y2000 = life_exp[(life_exp.index >= 2000) & (life_exp.index<=2009)] 
y2000

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

## 누락값의 개수 구하기

In [19]:
ebola = pd.read_csv('data/country_timeseries.csv')
ebola.head(5)

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


In [20]:
#누락값이 아닌값의 개수 알아보기............갯수가 차이가 나는것을 보니 누락값이 많이 존재한다. 
ebola.count()

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64

In [21]:
#누락값의 갯수 = 전체행의 개수 - 누락값이 아닌 갯수 
#전체행의 데이터 개수 : shape[0]
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count() 
print("전체개수:" , num_rows)
print(num_missing)
#Cases_Guinea : 기니의 사례 
#Cases_Liberia : 라이베리아
#Cases_시에라리온
#Cases_나이지리아 
#Cases_세네갈 

전체개수: 122
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [22]:
import numpy as np 

#count_nonzero 메서드는 0 아닌 값의(False) 개수를 세는 메서드이다. 

In [23]:
df = pd.DataFrame([[nan,1, 1, 0, 0, 0, NaN , NAN]])
print(df)
print("null이 아닌것의 개수 :", np.count_nonzero(df))  
print("-------------------------------------------------")
print(df.isnull())
print(np.count_nonzero(df.isnull()), "개")  #0(False)이 아닌것의 개수 ....null인것의 갯수 

    0  1  2  3  4  5   6   7
0 NaN  1  1  0  0  0 NaN NaN
null이 아닌것의 개수 : 5
-------------------------------------------------
      0      1      2      3      4      5     6     7
0  True  False  False  False  False  False  True  True
3 개


In [24]:
np.count_nonzero([[True,False,True]])

2

In [25]:
np.count_nonzero([[0,1,2,3,4,5,0]])

5

In [26]:
a = ebola['Cases_Guinea'].isnull()  #null이면 True, null이 아니면 False 

In [27]:
#기니 의 누락값의 갯수
np.count_nonzero(ebola['Cases_Guinea'].isnull()) #null인것의 갯수 

29

In [28]:
#지정한 열의 빈도 구하기 
#Don’t include counts of NaN ==>dropna=True 
#즉, NaN을 포함하는 갯수 
ebola.Cases_Guinea.value_counts(dropna=False).head(10)

NaN      29
86.0      3
495.0     2
112.0     2
390.0     2
506.0     1
812.0     1
771.0     1
648.0     1
607.0     1
Name: Cases_Guinea, dtype: int64

In [29]:
ebola.Cases_Guinea.value_counts(dropna=True).head(10)

86.0      3
112.0     2
390.0     2
495.0     2
2597.0    1
510.0     1
812.0     1
771.0     1
648.0     1
607.0     1
Name: Cases_Guinea, dtype: int64

## 누락값 처리하기 ― 변경, 삭제

### 1. 누락값 변경하기

In [29]:
#fillna 메서드는 누락값을 변경한다.
#처리해야하는 데이터 프레임의 크기가 매우 크고 메모리를 효율적으로 사용해야하는 경우에 자주 사용한다.
ebola.fillna(0).iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,0.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [30]:
ebola.iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,,8157.0,
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [31]:
#method='ffill'
#누락값이 나타나기 전의 값으로 누락값을 변경하기 
#처음의 값이 누락값인 경우는 처리하지 못한다는 단점이 있다 
ebola.fillna(method='ffill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7977.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [31]:
#method='bfill'
#누락값이 나타난 이후의 값으로 누락값을 변경하기 
#마지막 값이 누락값인 경우는 처리하지 못한다는 단점이 있다. 
ebola.fillna(method='bfill').iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7977.0,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7862.0,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


In [32]:
#method='interpolate'
#누락값 양쪽에 있는 값을 이용하여 중간값을 구한다음 누락값을 처리....
#데이터프레임이 일정한 간격을 유지하는 것처럼 처리한다. ..양쪽값이 없는 경우는 여전히 불가 
ebola.interpolate().iloc[0:10, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,7997.5,9409.0
7,12/24/2014,277,2630.0,7977.0,9203.0
8,12/21/2014,273,2597.0,7919.5,9004.0
9,12/20/2014,272,2571.0,7862.0,8939.0


### 5. 누락값 삭제하기

In [33]:
#ebola의 데이터 구조
print(ebola.shape)

(122, 18)


In [34]:
#누락값이 필요없다면 삭제한다. 
#누락값을 무작정 삭제한다면 데이터가 편향되거나 데이터의 개수가 너무 적어질 수 있다. 
#누락 값 삭제시 분석하는 사람이 잘 판단해야 한다. 
ebola_dropna = ebola.dropna() 
print(ebola_dropna.shape)
#데이터가 너무 많이 삭제됨

(1, 18)


In [35]:
ebola_dropna

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
19,11/18/2014,241,2047.0,7082.0,6190.0,20.0,1.0,4.0,1.0,6.0,1214.0,2963.0,1267.0,8.0,0.0,1.0,0.0,6.0


In [36]:
ebola.head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


## 누락값이 포함된 데이터 계산하기

In [36]:
#기니 , 라이베리아 , 시에라리온
# 세지역의 엘보라 발병수의 합 
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']
ebola['Cases_multiple']

0          NaN
1          NaN
2      20657.0
3          NaN
4      20478.0
        ...   
117      117.0
118        NaN
119        NaN
120        NaN
121        NaN
Name: Cases_multiple, Length: 122, dtype: float64

In [37]:
#누락값이 하나라도 있는 경우 계산결과는 NaN 
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']] 
ebola_subset.head()

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0


In [9]:
#NaN을 0변경후 3지역의 합계를 계산해보자 
ebola2 = ebola.fillna(0)
ebola2['Cases_multiple'] = ebola2['Cases_Guinea'] + ebola2['Cases_Liberia'] + ebola2['Cases_SierraLeone']
ebola_subset2 = ebola2.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']] 
ebola_subset2.head()

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,0.0,10030.0,12806.0
1,2775.0,0.0,9780.0,12555.0
2,2769.0,8166.0,9722.0,20657.0
3,0.0,8157.0,0.0,8157.0
4,2730.0,8115.0,9633.0,20478.0


In [38]:
ebola.Cases_Guinea

0      2776.0
1      2775.0
2      2769.0
3         NaN
4      2730.0
        ...  
117     103.0
118      86.0
119      86.0
120      86.0
121      49.0
Name: Cases_Guinea, Length: 122, dtype: float64

In [39]:
#누락값을 무시한채 합계구하기 (default : skipna = True)
ebola.Cases_Guinea.sum(skipna = True)
ebola.Cases_Guinea.sum()

84729.0

In [40]:
#누락값을 무시하지 않고 합계구하기 
print(ebola.Cases_Guinea.sum(skipna = False))

nan
