# 파이썬에서 결측치의 사용

* 파이썬에서 누락값을 사용하려면 넘파이(numpy) 패키지(라이브러리)를 로딩해야함
* 결측치는 NaN, NAN, nan과 같은 방법으로 표기 가능함
* 결측치의 실제의미: 데이터 자체가 누락되어 없음
* 결측치와 불(Bool), 0값, 공백, 결측치자신과 비교시 서로 다름

# 결측치 사용을 위한 numpy 패키지(라이브러리) 로딩

In [1]:
from numpy import NaN, NAN, nan

In [2]:
%whos

Variable   Type     Data/Info
-----------------------------
NAN        float    nan
NaN        float    nan
nan        float    nan


## 결측치와 다른 값 간 비교

In [3]:
print("Nan과 True와의 값 비교:", NaN == True)
print("Nan과 False와의 값 비교:", NaN == False)
print("Nan과 0과의 값 비교:", NaN == 0)
print("Nan과 공백과의 값 비교:", NaN == '')

Nan과 True와의 값 비교: False
Nan과 False와의 값 비교: False
Nan과 0과의 값 비교: False
Nan과 공백과의 값 비교: False


## 결측치와 결측치 간 비교

In [4]:
print("Nan과 NAN와의 값 비교:", NaN == NAN)
print("Nan과 nan와의 값 비교:", NaN == nan)
print("NAN과 nan와의 값 비교:", NAN == nan)

Nan과 NAN와의 값 비교: False
Nan과 nan와의 값 비교: False
NAN과 nan와의 값 비교: False


# 결측값 확인 방법

In [5]:
# pandas의 .isnull()와 .isna()를 동일하게 사용함
import pandas as pd

print(pd.isnull(NaN))
print(pd.isnull(NAN))
print(pd.isnull(nan))
print()

print(pd.isna(NaN))
print(pd.isna(NAN))
print(pd.isna(nan))

True
True
True

True
True
True


In [6]:
# numpy의 .isnan()을 사용함
import numpy as np

print(np.isnan(NaN))
print(np.isnan(NAN))
print(np.isnan(nan))

True
True
True


## 리스트 객체 결측치 유무 판단

In [45]:
x = [30, '한국', 28, '미국', NaN, 28, 
     '한국', nan, '한국', 45, NAN]
print(x); print()
print(pd.isnull(x)); print()
print(pd.isnull(x).sum()); print()

[30, '한국', 28, '미국', nan, 28, '한국', nan, '한국', 45, nan]

[False False False False  True False False  True False False  True]

3



## 시리즈 객체 결측치 유무 판단

In [46]:
# 시리즈 객체 생성
x = pd.Series([30, '한국', 28, '미국', NaN, 28, 
               '한국', nan, '한국', 45, NAN])
print(x)
print(type(x))

0      30
1      한국
2      28
3      미국
4     NaN
5      28
6      한국
7     NaN
8      한국
9      45
10    NaN
dtype: object
<class 'pandas.core.series.Series'>


In [50]:
# 시리즈 객체의 빈도수 파악
print('전체 요소갯수(결측치 포함) = ', len(x))
print()
print('전체 요소갯수(결측치 제외) =', x.count()) 
print()
print(x.value_counts()) # 요소별 빈도수
print()
print(x.value_counts(dropna = False)) # 결측치까지 포함한 빈도수

전체 요소갯수(결측치 포함) =  11

전체 요소갯수(결측치 제외) = 8

한국    3
28    2
미국    1
30    1
45    1
dtype: int64

한국     3
NaN    3
28     2
미국     1
30     1
45     1
dtype: int64


In [10]:
# .isnull() 함수로 결측치 유무를 불연산으로 판단 
print(x.isnull())
print()
print(x.isnull().sum())

0    False
1    False
2    False
3    False
4     True
5    False
6    False
7     True
8    False
9    False
dtype: bool

2


# 유효치 확인 방법

In [11]:
# pandas의 .notnull()와 .notna()를 동일하게 사용함
import pandas as pd

print(pd.notnull(NaN))
print(pd.notnull(NAN))
print(pd.notnull(nan))
print()

print(pd.notna(NaN))
print(pd.notna(NAN))
print(pd.notna(nan))

False
False
False

False
False
False


## 리스트 객체 유효치 유무 판단

In [12]:
# 리스트 객체생성
x = [30, '한국', 28, '미국', NaN, 28, 
     '한국', nan, '한국', 45, NAN]
print(x); print()
print(pd.notnull(x)); print()
print(pd.notnull(x).sum())

[30, '한국', 28, nan, 45]

[ True  True  True False  True]

4


## 시리즈 객체 유효치 유무 판단

In [13]:
# 시리즈 객체생성
x = pd.Series([30, '한국', 28, '미국', NaN, 28, 
               '한국', nan, '한국', 45, NAN])
print(x)
print(type(x))

0     30
1     한국
2     28
3     미국
4    NaN
5     28
6     한국
7    NaN
8     한국
9     45
dtype: object
<class 'pandas.core.series.Series'>


In [14]:
# 시리즈 객체의 빈도수 파악
print('전체 요소갯수(결측치 포함) = ', len(x))
print()
print('전체 요소갯수(결측치 제외) =', x.count()) 
print()
print(x.value_counts()) # 요소별 빈도수
print()
print(x.value_counts(dropna = False)) # 결측치까지 포함한 빈도수

8

한국    3
28    2
미국    1
30    1
45    1
dtype: int64

한국     3
28     2
NaN    2
미국     1
30     1
45     1
dtype: int64


In [15]:
# .notnull() 함수로 유효치 유무를 불연산으로 판단 
print(x.notnull()); print()
print(x.notnull().sum())

0     True
1     True
2     True
3     True
4    False
5     True
6     True
7    False
8     True
9     True
dtype: bool

8


# 결측치이 생기는 이유

### 결측치이 있는 데이터 집합을 연결할 때 결측치이 생기는 경우

In [16]:
visited = pd.read_csv('./data/weather_survey/survey_visited.csv') 
survey = pd.read_csv('./data/weather_survey/survey_survey.csv')

In [17]:
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [18]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [19]:
vs = visited.merge(survey, left_on='ident', right_on='taken') 
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

### 데이터를 입력할 때 결측치이 생기는 경우

In [20]:
num_legs = pd.Series({'goat': 4, 'amoeba': nan}) 
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [21]:
scientists = pd.DataFrame({ 
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'Missing': [NaN, nan]}) 

print(scientists)
print(type(scientists))

                Name    Occupation        Born        Died  Missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


### 범위를 지정하여 데이터를 추출할 때 결측치이 생기는 경우

In [22]:
gapminder = pd.read_csv('./data/gapminder.tsv', sep = '\t')
gapminder.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [23]:
x = gapminder['lifeExp']
x.nunique

<bound method IndexOpsMixin.nunique of 0       28.801
1       30.332
2       31.997
3       34.020
4       36.088
5       38.438
6       39.854
7       40.822
8       41.674
9       41.763
10      42.129
11      43.828
12      55.230
13      59.280
14      64.820
15      66.220
16      67.690
17      68.930
18      70.420
19      72.000
20      71.581
21      72.950
22      75.651
23      76.423
24      43.077
25      45.685
26      48.303
27      51.407
28      54.518
29      58.014
         ...  
1674    49.113
1675    52.922
1676    55.599
1677    58.020
1678    60.308
1679    62.698
1680    42.038
1681    44.077
1682    46.023
1683    47.768
1684    50.107
1685    51.386
1686    51.821
1687    50.821
1688    46.100
1689    40.238
1690    39.193
1691    42.384
1692    48.451
1693    50.469
1694    52.358
1695    53.995
1696    55.635
1697    57.674
1698    60.363
1699    62.351
1700    60.377
1701    46.809
1702    39.989
1703    43.487
Name: lifeExp, Length: 1704, dtype: float64>

In [24]:
# lifeExp(기대수명) 변수컬럼 요약집계실시
life_exp = gapminder.groupby(['year'])['lifeExp'].mean() 
print(life_exp)
print()
# - 요약집계결과 12개년도별 기대수명평균값이 존재함을 알 수 있음

print(type(life_exp))
print()
# - 요약집계결과 테이블의 객체형식은 시리즈(Series)임

print(life_exp.index)
# - 요약집계결과 테이블의 인덱스는 연도들임

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

<class 'pandas.core.series.Series'>

Int64Index([1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, 2002,
            2007],
           dtype='int64', name='year')


In [25]:
# l2개년도별 기대수명평균값이 들어 있는 life_exp에서 일정범위 레코드 추출
print(life_exp.loc[range(2000, 2010), ])

# - life_exp 테이블에 없는 연도범위의 레코드 추출시 결측치로 표시됨

year
2000          NaN
2001          NaN
2002    65.694923
2003          NaN
2004          NaN
2005          NaN
2006          NaN
2007    67.007423
2008          NaN
2009          NaN
Name: lifeExp, dtype: float64


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  


In [26]:
# 결측치로 조회되는 문제해결을 위해 불린연산방법으로 연도별 기대수명 데이터를 조회함
y2000 = life_exp[life_exp.index > 2000] 
print(y2000)

year
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


# 결측치의 개수 구하기

In [27]:
# 예제 데이터 로딩
ebola = pd.read_csv('./data/country_timeseries.csv')
ebola.head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


In [28]:
ebola.info()
# - 각 변수별 유효데이터갯수는 차이가 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122 entries, 0 to 121
Data columns (total 18 columns):
Date                   122 non-null object
Day                    122 non-null int64
Cases_Guinea           93 non-null float64
Cases_Liberia          83 non-null float64
Cases_SierraLeone      87 non-null float64
Cases_Nigeria          38 non-null float64
Cases_Senegal          25 non-null float64
Cases_UnitedStates     18 non-null float64
Cases_Spain            16 non-null float64
Cases_Mali             12 non-null float64
Deaths_Guinea          92 non-null float64
Deaths_Liberia         81 non-null float64
Deaths_SierraLeone     87 non-null float64
Deaths_Nigeria         38 non-null float64
Deaths_Senegal         22 non-null float64
Deaths_UnitedStates    18 non-null float64
Deaths_Spain           16 non-null float64
Deaths_Mali            12 non-null float64
dtypes: float64(16), int64(1), object(1)
memory usage: 17.2+ KB


In [29]:
ebola.describe(include = 'all')

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
count,122,122.0,93.0,83.0,87.0,38.0,25.0,18.0,16.0,12.0,92.0,81.0,87.0,38.0,22.0,18.0,16.0,12.0
unique,122,,,,,,,,,,,,,,,,,
top,3/22/2014,,,,,,,,,,,,,,,,,
freq,1,,,,,,,,,,,,,,,,,
mean,,144.778689,911.064516,2335.337349,2427.367816,16.736842,1.08,3.277778,1.0,3.5,563.23913,1101.209877,693.701149,6.131579,0.0,0.833333,0.1875,3.166667
std,,89.31646,849.108801,2987.966721,3184.803996,5.998577,0.4,1.178511,0.0,2.746899,508.511345,1297.208568,869.947073,2.781901,0.0,0.383482,0.403113,2.405801
min,,0.0,49.0,3.0,0.0,0.0,1.0,1.0,1.0,1.0,29.0,2.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,,66.25,236.0,25.5,64.5,15.0,1.0,3.0,1.0,1.0,157.75,12.0,6.0,4.0,0.0,1.0,0.0,1.0
50%,,150.0,495.0,516.0,783.0,20.0,1.0,4.0,1.0,2.5,360.5,294.0,334.0,8.0,0.0,1.0,0.0,2.0
75%,,219.5,1519.0,4162.5,3801.0,20.0,1.0,4.0,1.0,6.25,847.75,2413.0,1176.0,8.0,0.0,1.0,0.0,6.0


#### 전체 요소갯수에서 유효갯수를 차감해 결측치 구하기

In [30]:
# 각 데이터 객체별 유효 요소(elements) 갯수
print(ebola[['Cases_Guinea']].count())
print()
print(ebola[['Cases_Senegal', 'Deaths_Spain']].count())
print()
print(ebola.count())

Cases_Guinea    93
dtype: int64

Cases_Senegal    25
Deaths_Spain     16
dtype: int64

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [31]:
# 각 데이터 객체별 결측치 갯수
print(ebola.shape)
num_rows = ebola.shape[0]
print(num_rows)
num_missing = num_rows - ebola.count() 
print(num_missing)

# - 결측치 갯수 = 전체 요소갯수 - 유효 요소갯수

(122, 18)
122
Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


#### 결측기 계산 메서드 사용하기

In [32]:
# 각 셀별 결측치 유무를 불(Bool)로 판단
print(ebola.isnull().sum()) # 각 변수컬럼별 결측치 갯수계산
print()
print(ebola.notnull().sum()) # 각 변수컬럼별 유효치 갯수계산

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


# 결측치 변경하기

In [33]:
# 결측치 변경을 위한 대상 데이터셋 추출
ebola.iloc[0:7, 0:5]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,,8157.0,
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,,9409.0


In [34]:
# .fillna(0)메서드를 이용해 NaN 셀들을 0으로 일괄변경
ebola.iloc[0:7, 0:5].fillna(0)

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,0.0,10030.0
1,1/4/2015,288,2775.0,0.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,0.0,8157.0,0.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,0.0,9409.0


In [35]:
# 원래 NaN 셀이었던, 현재 0으로 입력된 부분을 바로 앞의 요소값으로 채움
ebola.iloc[0:7, 0:5].fillna(method = 'ffill')

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2769.0,8157.0,9722.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0


In [36]:
# 원래 NaN 셀이었던, 현재 0으로 입력된 부분을 바로 뒤의 요소값으로 채움
ebola.iloc[0:7, 0:5].fillna(method = 'bfill')

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,8166.0,10030.0
1,1/4/2015,288,2775.0,8166.0,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2730.0,8157.0,9633.0
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,,9409.0


In [37]:
# 원래 NaN 셀이었던, 현재 0으로 입력된 부분을 바로 앞.뒤 요소들의 평균값으로 채움
ebola.iloc[0:7, 0:5].interpolate()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone
0,1/5/2015,289,2776.0,,10030.0
1,1/4/2015,288,2775.0,,9780.0
2,1/3/2015,287,2769.0,8166.0,9722.0
3,1/2/2015,286,2749.5,8157.0,9677.5
4,12/31/2014,284,2730.0,8115.0,9633.0
5,12/28/2014,281,2706.0,8018.0,9446.0
6,12/27/2014,280,2695.0,8018.0,9409.0


# 결측치 삭제하기

In [38]:
# 원래 ebola 데이터프레임의 규모
ebola.shape

(122, 18)

In [39]:
# NaN이 들어 있는 모든 레코드 일괄삭제
ebola_dropna = ebola.dropna() 
ebola_dropna.shape
# - 너무 많은 레코드가 삭제됨

(1, 18)

# 결측치가 포함된 데이터 계산하기

In [40]:
# 실습용 예제데이터셋 가공
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

In [41]:
ebola_subset = ebola.loc[:, ['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']] 
ebola_subset.head(n=10)

Unnamed: 0,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_multiple
0,2776.0,,10030.0,
1,2775.0,,9780.0,
2,2769.0,8166.0,9722.0,20657.0
3,,8157.0,,
4,2730.0,8115.0,9633.0,20478.0
5,2706.0,8018.0,9446.0,20170.0
6,2695.0,,9409.0,
7,2630.0,7977.0,9203.0,19810.0
8,2597.0,,9004.0,
9,2571.0,7862.0,8939.0,19372.0


In [42]:
# NaN부분을 제외하고 메소드 적용
ebola.Cases_Guinea.sum(skipna = True)

84729.0

In [43]:
# NaN부분을 포함하고 메소드 적용
ebola.Cases_Guinea.sum(skipna = False)

nan

# End of Source