# 4.8 시계열 자료 다루기

```{margin}
`DatetimeIndex`
```

In [1]:
from datetime import datetime

In [2]:
dt = datetime(2023, 12, 22, 15, 30, 45)
dt

datetime.datetime(2023, 12, 22, 15, 30, 45)

In [3]:
print(dt.year, dt.month, dt.day, dt.hour, dt.minute, dt.second)

2023 12 22 15 30 45


In [4]:
cur = datetime.now()
cur

datetime.datetime(2024, 7, 3, 16, 35, 43, 803074)

## `DatetimeIndex` 인덱스

시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다.   
판다스에서 시계열 자료를 생성하려면 인덱스를 `DatetimeIndex` 자료형으로 만들어야 한다.   
`DatetimeIndex`는 특정한 순간에 기록된 타임스탬프(timestamp) 형식의 시계열 자료를 다루기 위한 인덱스이다.   
타임스탬프 인덱스의 라벨값이 반드시 일정한 간격일 필요는 없다.

`DatetimeIndex` 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다.

* `pd.to_datetime` 함수
* `pd.date_range` 함수

```{margin}
to_datetime
```

`pd.to_datetime` 함수를 쓰면 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 `DatetimeIndex` 자료형 인덱스를 생성한다.
https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [5]:
import pandas as pd

In [6]:
# format 생략해도 자동으로 잡히긴하지만 포맷을 지정하는게 좋음
date_str = ["2023, 1, 1", "2023, 1, 4", "2023, 1, 5", "2023, 1, 6"]
print(type(date_str[0]))
idx = pd.to_datetime(date_str) 
idx

<class 'str'>


DatetimeIndex(['2023-01-01', '2023-01-04', '2023-01-05', '2023-01-06'], dtype='datetime64[ns]', freq=None)

이렇게 만들어진 인덱스를 사용하여 시리즈나 데이터프레임을 생성하면 된다.

In [7]:
import numpy as np

In [8]:
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2023-01-01    1.764052
2023-01-04    0.400157
2023-01-05    0.978738
2023-01-06    2.240893
dtype: float64

In [9]:
s.info()

<class 'pandas.core.series.Series'>
DatetimeIndex: 4 entries, 2023-01-01 to 2023-01-06
Series name: None
Non-Null Count  Dtype  
--------------  -----  
4 non-null      float64
dtypes: float64(1)
memory usage: 64.0 bytes


In [10]:
data ={'2023년11월19일':[10,20,30],
       '2023년11월20일':[40,50,60],
       '2023년11월21일':[70,80,90],
       '2023년11월22일':[100,120,130]}

In [11]:
df = pd.DataFrame(data)
df 

Unnamed: 0,2023년11월19일,2023년11월20일,2023년11월21일,2023년11월22일
0,10,40,70,100
1,20,50,80,120
2,30,60,90,130


In [12]:
df = df.T
df

Unnamed: 0,0,1,2
2023년11월19일,10,20,30
2023년11월20일,40,50,60
2023년11월21일,70,80,90
2023년11월22일,100,120,130


In [13]:
# object형은 시계열 데이터 아님
df.index, type(df.index[0])

(Index(['2023년11월19일', '2023년11월20일', '2023년11월21일', '2023년11월22일'], dtype='object'),
 str)

In [44]:
# 인덱스만 date타입으로 변경 
df.index  = pd.to_datetime(df.index, format='%Y년%m월%d일')
#df.index  = pd.to_datetime(df.index, format='mixed') # 가능하긴 한데 권장안함
df.index

DatetimeIndex(['2023-11-19', '2023-11-20', '2023-11-21', '2023-11-22'], dtype='datetime64[ns]', freq=None)

```{margin}
date_range
```

`pd.date_range` 함수를 쓰면 모든 날짜/시간을 일일히 입력할 필요없이 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성해 준다.

In [45]:
pd.date_range("2023-11-1", "2023-11-30")

DatetimeIndex(['2023-11-01', '2023-11-02', '2023-11-03', '2023-11-04',
               '2023-11-05', '2023-11-06', '2023-11-07', '2023-11-08',
               '2023-11-09', '2023-11-10', '2023-11-11', '2023-11-12',
               '2023-11-13', '2023-11-14', '2023-11-15', '2023-11-16',
               '2023-11-17', '2023-11-18', '2023-11-19', '2023-11-20',
               '2023-11-21', '2023-11-22', '2023-11-23', '2023-11-24',
               '2023-11-25', '2023-11-26', '2023-11-27', '2023-11-28',
               '2023-11-29', '2023-11-30'],
              dtype='datetime64[ns]', freq='D')

In [46]:
pd.date_range(start="2023-11-1", periods=40)

DatetimeIndex(['2023-11-01', '2023-11-02', '2023-11-03', '2023-11-04',
               '2023-11-05', '2023-11-06', '2023-11-07', '2023-11-08',
               '2023-11-09', '2023-11-10', '2023-11-11', '2023-11-12',
               '2023-11-13', '2023-11-14', '2023-11-15', '2023-11-16',
               '2023-11-17', '2023-11-18', '2023-11-19', '2023-11-20',
               '2023-11-21', '2023-11-22', '2023-11-23', '2023-11-24',
               '2023-11-25', '2023-11-26', '2023-11-27', '2023-11-28',
               '2023-11-29', '2023-11-30', '2023-12-01', '2023-12-02',
               '2023-12-03', '2023-12-04', '2023-12-05', '2023-12-06',
               '2023-12-07', '2023-12-08', '2023-12-09', '2023-12-10'],
              dtype='datetime64[ns]', freq='D')

`freq` 인수로 특정한 날짜만 생성되도록 할 수도 있다. 많이 사용되는 `freq` 인수값은 다음과 같다.

* `s`: 초
* `T`: 분
* `H`: 시간
* `D`: 일(day)
* `B`: 주말이 아닌 평일
* `W`: 주(일요일)
* `W-MON`: 주(월요일)
* `M`: 각 달(month)의 마지막 날
* `MS`: 각 달의 첫날
* `BM`: 주말이 아닌 평일 중에서 각 달의 마지막 날
* `BMS`: 주말이 아닌 평일 중에서 각 달의 첫날
* `WOM-2THU`: 각 달의 두번째 목요일
* `Q-JAN`: 각 분기의 첫달의 마지막 날
* `Q-DEC`: 각 분기의 마지막 달의 마지막 날

보다 자세한 내용은 다음 웹사이트를 참조한다.

* [https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects)

In [17]:
pd.date_range("2023-12-1", "2023-12-30", freq="B")

DatetimeIndex(['2023-12-01', '2023-12-04', '2023-12-05', '2023-12-06',
               '2023-12-07', '2023-12-08', '2023-12-11', '2023-12-12',
               '2023-12-13', '2023-12-14', '2023-12-15', '2023-12-18',
               '2023-12-19', '2023-12-20', '2023-12-21', '2023-12-22',
               '2023-12-25', '2023-12-26', '2023-12-27', '2023-12-28',
               '2023-12-29'],
              dtype='datetime64[ns]', freq='B')

In [18]:
pd.date_range("2023-12-1", "2023-12-30", freq="W")

DatetimeIndex(['2023-12-03', '2023-12-10', '2023-12-17', '2023-12-24'], dtype='datetime64[ns]', freq='W-SUN')

In [19]:
pd.date_range("2023-12-1", "2023-12-30", freq="W-MON")

DatetimeIndex(['2023-12-04', '2023-12-11', '2023-12-18', '2023-12-25'], dtype='datetime64[ns]', freq='W-MON')

In [20]:
pd.date_range("2023-11-1", "2023-11-30", freq="MS")

DatetimeIndex(['2023-11-01'], dtype='datetime64[ns]', freq='MS')

In [21]:
pd.date_range("2023-11-1", "2023-11-30", freq="M")

DatetimeIndex(['2023-11-30'], dtype='datetime64[ns]', freq='M')

In [22]:
pd.date_range("2023-11-1", "2023-11-30", freq="BMS")

DatetimeIndex(['2023-11-01'], dtype='datetime64[ns]', freq='BMS')

In [23]:
pd.date_range("2023-11-1", "2023-11-30", freq="BM")

DatetimeIndex(['2023-11-30'], dtype='datetime64[ns]', freq='BM')

In [24]:
pd.date_range("2023-11-1", "2023-11-30", freq="WOM-2THU")

DatetimeIndex(['2023-11-09'], dtype='datetime64[ns]', freq='WOM-2THU')

In [25]:
pd.date_range("2023-01-1", "2023-11-30", freq="Q-JAN")

DatetimeIndex(['2023-01-31', '2023-04-30', '2023-07-31', '2023-10-31'], dtype='datetime64[ns]', freq='Q-JAN')

In [26]:
pd.date_range("2023-01-1", "2023-11-30", freq="Q-DEC")

DatetimeIndex(['2023-03-31', '2023-06-30', '2023-09-30'], dtype='datetime64[ns]', freq='Q-DEC')

## `shift` 연산

시계열 데이터의 인덱스는 시간이나 날짜를 나타내기 때문에 날짜 이동 등의 다양한 연산이 가능하다.   
예를 들어 `shift` 연산을 사용하면 인덱스는 그대로 두고 데이터만 이동할 수도 있다.

In [27]:
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range(
    "2018-1-1", periods=4, freq="M"))
ts

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64

In [28]:
ts.shift(1)

2018-01-31         NaN
2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
Freq: M, dtype: float64

In [29]:
ts.shift(-1)

2018-01-31    0.400157
2018-02-28    0.978738
2018-03-31    2.240893
2018-04-30         NaN
Freq: M, dtype: float64

In [30]:
ts.shift(1, freq="M")

2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
2018-05-31    2.240893
Freq: M, dtype: float64

In [31]:
ts.shift(1, freq="W")

2018-02-04    1.764052
2018-03-04    0.400157
2018-04-01    0.978738
2018-05-06    2.240893
dtype: float64

## `resample` 연산

`resample` 연산을 쓰면 시간 간격을 재조정하는 리샘플링(resampling)이 가능하다.    
이 때 시간 구간이 작아지면 데이터 양이 증가한다고 해서 업-샘플링(up-sampling)이라 하고    
시간 구간이 커지면 데이터 양이 감소한다고 해서 다운-샘플링(down-sampling)이라 부른다.

In [32]:
ts = pd.Series(np.random.randn(100), index=pd.date_range("2018-1-1", periods=100, freq="D"))
ts.tail(20)

2018-03-22    1.488252
2018-03-23    1.895889
2018-03-24    1.178780
2018-03-25   -0.179925
2018-03-26   -1.070753
2018-03-27    1.054452
2018-03-28   -0.403177
2018-03-29    1.222445
2018-03-30    0.208275
2018-03-31    0.976639
2018-04-01    0.356366
2018-04-02    0.706573
2018-04-03    0.010500
2018-04-04    1.785870
2018-04-05    0.126912
2018-04-06    0.401989
2018-04-07    1.883151
2018-04-08   -1.347759
2018-04-09   -1.270485
2018-04-10    0.969397
Freq: D, dtype: float64

다운-샘플링의 경우에는 원래의 데이터가 그룹으로 묶이기 때문에 그룹바이(groupby)때와 같이 그룹 연산을 해서 대표값을 구해야 한다.

In [33]:
ts.resample('W')

<pandas.core.resample.DatetimeIndexResampler object at 0x0000020C17962ED0>

In [34]:
ts.resample('W').mean()

2018-01-07    0.305776
2018-01-14    0.629064
2018-01-21   -0.006910
2018-01-28    0.277065
2018-02-04   -0.144972
2018-02-11   -0.496299
2018-02-18   -0.474473
2018-02-25   -0.201222
2018-03-04   -0.775142
2018-03-11    0.052868
2018-03-18   -0.450379
2018-03-25    0.601892
2018-04-01    0.334893
2018-04-08    0.509605
2018-04-15   -0.150544
Freq: W-SUN, dtype: float64

In [35]:
ts.resample('M').first()

2018-01-31    1.867558
2018-02-28    0.156349
2018-03-31   -1.726283
2018-04-30    0.356366
Freq: M, dtype: float64

날짜가 아닌 시/분 단위에서는 구간위 왼쪽 한계값(가장 빠른 값)은 포함하고   
오른쪽 한계값(가장 늦은 값)은 포함하지 않는다.   
즉, 가장 늦은 값은 다음 구간에 포함된다. 예를 들어 10분 간격으로 구간을 만들면 10의 배수가 되는 시각은 구간의 시작점이 된다.

In [36]:
ts = pd.Series(np.random.randn(60), index=pd.date_range(
    "2018-1-1", periods=60, freq="T"))
ts.head(20)

2018-01-01 00:00:00   -1.173123
2018-01-01 00:01:00    1.943621
2018-01-01 00:02:00   -0.413619
2018-01-01 00:03:00   -0.747455
2018-01-01 00:04:00    1.922942
2018-01-01 00:05:00    1.480515
2018-01-01 00:06:00    1.867559
2018-01-01 00:07:00    0.906045
2018-01-01 00:08:00   -0.861226
2018-01-01 00:09:00    1.910065
2018-01-01 00:10:00   -0.268003
2018-01-01 00:11:00    0.802456
2018-01-01 00:12:00    0.947252
2018-01-01 00:13:00   -0.155010
2018-01-01 00:14:00    0.614079
2018-01-01 00:15:00    0.922207
2018-01-01 00:16:00    0.376426
2018-01-01 00:17:00   -1.099401
2018-01-01 00:18:00    0.298238
2018-01-01 00:19:00    1.326386
Freq: T, dtype: float64

In [37]:
ts.resample('10T').sum()

2018-01-01 00:00:00    6.835324
2018-01-01 00:10:00    3.764630
2018-01-01 00:20:00    0.776495
2018-01-01 00:30:00   -0.538336
2018-01-01 00:40:00    1.828234
2018-01-01 00:50:00    0.167957
Freq: 10T, dtype: float64

왼쪽이 아니라 오른쪽 한계값을 구간에 포함하려면 `closed="right"` 인수를 사용한다. 이 때는 10의 배수가 되는 시각이 앞 구간에 포함된다.

In [38]:
ts.resample('W')('10T', closed="right").sum()

TypeError: 'DatetimeIndexResampler' object is not callable

`ohlc` 메서드는 구간의 시고저종(open, high, low, close)값을 구한다.

In [None]:
ts.resample('5T').ohlc()

In [None]:
ts.resample('5T', closed='right').ohlc()

업-샘플링의 경우에는 실제로 존재하지 않는 데이터를 만들어야 한다.    
이 때는 앞에서 나온 데이터를 뒤에서 그대로 쓰는 forward filling 방식과    
뒤에서 나올 데이터를 앞에서 미리 쓰는 backward filling 방식을 사용할 수 있다.   
각각 `ffill`, `bfill` 메서드를 이용한다.

In [None]:
ts.resample('30s').ffill().head(20)

In [None]:
ts.resample('30s').bfill().head(20)

## `dt` 접근자

datetime 자료형 시리즈에는 dt 접근자가 있어 datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할 수 있다.

In [None]:
s = pd.Series(pd.date_range("2020-12-25", periods=100, freq="D"))
s

예를 들어 `year`, `month`, `day`, `weekday` 등의 속성을 이용하면 년, 월, 일, 요일 정보를 빼낼 수 있다.

In [None]:
s.dt.year

In [None]:
s.dt.weekday

`strftime` 메서드를 이용하여 문자열을 만드는 것도 가능하다.

In [None]:
s.dt.strftime("%Y년 %m월 %d일")

## 연습문제
````

다음 명령으로 만들어진 데이터프레임에 대해 월별 value의 합계를 구하라.
(힌트: `groupby` 메서드와 `dt` 접근자를 사용하라)

```
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"), 
    "value": np.random.randint(100, size=(100,))
})
```
````

In [None]:
import pandas as pd
import numpy as np

In [None]:
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"), 
    "value": np.random.randint(100, size=(100,))
})
df

In [None]:
df['month']=df['date'].dt.month
df

In [None]:
df.groupby('month')['value'].sum()

In [None]:
# datetime index로도 풀어보자
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"), 
    "value": np.random.randint(100, size=(100,))})
df = df.set_index('date')
df.resample('M').sum()

# 주식 데이터로 연습하기
* !pip install pandas_datareader
* !pip install yfinance
- 각종 금융정보를 dataframe으로 제공하는 라이브러리

In [None]:
import matplotlib.pyplot as plt
plt.style.use("ggplot")

# 한글 및 특정 문자 깨짐 문제 해결
# import koreanize_matplotlib # 시본의 한글 깨짐은 해결못하지만 - 깨짐 해결
from matplotlib import font_manager, rc # 폰트 세팅을 위한 모듈 추가
font_path = "C:/Windows/Fonts/malgun.ttf" # 사용할 폰트명 경로 삽입
font = font_manager.FontProperties(fname = font_path).get_name()
rc('font', family = font)

In [None]:
from pandas_datareader import data 
import yfinance as yfin
yfin.pdr_override()

In [None]:
data.get_data_yahoo?

In [None]:
# 삼성전자 주가 읽어오기(종목코드, start, end)
sdf = data.get_data_yahoo('005930.KS') # 삼성전자 KOSPI 지수, 끝을 생략하는 오늘까지 가져옴
sdf

In [None]:
sdf.index

In [None]:
sdf['Close'].plot()

In [None]:
plt.plot(sdf['Close'])
plt.show()

## 이동 평균(Move Average)
- 기간별 추세 확인시 사용

In [None]:
data1 = [[1,2],[3,4],[5,8],[7,6],[9,12],[11,10],[13,16],[15,20]]
df = pd.DataFrame( data1, columns=['A', 'B'] )

df.index=['2023-01-01','2023-02-01','2023-03-01','2023-04-01',
          '2023-05-01','2023-06-01','2023-07-01','2023-08-01']
df

In [None]:
#rolling 객체의 멤버함수 mean, sum, max, min
df.rolling(window=2).mean() 
# 1행값 nan, 2행값 = 2행 - 1행 ...

In [None]:
df.rolling(window=3).mean()

In [None]:
plt.xticks(rotation=45)
plt.plot(df.index, df['B'])
plt.plot(df.index, df['B'].rolling(window=2).mean())
plt.show()

In [None]:
sdf['Close'].rolling(window=120).mean()

In [None]:
plt.xticks(rotation=45)
plt.plot(sdf.index, sdf['Close'])
plt.plot(sdf.index, sdf['Close'].rolling(window=120).mean(), 'b--')

## 시계열데이터 인덱싱 슬라이싱
- 인덱스가 datetime형일 경우, 인덱스로 슬라이싱이 가능하다(object는 불가)

In [None]:
sdf.index

In [None]:
# 2023년 조회하기 # sdf['2023'] 에러남, 칼럼 조회와 헷갈리니 가능하면 loc을 쓰자
sdf.loc['2023']

In [None]:
sdf.loc['2023-11']

In [None]:
sdf.loc['2022':'2023']

In [None]:
sdf.loc['2020-12-01':'2022-12-31']

In [None]:
sdf['year'] = sdf.index.year
sdf

## 시계열 데이터의 통계(집계)


In [None]:
# 년도별 평균(수치데이터 칼럼 전체 적용 ), 년도 칼럼 활용
round(sdf.groupby('year').mean()) # groupby객체 멤버함수 sum mean max min agg

In [None]:
# 인덱스의 연도만 추출해서 그루핑
round(sdf.groupby(sdf.index.year).mean())

In [None]:
# 연도 및 월별
sdf.groupby([sdf.index.year, sdf.index.month]).mean()

## resample : 시계열데이터 전용 집계함수
resample rule
http://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html

In [None]:
sdf.resample?

In [None]:
# DatetimeIndexResample : sum, mean, max, min
sdf.resample(rule='Y').mean()

In [None]:
sdf.resample(rule='Q').mean()

In [None]:
sdf.resample(rule='M').mean()

In [None]:
# 주별, default 월-일, 요일구간을 정할 수 있다
sdf.resample(rule='W').mean()

In [None]:
sdf.resample(rule='D').mean()

In [None]:
sdf.loc['2023-12'].resample(rule='H').mean()

In [None]:
sdf.loc['2023-12'].resample(rule='T').mean()

In [None]:
sdf.loc['2023-12'].resample(rule='S').mean()

## 연습문제 : 교통사고 데이터 분석
1. 3개의 데이터를 병합하시오.   

====이후문제는 병합한 데이터프레임을 이용 ===========

2. 인덱스를 datetime 으로 만드시오.   

3. 년도 및 월별, 분기별, 평균 사망자를 보여주시오.   

4.  2016년 사고대비 사망율을 구하시오.   

5. 2014년도 월별 사망, 부상 데이터를 그래프로 보여주시오.   

6. 2015년 대비  사망이 가장 많이 증가한 2016년 도 월을 구하시오.   

In [None]:
# 1. 3개 데이터 병합
data_2014 = pd.read_csv('data/2014년 졸음운전 교통사고.csv', encoding='ANSI', index_col='구분')
data_2015 = pd.read_csv('data/2015년 졸음운전 교통사고.csv', encoding='ANSI', index_col='구분')
data_2016 = pd.read_csv('data/2016년 졸음운전 교통사고.csv', encoding='ANSI', index_col='구분')
data_2014.head()

In [None]:
data_2014.info(), data_2015.info(), data_2016.info()

In [None]:
data_total = pd.concat([data_2014, data_2015, data_2016], axis=0)
data_total

In [None]:
# 2. 인덱스를 datetime 으로 만드시요
data_total.index

In [None]:
data_total.index  = pd.to_datetime(data_total.index, format= '%Y년%m월')
data_total.index

In [None]:
# 3. 년도 및 월별, 분기별 평균 사망자를 보여주시요
data_total[['사망(명)']].groupby([data_total.index.quarter, data_total.index.year, data_total.index.month]).mean()

In [None]:
data_total[['사망(명)']].resample(rule='Q').mean()

In [None]:
# 4.  2016년 사고대비 사망율을 구하시요
data_total.loc['2016']['사망(명)']/ data_total.loc['2016']['사고(건)']

In [None]:
round ( data_total.loc['2016']['사망(명)'].sum()/ data_total.loc['2016']['사고(건)'].sum(), 2 )

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("ggplot")
# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm
#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

In [None]:
# 5. 2014년도 월별 사망, 부상 데이터를 그래프로 보여주시요
data_total.loc['2014'][['사망(명)','부상(명)']].plot(kind='bar') # 보기 힘들다 이중축으로 만들어 보면어떨까?  바+꺾은선
# plt.xticks(rotation=45)
# plt.plot(temp_2014.index, temp_2014)

In [None]:
data_total.loc['2016']

In [None]:
# 6. 2015년 대비  사망이 가장 많이 증가한 2016년 도 월을 구하시요
(data_total.loc['2016', '사망(명)'].values
 - data_total.loc['2015', '사망(명)'].values).argmax() # 가장 높은 값의 인덱스를 반환
# 과연 맞을까?

In [None]:
result = (data_total.loc['2016', '사망(명)'].values 
                     - data_total.loc['2015', '사망(명)'].values)
result

In [None]:
sr = pd.Series( result, index= range(1,13))
sr

In [None]:
sr.nlargest( 1, keep='all') # 상위 n개의 값을  반환,  keep (first 동등하면 첫번째것, all은 전체, )
# 5월과 6월이 해당함

In [None]:
sr.nlargest?