## **12. 시계열 데이터**

> ### 12 - 1 datetime 오브젝트
> ---

* datetime 라이브러리: 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리
    * date 오브젝트: 날짜 처리
    * time 오브젝트: 시간 처리
    * datetime 오브젝트: 날짜와 시간을 모두 처리

#### *datetime 오브젝트 사용하기*
1. datetime 라이브러리를 불러온다.

In [1]:
from datetime import datetime

2. `now`, `today` 메서드를 사용하여 현재 시간을 출력할 수 있다.

In [2]:
## 현재 시간 출력

now1 = datetime.now()
print(now1)

now2 = datetime.today()
print(now2)

2022-04-09 10:27:07.389760
2022-04-09 10:27:07.391051


3. datetime 오브젝트를 생성할 때 시간을 직접 입력하여 인자로 전달해 각 변수를 출력할 수 있다.

In [3]:
## 시간을 직접 인자로 전달

t1 = datetime.now()
t2 = datetime(1970, 1, 1)
t3 = datetime(1970, 12, 12, 13, 24, 34)

print(t1)
print(t2)
print(t3)

2022-04-09 10:27:09.101204
1970-01-01 00:00:00
1970-12-12 13:24:34


4. datetime 오브젝트를 사용하여 시간 계산을 할 수 있다.

In [4]:
## 두 datetime 오브젝트의 차이를 구함

diff1 = t1 - t2
print(diff1)
print(type(diff1))

diff2 = t2 - t1
print(diff2)
print(type(diff2))

19091 days, 10:27:09.101204
<class 'datetime.timedelta'>
-19092 days, 13:32:50.898796
<class 'datetime.timedelta'>


#### *테슬라 주식 데이터로 시간 계산하기*

1. 테슬라 주식 데이터 내려받는다.
* **`get_data_quanal`** 메서드에 TSLA라는 문자열을 전달하여 테슬라의 주식 데이터를 내려받음
* **`to_csv`** 메서드를 사용하여 data 폴더 안에 'tesla_stock_quandl.csv'라는 이름으로 저장



In [5]:
!pip install pandas-datareader



In [6]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [7]:
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader as pdr

# tesla에 데이터프레임 저장
tesla = pdr.get_data_quandl('TSLA', api_key = 'Phxx_ez-sYDE9vhMheqz')

# tesla에 저장된 데이터프레임을 파일로 저장
tesla.to_csv('/content/drive/MyDrive/ESAA/data/tesla_stock_quandl.csv')

2. tesla 데이터프레임을 확인한다.
* tesla 데이터프레임의 Date 열은 문자열로 저장되어 있어 datetime 오브젝트로 자료형을 변환해야 시간 계산 가능.

In [8]:
print(tesla.head())

              Open    High     Low   Close      Volume  ExDividend  \
Date                                                                 
2018-03-27  304.00  304.27  277.18  279.18  13696168.0         0.0   
2018-03-26  307.34  307.59  291.36  304.18   8324639.0         0.0   
2018-03-23  311.25  311.61  300.45  301.54   6600538.0         0.0   
2018-03-22  313.89  318.82  308.18  309.10   4914307.0         0.0   
2018-03-21  310.25  322.44  310.19  316.53   5927881.0         0.0   

            SplitRatio  AdjOpen  AdjHigh  AdjLow  AdjClose   AdjVolume  
Date                                                                    
2018-03-27         1.0   304.00   304.27  277.18    279.18  13696168.0  
2018-03-26         1.0   307.34   307.59  291.36    304.18   8324639.0  
2018-03-23         1.0   311.25   311.61  300.45    301.54   6600538.0  
2018-03-22         1.0   313.89   318.82  308.18    309.10   4914307.0  
2018-03-21         1.0   310.25   322.44  310.19    316.53   5927881.0 

3. Date 열을 Datetime 형으로 변환한다.
* `read_csv` 메서드로 데이터 집합(tesla_stock_quandl.csv)을 불러올 때 **`parse_dates`** 인자에 Date 열을 전달


In [9]:
tesla = pd.read_csv('/content/drive/MyDrive/ESAA/data/tesla_stock_quandl.csv', parse_dates=[0])
print(tesla.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 242 entries, 0 to 241
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Date        242 non-null    datetime64[ns]
 1   Open        242 non-null    float64       
 2   High        242 non-null    float64       
 3   Low         242 non-null    float64       
 4   Close       242 non-null    float64       
 5   Volume      242 non-null    float64       
 6   ExDividend  242 non-null    float64       
 7   SplitRatio  242 non-null    float64       
 8   AdjOpen     242 non-null    float64       
 9   AdjHigh     242 non-null    float64       
 10  AdjLow      242 non-null    float64       
 11  AdjClose    242 non-null    float64       
 12  AdjVolume   242 non-null    float64       
dtypes: datetime64[ns](1), float64(12)
memory usage: 24.7 KB
None


4. `dt` 접근자를 사용하여 일부 데이터 추출한다.
* Date 열의 자료형이 datetime 오브젝트로 변환되어 `dt` 접근자를 사용할 수 있게 됨
* 불린 추출로 2010년 6월의 데이터만 추출

In [10]:
print(tesla.loc[(tesla.Date.dt.year == 2010) % (tesla.Date.dt.month == 6)])

         Date   Open    High     Low   Close      Volume  ExDividend  \
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
..        ...    ...     ...     ...     ...         ...         ...   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   
0  2018-03-27  304.0  304.27  277.18  279.18  13696168.0         0.0   

    SplitRatio  AdjOpen  AdjHigh  AdjLow  AdjClose   AdjVolume  
0          1.0    304.0   304.27  277.18    279.18  13696168.0  
0    

> #### **datetime 오브젝트와 인덱스 - DatetimeIndex**

datetime 오브젝트를 데이터프레임의 인덱스로 설정하면 원하는 시간의 데이터를 바로 추출할 수 있어 편리하다.

#### *datetime 오브젝트를 인덱스로 설정해 데이터 추출하기*

1. Date 열을 tesla 데이터프레임의 **인덱스로 지정**한다.

In [11]:
tesla.index = tesla['Date']
print(tesla.index)

DatetimeIndex(['2018-03-27', '2018-03-26', '2018-03-23', '2018-03-22',
               '2018-03-21', '2018-03-20', '2018-03-19', '2018-03-16',
               '2018-03-15', '2018-03-14',
               ...
               '2017-04-24', '2017-04-21', '2017-04-20', '2017-04-19',
               '2017-04-18', '2017-04-17', '2017-04-13', '2017-04-12',
               '2017-04-11', '2017-04-10'],
              dtype='datetime64[ns]', name='Date', length=242, freq=None)


2. 원하는 시간의 데이터를 바로 추출한다.

In [12]:
## 2015년의 데이터 추출
print(tesla['2018'].iloc[:5, :5])

                 Date    Open    High     Low   Close
Date                                                 
2018-03-27 2018-03-27  304.00  304.27  277.18  279.18
2018-03-26 2018-03-26  307.34  307.59  291.36  304.18
2018-03-23 2018-03-23  311.25  311.61  300.45  301.54
2018-03-22 2018-03-22  313.89  318.82  308.18  309.10
2018-03-21 2018-03-21  310.25  322.44  310.19  316.53


  


In [13]:
## 2018년 1월의 데이터 추출
print(tesla['2018-01'].iloc[:,:5])

                 Date    Open      High      Low     Close
Date                                                      
2018-01-31 2018-01-31  347.51  356.1900  345.190  354.4200
2018-01-30 2018-01-30  345.14  348.2700  342.170  345.8200
2018-01-29 2018-01-29  339.85  350.8500  338.280  349.5300
2018-01-26 2018-01-26  341.50  344.0000  335.710  342.8500
2018-01-25 2018-01-25  348.27  349.2000  336.400  337.6400
2018-01-24 2018-01-24  354.58  354.7500  343.520  345.7404
2018-01-23 2018-01-23  360.00  360.5000  351.000  352.7900
2018-01-22 2018-01-22  349.40  357.8300  349.200  351.5600
2018-01-19 2018-01-19  345.00  350.5899  342.600  350.0200
2018-01-18 2018-01-18  345.67  352.3000  343.740  344.5700
2018-01-17 2018-01-17  340.47  349.0000  339.750  347.1600
2018-01-16 2018-01-16  337.54  345.0000  334.800  340.0600
2018-01-12 2018-01-12  338.63  340.4100  333.670  336.2200
2018-01-11 2018-01-11  335.24  344.8099  333.260  337.9500
2018-01-10 2018-01-10  332.20  337.0000  330.000  334.80

  


> #### **시간 간격과 인덱스 - TimedeltaIndex**

#### *시간 간격을 인덱스로 지정해 데이터 추출하기*

1. **데이터를 수집한 이후에 시간이 얼마나 흘렀는지** 알기 위해 Date 열에서 Date 열의 최솟값을 뺀 다음 ref_date 열로 추가한다.

In [14]:
tesla['ref_date'] = tesla['Date'] - tesla['Date'].min()
print(tesla.head())

                 Date    Open    High     Low   Close      Volume  ExDividend  \
Date                                                                            
2018-03-27 2018-03-27  304.00  304.27  277.18  279.18  13696168.0         0.0   
2018-03-26 2018-03-26  307.34  307.59  291.36  304.18   8324639.0         0.0   
2018-03-23 2018-03-23  311.25  311.61  300.45  301.54   6600538.0         0.0   
2018-03-22 2018-03-22  313.89  318.82  308.18  309.10   4914307.0         0.0   
2018-03-21 2018-03-21  310.25  322.44  310.19  316.53   5927881.0         0.0   

            SplitRatio  AdjOpen  AdjHigh  AdjLow  AdjClose   AdjVolume  \
Date                                                                     
2018-03-27         1.0   304.00   304.27  277.18    279.18  13696168.0   
2018-03-26         1.0   307.34   307.59  291.36    304.18   8324639.0   
2018-03-23         1.0   311.25   311.61  300.45    301.54   6600538.0   
2018-03-22         1.0   313.89   318.82  308.18    309.10   4

2. ref_date 열을 **인덱스로 지정**하여 시간 간격(ref_date)을 이용해 데이터를 추출할 수 있다.

In [15]:
tesla.index = tesla['ref_date']
print(tesla.iloc[:5,:5])

               Date    Open    High     Low   Close
ref_date                                           
351 days 2018-03-27  304.00  304.27  277.18  279.18
350 days 2018-03-26  307.34  307.59  291.36  304.18
347 days 2018-03-23  311.25  311.61  300.45  301.54
346 days 2018-03-22  313.89  318.82  308.18  309.10
345 days 2018-03-21  310.25  322.44  310.19  316.53


In [16]:
## 데이터 수집한 이후 최초 5일의 데이터 추출
print(tesla['5 days':].iloc[:5,:5])

               Date    Open      High     Low   Close
ref_date                                             
3 days   2017-04-13  296.70  307.3900  295.30  304.00
2 days   2017-04-12  306.34  308.4481  296.32  296.84
1 days   2017-04-11  313.38  313.4700  305.50  308.71
0 days   2017-04-10  309.15  313.7299  308.71  312.39


> #### **시간 범위와 인덱스**

특정 일에 누락된 데이터도 포함시켜 데이터를 살펴보기 위해 임의로 시간 범위를 생성하여 인덱스로 지정한다.

#### *시간 범위 생성해 인덱스로 지정하기*

1. 에볼라 데이터 살펴보기
    * 가장 앞쪽의 데이터 살펴보면 2015년 01월 01일의 데이터 누락됨
    * 뒤쪽의 데이터에서도 2014년 03월 23일의 데이터 누락됨

In [17]:
import pandas as pd
import os

ebola = pd.read_csv('/content/drive/MyDrive/ESAA/data/country_timeseries.csv', parse_dates=[0])

In [18]:
print(ebola.iloc[:5,:5])

        Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0 2015-01-05  289        2776.0            NaN            10030.0
1 2015-01-04  288        2775.0            NaN             9780.0
2 2015-01-03  287        2769.0         8166.0             9722.0
3 2015-01-02  286           NaN         8157.0                NaN
4 2014-12-31  284        2730.0         8115.0             9633.0


In [19]:
print(ebola.iloc[:-5,:5])

          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0   2015-01-05  289        2776.0            NaN            10030.0
1   2015-01-04  288        2775.0            NaN             9780.0
2   2015-01-03  287        2769.0         8166.0             9722.0
3   2015-01-02  286           NaN         8157.0                NaN
4   2014-12-31  284        2730.0         8115.0             9633.0
..         ...  ...           ...            ...                ...
112 2014-04-04   13         143.0           18.0                2.0
113 2014-04-01   10         127.0            8.0                2.0
114 2014-03-31    9         122.0            8.0                2.0
115 2014-03-29    7         112.0            7.0                NaN
116 2014-03-28    6         112.0            3.0                2.0

[117 rows x 5 columns]


2. **`date_range`** 메서드를 사용하여 시간 인덱스(DatetimeIndex)를 생성한다.
    * 2014년 12월 31일부터 2015년 01월 05일 사이의 시간 인덱스

In [20]:
head_range = pd.date_range(start='2014-12-31', end='2015-01-05')
print(head_range)

DatetimeIndex(['2014-12-31', '2015-01-01', '2015-01-02', '2015-01-03',
               '2015-01-04', '2015-01-05'],
              dtype='datetime64[ns]', freq='D')


3. 원본 데이터를 손상시키는 것을 방지하기 위해 새로운 데이터프레임을 만든다.
    * ebola 데이터프레임의 앞쪽 5개의 데이터 추출하여 새로운 데이터프레임 생성
    * 반드시 Date 열을 인덱스로 지정한 다음 생성한 시간 범위를 인덱스로 지정

In [21]:
ebola_5 = ebola.head()
ebola_5.index = ebola_5['Date']
ebola_5.reindex(head_range)
print(ebola_5.iloc[:5,:5])

                 Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
Date                                                                      
2015-01-05 2015-01-05  289        2776.0            NaN            10030.0
2015-01-04 2015-01-04  288        2775.0            NaN             9780.0
2015-01-03 2015-01-03  287        2769.0         8166.0             9722.0
2015-01-02 2015-01-02  286           NaN         8157.0                NaN
2014-12-31 2014-12-31  284        2730.0         8115.0             9633.0


* 시간 범위의 주기 설정하기
    * 시간 범위를 인덱스로 지정하면 DatetimeIndex 자료형이 만들어지고 이 안에는 freq 속성이 포함되어 있음
    * freq 속성값을 지정하면 시간 간격을 조절하여 DatetimeIndex 생성 가능  

    * freq 속성값으로 사용할 수 있는 시간 주기


|시간 주기|설명|
|---|---|
|B|평일만 포함|
|C|사용자가 정의한 평일만 포함|
|D|달력 일자 단위|
|W|주간 단위|
|M|월 마지막 날만 포함|
|SM|15일과 월 마지막 날만 포함|
|BM|M 주기의 값이 휴일이면 제외하고 평일만 포함|
|CBM|BM에 사용자 정의 평일을 적용|
|MS|월 시작일만 포함|
|SMS|월 시작일과 15일만 포함|
|BMS|MS 주기의 값이 휴일이면 제외하고 평일만 포함|
|CBMS|BMS에 사용자 정의 평일을 적용|
|Q|3,6,9,12월 분기 마지막 날만 포함|
|BQ|3,6,9,12월 분기 마지막 날이 휴일이면 제외하고 평일만 포함|
|QS|3,6,9,12월 분기 시작일만 포함|
|BQS|3,6,9,12월 분기 시작이 휴일이면 제외하고 평일만 포함|
|A|년의 마지막 날만 포함|
|BA|년의 마지막 날이 휴일이면 제외하고 평일만 포함|
|AS|년의 시작일만 포함|
|BAS|년의 시작일이 휴일이면 제외하고 평일만 포함|
|BH|평일을 시간 단위로 포함(09:00 ~ 16:00)|
|H|시간 단위로 포함(00:00 ~ 00:00)|