# 시계열( Time Series) 데이터 다루기

- Pandas 는 금융 모델링을 위해 개발됨
- 날짜, 시간, 시간인덱스를 가진 데이터를 다루는데 다양한 도구를 가짐 
- 시간 데이터 종류 
  - 타임 스탬프(Time Stamps) : 특정 시점 (2000년 1월 1일)
  - 시간 간격(Time intervals)과 기간 (Periods) : 특정 시작점과 종료점 사이의 시간의 길이 
  - 시간 델타(Time delta)나 지속 기간(duration) : 정확한 시간 길이 (... 초, ... 분)

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)
print("seaborn : ",sns.__version__)

import pandas as pd
import numpy as np

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

pandas ver :  0.24.2
numpy ver :  1.16.4
seaborn :  0.9.0


### [ 파이썬 날짜와 시간]
- datetime : 기본 내장 모듈
- dateutil : 3rt Party 모듈

In [2]:
from datetime import datetime
datetime(year=2020, month=1, day=1)

datetime.datetime(2020, 1, 1, 0, 0)

In [3]:
from dateutil import parser
date = parser.parse("1th of January, 2020")
date

datetime.datetime(2020, 1, 1, 0, 0)

In [4]:
date2 = parser.parse("2021-01-01")
date2

datetime.datetime(2021, 1, 1, 0, 0)

### [타입이 지정된 시간 배열]
- datetime64 : numpy 제공 기본 시계열 데이터 타입
- DOC : https://docs.scipy.org/doc/numpy/reference/arrays.datetime.html?highlight=datetime64


In [5]:
np.typeDict['datetime64']

numpy.datetime64

In [6]:
np_date = np.array('2000-01-02', dtype=np.datetime64)
print(np_date)
print(type(np_date))
print(np_date.shape)

2000-01-02
<class 'numpy.ndarray'>
()


- 입력되는 날짜 데이터는 구체적인 입력 형식을 가짐 

In [7]:
np_date + np.arange(12)

array(['2000-01-02', '2000-01-03', '2000-01-04', '2000-01-05',
       '2000-01-06', '2000-01-07', '2000-01-08', '2000-01-09',
       '2000-01-10', '2000-01-11', '2000-01-12', '2000-01-13'],
      dtype='datetime64[D]')

- python datetime 객체를 사용하는 것 보다 Numpy datetime64 배열을 가지고 작업하는 것이 처리속도가 빠름

### [Pandas 날짜와 시간]
- datetime, dateutil, numpy.datetime64를 결합한 Timestamp 객체 그룹을 제공

- **to_datetime**
  - `pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)`

- **to_timedelta()**
  - `pandas.to_timedelta(arg, unit='ns', box=True, errors='raise')`
    - unit = ‘Y’, ‘M’, ‘W’, ‘D’, ‘days’, ‘day’, ‘hours’, hour’, ‘hr’, ‘h’, ‘m’, ‘minute’, ‘min’, ‘minutes’, ‘T’, ‘S’, ‘seconds’, ‘sec’, ‘second’, ‘ms’, ‘milliseconds’, ‘millisecond’, ‘milli’, ‘millis’, ‘L’, ‘us’, ‘microseconds’, ‘microsecond’, ‘micro’, ‘micros’, ‘U’, ‘ns’, ‘nanoseconds’, ‘nano’, ‘nanos’, ‘nanosecond’, ‘N’

In [8]:
pd_date = pd.to_datetime("1th of Jan, 2000")

print(pd_date)
print(type(pd_date))

2000-01-01 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [9]:
pd_date

Timestamp('2000-01-01 00:00:00')

In [10]:
pd_date.strftime('%A')

'Saturday'

In [11]:
pd_date + pd.to_timedelta(np.arange(12),'D')

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
               '2000-01-05', '2000-01-06', '2000-01-07', '2000-01-08',
               '2000-01-09', '2000-01-10', '2000-01-11', '2000-01-12'],
              dtype='datetime64[ns]', freq=None)

### [Pandas 시계열 - 시간으로 인덱싱]
- 날짜 인덱스를 사용하여 인덱싱 

In [12]:
index = pd.DatetimeIndex(['2014-07-04', '2014-08-04',
                          '2015-07-04', '2015-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

2014-07-04    0
2014-08-04    1
2015-07-04    2
2015-08-04    3
dtype: int64

In [13]:
data['2014-07-01':'2014-12-31']

2014-07-04    0
2014-08-04    1
dtype: int64

In [14]:
data['2015']

2015-07-04    2
2015-08-04    3
dtype: int64

### [Pandas 시계열 데이터 구조]
- 타임 스탬프(Time Stamps) : 특정 시점 (2000년 1월 1일)
  - 인덱스 구조는 **`DatetimeIndex`** : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html
- 시간 간격(Time intervals)과 기간 (Periods) : 특정 시작점과 종료점 사이의 시간의 길이 
  - 인덱스 구조는 **`PeriodIndex`** : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.PeriodIndex.html
- 시간 델타(Time delta)나 지속 기간(duration) : 정확한 시간 길이 (... 초, ... 분)
  - 인덱스 구조는 **`TimedeltaIndex`** : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.TimedeltaIndex.html

In [15]:
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                       '2015-Jul-6', '07-07-2015', '20150708'])
dates

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)

In [16]:
dates.to_period('D')

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]', freq='D')

In [17]:
dates - dates[0]

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

In [18]:
dates.to_period('M')

PeriodIndex(['2015-07', '2015-07', '2015-07', '2015-07', '2015-07'], dtype='period[M]', freq='M')

### [정규 시퀀스]
- 날짜 시퀀스를 편리하게 만들 수 있도록 함수 제공
- **pd.date_range()**
  - `pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)`
- **pd.period_range()**
  - `pandas.period_range(start=None, end=None, periods=None, freq=None, name=None)`
- **pd.timedelta_range()**
  - `pandas.timedelta_range(start=None, end=None, periods=None, freq=None, name=None, closed=None)`
---
- 시계열 데이터와 함께 사용
- **pd.interval_range()**
  - `pandas.interval_range(start=None, end=None, periods=None, freq=None, name=None, closed='right')`

In [19]:
pd.date_range('2015-07-03', '2015-07-10')

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')

In [20]:
pd.date_range('2015-07-03', periods=8)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')

In [21]:
pd.date_range('2015-07-03', periods=8, freq='H')

DatetimeIndex(['2015-07-03 00:00:00', '2015-07-03 01:00:00',
               '2015-07-03 02:00:00', '2015-07-03 03:00:00',
               '2015-07-03 04:00:00', '2015-07-03 05:00:00',
               '2015-07-03 06:00:00', '2015-07-03 07:00:00'],
              dtype='datetime64[ns]', freq='H')

In [22]:
pd.timedelta_range(0, periods=10, freq='H')

TimedeltaIndex(['00:00:00', '01:00:00', '02:00:00', '03:00:00', '04:00:00',
                '05:00:00', '06:00:00', '07:00:00', '08:00:00', '09:00:00'],
               dtype='timedelta64[ns]', freq='H')

In [23]:
pd.interval_range(start=pd.Timestamp('2017-01-01'), periods=3, freq='MS')

IntervalIndex([(2017-01-01, 2017-02-01], (2017-02-01, 2017-03-01], (2017-03-01, 2017-04-01]],
              closed='right',
              dtype='interval[datetime64[ns]]')

### [주기와 오프셋]


| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |        |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |        |                      |
| ``S``  | Seconds             |        |                      |
| ``L``  | Milliseonds         |        |                      |
| ``U``  | Microseconds        |        |                      |
| ``N``  | nanoseconds         |        |                      |


| Code    | Description            | Code    | Description            |
|---------|------------------------|---------|------------------------|
| ``MS``  | Month start            |``BMS``  | Business month start   |
| ``QS``  | Quarter start          |``BQS``  | Business quarter start |
| ``AS``  | Year start             |``BAS``  | Business year start    |

In [24]:
pd.timedelta_range(0, periods=9, freq="2H30T")

TimedeltaIndex(['00:00:00', '02:30:00', '05:00:00', '07:30:00', '10:00:00',
                '12:30:00', '15:00:00', '17:30:00', '20:00:00'],
               dtype='timedelta64[ns]', freq='150T')