시계열 데이터 생성
 - 시계열(Time Series) : 어떤 관측결과를 시간축에 따라 계열화한 데이터

# Working with Tiem Series in Python
 - pandas의 개발 목적: 금융 데이터 모델링 -> 시계열 처리 관련 기능 강력
 - 주요 개념
     - 타임스탬프: 특정 시점
     - 시간 간격: 두 시점 사이의 시간 구간
     - 기간: 특정 시작일/종료일로 표현되는 시간 구간
     - 지속기간: 시간 구간의 길이

# Representations of Time Series in Python

 - 기본 파이썬 날짜와 시간: datetime, dateutil
 - Numpy: datetimee64()
 - Pandas: to_datetime(), to_timedelta()

# Dates and Times in Native Python

 - datetime, dateutil: 시계열 처리를 위한 파이썬 내장 모듈
     - datetime 날짜 정의 -> datetime 이용
     - 문자열 파싱을 통한 날짜 해석 -> dateutil 이용
     - datetime 요일 출력 -> strftime() 이용

In [5]:
"""
Native Python dates and times
"""

from datetime import datetime

t = datetime(year =2021, month = 10, day = 28)
print(t)
print('type: ', type(t))

2021-10-28 00:00:00
type:  <class 'datetime.datetime'>


In [13]:
# Parse a date from a string

from dateutil import parser

date = parser.parse("27th of October, 2021")
print(date)

2021-10-27 00:00:00


In [15]:
# Print the day of the week

date.strftime('%A')

'Wednesday'

# Types Arrays of Times: Numpy's datetime64

 - Numpy의 datetime64: 배열 형태로 시간 처리에 유리(예: 벡터화)
     - datetime64 객체 생성: np.array() 또는 np.datetime64()
     - 벡터화 연산을 통한 시간 배열 생성
 - 시간 빈도(frequency) 설정
     - 분 단위의 datetime64
     - 시간 단위를 나노초(nanosecond)로 설정

In [24]:
"""
Types Arrays of Times: Numpy's datetime64
"""
import numpy as np

# Create datetime64 using array()
dates = np.array(['2021-10-27','2021-10-28'], dtype = np.datetime64) 
print(type(dates[0]))

# Use datetime64()
date = np.datetime64('2021-10-28')
print(date)


<class 'numpy.datetime64'>
2021-10-28


In [25]:
# We can quickly do vectorized operations on datetime64
print(date + np.arange(7)) # [0, 1, ..., 6]

['2021-10-28' '2021-10-29' '2021-10-30' '2021-10-31' '2021-11-01'
 '2021-11-02' '2021-11-03']


In [30]:
# Minite-based datetime
t = np.datetime64('2021-10-28 09:27')
print(t)

2021-10-28T09:27


In [32]:
# Nanosecond-based datetime

t = np.datetime64('2021-10-28 11:39:10.20', 'ns')
print(t)

2021-10-28T11:39:10.200000000


# Dates and Times in Pandas

 - Pandas 에서의 날짜/시간 처리
     - 사용 편의성(datetime,dateutil), 시간 배열 처리(datetime64) 기능, 시계열처리 방대한 라이브러리 제공 => 모두 제공함

In [34]:
"""
Dates and Times in Pandas
"""
import pandas as pd

# Parse a string date in pandas

dates = pd.to_datetime('27th of October, 2021')
print(dates)

2021-10-27 00:00:00


In [37]:
# Output the day of the week
day = dates.strftime('%A')
print(day)

Wednesday


In [39]:
# Numpy - Style vectorized operations

print(date + pd.to_timedelta(np.arange(7)))

DatetimeIndex([          '2021-10-28 00:00:00',
               '2021-10-28 00:00:00.000000001',
               '2021-10-28 00:00:00.000000002',
               '2021-10-28 00:00:00.000000003',
               '2021-10-28 00:00:00.000000004',
               '2021-10-28 00:00:00.000000005',
               '2021-10-28 00:00:00.000000006'],
              dtype='datetime64[ns]', freq=None)


In [43]:
"""
Pandas Time Series : Indexing by Time -> 타임스탬프를 인덱스로 사용하기
"""

ind = pd.DatetimeIndex(['2021-10-27','2021-10-28','2021-10-29','2021-10-30','2021-10-31','2021-11-01','2021-11-02'])
print(ind)

ser = pd.Series([0,1,2,3,4,5,6], index = ind)
print(ser)

# Indexing by timestamps
ser['2021-10-27':'2021-10-31']


DatetimeIndex(['2021-10-27', '2021-10-28', '2021-10-29', '2021-10-30',
               '2021-10-31', '2021-11-01', '2021-11-02'],
              dtype='datetime64[ns]', freq=None)
2021-10-27    0
2021-10-28    1
2021-10-29    2
2021-10-30    3
2021-10-31    4
2021-11-01    5
2021-11-02    6
dtype: int64


2021-10-27    0
2021-10-28    1
2021-10-29    2
2021-10-30    3
2021-10-31    4
dtype: int64

In [47]:
# Indexing patterns
print('2021년 10월 자 :' , '\n', ser['2021-10'])
print(ser['2021'])

2021년 10월 자 : 
 2021-10-27    0
2021-10-28    1
2021-10-29    2
2021-10-30    3
2021-10-31    4
dtype: int64
2021-10-27    0
2021-10-28    1
2021-10-29    2
2021-10-30    3
2021-10-31    4
2021-11-01    5
2021-11-02    6
dtype: int64


# Time Series Date Structures

 - 시계열 데이터를 위한 pandas 데이터 구조
     - 타임스탬프 : Timestamp, DatetimeIndex
     - 기간: period, PeriodIndex
     - 지속기간: Timedelta, TimedeltaIndex

In [48]:
"""
Pandas Time Series Date Structures
"""

# Timestamp and DatetimeIndex
dates = pd.to_datetime([datetime(2015, 7, 3),
                       "4th of July, 2015",
                       "2015-July-6",
                       "07-07-2015",
                       "20150708"])
print(dates)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)


In [50]:
# DatetimeIndex -> periodIndex with to_period()

print(dates.to_period('D'))
print(dates.to_period('W'))

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]', freq='D')
PeriodIndex(['2015-06-29/2015-07-05', '2015-06-29/2015-07-05',
             '2015-07-06/2015-07-12', '2015-07-06/2015-07-12',
             '2015-07-06/2015-07-12'],
            dtype='period[W-SUN]', freq='W-SUN')


In [51]:
# TimedeltaIndex

dates - dates[0]


TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

# Regular Sequences

 - Q: 만약 타임스탬프 없이 값으로면 구성된 데이터를 분석해야 된다면?
 
 - 빈도 기반으로 정규 시퀀스 생성하기
     - 타임스탬프: pd.date_range()
     - 기간: pd.period_range()
     - 지속기간: pd.timedelta_range()

In [52]:
"""
Regular Sequences
"""

# pd.date_range(), default freq : day
pd.date_range('2021-10-27','2021-10-31')

DatetimeIndex(['2021-10-27', '2021-10-28', '2021-10-29', '2021-10-30',
               '2021-10-31'],
              dtype='datetime64[ns]', freq='D')

In [56]:
# Use startpoint and num of periods
pd.date_range('2021-10-27',periods = 5)

DatetimeIndex(['2021-10-27', '2021-10-28', '2021-10-29', '2021-10-30',
               '2021-10-31'],
              dtype='datetime64[ns]', freq='D')

In [61]:
# Change the frequency
pd.date_range('2021-10-27',periods = 12, freq = 'H') # -> hourly time Series

DatetimeIndex(['2021-10-27 00:00:00', '2021-10-27 01:00:00',
               '2021-10-27 02:00:00', '2021-10-27 03:00:00',
               '2021-10-27 04:00:00', '2021-10-27 05:00:00',
               '2021-10-27 06:00:00', '2021-10-27 07:00:00',
               '2021-10-27 08:00:00', '2021-10-27 09:00:00',
               '2021-10-27 10:00:00', '2021-10-27 11:00:00'],
              dtype='datetime64[ns]', freq='H')