## <strong> 12. 시계열 데이터 생성 및 조작 </strong>

### <strong> Python 내장 모듈을 이용한 Datetime 생성
---

#### ```datetime```, ```dateutil```: 시계열 처리를 위한 Python 내장 모듈

In [None]:
from datetime import datetime

# datetime 객체 생성
t = datetime(year=2023, month=11, day=7)
t

In [None]:
# datetime 속성 접근: year
t.year

In [None]:
# 문자열 파싱을 통한 날짜 해석
from dateutil import parser

date = parser.parse("7th of November, 2023")
date

#### ```strftime()```: datetime의 속성을 문자열 형태로 출력

In [None]:
# [+] 요일 출력
date.strftime('%A')

In [None]:
# [+] 월 출력
date.strftime('%B')) 

### <strong> NumPy를 이용한 Datetime 배열 생성</strong>
---
```datetime64```: ```NumPy```에서 지원하는 datetime 클래스

In [None]:
import numpy as np

# datetime64 배열 객체 생성
dates = np.array(['2023-11-07', '2023-11-08'], dtype=np.datetime64)
dates

In [None]:
# datetime64() 메서드를 이용한 객체 생성
date = np.datetime64('2023-11-07')
date

In [None]:
# 벡터화 연산을 통한 Datetime 배열 생성
date + np.arange(7) # [0, 1, .. 6]

In [None]:
# 분(minute) 단위의 Datetime 객체 생성
t = np.datetime64('2023-11-07 09:30')
t

In [None]:
# 디폴트 시간 빈도: ms
t = np.datetime64('2023-11-07 09:44:59.99')
t

In [None]:
# 시간 빈도를 Nanosecond로 설정
t = np.datetime64('2023-11-07 09:44:59.99', 'ns')
t

In [None]:
# datetime64 코드: Y, M, D, h...
t = np.datetime64('2022-10-18 11:39:10.20', 'Y')
t

### <strong> Pandas에서의 시계열 처리</strong>
---

In [None]:
import pandas as pd

# to_datetime() 파싱 함수를 이용한 Timestamp 객체 생성
date = pd.to_datetime("7th of November, 2023")
date

In [None]:
# 요일 출력
date.strftime('%A')

In [None]:
# NumPy 스타일의 배열 연산
date + pd.to_timedelta(np.arange(7))

In [None]:
date + pd.to_timedelta(np.arange(7), unit='D')

#### <strong> 시계열 생성

In [None]:
# DatetimeIndex 객체 생성
ind = pd.DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
                        '2022-10-31', '2022-11-01', '2022-11-02'])
ind

In [None]:
# [+] 시계열 인덱싱 적용
ser = ...
ser

In [None]:
ser.index

In [None]:
# [+] 인덱싱
...

In [None]:
# [+] 슬라이싱
...

In [None]:
# [+] 데이터 선택
...

#### <strong> 시계열 관련 Pandas의 데이터 구조

In [None]:
# Timestamp와 DatetimeIndex
dates = pd.to_datetime([datetime(2015, 7, 3),
                      "4th of July, 2015",
                      '2015-Jul-6',
                      '07-07-2015',
                      '20150708'])
print(dates)

In [None]:
# to_period(): DatetimeIndex -> PeriodIndex 변환
dates.to_period('D')
dates.to_period('W')

In [None]:
# [+] TimedeltaIndex 생성
...

#### <strong> 정규 시퀀스 </strong>

In [None]:
# [+] pd.date_range()를 이용한 정규 시퀀스 생성
...

In [None]:
# [+] Period 값을 이용
...

In [None]:
# 빈도 변경
pd.date_range('2022-10-27', periods=12, freq='H')

In [None]:
# pd.period_range()
pd.period_range('2015-07', periods=8, freq='M')

In [None]:
# Timestamp vs. Period
period = pd.Period('2022-10-27')
timestamp = pd.Timestamp('2022-10-27 09:30')

print(period.start_time < timestamp < period.end_time)

print(period.start_time)

print(period.end_time)

In [None]:
# pd.timedelta_range()
pd.timedelta_range(0, periods=10, freq='H')

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |   -    |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |   -    |                      |
| ``S``  | Seconds             |   -    |                      |
| ``L``  | Milliseonds         |   -    |                      |
| ``U``  | Microseconds        |   -    |                      |
| ``N``  | nanoseconds         |   -    |                      |

#### <strong> 빈도 및 오프셋

In [None]:
# 빈도 코드
pd.date_range('2022-11-01', periods=10, freq='H')

In [None]:
# 빈도, M: 월말
(pd.date_range('2022-11-01', periods=10, freq="M"))

In [None]:
# 빈도, BM: 비즈니스 기준 월말
pd.date_range('2022-11-01', periods=10, freq="BM")

In [None]:
# 접미사 'S': 시작 일시를 기준으로 시퀀스 생성
pd.date_range('2022-11-01', periods=10, freq='MS')

In [None]:
# 빈도 코드 조합
pd.date_range('2022-11-01', periods=9, freq='2H30T')

In [None]:
# 오프셋
from pandas.tseries.offsets import DateOffset
ts = pd.Timestamp('2023-11-07 09:30:00')
ts + DateOffset(hours=40)

In [None]:
# 오프셋(minus)
ts - DateOffset(years=73, months=4, days=12, hours=5, minutes=10, seconds=00)