## <strong> 12. 시계열 데이터 생성 및 조작 </strong>

### <strong> Python 내장 모듈을 이용한 Datetime 생성
---

#### ```datetime```, ```dateutil```: 시계열 처리를 위한 Python 내장 모듈

In [4]:
from datetime import datetime

# datetime 객체 생성
t = datetime(year=2023, month=11, day=7)
t

datetime.datetime(2023, 11, 7, 0, 0)

In [5]:
# datetime 속성 접근: year
t.year

2023

In [6]:
# 문자열 파싱을 통한 날짜 해석
from dateutil import parser

date = parser.parse("7th of November, 2023")
date1 = parser.parse("11-07-2023")
print(date)
print(date1)
type(date)
date

2023-11-07 00:00:00
2023-11-07 00:00:00


datetime.datetime(2023, 11, 7, 0, 0)

#### ```strftime()```: datetime의 속성을 문자열 형태로 출력

In [8]:
# [+] 요일 출력
date.strftime('%A')

'Tuesday'

In [9]:
# [+] 월 출력, 요일 월 출력 말고도 다양함. 찾아볼 것.
date.strftime('%B')

'November'

### <strong> NumPy를 이용한 Datetime 배열 생성</strong>
---
```datetime64```: ```NumPy```에서 지원하는 datetime 클래스

In [11]:
import numpy as np

# datetime64 배열 객체 생성
dates = np.array(['2023-11-07', '2023-11-08'], dtype=np.datetime64) # 데이터 타입을 스트링에서 datetime64로 지정.
print(dates)
dates # 시간 속성을 부여.


['2023-11-07' '2023-11-08']


array(['2023-11-07', '2023-11-08'], dtype='datetime64[D]')

In [12]:
# datetime64() 메서드를 이용한 객체 생성
date = np.datetime64('2023-11-07')
date

numpy.datetime64('2023-11-07')

In [13]:
# 벡터화 연산을 통한 Datetime 배열 생성
date + np.arange(7) # [0, 1, .. 6], 일 수가 추가되는 걸 볼 수 있다.

array(['2023-11-07', '2023-11-08', '2023-11-09', '2023-11-10',
       '2023-11-11', '2023-11-12', '2023-11-13'], dtype='datetime64[D]')

In [14]:
# 분(minute) 단위의 Datetime 객체 생성, 분까지 표현 해줌.
t = np.datetime64('2023-11-07 09:30')
t

numpy.datetime64('2023-11-07T09:30')

In [15]:
# 디폴트 시간 빈도: ms , ms까지 표현 해줌.
t = np.datetime64('2023-11-07 09:44:59.99')
t

numpy.datetime64('2023-11-07T09:44:59.990')

In [16]:
# 시간 빈도를 Nanosecond로 설정, ns까지 표현해줌.
t = np.datetime64('2023-11-07 09:44:59.99', 'ns')
t

numpy.datetime64('2023-11-07T09:44:59.990000000')

In [17]:
# datetime64 코드: Y, M, D, h...
ty = np.datetime64('2022-10-18 11:39:10.20', 'Y')
tm = np.datetime64('2022-10-18 11:39:10.20', 'M')
td = np.datetime64('2022-10-18 11:39:10.20', 'D')
th = np.datetime64('2022-10-18 11:39:10.20', 'h')
print(ty)
ty

2022


numpy.datetime64('2022')

In [18]:
tm

numpy.datetime64('2022-10')

In [19]:
td

numpy.datetime64('2022-10-18')

In [20]:
print(th)
th

2022-10-18T11


numpy.datetime64('2022-10-18T11','h')

### <strong> Pandas에서의 시계열 처리</strong>
---

In [22]:
import pandas as pd

# to_datetime() 파싱 함수를 이용한 Timestamp 객체 생성 , timestamp 개체로 만들어줌.
date = pd.to_datetime("7th of November, 2023")
date
# python 내장의 datetime 모듈은 datetime 객체로 생성하고,
# numpy에서 만드는 건 datetime64 객체로 생성하고,
# pandas에서 만드는건 timestamp 객체로 생성한다.

Timestamp('2023-11-07 00:00:00')

In [23]:
# 요일 출력
date.strftime('%A')

'Tuesday'

In [24]:
# NumPy 스타일의 배열 연산
date + pd.to_timedelta(np.arange(7))

DatetimeIndex([          '2023-11-07 00:00:00',
               '2023-11-07 00:00:00.000000001',
               '2023-11-07 00:00:00.000000002',
               '2023-11-07 00:00:00.000000003',
               '2023-11-07 00:00:00.000000004',
               '2023-11-07 00:00:00.000000005',
               '2023-11-07 00:00:00.000000006'],
              dtype='datetime64[ns]', freq=None)

In [25]:
date + pd.to_timedelta(np.arange(7), unit='D')

DatetimeIndex(['2023-11-07', '2023-11-08', '2023-11-09', '2023-11-10',
               '2023-11-11', '2023-11-12', '2023-11-13'],
              dtype='datetime64[ns]', freq=None)

#### <strong> 시계열 생성

In [27]:
# DatetimeIndex 객체 생성, 인덱스를 시간 정보로 하기 위함. 아직은 인덱스로 지정 안함.
ind = pd.DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
                        '2022-10-31', '2022-11-01', '2022-11-02'])
ind

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31', '2022-11-01', '2022-11-02'],
              dtype='datetime64[ns]', freq=None)

In [28]:
# [+] 시계열 인덱싱 적용, 인덱스를 시간 정보로 지정됨.
ser = pd.Series([0,1,2,3,4,5,6], index = ind)
ser

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
2022-11-01    5
2022-11-02    6
dtype: int64

In [29]:
ser.index

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31', '2022-11-01', '2022-11-02'],
              dtype='datetime64[ns]', freq=None)

In [30]:
# [+] 인덱싱
ser['2022-10-29']

2

In [31]:
# [+] 슬라이싱 # 암묵적 인덱스가 아니기 때문에 2022-11-02까지 출력을 함.
ser['2022-10-27':'2022-11-02']

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
2022-11-01    5
2022-11-02    6
dtype: int64

In [32]:
# [+] 데이터 선택 , 시계열 데이터의 장점!
ser['2022-10']

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
dtype: int64

#### <strong> 시계열 관련 Pandas의 데이터 구조

In [34]:
# Timestamp와 DatetimeIndex , 만약 안에 들어가는게 하나였으면 timestamp가 생성됨.
dates = pd.to_datetime([datetime(2015, 7, 3),
                      "4th of July, 2015",
                      '2015-Jul-6',
                      '07-07-2015',
                      '20150708'])
# 포맷을 다르게 써서 날짜 넣어줘도 알아서 인식해줌. 날짜 해석기능이 있다.
print(dates)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)


In [35]:
# to_period(): DatetimeIndex -> PeriodIndex 변환
dates.to_period('D')

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]')

In [36]:
dates.to_period('W')

PeriodIndex(['2015-06-29/2015-07-05', '2015-06-29/2015-07-05',
             '2015-07-06/2015-07-12', '2015-07-06/2015-07-12',
             '2015-07-06/2015-07-12'],
            dtype='period[W-SUN]')

In [37]:
print(dates) # print(dates) 해보면 원형은 유지되는 걸 볼 수 있다. 따로 저장해서 쓸 수 있음.

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)


In [38]:
# [+] TimedeltaIndex 생성
print(dates)
print(dates[0])
dates - dates[0] # 전체에 '2015-07-03'을 빼면 0,1,2,3,4,5로 나오는데 그냥 days 붙여주는 거임.


DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)
2015-07-03 00:00:00


TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

In [39]:
dates - dates[1]

TimedeltaIndex(['-1 days', '0 days', '2 days', '3 days', '4 days'], dtype='timedelta64[ns]', freq=None)

#### <strong> 정규 시퀀스 </strong>

In [41]:
# [+] pd.date_range()를 이용한 정규 시퀀스 생성
pd.date_range('2021-10-27', '2021-10-31') # 짜피 타임스태프 만들어다가 인덱스로 쓰니까 객체 자체가 DatetimeIndex로 생성됨.


DatetimeIndex(['2021-10-27', '2021-10-28', '2021-10-29', '2021-10-30',
               '2021-10-31'],
              dtype='datetime64[ns]', freq='D')

In [42]:
# [+] Period 값을 이용, 위와 같은 결과가 나온다는 것을 알 수 있음.
pd.date_range('2021-10-27', periods = 5)

DatetimeIndex(['2021-10-27', '2021-10-28', '2021-10-29', '2021-10-30',
               '2021-10-31'],
              dtype='datetime64[ns]', freq='D')

In [43]:
# 빈도 변경
pd.date_range('2022-10-27', periods=12, freq='H') # 시간 단위로 12개 만듬.

DatetimeIndex(['2022-10-27 00:00:00', '2022-10-27 01:00:00',
               '2022-10-27 02:00:00', '2022-10-27 03:00:00',
               '2022-10-27 04:00:00', '2022-10-27 05:00:00',
               '2022-10-27 06:00:00', '2022-10-27 07:00:00',
               '2022-10-27 08:00:00', '2022-10-27 09:00:00',
               '2022-10-27 10:00:00', '2022-10-27 11:00:00'],
              dtype='datetime64[ns]', freq='H')

In [44]:
# pd.period_range()
pd.period_range('2015-07', periods=8, freq='M') # 월 단위로 8개 만듬.

PeriodIndex(['2015-07', '2015-08', '2015-09', '2015-10', '2015-11', '2015-12',
             '2016-01', '2016-02'],
            dtype='period[M]')

In [45]:
# Timestamp vs. Period
period = pd.Period('2022-10-27')
timestamp = pd.Timestamp('2022-10-27 09:30')

print(period.start_time < timestamp < period.end_time) # 더 과거의 시간이 작은 것. 더 미래의 시간이 큰 것으로 간주함.
 
print(period.start_time)

print(period.end_time)

True
2022-10-27 00:00:00
2022-10-27 23:59:59.999999999


In [46]:
# pd.timedelta_range()
pd.timedelta_range(0, periods=10, freq='H') # timestamp 간의 시간차를 구할때 적용이 많이 됨.

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00'],
               dtype='timedelta64[ns]', freq='H')

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |   -    |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |   -    |                      |
| ``S``  | Seconds             |   -    |                      |
| ``L``  | Milliseonds         |   -    |                      |
| ``U``  | Microseconds        |   -    |                      |
| ``N``  | nanoseconds         |   -    |                      |

#### <strong> 빈도 및 오프셋

In [49]:
# 빈도 코드
pd.date_range('2022-11-01', periods=10, freq='H')

DatetimeIndex(['2022-11-01 00:00:00', '2022-11-01 01:00:00',
               '2022-11-01 02:00:00', '2022-11-01 03:00:00',
               '2022-11-01 04:00:00', '2022-11-01 05:00:00',
               '2022-11-01 06:00:00', '2022-11-01 07:00:00',
               '2022-11-01 08:00:00', '2022-11-01 09:00:00'],
              dtype='datetime64[ns]', freq='H')

In [50]:
# 빈도, M: 월말
(pd.date_range('2022-11-01', periods=10, freq="M")) # 월별로 한걸 보면 월의 말일로 설정해서 줌.

DatetimeIndex(['2022-11-30', '2022-12-31', '2023-01-31', '2023-02-28',
               '2023-03-31', '2023-04-30', '2023-05-31', '2023-06-30',
               '2023-07-31', '2023-08-31'],
              dtype='datetime64[ns]', freq='M')

In [51]:
# 빈도, BM: 비즈니스 기준 월말, 평일 중 에서 말일로 내줌.
pd.date_range('2022-11-01', periods=10, freq="BM")

DatetimeIndex(['2022-11-30', '2022-12-30', '2023-01-31', '2023-02-28',
               '2023-03-31', '2023-04-28', '2023-05-31', '2023-06-30',
               '2023-07-31', '2023-08-31'],
              dtype='datetime64[ns]', freq='BM')

In [52]:
# 접미사 'S': 시작 일시를 기준으로 시퀀스 생성. 월초로 내줌.
pd.date_range('2022-11-01', periods=10, freq='MS')

DatetimeIndex(['2022-11-01', '2022-12-01', '2023-01-01', '2023-02-01',
               '2023-03-01', '2023-04-01', '2023-05-01', '2023-06-01',
               '2023-07-01', '2023-08-01'],
              dtype='datetime64[ns]', freq='MS')

In [53]:
# 빈도 코드 조합
pd.date_range('2022-11-01', periods=9, freq='2H30T')

DatetimeIndex(['2022-11-01 00:00:00', '2022-11-01 02:30:00',
               '2022-11-01 05:00:00', '2022-11-01 07:30:00',
               '2022-11-01 10:00:00', '2022-11-01 12:30:00',
               '2022-11-01 15:00:00', '2022-11-01 17:30:00',
               '2022-11-01 20:00:00'],
              dtype='datetime64[ns]', freq='150T')

In [54]:
# 오프셋, 기준이 되는 timestamp, 연산할때에 사용
from pandas.tseries.offsets import DateOffset
ts = pd.Timestamp('2023-11-07 09:30:00')
ts + DateOffset(hours=40)

Timestamp('2023-11-09 01:30:00')

In [55]:
ts = pd.Timestamp('2023-11-07 09:30:00')
ts + DateOffset(hours=-40)

Timestamp('2023-11-05 17:30:00')

In [56]:
#ts = pd.Timestamp('2023-11-07 09:30:00')
#ts * DateOffset(hours=40)
# 곱하기는 안된다.

In [57]:
# 오프셋(minus)
ts - DateOffset(years=73, months=4, days=12, hours=5, minutes=10, seconds=00)

Timestamp('1950-06-25 04:20:00')