## <strong> 10. 시계열 데이터 생성 및 조작 </strong>

### <strong> Python 내장 모듈을 이용한 Datetime 생성
---

#### ```datetime```, ```dateutil```: 시계열 처리를 위한 Python 내장 모듈

In [1]:
from datetime import datetime

# datetime 객체 생성
t = datetime(year=2025, month=5, day=7) #인자 값으로 연도, 월, 일 
t

datetime.datetime(2025, 5, 7, 0, 0)

In [2]:
# datetime 속성 접근: year
pritn(t.year)
print(t.month)
print(t.day)

2025

In [3]:
# 문자열 파싱을 통한 날짜 해석
from dateutil import parser
# 2024-11-05, 11-05, 2024
date = parser.parse("7th of May, 2025") #parser를 이용
# date = parser.parse("05-07-2025")

date

datetime.datetime(2025, 5, 7, 0, 0)

#### ```strftime()```: datetime의 속성을 문자열 형태로 출력

In [5]:
# [+] 요일 출력
date.strftime('%A')

'Wednesday'

In [7]:
# [+] 월 출력
date.strftime('%B')

'May'

### <strong> NumPy를 이용한 Datetime 배열 생성</strong>
---
```datetime64```: ```NumPy```에서 지원하는 datetime 클래스

In [8]:
import numpy as np

# datetime64 배열 객체 생성, 시간 데이터의 대규모 처리 제공
dates = np.array(['2025-05-07', '2025-05-08'], dtype=np.datetime64) #dtapye을 통해서 데이터 타입을 정함(datetime64)
dates

array(['2025-05-07', '2025-05-08'], dtype='datetime64[D]')

In [10]:
# datetime64() 메서드를 이용한 객체 생성
date = np.datetime64('2025-05-01')
date

numpy.datetime64('2025-05-01')

In [11]:
# 벡터화 연산을 통한 Datetime 배열 생성
date + np.arange(31) # [0, 1, .. 30]

array(['2025-05-01', '2025-05-02', '2025-05-03', '2025-05-04',
       '2025-05-05', '2025-05-06', '2025-05-07', '2025-05-08',
       '2025-05-09', '2025-05-10', '2025-05-11', '2025-05-12',
       '2025-05-13', '2025-05-14', '2025-05-15', '2025-05-16',
       '2025-05-17', '2025-05-18', '2025-05-19', '2025-05-20',
       '2025-05-21', '2025-05-22', '2025-05-23', '2025-05-24',
       '2025-05-25', '2025-05-26', '2025-05-27', '2025-05-28',
       '2025-05-29', '2025-05-30', '2025-05-31'], dtype='datetime64[D]')

In [13]:
# 분(minute) 단위의 Datetime 객체 생성
t = np.datetime64('2025-05-07 14:30')
t

numpy.datetime64('2025-05-07T14:30')

In [14]:
# 디폴트 시간 빈도: ms
t = np.datetime64('2025-05-07 14:30:59.99')
t

numpy.datetime64('2025-05-07T14:30:59.990')

In [15]:
# 시간 빈도를 Nanosecond로 설정
t = np.datetime64('2025-05-07 14:30:59.99', 'ns')
t

numpy.datetime64('2025-05-07T14:30:59.990000000')

In [16]:
# datetime64 코드: Y, M, D, h...
t = np.datetime64('2025-05-07 14:30:59.99', 'M')
t

numpy.datetime64('2025-05')

### <strong> Pandas에서의 시계열 처리</strong>
---

In [19]:
import pandas as pd

# [+] to_datetime() 함수를 이용한 Timestamp 객체 생성 
date = pd.to_datetime("2001-05-14") # 본인 생일로 입력
date

Timestamp('2001-05-14 00:00:00')

In [22]:
# [+] 요일 출력
date.strftime("%A") #요일 출력

'Monday'

In [24]:
# NumPy 스타일의 배열 연산, timedelta는 나노초 단위로 시간차에 따른 배열을 만들어줌
date + pd.to_timedelta(np.arange(7))

DatetimeIndex([          '2001-05-14 00:00:00',
               '2001-05-14 00:00:00.000000001',
               '2001-05-14 00:00:00.000000002',
               '2001-05-14 00:00:00.000000003',
               '2001-05-14 00:00:00.000000004',
               '2001-05-14 00:00:00.000000005',
               '2001-05-14 00:00:00.000000006'],
              dtype='datetime64[ns]', freq=None)

In [25]:
date + pd.to_timedelta(np.arange(7), unit='D')

DatetimeIndex(['2001-05-14', '2001-05-15', '2001-05-16', '2001-05-17',
               '2001-05-18', '2001-05-19', '2001-05-20'],
              dtype='datetime64[ns]', freq=None)

#### <strong> 시계열 생성

In [26]:
# DatetimeIndex 객체 생성, 여러개의 타임스탬프를 담는 판다스의 함수는 DatetimeIndex이다.
ind = pd.DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
                        '2022-10-31', '2022-11-01', '2022-11-02'])
ind

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31', '2022-11-01', '2022-11-02'],
              dtype='datetime64[ns]', freq=None)

In [28]:
# [+] 시계열 인덱싱 적용
ser = pd.Series([0, 1, 2, 3, 4, 5, 6], index=ind) #위에서 만든 타임스탬프 객체를 각각에 데이터에 대한 인덱스가 되고,하나의 1차원 배열이 됨
ser

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
2022-11-01    5
2022-11-02    6
dtype: int64

In [31]:
ser.index # 반대로 인덱스 가능

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31', '2022-11-01', '2022-11-02'],
              dtype='datetime64[ns]', freq=None)

In [34]:
# [+] 인덱싱
ser['2022-10-29']

2

In [37]:
# [+] 슬라이싱
ser[:'2022-10-31']

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
dtype: int64

In [39]:
# [+] 데이터 선택
ser['2022-10'] #이렇게 직관적으로 가능함 ㅋㅋ

2022-10-27    0
2022-10-28    1
2022-10-29    2
2022-10-30    3
2022-10-31    4
dtype: int64

#### <strong> 시계열 관련 Pandas의 데이터 구조

In [40]:
# Timestamp와 DatetimeIndex
dates = pd.to_datetime([datetime(2015, 7, 3),
                      "4th of July, 2015",
                      '2015-Jul-6',
                      '07-07-2015',
                      '20150708'])
print(dates)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)


In [43]:
# to_period(): DatetimeIndex -> PeriodIndex 변환
dates.to_period('W') #주 단위의 preiod데이터로 반환

PeriodIndex(['2015-06-29/2015-07-05', '2015-06-29/2015-07-05',
             '2015-07-06/2015-07-12', '2015-07-06/2015-07-12',
             '2015-07-06/2015-07-12'],
            dtype='period[W-SUN]')

In [44]:
# [+] TimedeltaIndex 생성
dates - dates[0]# 모든 날짜에서 기준일을 뺌

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

#### <strong> 정규 시퀀스 </strong>

In [46]:
# [+] pd.date_range()를 이용한 정규 시퀀스 생성
pd.date_range('2022-10-27','2022-10-31')

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31'],
              dtype='datetime64[ns]', freq='D')

In [48]:
# [+] Period 값을 이용
pd.date_range('2022-10-27', periods=10)

DatetimeIndex(['2022-10-27', '2022-10-28', '2022-10-29', '2022-10-30',
               '2022-10-31', '2022-11-01', '2022-11-02', '2022-11-03',
               '2022-11-04', '2022-11-05'],
              dtype='datetime64[ns]', freq='D')

In [50]:
# 빈도 변경->시간 단위로 바꿈꿈
pd.date_range('2022-10-27', periods=12, freq='H')#0시붙 12개 만듬

DatetimeIndex(['2022-10-27 00:00:00', '2022-10-27 01:00:00',
               '2022-10-27 02:00:00', '2022-10-27 03:00:00',
               '2022-10-27 04:00:00', '2022-10-27 05:00:00',
               '2022-10-27 06:00:00', '2022-10-27 07:00:00',
               '2022-10-27 08:00:00', '2022-10-27 09:00:00',
               '2022-10-27 10:00:00', '2022-10-27 11:00:00'],
              dtype='datetime64[ns]', freq='H')

In [52]:
# pd.period_range()
pd.period_range('2015-07', periods=8, freq='M')#period데이터를 월단위로 만들기

PeriodIndex(['2015-07', '2015-08', '2015-09', '2015-10', '2015-11', '2015-12',
             '2016-01', '2016-02'],
            dtype='period[M]')

In [54]:
# Timestamp vs. Period
period = pd.Period('2022-10-27')
timestamp = pd.Timestamp('2022-10-27 09:30')

print(period.start_time < timestamp < period.end_time)#period는 시작과 끝을 가지고 있음

print(period.start_time)

print(period.end_time)

True
2022-10-27 00:00:00
2022-10-27 23:59:59.999999999


In [56]:
# pd.timedelta_range()->크게 중요하진 않은 듯
pd.timedelta_range(0, periods=10, freq='H')

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00'],
               dtype='timedelta64[ns]', freq='H')

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |   -    |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |   -    |                      |
| ``S``  | Seconds             |   -    |                      |
| ``L``  | Milliseonds         |   -    |                      |
| ``U``  | Microseconds        |   -    |                      |
| ``N``  | nanoseconds         |   -    |                      |

#### <strong> 빈도 및 오프셋

In [57]:
# 빈도 코드
pd.date_range('2022-11-01', periods=10, freq='H')

DatetimeIndex(['2022-11-01 00:00:00', '2022-11-01 01:00:00',
               '2022-11-01 02:00:00', '2022-11-01 03:00:00',
               '2022-11-01 04:00:00', '2022-11-01 05:00:00',
               '2022-11-01 06:00:00', '2022-11-01 07:00:00',
               '2022-11-01 08:00:00', '2022-11-01 09:00:00'],
              dtype='datetime64[ns]', freq='H')

In [58]:
# 빈도, M: 월말
(pd.date_range('2022-11-01', periods=10, freq="M"))

DatetimeIndex(['2022-11-30', '2022-12-31', '2023-01-31', '2023-02-28',
               '2023-03-31', '2023-04-30', '2023-05-31', '2023-06-30',
               '2023-07-31', '2023-08-31'],
              dtype='datetime64[ns]', freq='M')

In [59]:
# 빈도, BM: 비즈니스 기준 월말
pd.date_range('2022-11-01', periods=10, freq="BM")

DatetimeIndex(['2022-11-30', '2022-12-30', '2023-01-31', '2023-02-28',
               '2023-03-31', '2023-04-28', '2023-05-31', '2023-06-30',
               '2023-07-31', '2023-08-31'],
              dtype='datetime64[ns]', freq='BM')

In [60]:
# 접미사 'S': 시작 일시를 기준으로 시퀀스 생성
pd.date_range('2022-11-01', periods=10, freq='MS')

DatetimeIndex(['2022-11-01', '2022-12-01', '2023-01-01', '2023-02-01',
               '2023-03-01', '2023-04-01', '2023-05-01', '2023-06-01',
               '2023-07-01', '2023-08-01'],
              dtype='datetime64[ns]', freq='MS')

In [63]:
# 빈도 코드 조합
pd.date_range('2025-05-07 09:30', periods=6, freq='1H30T')#특정 시간을 기준으로 시퀀스 생성성

DatetimeIndex(['2025-05-07 09:30:00', '2025-05-07 11:00:00',
               '2025-05-07 12:30:00', '2025-05-07 14:00:00',
               '2025-05-07 15:30:00', '2025-05-07 17:00:00'],
              dtype='datetime64[ns]', freq='90T')

In [65]:
# 오프셋
from pandas.tseries.offsets import DateOffset #오프셋이라는 서브 모델까지 임포트 해야만 사용 가능
ts = pd.Timestamp('2023-11-07 09:30:00')
ts + DateOffset(hours=-40)

Timestamp('2023-11-05 17:30:00')

In [66]:
# 오프셋(minus)
ts - DateOffset(years=73, months=4, days=12, hours=5, minutes=10, seconds=00)

Timestamp('1950-06-25 04:20:00')