# 1. `Timestamp` & `DatetimeIndex`

- Python `datetime` vs Pandas `Timestamp`
  - `Timestamp`는 Numpy의 datetime64 based
  - `Timestamp` 클래스의 object가 Python의 `datetime` object 보다 더 높은 정밀도를 가진다.
- `DatetimeIndex` - 다수의 `Timestamp` object를 하나의 변수로 관리하는 클래스
  - Python `list`에 `Timestamp`를 할당하는 것보다 더 최적화 되어 있음

In [75]:
import pandas as pd
import numpy as np

from initializer import init

init()

## 1.1. `Timestamp` object

In [76]:
from datetime import datetime
import pandas as pd

a = datetime(2014, 8, 1)
pd.Timestamp(a)
pd.Timestamp("1994-06-14")

Timestamp('2014-08-01 00:00:00')

Timestamp('1994-06-14 00:00:00')

## 1.2. `DatetimeIndex` object

In [77]:
dates = [datetime(2014, 8, 1), datetime(2014, 8, 5)]

### 1.2.1. `DatetimeIndex`

In [78]:
pd.DatetimeIndex(dates)

DatetimeIndex(['2014-08-01', '2014-08-05'], dtype='datetime64[ns]', freq=None)

### 1.2.2. `pd.to_datetime()`

In [79]:
pd.to_datetime(dates)

DatetimeIndex(['2014-08-01', '2014-08-05'], dtype='datetime64[ns]', freq=None)

In [80]:
"""pd.DatetimeIndex 그리고 pd.to_datetime 두 방식의 리턴값은 동일하다."""
a = pd.DatetimeIndex(dates)
b = pd.to_datetime(dates)

for d1, d2 in zip(a, b):
    assert d1 == d2

'pd.DatetimeIndex 그리고 pd.to_datetime 두 방식의 리턴값은 동일하다.'

In [81]:
type(pd.to_datetime(dates))
type(pd.to_datetime(dates)[0])

pandas.core.indexes.datetimes.DatetimeIndex

pandas._libs.tslibs.timestamps.Timestamp

### 1.2.3. Index of `Series`

In [82]:
series = pd.Series(np.random.randn(2), index=dates)

series
series.index
type(series.index)

2014-08-01    1.624
2014-08-05   -0.612
dtype: float64

DatetimeIndex(['2014-08-01', '2014-08-05'], dtype='datetime64[ns]', freq=None)

pandas.core.indexes.datetimes.DatetimeIndex

In [83]:
"""단순 ISO 포맷의 스트링 인덱스까지는 DatetimeIndex 타입으로 자동 변환되지 않음"""
series = pd.Series(np.random.randn(2), index=["2022-07-11", "2022-07-12"])

series
series.index
type(series.index)

'단순 ISO 포맷의 스트링 인덱스까지는 DatetimeIndex 타입으로 자동 변환되지 않음'

2022-07-11   -0.528
2022-07-12   -1.073
dtype: float64

Index(['2022-07-11', '2022-07-12'], dtype='object')

pandas.core.indexes.base.Index

## 1.3. Indexing

In [84]:
"""pandas에서는 편의성을 위해 loc으로 접근 시 다양한 방법으로 접근을 할 수 있도록 한다."""
series = pd.Series(np.random.randn(2), index=dates)

a = series.loc[pd.Timestamp("2014-08-01")]
b = series.loc[datetime(2014, 8, 1)]
c = series.loc["2014-08-01"]

assert a == b
assert b == c
assert c == a

a, b, c

'pandas에서는 편의성을 위해 loc으로 접근 시 다양한 방법으로 접근을 할 수 있도록 한다.'

(0.8654076293246785, 0.8654076293246785, 0.8654076293246785)

In [85]:
"""pandas Timestamp와 python datetime은 서로 호환되지만, 단순 string과는 당연하게도 동일하지 않다."""
a = pd.Timestamp(dates[0])
b = pd.to_datetime(dates[0])
c = datetime(2014, 8, 1)

assert a == c
assert b == c

d = "2014-08-01"

assert a != d
assert b != d

'pandas Timestamp와 python datetime은 서로 호환되지만, 단순 string과는 당연하게도 동일하지 않다.'

In [86]:
"""Timestamp index를 한 번 sorting 해주면 신기한 일을 할 수 있다."""
series = series.sort_index()

series.loc["2014-08-01"]
series.loc["2014-08"]
series.loc["2014-08-01":]
series.loc["2014-08-02":]
series.loc["2014-08-01":"2014-08-05"] # python list indexing과는 다르게 양 끝 데이터를 포함한다.

'Timestamp index를 한 번 sorting 해주면 신기한 일을 할 수 있다.'

0.8654076293246785

2014-08-01    0.865
2014-08-05   -2.302
dtype: float64

2014-08-01    0.865
2014-08-05   -2.302
dtype: float64

2014-08-05   -2.302
dtype: float64

2014-08-01    0.865
2014-08-05   -2.302
dtype: float64

## 1.4. `pd.date_range()`

In [87]:
pd.date_range("2014-08-01", periods=10, freq="D")   # Day
pd.date_range("2014-08-01", periods=10, freq="B")   # Business - 휴일과 공휴일 제외
pd.date_range("2014-08-01", "2014-08-14", freq="D") # Day

DatetimeIndex(['2014-08-01', '2014-08-02', '2014-08-03', '2014-08-04',
               '2014-08-05', '2014-08-06', '2014-08-07', '2014-08-08',
               '2014-08-09', '2014-08-10'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2014-08-01', '2014-08-04', '2014-08-05', '2014-08-06',
               '2014-08-07', '2014-08-08', '2014-08-11', '2014-08-12',
               '2014-08-13', '2014-08-14'],
              dtype='datetime64[ns]', freq='B')

DatetimeIndex(['2014-08-01', '2014-08-02', '2014-08-03', '2014-08-04',
               '2014-08-05', '2014-08-06', '2014-08-07', '2014-08-08',
               '2014-08-09', '2014-08-10', '2014-08-11', '2014-08-12',
               '2014-08-13', '2014-08-14'],
              dtype='datetime64[ns]', freq='D')

# 2. `Period` & `PeriodIndex`

- `Period` - interval of datetime
- `PeriodIndex` - 다수의 `Period` object를 하나의 변수로 관리하는 클래스
  - cf. `DatetimeIndex` is sequence of `Timestamp`

## 2.1. `Period` object

In [88]:
period = pd.Period("2014-08", freq="Q") # freq: Union["D", "M", etc.] Q => Quarter
period
period.start_time
period.end_time

period_freq_up = period + 1
period_freq_up
period_freq_up.start_time
period_freq_up.end_time

Period('2014Q3', 'Q-DEC')

Timestamp('2014-07-01 00:00:00')

Timestamp('2014-09-30 23:59:59.999999999')

Period('2014Q4', 'Q-DEC')

Timestamp('2014-10-01 00:00:00')

Timestamp('2014-12-31 23:59:59.999999999')

## 2.2. `PeriodIndex` object

In [89]:
p2013 = pd.period_range("2013-01-01", "2013-12-31", freq="M")

p2013
for p in p2013:
    print(f"{p} {p.freq} {p.start_time} {p.end_time}")

PeriodIndex(['2013-01', '2013-02', '2013-03', '2013-04', '2013-05', '2013-06',
             '2013-07', '2013-08', '2013-09', '2013-10', '2013-11', '2013-12'],
            dtype='period[M]')

2013-01 <MonthEnd> 2013-01-01 00:00:00 2013-01-31 23:59:59.999999999
2013-02 <MonthEnd> 2013-02-01 00:00:00 2013-02-28 23:59:59.999999999
2013-03 <MonthEnd> 2013-03-01 00:00:00 2013-03-31 23:59:59.999999999
2013-04 <MonthEnd> 2013-04-01 00:00:00 2013-04-30 23:59:59.999999999
2013-05 <MonthEnd> 2013-05-01 00:00:00 2013-05-31 23:59:59.999999999
2013-06 <MonthEnd> 2013-06-01 00:00:00 2013-06-30 23:59:59.999999999
2013-07 <MonthEnd> 2013-07-01 00:00:00 2013-07-31 23:59:59.999999999
2013-08 <MonthEnd> 2013-08-01 00:00:00 2013-08-31 23:59:59.999999999
2013-09 <MonthEnd> 2013-09-01 00:00:00 2013-09-30 23:59:59.999999999
2013-10 <MonthEnd> 2013-10-01 00:00:00 2013-10-31 23:59:59.999999999
2013-11 <MonthEnd> 2013-11-01 00:00:00 2013-11-30 23:59:59.999999999
2013-12 <MonthEnd> 2013-12-01 00:00:00 2013-12-31 23:59:59.999999999


### 2.2.1. vs `DatetimeIndex`

In [90]:
a = pd.date_range("1/1/2013", "12/31/2013", freq="M")
b = pd.period_range("1/1/2013", "12/31/2013", freq="M")

a, b
a[0], b[0]

(DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
                '2013-05-31', '2013-06-30', '2013-07-31', '2013-08-31',
                '2013-09-30', '2013-10-31', '2013-11-30', '2013-12-31'],
               dtype='datetime64[ns]', freq='M'),
 PeriodIndex(['2013-01', '2013-02', '2013-03', '2013-04', '2013-05', '2013-06',
              '2013-07', '2013-08', '2013-09', '2013-10', '2013-11', '2013-12'],
             dtype='period[M]'))

(Timestamp('2013-01-31 00:00:00', freq='M'), Period('2013-01', 'M'))

### 2.2.2. As a index of `Series`

In [91]:
"""해당 index는 이제 특정 date(time)을 의미하는 것이 아닌 date(time) 범위를 의미한다."""
ps = pd.Series(np.random.randn(12), p2013)
ps

'해당 index는 이제 특정 date(time)을 의미하는 것이 아닌 date(time) 범위를 의미한다.'

2013-01    1.745
2013-02   -0.761
2013-03    0.319
2013-04   -0.249
2013-05    1.462
2013-06   -2.060
2013-07   -0.322
2013-08   -0.384
2013-09    1.134
2013-10   -1.100
2013-11   -0.172
2013-12   -0.878
Freq: M, dtype: float64

In [92]:
ps.loc["2013-11"]
ps.loc["2013-11":]

-0.17242820755043575

2013-11   -0.172
2013-12   -0.878
Freq: M, dtype: float64