# 시계열 관련 NumPy 및 Pandas 기능

## python, numpy, pandas 날짜 타입 비교 및 정리

|라이브러리|날짜, 시간 클래스| 타임델타 클래스|
|-------|-------------|-------------|
|datetime|datetime, date, time|timedelta|
|numpy|datetime64|timedelta64|
|pandas|Timestamp|Timedelta|

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜와 시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있음.   
예를들어 `2021-3-16` (날짜)을 표시하고 싶으면 `date` 클래스를 사용하고, `2021-3-16 12:34:2` (날짜+시간)를 표시하고 싶으면 `datetime` 클래스를 사용.  


- `datetime64`나 `Timestamp`는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스.   
이 둘은 한 클래스로 날짜, 시간, 날짜+시간을 모두 정의할 수 있는 것이 특징.

### 날짜 데이터 정의 - python 

In [1]:
import datetime

datetime.date(2022, 5, 1)

datetime.date(2022, 5, 1)

In [4]:
datetime.datetime(2022, 5, 1, 15, 30, 25)   # 년도, 월, 일, 시간, 분, 초

datetime.datetime(2022, 5, 1, 15, 30, 25)

In [5]:
datetime.time(15, 30, 25)   # 시, 분, 초

datetime.time(15, 30, 25)

### 날짜 데이터 정의 - numpy

In [7]:
import numpy as np

np.datetime64('2022-05-01 15:30:14')

numpy.datetime64('2022-05-01T15:30:14')

### 날짜 데이터 정의 - pandas 
- pd.Timestamp :  python datetime.datetime 의 Pandas version
- pd.to_datetime :  Scalar, array-like, Series or DataFrame/dictionary 형태 data를 pandas DatetimeIndex로 날짜 변환.

In [8]:
import pandas as pd

pd.Timestamp(2022, 5, 1)

Timestamp('2022-05-01 00:00:00')

In [12]:
pd.Timestamp('2022-5-1')   # String으로도 사용 가능

Timestamp('2022-05-01 00:00:00')

In [13]:
pd.Timestamp('2022/5/1 15:30:20')   # /으로도 사용 가능

Timestamp('2022-05-01 15:30:20')

In [18]:
pd.to_datetime(['2022/5/1', '2022/5/2'])   # to_datetime은 리스트로 만들 수 있음

DatetimeIndex(['2022-05-01', '2022-05-02'], dtype='datetime64[ns]', freq=None)

### Numpy 의 datetime64 format

- NumPy 날짜 배열은 ns(나노초) 단위의 datetime64 객체입니다. 
- 내부 저장 단위는 문자열 형태에서 자동으로 선택되며 날짜 단위 또는 시간 단위가 될 수 있습니다.   
- 날짜 단위는 년('Y'), 월('M'), 주('W'), 일('D')이고 시간 단위는 시('h'), 분('m'), 초('s'), 밀리초('ms') 입니다.

In [19]:
# 주어진 날짜와 시간을 담은 문자열의 리스트를 pandas Series로 생성합니다.
order_date = pd.Series(['2022-08-01 12:01:01', '2022-08-02 12:01:02', 
                        '2022-08-03 12:01:03', '2022-08-04 12:01:04'])

# pandas의 to_datetime 함수를 사용하여 문자열 형태의 날짜를 Timestamp 형태로 변환합니다.
order_date = pd.to_datetime(order_date)

# 변환된 결과를 출력합니다.
order_date

0   2022-08-01 12:01:01
1   2022-08-02 12:01:02
2   2022-08-03 12:01:03
3   2022-08-04 12:01:04
dtype: datetime64[ns]

`datetime64[D]` - 날짜

In [21]:
order_daily = np.array(order_date, dtype='datetime64[D]')
order_daily

array(['2022-08-01', '2022-08-02', '2022-08-03', '2022-08-04'],
      dtype='datetime64[D]')

`datetime64[M]` - 월

In [22]:
np.array(order_date, dtype='datetime64[M]')

array(['2022-08', '2022-08', '2022-08', '2022-08'], dtype='datetime64[M]')

order_date_monthly = np.array(order_date, dtype='datetime64[M]')
order_date_monthly

`'datetime64[Y]` - 연

In [23]:
np.array(order_date, dtype='datetime64[Y]')

array(['2022', '2022', '2022', '2022'], dtype='datetime64[Y]')

## DateTimeIndex 를 가진 Pandas 시계열 data 생성 및 처리

- Timestamp을 index 로 하는 data 를 시계열데이터 (TimeSeries) 라고 부른다. 즉, index 가 DatetimeIndex 인 데이터이다.

- 시계열관련 class 와 생성 방법

| class         |           설명          |                               생성방법 |Pandas Class|
|---------------|:-----------------------:|---------------------------------------:|------------:|
| Timestamp     |     하나의 timestamp    |                 to_datetime, Timestamp |pandas.Timestamp|
| DatetimeIndex | timestamp 타입의 인덱스 | to_datetime, date_range, DatetimeIndex |pandas.DatetimeIndex|
| Period        |       time period       |                                 Period |pandas.Period|

## to_datetime()

- 날짜/시간을 나타내는 **여러 종류의 문자열**을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

In [34]:
# 다양한 형태의 날짜 문자열 리스트입니다.
date_str = ['2010-01-01', '2015, 7, 1', 'May, 1 2016', '2010/01/01',
            'Dec, 25, 2019', 'DEC 1 2020', 'dec 20 2021', '2020 12 31']

# pandas의 to_datetime 함수는 다양한 형태의 날짜 문자열을 인식하여 Timestamp 형태로 변환할 수 있습니다.
pd.to_datetime(date_str)   # 하나씩 실행해보기

ValueError: time data "2015, 7, 1" doesn't match format "%Y-%m-%d", at position 1. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

## date_range
```python
pd.date_range(start, end, periods, freq)
```

- 모든 날짜/시간을 일일히 입력할 필요없이 **시작일과 종료일** 또는 **시작일과 기간**을 입력하면 범위 내의 인덱스를 생성  

- freq
    - S: 초  
    - T: 분  
    - H: 시간  
    - D: 일(day)  
    - B: 주말이 아닌 평일 (Business Day)
    - W: 주(일요일)  
    - M: 각 달(month)의 마지막 날  
    - MS: 각 달의 첫날  

[frequency alias](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases) 참조

start ~ 10일

In [35]:
pd.date_range(start='2020-01-01', end='2020-01-10')b

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [36]:
pd.date_range(start='2020-01-01', periods=10)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

start~end 사이 평일

In [37]:
pd.date_range(start='2020-01-01', end='2020-01-15', freq='B')   # freq : 요일 필터링

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15'],
              dtype='datetime64[ns]', freq='B')

In [40]:
pd.date_range(start='2020-01-01', end='2020-01-15', freq='W')   # W : 일요일

DatetimeIndex(['2020-01-05', '2020-01-12'], dtype='datetime64[ns]', freq='W-SUN')

start ~ 12 개월

In [41]:
pd.date_range(start='2020-01-01', end='2020-12-31', freq='M')   # M : 각 달의 마지막 날

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31', '2020-04-30',
               '2020-05-31', '2020-06-30', '2020-07-31', '2020-08-31',
               '2020-09-30', '2020-10-31', '2020-11-30', '2020-12-31'],
              dtype='datetime64[ns]', freq='M')

In [48]:
dates = pd.date_range(start='2020-01-01', end='2020-12-31', freq='MS')   # MS : 각 달의 첫째 날

DataFrame의 index를 datetime으로 변경

In [53]:
# numpy의 random.standard_normal 함수를 사용하여 평균이 0이고 표준편차가 1인 표준 정규분포에서 랜덤하게 수를 생성합니다.
# 이 때, (12, 4)는 생성할 배열의 형태를 의미하므로, 12x4 크기의 2차원 배열을 생성합니다.
a = np.random.standard_normal((12, 4))

# 생성한 랜덤 수 배열을 pandas DataFrame으로 변환합니다. 각 컬럼의 이름은 'n1', 'n2', 'n3', 'n4'로 설정합니다.
df = pd.DataFrame(a, columns=['n1', 'n2', 'n3', 'n4'])

# DataFrame의 인덱스를 앞서 생성한 dates로 설정합니다. 이 때, dates는 월별 마지막 날짜 12개를 가진 DatetimeIndex입니다.
df.index = dates
df

Unnamed: 0,n1,n2,n3,n4
2020-01-01,0.079005,-1.102981,-0.830625,-0.303733
2020-02-01,1.453594,1.516939,-0.208871,-1.360704
2020-03-01,0.101506,0.024929,0.029649,-1.299297
2020-04-01,-0.948697,0.785117,-0.921702,0.585699
2020-05-01,1.214611,-0.692964,0.837393,1.568652
2020-06-01,-1.242895,-0.340151,-0.289393,1.410326
2020-07-01,0.751219,0.070765,-0.380108,0.378559
2020-08-01,-0.467362,-0.644805,0.916424,-1.601449
2020-09-01,-0.883035,-1.820495,0.223214,0.855031
2020-10-01,1.055038,-0.306356,0.329089,1.714774


In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12 entries, 2020-01-01 to 2020-12-01
Freq: MS
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   n1      12 non-null     float64
 1   n2      12 non-null     float64
 2   n3      12 non-null     float64
 3   n4      12 non-null     float64
dtypes: float64(4)
memory usage: 480.0 bytes


## Pandas DatetimeIndex를 이용한 작업

In [55]:
dates = pd.date_range('2020-08-01', '2021-08-01', freq='M')

# numpy의 random.randn 함수를 사용해 평균 0, 표준편차 1의 표준정규분포에서 랜덤한 수 12개를 생성합니다.
a = np.random.randn(12)

# 생성한 날짜와 랜덤 수를 이용해 pandas DataFrame을 생성합니다.
# 이때 'date', 'a'는 각각 컬럼의 이름입니다. (키값이 컬럼의 이름이 됨)
df = pd.DataFrame({'date': dates, 'a': a})

df

Unnamed: 0,date,a
0,2020-08-31,0.166303
1,2020-09-30,-0.621224
2,2020-10-31,0.483766
3,2020-11-30,-1.882916
4,2020-12-31,-0.146584
5,2021-01-31,0.182736
6,2021-02-28,-1.371557
7,2021-03-31,-0.855618
8,2021-04-30,-0.658643
9,2021-05-31,-1.198169


기존의  numpy datetime64 format 변수를 사용하여 인덱스 설정

In [56]:
df.set_index('date', inplace=True)   # date time 인덱스로 변경
df

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.166303
2020-09-30,-0.621224
2020-10-31,0.483766
2020-11-30,-1.882916
2020-12-31,-0.146584
2021-01-31,0.182736
2021-02-28,-1.371557
2021-03-31,-0.855618
2021-04-30,-0.658643
2021-05-31,-1.198169


In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12 entries, 2020-08-31 to 2021-07-31
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       12 non-null     float64
dtypes: float64(1)
memory usage: 192.0 bytes


In [59]:
df.index

DatetimeIndex(['2020-08-31', '2020-09-30', '2020-10-31', '2020-11-30',
               '2020-12-31', '2021-01-31', '2021-02-28', '2021-03-31',
               '2021-04-30', '2021-05-31', '2021-06-30', '2021-07-31'],
              dtype='datetime64[ns]', name='date', freq=None)

### Subsetting data

이제 DatetimeIndex를 사용하여 데이터 하위 집합을 선택할 수 있습니다.

In [61]:
# iloc : index로 location을 정해줌
# loc : value로 location을 정해줌

df.loc['2020']

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.166303
2020-09-30,-0.621224
2020-10-31,0.483766
2020-11-30,-1.882916
2020-12-31,-0.146584


In [63]:
df.iloc[:5]

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.166303
2020-09-30,-0.621224
2020-10-31,0.483766
2020-11-30,-1.882916
2020-12-31,-0.146584


In [64]:
df.loc['2020-08': '2021-5']   # 슬라이딩을 통해 범위 지정

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.166303
2020-09-30,-0.621224
2020-10-31,0.483766
2020-11-30,-1.882916
2020-12-31,-0.146584
2021-01-31,0.182736
2021-02-28,-1.371557
2021-03-31,-0.855618
2021-04-30,-0.658643
2021-05-31,-1.198169


### Datetime Components

Pandas Datetime 변수에는 여러 가지 유용한 구성 요소가 있습니다. DatetimeIndex를 사용하여 월, 연도, 요일, 분기 등과 같은 항목을 추출할 수 있습니다.

DatetimeIndex에서 date 추출

In [67]:
df.index.day

Index([31, 30, 31, 30, 31, 31, 28, 31, 30, 31, 30, 31], dtype='int32', name='date')

- DatetimeIndex에서 day of week 추출 (Day of Week: Monday=0, Sunday=6)

In [68]:
df.index.dayofweek   # 요일 출력

Index([0, 2, 5, 0, 3, 6, 6, 2, 4, 0, 2, 5], dtype='int32', name='date')

In [69]:
df['DayofWeek'] = df.index.dayofweek
df

Unnamed: 0_level_0,a,DayofWeek
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-08-31,0.166303,0
2020-09-30,-0.621224,2
2020-10-31,0.483766,5
2020-11-30,-1.882916,0
2020-12-31,-0.146584,3
2021-01-31,0.182736,6
2021-02-28,-1.371557,6
2021-03-31,-0.855618,2
2021-04-30,-0.658643,4
2021-05-31,-1.198169,0


## resample

- 시간 간격을 재조정   
- 원래의 데이터가 그룹으로 묶이기 때문에 그룹 연산을 해서 대표값을 구해야 한다.

In [74]:
ts = pd.Series(np.random.randn(500), index=pd.date_range('2022-01-01', periods=500, freq='D'))
ts

2022-01-01   -1.361310
2022-01-02    0.503121
2022-01-03   -0.326344
2022-01-04   -1.122709
2022-01-05    0.548390
                ...   
2023-05-11    1.161698
2023-05-12   -2.119345
2023-05-13   -0.864107
2023-05-14    0.085201
2023-05-15    0.723496
Freq: D, Length: 500, dtype: float64

In [77]:
ts.resample('M').sum()   # resample을 한 다음에는 aggregate 함수가 있어야 함 (SUM, MIN, MAX 등)
                         # resample을 통해 데이터를 모아놓았기 때문에, 모아놓은 데이터를 가지고 무엇인가 연산 필요

2022-01-31     2.819606
2022-02-28     1.135406
2022-03-31    -3.285110
2022-04-30    -7.686998
2022-05-31     2.173416
2022-06-30    -2.279971
2022-07-31   -10.673496
2022-08-31     3.138764
2022-09-30     1.493390
2022-10-31     0.835133
2022-11-30    -3.826886
2022-12-31     2.503678
2023-01-31     6.836910
2023-02-28    -5.091729
2023-03-31     5.013299
2023-04-30     0.275144
2023-05-31    -3.743419
Freq: M, dtype: float64

주 단위로 down-sampling

주 단위 평균

월 단위 평균