# 시계열 관련 NumPy 및 Pandas 기능

## python, numpy, pandas 날짜 타입 비교 및 정리

|라이브러리|날짜, 시간 클래스| 타임델타 클래스|
|-------|-------------|-------------|
|datetime|datetime, date, time|timedelta|
|numpy|datetime64|timedelta64|
|panads|Timestamp|Timedelta|

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜와 시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있음.   
예를들어 `2021-3-16` (날짜)을 표시하고 싶으면 `date` 클래스를 사용하고, `2021-3-16 12:34:2` (날짜+시간)를 표시하고 싶으면 `datetime` 클래스를 사용.  


- `datetime64`나 `Timestamp`는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스.   
이 둘은 한 클래스로 날짜, 시간, 날짜+시간을 모두 정의할 수 있는 것이 특징.

### 날짜 데이터 정의 - python 

In [3]:
import datetime

datetime.date(2023, 8, 12) # 날짜 정의(date)

datetime.date(2023, 8, 12)

In [5]:
datetime.datetime(2023, 8, 12, 19, 43, 25) # 날짜+시간 정의(datetime)

datetime.datetime(2023, 8, 12, 19, 43, 25)

In [6]:
datetime.time(19, 43, 25) # 시간 정의(time)

datetime.time(19, 43, 25)

### 날짜 데이터 정의 - numpy

In [8]:
import numpy as np

np.datetime64('2023-08-12 19:45:30')

numpy.datetime64('2023-08-12T19:45:30')

### 날짜 데이터 정의 - pandas 
- pd.Timestamp :  python datetime.datetime 의 Pandas version
- pd.to_datetime :  Scalar, array-like, Series or DataFrame/dictionary 형태 data를 pandas DatetimeIndex로 날짜 변환.

In [9]:
import pandas as pd

pd.Timestamp(2023, 8, 12)

Timestamp('2023-08-12 00:00:00')

In [11]:
pd.Timestamp("2023-08-12 19:45:30") # string형으로 매개변수 받아도 알아서 파싱함

Timestamp('2023-08-12 19:45:30')

In [12]:
pd.Timestamp("2023/08/12 19:45:30")

Timestamp('2023-08-12 19:45:30')

In [16]:
pd.to_datetime(["2023/8/12", "2023/8/13"]) # 주로 인덱스를 만들 때 to_datetime()이용

DatetimeIndex(['2023-08-12', '2023-08-13'], dtype='datetime64[ns]', freq=None)

### Numpy 의 datetime64 format

- NumPy 날짜 배열은 ns(나노초) 단위의 datetime64 객체입니다. 
- 내부 저장 단위는 문자열 형태에서 자동으로 선택되며 날짜 단위 또는 시간 단위가 될 수 있습니다.   
- 날짜 단위는 년('Y'), 월('M'), 주('W'), 일('D')이고 시간 단위는 시('h'), 분('m'), 초('s'), 밀리초('ms') 입니다.

In [28]:
order_date = pd.Series(['2022-08-11 12:01:01', '2023-08-11 12:01:02',
                        '2023-08-12 12:01:03', '2023-08-12 12:01:04'])
order_date = pd.to_datetime(order_date)
order_date

0   2022-08-11 12:01:01
1   2023-08-11 12:01:02
2   2023-08-12 12:01:03
3   2023-08-12 12:01:04
dtype: datetime64[ns]

`datetime64[D]` - 날짜

`datetime64[M]` - 월

order_date_monthly = np.array(order_date, dtype='datetime64[M]')
order_date_monthly

In [24]:
np.array(order_date, dtype='datetime64[M]')

array(['2022-08', '2023-08', '2023-08', '2023-08'], dtype='datetime64[M]')

`'datetime64[Y]` - 연

In [27]:
np.array(order_date, dtype='datetime64[Y]')

array(['2022', '2023', '2023', '2023'], dtype='datetime64[Y]')

## DateTimeIndex 를 가진 Pandas 시계열 data 생성 및 처리

- Timestamp을 index 로 하는 data 를 시계열데이터 (TimeSeries) 라고 부른다. 즉, index 가 DatetimeIndex 인 데이터이다.

- 시계열관련 class 와 생성 방법

| class         |           설명          |                               생성방법 |Pandas Class|
|---------------|:-----------------------:|---------------------------------------:|------------:|
| Timestamp     |     하나의 timestamp    |                 to_datetime, Timestamp |pandas.Timestamp|
| DatetimeIndex | timestamp 타입의 인덱스 | to_datetime, date_range, DatetimeIndex |pandas.DatetimeIndex|
| Period        |       time period       |                                 Period |pandas.Period|

## to_datetime()
* 날짜/시간을 나타내는 **여러 종류의 문자열**을 자동으로 datetime 자료형으로 바꾼 후, DatetimeIndex 자료형 인덱스를 생성

In [29]:
date_str = ['2010-01-01', '2015 7 1', 'May 1 2016',
            '2020/01/01', 'Dec, 25, 2019', 'dec 20 2021', '2022 12 31']
pd.to_datetime(date_str)

DatetimeIndex(['2010-01-01', '2015-07-01', '2016-05-01', '2020-01-01',
               '2019-12-25', '2021-12-20', '2022-12-31'],
              dtype='datetime64[ns]', freq=None)

## date_range
```python
pd.date_range(start, end, periods, freq)
```

- 모든 날짜/시간을 일일히 입력할 필요없이 **시작일과 종료일** 또는 **시작일과 기간**을 입력하면 범위 내의 인덱스를 생성  

- freq
    - S: 초  
    - T: 분  
    - H: 시간  
    - D: 일(day)  
    - B: 주말이 아닌 평일 (Business Day)
    - W: 주(일요일)  
    - M: 각 달(month)의 마지막 날  
    - MS: 각 달의 첫날  

[frequency alias](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases) 참조

start ~ 10일

In [30]:
pd.date_range(start='2020-01-01', end='2020-01-10')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [31]:
pd.date_range(start='2020-01-01', periods=10)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

start~end 사이 평일

In [32]:
pd.date_range(start='2020-01-01', end='2020-01-10', freq='B')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='B')

In [33]:
pd.date_range(start='2020-01-01', end='2020-01-10', freq='W')

DatetimeIndex(['2020-01-05'], dtype='datetime64[ns]', freq='W-SUN')

start ~ 12 개월

In [38]:
dates = pd.date_range(start='2020-01-01', end='2020-12-31', freq='MS')
dates

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01', '2020-04-01',
               '2020-05-01', '2020-06-01', '2020-07-01', '2020-08-01',
               '2020-09-01', '2020-10-01', '2020-11-01', '2020-12-01'],
              dtype='datetime64[ns]', freq='MS')

DataFrame의 index를 datetime으로 변경

In [41]:
a = np.random.standard_normal((12,4))
df = pd.DataFrame(a, columns=['n1', 'n2', 'n3', 'n4'])
df.index = dates # dataframe의 index를 datetime으로 변경
# 인덱스가 datetime으로 되어있는 dataframe := 시계열 데이터
df

Unnamed: 0,n1,n2,n3,n4
2020-01-01,-0.983529,0.144481,-0.528798,0.129207
2020-02-01,-0.377228,-1.067514,-0.333861,-0.56702
2020-03-01,1.113282,-0.591668,-0.022317,0.517764
2020-04-01,-0.550014,2.514815,0.198019,-0.390812
2020-05-01,-0.961776,-0.877569,0.596779,0.593964
2020-06-01,1.580036,0.510605,-0.759578,-1.275237
2020-07-01,-2.473699,-0.424449,-0.76142,-1.081312
2020-08-01,0.765377,-0.126212,0.90182,2.025968
2020-09-01,1.576088,-1.23845,0.203459,-0.939864
2020-10-01,-1.011708,1.089498,1.648083,1.863296


In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12 entries, 2020-01-01 to 2020-12-01
Freq: MS
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   n1      12 non-null     float64
 1   n2      12 non-null     float64
 2   n3      12 non-null     float64
 3   n4      12 non-null     float64
dtypes: float64(4)
memory usage: 480.0 bytes


## Pandas DatetimeIndex를 이용한 작업

기존의  numpy datetime64 format 변수를 사용하여 인덱스 설정

In [43]:
dates = pd.date_range('2022-08-01', '2023-08-01', freq='M')
a = np.random.randn(12)
df = pd.DataFrame({'date':dates, 'a':a})
df

Unnamed: 0,date,a
0,2022-08-31,1.722487
1,2022-09-30,-0.829599
2,2022-10-31,-0.624612
3,2022-11-30,-1.607755
4,2022-12-31,0.906414
5,2023-01-31,1.621817
6,2023-02-28,1.68095
7,2023-03-31,-1.865256
8,2023-04-30,-1.040136
9,2023-05-31,0.876277


In [45]:
df.set_index('date', inplace=True)
df

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2022-08-31,1.722487
2022-09-30,-0.829599
2022-10-31,-0.624612
2022-11-30,-1.607755
2022-12-31,0.906414
2023-01-31,1.621817
2023-02-28,1.68095
2023-03-31,-1.865256
2023-04-30,-1.040136
2023-05-31,0.876277


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12 entries, 2022-08-31 to 2023-07-31
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       12 non-null     float64
dtypes: float64(1)
memory usage: 192.0 bytes


### Subsetting data

이제 DatetimeIndex를 사용하여 데이터 하위 집합을 선택할 수 있습니다.

In [48]:
df.loc['2023']

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2023-01-31,1.621817
2023-02-28,1.68095
2023-03-31,-1.865256
2023-04-30,-1.040136
2023-05-31,0.876277
2023-06-30,-0.220096
2023-07-31,-0.948812


In [50]:
df.iloc[:5]

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2022-08-31,1.722487
2022-09-30,-0.829599
2022-10-31,-0.624612
2022-11-30,-1.607755
2022-12-31,0.906414


In [51]:
df.loc['2022-08':'2023-05']

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2022-08-31,1.722487
2022-09-30,-0.829599
2022-10-31,-0.624612
2022-11-30,-1.607755
2022-12-31,0.906414
2023-01-31,1.621817
2023-02-28,1.68095
2023-03-31,-1.865256
2023-04-30,-1.040136
2023-05-31,0.876277


In [52]:
df.index.day

Int64Index([31, 30, 31, 30, 31, 31, 28, 31, 30, 31, 30, 31], dtype='int64', name='date')

In [53]:
df.index.dayofweek # 무슨 요일입니까?

Int64Index([2, 4, 0, 2, 5, 1, 1, 4, 6, 2, 4, 0], dtype='int64', name='date')

### Datetime Components

Pandas Datetime 변수에는 여러 가지 유용한 구성 요소가 있습니다. DatetimeIndex를 사용하여 월, 연도, 요일, 분기 등과 같은 항목을 추출할 수 있습니다.

DatetimeIndex에서 date 추출

- DatetimeIndex에서 day of week 추출 (Day of Week: Monday=0, Sunday=6)

In [56]:
df['DayOfWeek'] = df.index.dayofweek
df

Unnamed: 0_level_0,a,DayOfWeek
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-08-31,1.722487,2
2022-09-30,-0.829599,4
2022-10-31,-0.624612,0
2022-11-30,-1.607755,2
2022-12-31,0.906414,5
2023-01-31,1.621817,1
2023-02-28,1.68095,1
2023-03-31,-1.865256,4
2023-04-30,-1.040136,6
2023-05-31,0.876277,2


## resample

- 시간 간격을 재조정   
- 원래의 데이터가 그룹으로 묶이기 때문에 그룹 연산을 해서 대표값을 구해야 한다.

In [69]:
ts = pd.Series(np.random.randn(500), index=pd.date_range('2022-01-01', periods=500, freq="D"))
ts

2022-01-01    0.846097
2022-01-02    0.205624
2022-01-03   -0.351736
2022-01-04    0.319066
2022-01-05    0.146334
                ...   
2023-05-11    0.024430
2023-05-12   -1.289116
2023-05-13    0.147529
2023-05-14   -0.543046
2023-05-15    1.196162
Freq: D, Length: 500, dtype: float64

In [77]:
ts.resample('W').sum() 

2022-01-02    1.051721
2022-01-09    4.401934
2022-01-16   -1.316383
2022-01-23    0.354772
2022-01-30    0.165437
                ...   
2023-04-23    0.448040
2023-04-30   -1.913579
2023-05-07    0.742402
2023-05-14   -1.243936
2023-05-21    1.196162
Freq: W-SUN, Length: 73, dtype: float64

In [79]:
sum, mean, min, max

NameError: name 'mean' is not defined

주 단위로 down-sampling

주 단위 평균

월 단위 평균