# 시계열 관련 NumPy 및 Pandas 기능

## python, numpy, pandas 날짜 타입 비교 및 정리

|라이브러리|날짜, 시간 클래스| 타임델타 클래스|
|-------|-------------|-------------|
|datatime|datetime, date, time|timedelta|
|numpy|datetime64|timedelta64|
|panads|Timestamp|Timedelta|

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜와 시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있음.   
예를들어 `2021-3-16` (날짜)을 표시하고 싶으면 `date` 클래스를 사용하고, `2021-3-16 12:34:2` (날짜+시간)를 표시하고 싶으면 `datetime` 클래스를 사용.  


- `datetime64`나 `Timestamp`는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스.   
이 둘은 한 클래스로 날짜, 시간, 날짜+시간을 모두 정의할 수 있는 것이 특징.

### 날짜 데이터 정의 - python 

In [2]:
import datetime

#날짜
print(datetime.date(2022, 5, 1))
#날짜 + 시간
print(datetime.datetime(2022, 5, 1, 15, 30, 45))
#시간
print(datetime.time(15, 30, 45))

2022-05-01
2022-05-01 15:30:45
15:30:45


### 날짜 데이터 정의 - numpy

In [3]:
import numpy as np 

#날짜
print(np.datetime64('2022-05-01'))

2022-05-01


### 날짜 데이터 정의 - pandas 
- pd.Timestamp :  python datetime.datetime 의 Pandas version
- pd.to_datetime :  Scalar, array-like, Series or DataFrame/dictionary 형태 data를 pandas DatetimeIndex로 날짜 변환.

In [4]:
import pandas as pd 

# Timestamp 함수를 사용하여 특정 날짜를 표현합니다.
print(pd.Timestamp(2022, 5, 1)) 

# 연, 월, 일, 시, 분을 지정하여 날짜와 시간을 표현합니다.
print(pd.Timestamp(year=2022, month=5, day=1, hour=12, minute=30)) 

# 문자열을 사용하여 날짜와 시간을 표현합니다. 
print(pd.Timestamp('2022-05-01 15:30:30'))

# 타입을 확인하면 Timestamp 임을 알 수 있습니다.
print(type(pd.Timestamp('2022/05/01 15:30:30')))
print()

# to_datetime 함수를 사용하여 문자열을 Timestamp 로 변환합니다.
print(pd.to_datetime('2022-05-01 15:30:30'))

# 변환된 객체의 타입을 확인합니다.
print(type(pd.to_datetime('2022/05/01 15:30:30')))

# 여러 개의 날짜를 리스트로 변환할 수도 있습니다.
print(pd.to_datetime(['2022/05/01', '2022/05/02']))   # list


2022-05-01 00:00:00
2022-05-01 12:30:00
2022-05-01 15:30:30
<class 'pandas._libs.tslibs.timestamps.Timestamp'>

2022-05-01 15:30:30
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
DatetimeIndex(['2022-05-01', '2022-05-02'], dtype='datetime64[ns]', freq=None)


### Numpy 의 datetime64 format

- NumPy 날짜 배열은 ns(나노초) 단위의 datetime64 객체입니다. 
- 내부 저장 단위는 문자열 형태에서 자동으로 선택되며 날짜 단위 또는 시간 단위가 될 수 있습니다.   
- 날짜 단위는 년('Y'), 월('M'), 주('W'), 일('D')이고 시간 단위는 시('h'), 분('m'), 초('s'), 밀리초('ms') 입니다.

In [5]:
# 주어진 날짜와 시간을 담은 문자열의 리스트를 pandas Series로 생성합니다.
order_date = pd.Series(['2022-08-01 12:01:01', '2022-08-02 12:01:02', 
                        '2022-08-03 12:01:03', '2022-08-04 12:01:04'])

# pandas의 to_datetime 함수를 사용하여 문자열 형태의 날짜를 Timestamp 형태로 변환합니다.
order_date = pd.to_datetime(order_date)

# 변환된 결과를 출력합니다.
order_date

0   2022-08-01 12:01:01
1   2022-08-02 12:01:02
2   2022-08-03 12:01:03
3   2022-08-04 12:01:04
dtype: datetime64[ns]

`datetime64[D]` - 날짜

In [6]:
# numpy의 datetime64를 사용하여 Timestamp를 일 단위로 바꿉니다. 
# 이렇게 하면 시간 정보는 제거되고 날짜 정보만 남게 됩니다.
order_date_daily = np.array(order_date, dtype='datetime64[D]')

# 변환된 결과를 출력합니다.
order_date_daily

array(['2022-08-01', '2022-08-02', '2022-08-03', '2022-08-04'],
      dtype='datetime64[D]')

`datetime64[M]` - 월

order_date_monthly = np.array(order_date, dtype='datetime64[M]')
order_date_monthly

In [7]:
# numpy의 datetime64를 사용하여 Timestamp를 월 단위로 바꿉니다. 
# 이렇게 하면 일과 시간 정보는 제거되고 연도와 월 정보만 남게 됩니다.
# 그 다음 unique 함수를 사용하여 중복된 월을 제거합니다.
np.unique(np.array(order_date, dtype='datetime64[M]'))

array(['2022-08'], dtype='datetime64[M]')

`'datetime64[Y]` - 연

In [8]:
# numpy의 datetime64를 사용하여 Timestamp를 연도 단위로 바꿉니다. 
# 이렇게 하면 월, 일, 시간 정보는 제거되고 연도 정보만 남게 됩니다.
# 그 다음 unique 함수를 사용하여 중복된 연도를 제거합니다.
np.unique(np.array(order_date, dtype='datetime64[Y]'))

array(['2022'], dtype='datetime64[Y]')

## DateTimeIndex 를 가진 Pandas 시계열 data 생성 및 처리

- Timestamp을 index 로 하는 data 를 시계열데이터 (TimeSeries) 라고 부른다. 즉, index 가 DatetimeIndex 인 데이터이다.

- 시계열관련 class 와 생성 방법

| class         |           설명          |                               생성방법 |Pandas Class|
|---------------|:-----------------------:|---------------------------------------:|------------:|
| Timestamp     |     하나의 timestamp    |                 to_datetime, Timestamp |pandas.Timestamp|
| DatetimeIndex | timestamp 타입의 인덱스 | to_datetime, date_range, DatetimeIndex |pandas.DatetimeIndex|
| Period        |       time period       |                                 Period |pandas.Period|

## to_datetime()

- 날짜/시간을 나타내는 **여러 종류의 문자열**을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

In [10]:
date_str = ['2010-01-01', '2015, 7, 1', 'May, 1 2016', 
            'Dec, 25, 2019', 'DEC 1 2020', 'dec 20 2021', '2020 12 31']

for dt in date_str:
    print(pd.to_datetime(dt))

2010-01-01 00:00:00
2015-07-01 00:00:00
2016-05-01 00:00:00
2019-12-25 00:00:00
2020-12-01 00:00:00
2021-12-20 00:00:00
2020-12-31 00:00:00


## Pandas DatetimeIndex를 이용한 작업

In [11]:
# pandas의 date_range 함수를 사용해 2020년 8월 1일부터 2021년 8월 1일까지 월별로 날짜를 생성합니다. 
# 이때 freq='M'은 월별로 날짜를 생성하겠다는 의미입니다.
dates = pd.date_range('2020-08-01', '2021-08-01', freq='M')

# numpy의 random.randn 함수를 사용해 평균 0, 표준편차 1의 표준정규분포에서 랜덤한 수 12개를 생성합니다.
a = np.random.randn(12)

# 생성한 날짜와 랜덤 수를 이용해 pandas DataFrame을 생성합니다.
# 이때 'date', 'a'는 각각 컬럼의 이름입니다.
df = pd.DataFrame({'date': dates, 'a': a})

df

Unnamed: 0,date,a
0,2020-08-31,0.346755
1,2020-09-30,1.19276
2,2020-10-31,-0.138433
3,2020-11-30,0.106646
4,2020-12-31,0.451344
5,2021-01-31,0.995449
6,2021-02-28,-0.424381
7,2021-03-31,-0.941789
8,2021-04-30,-0.716732
9,2021-05-31,1.338798


기존의  numpy datetime64 format 변수를 사용하여 인덱스 설정

In [12]:
df.set_index('date', inplace=True)
df

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.346755
2020-09-30,1.19276
2020-10-31,-0.138433
2020-11-30,0.106646
2020-12-31,0.451344
2021-01-31,0.995449
2021-02-28,-0.424381
2021-03-31,-0.941789
2021-04-30,-0.716732
2021-05-31,1.338798


In [13]:
df.index

DatetimeIndex(['2020-08-31', '2020-09-30', '2020-10-31', '2020-11-30',
               '2020-12-31', '2021-01-31', '2021-02-28', '2021-03-31',
               '2021-04-30', '2021-05-31', '2021-06-30', '2021-07-31'],
              dtype='datetime64[ns]', name='date', freq=None)

### Subsetting data

이제 DatetimeIndex를 사용하여 데이터 하위 집합을 선택할 수 있습니다.

In [14]:
df.loc['2020']

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.346755
2020-09-30,1.19276
2020-10-31,-0.138433
2020-11-30,0.106646
2020-12-31,0.451344


In [15]:
df['2020-08': '2020-12']

Unnamed: 0_level_0,a
date,Unnamed: 1_level_1
2020-08-31,0.346755
2020-09-30,1.19276
2020-10-31,-0.138433
2020-11-30,0.106646
2020-12-31,0.451344


### Datetime Components

Pandas Datetime 변수에는 여러 가지 유용한 구성 요소가 있습니다. DatetimeIndex를 사용하여 월, 연도, 요일, 분기 등과 같은 항목을 추출할 수 있습니다.

DatetimeIndex에서 date 추출

In [16]:
df.index.day

Index([31, 30, 31, 30, 31, 31, 28, 31, 30, 31, 30, 31], dtype='int32', name='date')

- DatetimeIndex에서 day of week 추출 (Day of Week: Monday=0, Sunday=6)

In [17]:
df.index.dayofweek   

Index([0, 2, 5, 0, 3, 6, 6, 2, 4, 0, 2, 5], dtype='int32', name='date')

In [18]:
df['DayofWeek'] = df.index.dayofweek
df.head()

Unnamed: 0_level_0,a,DayofWeek
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-08-31,0.346755,0
2020-09-30,1.19276,2
2020-10-31,-0.138433,5
2020-11-30,0.106646,0
2020-12-31,0.451344,3
