# 시계열 관련 NumPy 및 Pandas 기능

## python, numpy, pandas 날짜 타입 비교 및 정리

|라이브러리|날짜, 시간 클래스| 타임델타 클래스|
|-------|-------------|-------------|
|datetime|datetime, date, time|timedelta|
|numpy|datetime64|timedelta64|
|panads|Timestamp|Timedelta|

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜와 시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있음.   
예를들어 `2021-3-16` (날짜)을 표시하고 싶으면 `date` 클래스를 사용하고, `2021-3-16 12:34:2` (날짜+시간)를 표시하고 싶으면 `datetime` 클래스를 사용.  


- `datetime64`나 `Timestamp`는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스.   
이 둘은 한 클래스로 날짜, 시간, 날짜+시간을 모두 정의할 수 있는 것이 특징.

### 날짜 데이터 정의 - python 

In [None]:
#날짜
#날짜 + 시간
#시간

### 날짜 데이터 정의 - numpy

In [None]:
#날짜

### 날짜 데이터 정의 - pandas 
- pd.Timestamp :  python datetime.datetime 의 Pandas version
- pd.to_datetime :  Scalar, array-like, Series or DataFrame/dictionary 형태 data를 pandas DatetimeIndex로 날짜 변환.

In [None]:
#날짜
#날짜 + 시간

### Numpy 의 datetime64 format

- NumPy 날짜 배열은 ns(나노초) 단위의 datetime64 객체입니다. 
- 내부 저장 단위는 문자열 형태에서 자동으로 선택되며 날짜 단위 또는 시간 단위가 될 수 있습니다.   
- 날짜 단위는 년('Y'), 월('M'), 주('W'), 일('D')이고 시간 단위는 시('h'), 분('m'), 초('s'), 밀리초('ms') 입니다.

`datetime64[D]` - 날짜

`datetime64[M]` - 월

order_date_monthly = np.array(order_date, dtype='datetime64[M]')
order_date_monthly

`'datetime64[Y]` - 연

## DateTimeIndex 를 가진 Pandas 시계열 data 생성 및 처리

- Timestamp을 index 로 하는 data 를 시계열데이터 (TimeSeries) 라고 부른다. 즉, index 가 DatetimeIndex 인 데이터이다.

- 시계열관련 class 와 생성 방법

| class         |           설명          |                               생성방법 |Pandas Class|
|---------------|:-----------------------:|---------------------------------------:|------------:|
| Timestamp     |     하나의 timestamp    |                 to_datetime, Timestamp |pandas.Timestamp|
| DatetimeIndex | timestamp 타입의 인덱스 | to_datetime, date_range, DatetimeIndex |pandas.DatetimeIndex|
| Period        |       time period       |                                 Period |pandas.Period|

## to_datetime()

- 날짜/시간을 나타내는 **여러 종류의 문자열**을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

In [None]:
# 날짜 변환

## date_range
```python
pd.date_range(start, end, periods, freq)
```

- 모든 날짜/시간을 일일히 입력할 필요없이 **시작일과 종료일** 또는 **시작일과 기간**을 입력하면 범위 내의 인덱스를 생성  

- freq
    - S: 초  
    - T: 분  
    - H: 시간  
    - D: 일(day)  
    - B: 주말이 아닌 평일 (Business Day)
    - W: 주(일요일)  
    - M: 각 달(month)의 마지막 날  
    - MS: 각 달의 첫날  

[frequency alias](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases) 참조

start ~ 10일

start~end 사이 평일

start ~ 12 개월

DataFrame의 index를 datetime으로 변경

## Pandas DatetimeIndex를 이용한 작업

기존의  numpy datetime64 format 변수를 사용하여 인덱스 설정

### Subsetting data

이제 DatetimeIndex를 사용하여 데이터 하위 집합을 선택할 수 있습니다.

### Datetime Components

Pandas Datetime 변수에는 여러 가지 유용한 구성 요소가 있습니다. DatetimeIndex를 사용하여 월, 연도, 요일, 분기 등과 같은 항목을 추출할 수 있습니다.

DatetimeIndex에서 date 추출

- DatetimeIndex에서 day of week 추출 (Day of Week: Monday=0, Sunday=6)

## resample

- 시간 간격을 재조정   
- 원래의 데이터가 그룹으로 묶이기 때문에 그룹 연산을 해서 대표값을 구해야 한다.

주 단위로 down-sampling

주 단위 평균

월 단위 평균