# 시계열 데이터개요

- 시계열 데이터란
    - 시간의 흐름에 따라 수집된 데이터를 말한다.
    - 일반적으로는 시간의 간격이 균등한 **고정 빈도(fixed frequency)** 데이터가 대부분이지만 불규칙적인 데이텃세도 될 수 있다.                                    
    - 판다스는 날짜를 조작하고 다른 시구간에 대해 집계하고 다른 시간대를 샘플링 하는등의 시계열 데이터 분석을 위한 다양한 기능을 제공한다.

# 파이썬과 판다스의  날짜/시간 데이터 다루기

- **파이썬**은 `datetime` 모듈을 이용해 일시를 처리한다. datetime 모듈은 날짜/시간 관련 타입으로 `date, time, datetime` 세개의 클래스를 제공한다.
- **판다스**는 `Timestamp` 단일 타입으로 일시를 처리한다. `Timestamp`는 나노초(10억분의 1초)의 정밀도를 가진다.
- 파이썬, 판다스 모두 timedelta를 이용해 일시의 차이를 관리한다.

## 파이썬 datatime module
|클래스|설명|
|:-|-:|
|**date**|날짜타입 - 년/월/일을 저장|
|**time**|시간타입 - 시/분/초/마이크로초를 저장|
|**datetime**|날짜,시간을 저장|
|**timedelta**|두 datetime 간의 차이를 일/초/마이크로초로 표현|
|**tzinfo**|타임존-시간대-를 표현|

### 날짜 시간 객체 생성

### timedetla 를 이용한 계산
- datetime간의 간격을 표현한다.
    - 특정 날짜나 시간에서 일정 기간을 더하거나 뺀 일시를 계산할 때 사용
    - 날짜/시간 간의 차이를 계산한 결과로 사용 (두 일시간의 뺄셈의 결과)
    - 차이를 day, second, microsends로 표현한다.
    - 객체 생성시  weeks, days, hours, minutes, seconds, milliseconds, microseconds 를 넣어 차이를 표현한다.

### datetime 과 문자열간 변환

- strftime()
    - datetime, date, time 객체를 지정한 형식의 문자열로 변환
- strptime()
    - 일시 형태의 문자열로 부터 datetime 객체를 생성한다.
- 요소를 나타내는 주요 형식문자
    - %Y, %m, %d : 년, 월, 일
    - %H, %M, %S : 시, 분, 초
    - https://docs.python.org/ko/3/library/datetime.html#strftime-and-strptime-format-codes

## 판다스 Timestamp
- 날짜 시간을 나노초(10억분의 1초) 단위의 정밀도로 표현한다.
- 다양한 방식으로 객체를 생성할 수 있다.
    - 직접 원하는 일시를 넣어 생성
    - 일시 형태의 문자열을 이용해 생성
    - unix time 부터 계산하여 생성


### to_datetime()
- 날짜와 관련된 다양한 값들을 Timestamp로 변환한다.
- Series나 리스트의 값들을 한번에 변환할 수 있다. 

### Timestamp 간 연산 및 TimeDelta

# 시계열 데이터셋

- 판다스에서 시계열 데이터셋의 가장 기본적인 형태는 Index가 datetime 타입인 Series나 DataFrame 객체이다.
    - DateTimeIndex: datetime 타입의 index 타입

## DatatimeIndex indexing 과 slicing
- Index가 Datetime 타입일 경우(DatetimeIndex) 날짜 시간의 각 요소들(ex: 년도, 월, 시간등등)을 이용해 다양한 조회가 가능하다.

### slicing
- 부분 매칭(날짜/시간의 특정 요소만으로 매칭)으로 slicing이 가능하다.

## DateOffsets
- 빈도를 표현하는 타입이다.
- DateOffsets 타입 객체나 문자 별칭을 이용하여 빈도간격을 표현한다.
    - 타입: https://pandas.pydata.org/docs/user_guide/timeseries.html#dateoffset-objects
    - 별칭: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

### DateOffset 이용 메소드
- **pd.date_range()**
    - 동일한 간격 일시로 구성된(고정빈도)의 DatetimeIndex 생성한다.
    - DatetimeIndex
        - 일시 타입의 Index
    - 주요 매개변수
        - start: str 또는 datetime 형식 - 시작 날짜
        - end: str 또는 datetime 형식 - 종료 날짜
        - period:  생성할 개수
            - start에서 end까지 periods에 지정한 개수에 맞춰 등분한 날짜로 구성된 DatetimeIndex를 반환한다.
            - end 대신 period로 
        - freq: str 또는 DateOffsets - 빈도 기준
            - https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases
        - periods와 freq는 둘중 하나만 사용한다. 둘다 생략하면 **일별**로 생성한다.

- **first(offset)**
    - offset 빈도의 앞의 N개 행을 조회한다.

## 데이터 shift
- DatetimeIndex의 index는 그대로 두고 데이터를 앞 또는 뒤로 이동시킨다.
- DataFrame/Series객체.shift() 이용
    - 매개변수
        - periods=1 : 이동할 기간 (기본값 1)
        - freq: 이동시킬 날짜/시간의 단위. DateOffset 객체/alias, timedelta
        

## resample()을 이용한 집계
- resample()은 시계열 데이터를 지정한 구간별로 나눠서 집계할 수 있도록 grouping 한다.
- groupby() 로 묶을 수도 있지만 DatetimeIndex의 경우 resample이 더 편리하다.
    - 매개변수
        - rule: group으로 묶을 기준을 offset으로 지정한다.
        - closed : "left" 또는 "right" - 간격의 시작과 끝중 어느부분을 포함시킬지(닫을지)를 설정. "left"가 기본으로 왼쪽은 포함하고 오른쪽은 포함되지 않는다.
        - on : 기준 컬럼을 지정한다. Index가 아니라 datetime 타입의 열(컬럼)을 기준으로 resample 할 때 사용

##  기간 이동 집계
- 현재값을 기준으로 N개씩 묶어서 집계를 한다.
    - 예) 이동평균 구하기
- rolling(window, min_periods=None)    
    - window: 범위. 정수
    - min_periods: 집계할 최소 개수. 생략하면 window size로 지정.
    - center: bool - 집계결과를 window의 중간에 둘지 여부. 기본값은 False로 레이블이 창 맨 뒤에 둔다. 