# 시계열 데이터개요

- 시계열 데이터란
    - 시간의 흐름에 따라 수집된 데이터를 말한다.
    - 일반적으로는 시간의 간격이 균등한 **고정 빈도(fixed frequency)** 데이터가 대부분이지만 불규칙적인 데이터셋도 될 수 있다.                                    
    - 판다스는 날짜를 조작하고 다른 시구간에 대해 집계하고 다른 시간대를 샘플링 하는등의 시계열 데이터 분석을 위한 다양한 기능을 제공한다.

# 파이썬과 판다스의  날짜/시간 데이터 다루기

- **파이썬**은 `datetime` 모듈을 이용해 일시를 처리한다. datetime 모듈은 날짜/시간 관련 타입으로 `date, time, datetime` 세개의 클래스를 제공한다.
- **판다스**는 `Timestamp` 단일 타입으로 일시를 처리한다. `Timestamp`는 나노초(10억분의 1초)의 정밀도를 가진다.
- 파이썬, 판다스 모두 timedelta를 이용해 일시의 차이를 관리한다.

## 파이썬 datetime module
|클래스|설명|
|:-|-:|
|**date**|날짜타입 - 년/월/일을 저장|
|**time**|시간타입 - 시/분/초/마이크로초를 저장|
|**datetime**|날짜,시간을 저장|
|**timedelta**|두 datetime 간의 차이를 일/초/마이크로초로 표현|
|**tzinfo**|타임존-시간대-를 표현|

### 날짜 시간 객체 생성

In [13]:
import datetime  # datetime 모듈 import
d = datetime.date(year=2023, month=1, day=2)  # 날짜
t = datetime.time(hour=14, minute=40, second=20, microsecond=999999) # 시간  / 100만 마이크로초 = 1초
dt = datetime.datetime(year=2022, month=12, day=30, hour=11, minute=30, second=10, microsecond=999999)
print(f"date: {d}\ntime: {t}\ndatetime: {dt}")
print(dt.year, dt.day, dt.second)

date: 2023-01-02
time: 14:40:20.999999
datetime: 2022-12-30 11:30:10.999999
2022 30 10


In [19]:
from datetime import datetime, time, date
# 실행시점의 날짜, 일시 조회
print("현재날짜:", date.today())
print("현재일시:", datetime.now())  # 컴퓨터 내부의 날짜

현재날짜: 2023-01-12
현재일시: 2023-01-12 14:47:06.553074


### timedelta 를 이용한 계산
- datetime간의 간격을 표현한다.
    - 특정 날짜나 시간에서 일정 기간을 더하거나 뺀 일시를 계산할 때 사용
    - 날짜/시간 간의 차이를 계산한 결과로 사용 (두 일시간의 뺄셈의 결과)
    - 차이를 day, second, microseconds로 표현한다.
    - 객체 생성시  weeks, days, hours, minutes, seconds, milliseconds, microseconds 를 넣어 차이를 표현한다.

In [24]:
from datetime import timedelta
tdelta = timedelta(days=1)  # 1일차
tdelta = timedelta(weeks=1) # 1주일차
tdelta = timedelta(weeks=2, days=3, hours=5, minutes=10, seconds=30, milliseconds=100, microseconds=100000)

c = datetime.now()
print(c)
print(c - tdelta)
print(c + tdelta)

2023-01-12 15:17:47.914955
2022-12-26 10:07:17.714955
2023-01-29 20:28:18.114955


In [26]:
date(2023, 1, 12) - date(2022, 1, 1) # 날짜 차이를 timedelta

datetime.timedelta(days=376)

In [27]:
datetime.now() - datetime(2022, 1, 1, 10, 20, 22)

datetime.timedelta(days=376, seconds=18011, microseconds=406242)

### datetime 과 문자열간 변환

- strftime()
    - datetime, date, time 객체를 지정한 형식의 문자열로 변환
- strptime()
    - 일시 형태의 문자열로 부터 datetime 객체를 생성한다.
- 요소를 나타내는 주요 형식문자
    - %Y, %m, %d : 년, 월, 일
    - %H, %M, %S : 시, 분, 초
    - https://docs.python.org/ko/3/library/datetime.html#strftime-and-strptime-format-codes

In [20]:
from datetime import datetime, date
today = date.today()
print(today)
print(today.strftime("%Y년 %m월 %d일 %a")) # %a: 요일 3글자 /  %A: 요일 풀네임
curr = datetime.now()
print(curr)
print(curr.strftime("%Y/%m/%d %H, %I %p"))  # %I : 12시간 기준 hour /   %p : 오전, 오후

2023-01-12
2023년 01월 12일 Thu
2023-01-12 16:13:33.657528
2023/01/12 16, 04 PM


In [21]:
dow=list('월화수목금토일')
print(dow[today.weekday()])  # date.weekday(), datetime.weekday() => 요일을 정수반환 (0:월, 6:일)
print(today.strftime(f"%Y년 %m월 %d일 %a {dow[today.weekday()]}요일"))

목
2023년 01월 12일 Thu 목요일


In [5]:
s = "2000년 10월 30일"
# 문자열 -> datetime
datetime.strptime(s, "%Y년 %m월 %d일")

datetime.datetime(2000, 10, 30, 0, 0)

## 판다스 Timestamp
- 날짜 시간을 나노초(10억분의 1초) 단위의 정밀도로 표현한다.
- 다양한 방식으로 객체를 생성할 수 있다.
    - 직접 원하는 일시를 넣어 생성
    - 일시 형태의 문자열을 이용해 생성
    - unix time 부터 계산하여 생성 - 1970년 1월 1일 0시 0분 0초 0나노초


In [11]:
import pandas as pd
# 원하는 일시를 넣어서 생성
print(pd.Timestamp(year=2020, month=11, day=21))  # 날짜까지는 필수
print(pd.Timestamp(year=2020, month=11, day=21, hour=10))
print(pd.Timestamp(year=2020, month=11, day=21, hour=10, minute=30))
print(pd.Timestamp(year=2020, month=11, day=21, hour=10, minute=30, second=10, microsecond=1, nanosecond=1))

Timestamp('2020-11-21 10:30:10.000001001')

In [15]:
# 문자열 생성
# 날짜: '/'나 '-'로 구분자를 사용, 시간: ':'을 구분자로 사용
print(pd.Timestamp('2023/1/2'))
print(pd.Timestamp('2023/1/12 12:23'))
print(pd.Timestamp('2023/1/12 12:23:12.1233'))
print(pd.Timestamp('2023-1-12T12:23:12.1233')) # 날짜와 시간 구분: 공백이나 T

2023-01-02 00:00:00
2023-01-12 12:23:00
2023-01-12 12:23:12.123300
2023-01-12 12:23:12.123300


In [18]:
# 유닉스 타입을 기준으로 경과한 날짜.
print(pd.Timestamp(100)) # 100 나노초 경과한 일시
print(pd.Timestamp(10, unit='Y')) # 10년
print(pd.Timestamp(10, unit='M')) # 10개월
print(pd.Timestamp(10, unit='W')) # 10주

1970-01-01 00:00:00.000000100
1980-01-01 00:00:00
1970-11-01 00:00:00
1970-03-12 00:00:00


### to_datetime()
- 날짜와 관련된 다양한 값들을 Timestamp로 변환한다.
- Series나 리스트의 값들을 한번에 변환할 수 있다. 

In [24]:
s1 = pd.Series([10, 100, 100, 10000])
pd.to_datetime(s1, unit='D')

0   1970-01-11
1   1970-04-11
2   1970-04-11
3   1997-05-19
dtype: datetime64[ns]

In [31]:
pd.Series(['2000-01-01', '2001-03-10', '2023-01-12'])

0    2000-01-01
1    2001-03-10
2    2023-01-12
dtype: object

In [33]:
s2 = pd.Series(['2000-01-01', '2001-03-10', '2023-01-12', 'aaadfhiewjog'])  
result = pd.to_datetime(s2, errors="coerce")# errors="ignore": 변환못하는 문자일 경우 무시
                                            # errors="coerce": NaT 결측치 처리
                                            # errors="raise": Exception 발생 - Default
result

0   2000-01-01
1   2001-03-10
2   2023-01-12
3          NaT
dtype: datetime64[ns]

In [30]:
result[0]

Timestamp('2000-01-01 00:00:00')

In [34]:
s3 = pd.Series(['2000년 01월 01일', '2001년 03월 10일', '2023년 01월 12일']) 
pd.to_datetime(s3, format='%Y년 %m월 %d일') # parsing안되는 형식의 일시는 그 형식을 지정해 준다.

0   2000-01-01
1   2001-03-10
2   2023-01-12
dtype: datetime64[ns]

In [35]:
df = pd.read_csv('data/walmart_stock.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       1258 non-null   object 
 1   Open       1258 non-null   float64
 2   High       1258 non-null   float64
 3   Low        1258 non-null   float64
 4   Close      1258 non-null   float64
 5   Volume     1258 non-null   int64  
 6   Adj Close  1258 non-null   float64
dtypes: float64(5), int64(1), object(1)
memory usage: 68.9+ KB


In [36]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
1,2012-01-04,60.209999,60.349998,59.470001,59.709999,9593300,52.078475
2,2012-01-05,59.349998,59.619999,58.369999,59.419998,12768200,51.825539
3,2012-01-06,59.419998,59.450001,58.869999,59.0,8069400,51.45922
4,2012-01-09,59.029999,59.549999,58.919998,59.18,6679300,51.616215


In [39]:
df2 = df.copy()

In [40]:
# Date: object -> datetime 타입의 컬럼으로 변환
df['Date'] = pd.to_datetime(df['Date']) # to_datetime을 통해 변환
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


In [43]:
df2['Date'] = df2['Date'].astype("datetime64") # astype을 통해 변환
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


In [45]:
df3 = pd.read_csv('data/walmart_stock.csv', parse_dates=[0]) # 0번째 컬럼은 datetime 타입으로 변환해라
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


### Timestamp 간 연산 및 TimeDelta
- element-wise 연산 가능

In [46]:
s1 = pd.to_datetime(pd.Series(['2010-01-01', '2010-03-01', '2010-06-01']))
s2 = pd.to_datetime(pd.Series(['2012-01-01', '2012-03-01', '2012-06-01']))
s2.dtype

dtype('<M8[ns]')

In [49]:
result = s2 - s1 # 같은 index의 원소끼리의 날짜 차이 계산
result

0   730 days
1   731 days
2   731 days
dtype: timedelta64[ns]

In [50]:
result[0]

Timedelta('730 days 00:00:00')

# 시계열 데이터셋

- 판다스에서 시계열 데이터셋의 가장 기본적인 형태는 Index가 datetime 타입인 Series나 DataFrame 객체이다.
    - DateTimeIndex: datetime 타입의 index 타입

## DatatimeIndex indexing 과 slicing
- Index가 Datetime 타입일 경우(DatetimeIndex) 날짜 시간의 각 요소들(ex: 년도, 월, 시간등등)을 이용해 다양한 조회가 가능하다.

### slicing
- 부분 매칭(날짜/시간의 특정 요소만으로 매칭)으로 slicing이 가능하다.

## DateOffsets
- 빈도를 표현하는 타입이다.
- DateOffsets 타입 객체나 문자 별칭을 이용하여 빈도간격을 표현한다.
    - 타입: https://pandas.pydata.org/docs/user_guide/timeseries.html#dateoffset-objects
    - 별칭: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

### DateOffset 이용 메소드
- **pd.date_range()**
    - 동일한 간격 일시로 구성된(고정빈도)의 DatetimeIndex 생성한다.
    - DatetimeIndex
        - 일시 타입의 Index
    - 주요 매개변수
        - start: str 또는 datetime 형식 - 시작 날짜
        - end: str 또는 datetime 형식 - 종료 날짜
        - period:  생성할 개수
            - start에서 end까지 periods에 지정한 개수에 맞춰 등분한 날짜로 구성된 DatetimeIndex를 반환한다.
            - end 대신 period로 
        - freq: str 또는 DateOffsets - 빈도 기준
            - https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases
        - periods와 freq는 둘중 하나만 사용한다. 둘다 생략하면 **일별**로 생성한다.

- **first(offset)**
    - offset 빈도의 앞의 N개 행을 조회한다.

## 데이터 shift
- DatetimeIndex의 index는 그대로 두고 데이터를 앞 또는 뒤로 이동시킨다.
- DataFrame/Series객체.shift() 이용
    - 매개변수
        - periods=1 : 이동할 기간 (기본값 1)
        - freq: 이동시킬 날짜/시간의 단위. DateOffset 객체/alias, timedelta
        

## resample()을 이용한 집계
- resample()은 시계열 데이터를 지정한 구간별로 나눠서 집계할 수 있도록 grouping 한다.
- groupby() 로 묶을 수도 있지만 DatetimeIndex의 경우 resample이 더 편리하다.
    - 매개변수
        - rule: group으로 묶을 기준을 offset으로 지정한다.
        - closed : "left" 또는 "right" - 간격의 시작과 끝중 어느부분을 포함시킬지(닫을지)를 설정. "left"가 기본으로 왼쪽은 포함하고 오른쪽은 포함되지 않는다.
        - on : 기준 컬럼을 지정한다. Index가 아니라 datetime 타입의 열(컬럼)을 기준으로 resample 할 때 사용

##  기간 이동 집계
- 현재값을 기준으로 N개씩 묶어서 집계를 한다.
    - 예) 이동평균 구하기
- rolling(window, min_periods=None)    
    - window: 범위. 정수
    - min_periods: 집계할 최소 개수. 생략하면 window size로 지정.
    - center: bool - 집계결과를 window의 중간에 둘지 여부. 기본값은 False로 레이블이 창 맨 뒤에 둔다. 