# 시계열 데이터

시간의 흐름을 나타내는 데이터
* 특정한 시점을 기록하는 Timestamp
* 두 지점 사이의 일정한 기간을 의미하는 Period

## 다른 자료형을 시계열객체로 변환

문자열, 숫자 등의 값을 시계열 데이터로 변환한다.

In [None]:
## 문자열 -> Timestamp 

to_datetime()

In [10]:
import numpy as np
import pandas as pd

In [24]:
file_path = 'data/stock-data.csv'
stock = pd.read_csv(file_path)
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [22]:
stock['Date'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 20 entries, 0 to 19
Series name: Date
Non-Null Count  Dtype 
--------------  ----- 
20 non-null     object
dtypes: object(1)
memory usage: 292.0+ bytes


In [30]:
stock['new_date'] = pd.to_datetime(stock['Date'])

In [38]:
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [42]:
stock['new_date'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 20 entries, 0 to 19
Series name: new_date
Non-Null Count  Dtype         
--------------  -----         
20 non-null     datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 292.0 bytes


In [56]:
cols = "name"
if cols not 'name':
    pass
else:
    print("is")
    
#['b'] + [cols for cols in df.columns if cols != 'name']

SyntaxError: invalid syntax (508491640.py, line 2)

In [48]:
stock.set_index('new_date', inplace=True)

In [52]:
stock.drop('Date', axis=1, inplace=True)

In [54]:
stock.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume
new_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


In [None]:
## Timestamp -> Period 변경

In [58]:
dates = ['2019-01-01', '2024-03-01', '2021-06-01']
to_dates = pd.to_datetime(dates)
to_dates

DatetimeIndex(['2019-01-01', '2024-03-01', '2021-06-01'], dtype='datetime64[ns]', freq=None)

In [60]:
to_dates.to_period(freq='D')

PeriodIndex(['2019-01-01', '2024-03-01', '2021-06-01'], dtype='period[D]')

pandas.to_period에서 freq는 주어진 시계열 데이터를 **어떤 주기(빈도)**로 변환할지 지정하는 인수입니다. 
즉, 데이터를 일별, 월별, 연도별 등으로 변환하는 방식입니다.

freq는 Frequency의 약자로, 문자열로 지정됩니다.
주요 값들은 pandas에서 제공하는 표준 시간 주기(Frequency Alias)입니다.


Alias	주기	설명

'S'	초(Secondly)	데이터를 초 단위로 변환
'T' 또는 'min'	분(Minutely)	데이터를 분 단위로 변환
'H'	시간별(Hourly)	데이터를 시간 단위로 변환

'D'	일별(Daily)	데이터를 하루 단위로 변환
'W'	주별(Weekly)	데이터를 주 단위로 변환
'M'	월별(Monthly)	데이터를 월 단위로 변환(month end 월말)
'MS'	월 시작(Month Start)	월의 첫 번째 날로 변환

'Q'	분기별(Quarterly)	데이터를 분기 단위로 변환
'QS'	분기 시작(Quarter Start)	분기의 첫 번째 날로 변환

'Y' 또는 'A'	연도별(Yearly/Annual)	데이터를 연 단위로 변환
'YS' 또는 'AS'	연도 시작(Year Start)	연도의 첫 번째 날로 변환

'B'	영업일(Business day)	데이터를 영업일 단위로 변환

In [74]:
pr_day = to_dates.to_period(freq='D')
print(pr_day)

PeriodIndex(['2019-01-01', '2024-03-01', '2021-06-01'], dtype='period[D]')


In [78]:
pr_month = to_dates.to_period(freq='M')
print(pr_month)

PeriodIndex(['2019-01', '2024-03', '2021-06'], dtype='period[M]')


In [70]:
pr_year = to_dates.to_period(freq='Y')
print(pr_year)

PeriodIndex(['2019', '2024', '2021'], dtype='period[Y-DEC]')


<br>
<br>
<br>

## 시계열 데이터 만들기 

Timestamp 배열 : pd.date_range()

In [121]:
ts_arr = pd.date_range(start='2019-01-01', end=None, periods=6, freq='MS', tz='Asia/Seoul')
print(ts_arr)

DatetimeIndex(['2019-01-01 00:00:00+09:00', '2019-02-01 00:00:00+09:00',
               '2019-03-01 00:00:00+09:00', '2019-04-01 00:00:00+09:00',
               '2019-05-01 00:00:00+09:00', '2019-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')


In [129]:
ts_arr = pd.date_range(start='2019-01-01', end=None, periods=6, freq='ME', tz='Asia/Seoul')
print(ts_arr)

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-07-31 00:00:00+09:00', '2019-10-31 00:00:00+09:00',
               '2020-01-31 00:00:00+09:00', '2020-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3ME')


freq='3ME' 입력시 3개월 간격으로 생성 

Period 배열 : pd.period_range()

In [152]:
pr_arr = pd.period_range(start='2019-01-01', end=None, periods=3, freq='4h')
print(pr_arr)

PeriodIndex(['2019-01-01 00:00', '2019-01-01 04:00', '2019-01-01 08:00'], dtype='period[4h]')


<br>
<br>
<br>

In [None]:
## 날짜 데이터 분리

In [163]:
stock = pd.read_csv('data/stock-data.csv')
stock['new_date'] = pd.to_datetime(stock['Date'])
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [167]:
stock['year'] = stock['new_date'].dt.year

In [169]:
stock['month'] = stock['new_date'].dt.month

In [171]:
stock['day'] = stock['new_date'].dt.day

In [173]:
stock.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_date,year,month,day
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02,2018,7,2
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29,2018,6,29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28,2018,6,28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27,2018,6,27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26,2018,6,26
