## Agenda
- TimeSeries Data
- 시간의 흐름에 따라 변화 하는 data

In [1]:
import pandas as pd
import numpy as np

np.random.seed(252)

## Time Series

- "timeseries" 데이터는 `DatetimeIndex` 또는 `PeriodIndex`로 구성된 데이터 셋이다

### to_datetime

In [8]:
# datetime 은 시간 일부분 period는 기간 인덱싱 할 때
x= pd.to_datetime('20230621') #  string 인데 timestamp로 바뀐다.
print(x)
print(type(x))

x_1 = pd.to_datetime('2023-06-21')
print(x_1)
print(type(x_1))
# x= pd.to_datetime(20230621) # 되긴 되는데 주로 문자로 입력을 받아준다.
# x

2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [10]:
x_2 = pd.to_datetime('2023-06-21', format='%Y-%m-%d') # 연도,month, day 어떻게 분간해줄건지 정하는거
print(x_2)
print(type(x_2))

2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [11]:
x_1 = pd.to_datetime('20230621', format='%Y%m%d') # 연도,month, day 어떻게 분간해줄건지 정하는거
print(x_1)
print(type(x_1))

2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [12]:
x_3 = pd.to_datetime('2023_06_21', format='%Y_%m_%d') # 연도,month, day 어떻게 분간해줄건지 정하는거
print(x_3)
print(type(x_3))

2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [16]:
x_4 = pd.to_datetime('2023년06월21일', format='%Y년%m월%d일') # 연도,month, day 어떻게 분간해줄건지 정하는거
print(x_4)
print(type(x_4))

2023-06-21 00:00:00
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


### sample data 생성

In [2]:
def random_series(dts):
    res = pd.Series(np.random.randn(len(dts)), index=dts)
    return res

`Timestamp` 를 이용해 시간 객체 생성

In [3]:
ts = pd.Timestamp('2023-01-01 00:00')

In [19]:
ts

Timestamp('2023-01-01 00:00:00')

In [23]:
s_1 = pd.Series(100.1,index=[ts]) #index는 ts로 값은 100.1으로
s_1.index

DatetimeIndex(['2023-01-01'], dtype='datetime64[ns]', freq=None)

## Time Series의 함수들
- `date_range` : 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스 생성
```
s: 초
T: 분
H: 시간
D: 일(day)
B: 주말이 아닌 평일
W: 주(일요일)
W-MON: 주(월요일)
M: 각 달(month)의 마지막 날
MS: 각 달의 첫날
BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS: 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU: 각 달의 두번째 목요일
Q-JAN: 각 분기의 첫달의 마지막 날
Q-DEC: 각 분기의 마지막 달의 마지막 날
```

In [4]:
# 1년치 평일
dts = pd.date_range('2023-01-01', '2023-12-31', freq="B")
dts

DatetimeIndex(['2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05',
               '2023-01-06', '2023-01-09', '2023-01-10', '2023-01-11',
               '2023-01-12', '2023-01-13',
               ...
               '2023-12-18', '2023-12-19', '2023-12-20', '2023-12-21',
               '2023-12-22', '2023-12-25', '2023-12-26', '2023-12-27',
               '2023-12-28', '2023-12-29'],
              dtype='datetime64[ns]', length=260, freq='B')

In [12]:
ts = pd.Series(np.random.randn(len(dts)), index=dts)
ts

2023-01-02   -0.011498
2023-01-03   -0.085123
2023-01-04    0.075910
2023-01-05   -1.649279
2023-01-06   -0.751812
                ...   
2023-12-25   -0.753418
2023-12-26   -0.013732
2023-12-27   -1.280078
2023-12-28   -0.891287
2023-12-29    1.178680
Freq: B, Length: 260, dtype: float64

In [11]:
# 6일 간격으로 생성
dts_6 = pd.date_range('2023-01-01', periods =6)
dts_6

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06'],
              dtype='datetime64[ns]', freq='D')

## 시계열 데이터에서의 indexing 과 slicing

- indexing

In [18]:
ts["2023-03-03"]

0.4872299787266356

In [17]:
ts.loc["2023-03-03"]

0.4872299787266356

- slicing

In [19]:
ts["2023-03-03":"2023-03-30"]

2023-03-03    0.487230
2023-03-06    0.527615
2023-03-07   -0.587391
2023-03-08   -0.527284
2023-03-09   -0.347808
2023-03-10   -0.143150
2023-03-13    1.037533
2023-03-14   -0.170931
2023-03-15    0.077533
2023-03-16   -0.979761
2023-03-17   -0.225371
2023-03-20    1.309143
2023-03-21   -0.611646
2023-03-22   -0.785010
2023-03-23    0.640952
2023-03-24    0.360544
2023-03-27   -0.820640
2023-03-28    0.106317
2023-03-29    1.364270
2023-03-30   -0.490908
Freq: B, dtype: float64

In [20]:
ts.loc["2023-03-03":"2023-03-30"]

2023-03-03    0.487230
2023-03-06    0.527615
2023-03-07   -0.587391
2023-03-08   -0.527284
2023-03-09   -0.347808
2023-03-10   -0.143150
2023-03-13    1.037533
2023-03-14   -0.170931
2023-03-15    0.077533
2023-03-16   -0.979761
2023-03-17   -0.225371
2023-03-20    1.309143
2023-03-21   -0.611646
2023-03-22   -0.785010
2023-03-23    0.640952
2023-03-24    0.360544
2023-03-27   -0.820640
2023-03-28    0.106317
2023-03-29    1.364270
2023-03-30   -0.490908
Freq: B, dtype: float64

- 달별 선택

In [21]:
#time series의 장점
ts["2023-02"]

2023-02-01    2.183902
2023-02-02   -0.286083
2023-02-03    1.283730
2023-02-06    0.570529
2023-02-07    0.769769
2023-02-08   -0.529443
2023-02-09   -0.061445
2023-02-10    0.115779
2023-02-13    0.827117
2023-02-14    1.563864
2023-02-15   -0.090980
2023-02-16    1.316093
2023-02-17    0.372805
2023-02-20   -0.267115
2023-02-21   -1.963469
2023-02-22   -1.499895
2023-02-23   -0.003393
2023-02-24    1.192385
2023-02-27   -0.566533
2023-02-28    0.579358
Freq: B, dtype: float64

- 연별 선택

In [22]:
ts["2023"]

2023-01-02   -0.011498
2023-01-03   -0.085123
2023-01-04    0.075910
2023-01-05   -1.649279
2023-01-06   -0.751812
                ...   
2023-12-25   -0.753418
2023-12-26   -0.013732
2023-12-27   -1.280078
2023-12-28   -0.891287
2023-12-29    1.178680
Freq: B, Length: 260, dtype: float64

## 시계열 데이터의 이동 
- `shift()` 를 이용해 이동할 수 있다. 
- [참고](https://towardsdatascience.com/all-the-pandas-shift-you-should-know-for-data-analysis-791c1692b5e)

### Lagging(후행)

In [23]:
ts["2023-01"].iloc[[0,1,2,-2,-1]] #0은 1월 2일 1은 1월 3일 2는 1월 4일 / -1은 마지막날 -2는 마지막 전 날

2023-01-02   -0.011498
2023-01-03   -0.085123
2023-01-04    0.075910
2023-01-30    1.681411
2023-01-31    1.157154
dtype: float64

In [24]:
ts2k1m=ts["2023-01"].copy()

In [26]:
ts.head()

2023-01-02   -0.011498
2023-01-03   -0.085123
2023-01-04    0.075910
2023-01-05   -1.649279
2023-01-06   -0.751812
Freq: B, dtype: float64

In [27]:
ts2k1m.shift(1).head() #shift를 하면 뒤로 한칸식 넘어가는 거임, 후행 이동

2023-01-02         NaN
2023-01-03   -0.011498
2023-01-04   -0.085123
2023-01-05    0.075910
2023-01-06   -1.649279
Freq: B, dtype: float64

### Leading(선행)

In [30]:
ts["2023-01"].tail()

2023-01-25   -0.467345
2023-01-26   -1.724383
2023-01-27   -0.858197
2023-01-30    1.681411
2023-01-31    1.157154
Freq: B, dtype: float64

In [None]:
# 시계열 데이터
# 주가 : 앞의... 이어서

In [29]:
ts2k1m.shift(-1).tail() # shift(-1)은 앞으로 한칸 땡김

2023-01-25   -1.724383
2023-01-26   -0.858197
2023-01-27    1.681411
2023-01-30    1.157154
2023-01-31         NaN
Freq: B, dtype: float64

## 간격 재조정
- `resample` : 시간 간격을 재조정하는 resampling 가능

In [31]:
dts = pd.date_range('2023-01-01', '2023-12-31', freq="D")

In [32]:
ts_2= pd.Series(np.random.randn(len(dts)), index=dts)

In [34]:
grp =ts_2.resample("M") #reampling은 as 쓰면 된다.. 인터넷에 검색할때에는 pandas resample Alias 라고 검색하면 된다.

In [36]:
grp.sum() # 마지막 날을 기준으로

2023-01-31    12.944141
2023-02-28    -2.743348
2023-03-31     0.733435
2023-04-30    13.682413
2023-05-31     2.052528
2023-06-30     4.679405
2023-07-31     9.142230
2023-08-31    -5.928521
2023-09-30     4.279923
2023-10-31    -4.930352
2023-11-30     1.277475
2023-12-31     1.138060
Freq: M, dtype: float64

- Resampling은 groupby와 비슷하게 동작한다. 

In [37]:
grp.agg(["mean","sum"])

Unnamed: 0,mean,sum
2023-01-31,0.417553,12.944141
2023-02-28,-0.097977,-2.743348
2023-03-31,0.023659,0.733435
2023-04-30,0.45608,13.682413
2023-05-31,0.066211,2.052528
2023-06-30,0.15598,4.679405
2023-07-31,0.294911,9.14223
2023-08-31,-0.191243,-5.928521
2023-09-30,0.142664,4.279923
2023-10-31,-0.159044,-4.930352


## dt접근자
- datetime 자료형 시리즈에는 dt 접근자존재
- datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할

In [38]:
pd.Series(ts.index).dt.strftime("%Y년%m월%d일")

0      2023년01월02일
1      2023년01월03일
2      2023년01월04일
3      2023년01월05일
4      2023년01월06일
          ...     
255    2023년12월25일
256    2023년12월26일
257    2023년12월27일
258    2023년12월28일
259    2023년12월29일
Length: 260, dtype: object