# 1. 시계열 데이터개요

- 시계열 데이터란
    - 시간의 흐름에 따라 수집된 데이터를 말한다.
    - 일반적으로는 시간의 간격이 균등한 **고정 빈도(fixed frequency)** 데이터가 대부분이지만 불규칙적인 데이텃세도 될 수 있다.                                    
    - 판다스는 날짜를 조작하고 다른 시구간에 대해 집계하고 다른 시간대를 샘플링 하는등의 시계열 데이터 분석을 위한 다양한 기능을 제공한다.

# 2. 파이썬과 판다스의  날짜/시간 데이터 다루기

- **파이썬**은 `datetime` 모듈을 이용해 일시를 처리한다. datetime 모듈은 날짜/시간 관련 타입으로 `date, time, datetime` 세개의 클래스를 제공한다.
- **판다스**는 `Timestamp` 단일 타입으로 일시를 처리한다. `Timestamp`는 나노초(10억분의 1초)의 정밀도를 가진다.
- 파이썬, 판다스 모두 timedelta를 이용해 일시의 차이를 관리한다.

## 2.1. 파이썬 datatime module
|class|설명|
|:-|-:|
|**date**|날짜타입 - 년/월/일을 저장|
|**time**|시간타입 - 시/분/초/마이크로초를 저장|
|**datetime**|날짜,시간을 저장|
|**timedelta**|두 datetime 간의 차이를 일/초/마이크로초로 표현|
|**tzinfo**|타임존-시간대-를 표현|

### 2.1.1. 날짜 시간 객체 생성

In [1]:
# 먼저 datetime module을 import한다.
# 먼저 날짜 정보를 입력한 date instance인 d를 생성한다.
# 그리고 시간 정보를 입력한 time instance인 t를 생성한다.
# 마지막으로 날짜와 시간 정보를 입력한 datetime instance인 dt를 생성한다.

import datetime

d = datetime.date(year = 2023, month = 1, day = 1)
t = datetime.time(hour = 14, minute = 40, second = 20)
dt = datetime.datetime(year = 2023, month = 1, day = 1, hour = 14, minute = 40, second = 20)

print(f"date: {d}\ntime: {t}\ndatetime: {dt}")

date: 2023-01-01
time: 14:40:20
datetime: 2023-01-01 14:40:20


In [None]:
# 실행 결과와 같이 날짜, 시간, 날짜/시간 정보를 담고 있는 instance가 생성된다.
# 초는 microsecond까지 설정 가능하다. 1 마이크로 초 = 1 / 100만 초 이다.

In [2]:
d = datetime.date(year = 2023, month = 1, day = 1)
t = datetime.time(hour = 14, minute = 40, second = 20, microsecond = 999999)
dt = datetime.datetime(year = 2023, month = 1, day = 1, hour = 14, minute = 40, second = 20, microsecond = 999999)

print(f"date: {d}\ntime: {t}\ndatetime: {dt}")

date: 2023-01-01
time: 14:40:20.999999
datetime: 2023-01-01 14:40:20.999999


In [3]:
# 각 instance에서 원하는 정보를 뽑아낼 때는 아래와 같은 코드를 작성한다.
print(dt.year, dt.day, dt.hour)

2023 1 14


In [5]:
# 위와 같은 코드를 작성하기는 다소 번거롭다.
# 그래서 일반적으로는 아래와 같이 import한다.
from datetime import datetime, time, date

In [6]:
# 실행시점의 날짜, 일시를 조회할 때는 아래 코드를 작성한다.

print("현재 날짜:", date.today())
print("현재 일시:", datetime.now())

현재 날짜: 2023-01-12
현재 일시: 2023-01-12 14:47:04.598312


### 2.1.2. timedetla 를 이용한 계산
- datetime간의 간격을 표현한다.
    - 특정 날짜나 시간에서 일정 기간을 더하거나 뺀 일시를 계산할 때 사용
    - 날짜/시간 간의 차이를 계산한 결과로 사용 (두 일시간의 뺄셈의 결과)
    - 차이를 day, second, microsends로 표현한다.
    - 객체 생성시  weeks, days, hours, minutes, seconds, milliseconds, microseconds 를 넣어 차이를 표현한다.

In [7]:
# 먼저 timedelta를 import한다.

from datetime import timedelta

tdelta = timedelta(days = 1)

c = datetime.now()
print(c)
print(c - tdelta)

2023-01-12 15:14:38.482911
2023-01-11 15:14:38.482911


In [8]:
# parameter weeks의 기능 확인

tdelta = timedelta(weeks = 1)

c = datetime.now()
print(c)
print(c - tdelta)

2023-01-12 15:15:46.868082
2023-01-05 15:15:46.868082


In [10]:
tdelta = timedelta(weeks = 2, days = 3, hours = 5, minutes = 10, seconds = 30, milliseconds = 100, microseconds = 100000)

c = datetime.now()
print(c)
print(c - tdelta)

2023-01-12 15:18:18.286263
2022-12-26 10:07:48.086263


In [11]:
date(2023, 1, 12) - date(2023, 1, 1)

datetime.timedelta(days=11)

In [12]:
date(2023, 1, 12) - date(2022, 1, 1)

datetime.timedelta(days=376)

In [13]:
datetime.now() - datetime(2022, 1, 1, 10, 20, 22)

datetime.timedelta(days=376, seconds=18043, microseconds=422028)

### 2.1.3. datetime 과 문자열간 변환

- strftime()
    - datetime, date, time 객체를 지정한 형식의 문자열로 변환
- strptime()
    - 일시 형태의 문자열로 부터 datetime 객체를 생성한다.
- 요소를 나타내는 주요 형식문자
    - %Y, %m, %d : 년, 월, 일
    - %H, %M, %S : 시, 분, 초
    - https://docs.python.org/ko/3/library/datetime.html#strftime-and-strptime-format-codes

In [15]:
# strftime() 사용 방법

today = date.today()
print(today)

2023-01-12


In [16]:
# print()를 사용하면 자동으로 위와 같이 "-"로 구분되어 출력된다. 이를 내가 원하는 형식으로 출력하고자 할 때
# strftime을 이용해 아래와 같은 코드를 작성한다.

In [17]:
print(today.strftime("%Y년 %m월 %d일 %a"))

2023년 01월 12일 Thu


In [19]:
curr = datetime.now()
print(curr)
print(curr.strftime("%Y/%m/%d 24시간제: %H, 12시간제: %I %p"))

2023-01-12 15:32:39.212252
2023/01/12 24시간제: 15, 12시간제: 03 PM


In [20]:
# strptime() 사용 방법
# 날짜/시간을 나타내는 문자열이 있을 때 이 문자열을 datetime instance로 바꿀 때 strptime()을 이용한다.
# 이때 

s = "2000년 01월 27일"
datetime.strptime(s, "%Y년 %m월 %d일")

datetime.datetime(2000, 1, 27, 0, 0)

## 2.2. 판다스 Timestamp
- 날짜 시간을 나노초(10억분의 1초) 단위의 정밀도로 표현한다.
- 다양한 방식으로 객체를 생성할 수 있다.
    - 직접 원하는 일시를 넣어 생성
    - 일시 형태의 문자열을 이용해 생성
    - unix time 부터 계산하여 생성


In [22]:
# Timestamp 사용 방법
# 먼저 직접 원하는 일시를 넣어서 생성해본다.

import pandas as pd

pd.Timestamp(year = 2020, month = 11, day = 21)
pd.Timestamp(year = 2020, month = 11, day = 21, hour = 17)

Timestamp('2020-11-21 17:00:00')

In [23]:
pd.Timestamp(year = 2020, month = 11, day = 21, hour = 17, minute = 30)

Timestamp('2020-11-21 17:30:00')

In [25]:
pd.Timestamp(year = 2020, month = 11, day = 21, hour = 17, minute = 30, second = 10, microsecond = 1, nanosecond = 1)

Timestamp('2020-11-21 17:30:10.000001001')

In [26]:
# 문자열 생성
# 날짜: "/"나 "-"를 구분자로 사용
# 시간: ":"를 구분자로 사용
pd.Timestamp("2023/1/2")

Timestamp('2023-01-02 00:00:00')

In [27]:
pd.Timestamp("2023/1/2 12:23")

Timestamp('2023-01-02 12:23:00')

In [28]:
pd.Timestamp("2023/1/2 12:23.1234")

Timestamp('2023-01-02 12:23:07')

In [None]:
# 날짜와 시간을 구분할 때는 공백이나 T를 이용한다.

In [29]:
pd.Timestamp("2023/1/2T12:23.1234")

Timestamp('2023-01-02 12:23:07')

In [30]:
# unix time을 기준으로 경과한 날짜를 구하는 방법

# x나노초 경과한 일시. 기본적으로 나노초로 값을 받는다.
pd.Timestamp(100)

Timestamp('1970-01-01 00:00:00.000000100')

In [31]:
# 년도를 기준으로 값을 받는 방법
pd.Timestamp(10, unit = "Y")

Timestamp('1980-01-01 00:00:00')

In [32]:
# 개월을 기준으로 값을 받는 방법
pd.Timestamp(10, unit = "M")

Timestamp('1970-11-01 00:00:00')

In [34]:
pd.Timestamp(10, unit = "W")

Timestamp('1970-03-12 00:00:00')

In [33]:
# 일수를 기준으로 값을 받는 방법
pd.Timestamp(10, unit = "D")

Timestamp('1970-01-11 00:00:00')

In [None]:
# 이 와에도 다양하게 사용 가능하다.

### 2.2.1. to_datetime()
- 날짜와 관련된 다양한 값들을 Timestamp로 변환한다.
- Series나 리스트의 값들을 한번에 변환할 수 있다. 

In [36]:
# to_datetime() 사용 방법
#

s = pd.Series([10, 100, 1000, 10000])

pd.to_datetime(s, unit = "D")

0   1970-01-11
1   1970-04-11
2   1972-09-27
3   1997-05-19
dtype: datetime64[ns]

In [38]:
s = pd.Series(["2000-01-01", "2001-03-10", "2023-01-14"])
pd.to_datetime(s)

0   2000-01-01
1   2001-03-10
2   2023-01-14
dtype: datetime64[ns]

In [41]:
# parameter errors의 기능 확인
# 변환하지 못하는 문자열이 있을 경우 어떻게 처리할지를 결정한다. 이를 확인하기 위해 "abcdef" 문자열을 추가한다.

# errors = "raise"
# 기본값이다. Exception을 발생시킨다.

s = pd.Series(["2000-01-01", "2001-03-10", "2023-01-14", "abcdef"])
pd.to_datetime(s, errors = "raise")

ParserError: Unknown string format: abcdef present at position 3

In [40]:
# errors = "ignore"
# error를 발생시키지 않고 생성한다.

s = pd.Series(["2000-01-01", "2001-03-10", "2023-01-14", "abcdef"])
pd.to_datetime(s, errors = "ignore")

0    2000-01-01
1    2001-03-10
2    2023-01-14
3        abcdef
dtype: object

In [42]:
# errors = "coerce"
# NaT 결측치로 처리한다.

s = pd.Series(["2000-01-01", "2001-03-10", "2023-01-14", "abcdef"])
pd.to_datetime(s, errors = "coerce")

0   2000-01-01
1   2001-03-10
2   2023-01-14
3          NaT
dtype: datetime64[ns]

In [None]:
# 아래와 같은 문자열을 입력하면 error가 발생한다. 그래서 format을 지정해야 한다.

In [44]:
s = pd.Series(["2000년 01월 01일", "20010년 3월 10일", "2023년 01월 14일"])
pd.to_datetime(s)

ParserError: Unknown string format: 2000년 01월 01일 present at position 0

In [48]:
s = pd.Series(["2000년 01월 01일", "2001년 03월 10일", "2023년 01월 14일"])
pd.to_datetime(s, format = "%Y년 %m월 %d일")

0   2000-01-01
1   2001-03-10
2   2023-01-14
dtype: datetime64[ns]

In [None]:
# 이처럼 parsing이 안되는 형식의 일시는 그 형식을 직접 지정해줘야 한다.

In [None]:
# data의 일시 정보가 datetime type이 아닐 때 datetime type으로 변환하는 방법

In [None]:
# 아래의 data를 DataFrame으로 읽어온다.

In [59]:
df = pd.read_csv("data/walmart_stock.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       1258 non-null   object 
 1   Open       1258 non-null   float64
 2   High       1258 non-null   float64
 3   Low        1258 non-null   float64
 4   Close      1258 non-null   float64
 5   Volume     1258 non-null   int64  
 6   Adj Close  1258 non-null   float64
dtypes: float64(5), int64(1), object(1)
memory usage: 68.9+ KB


In [51]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Adj Close
0,2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
1,2012-01-04,60.209999,60.349998,59.470001,59.709999,9593300,52.078475
2,2012-01-05,59.349998,59.619999,58.369999,59.419998,12768200,51.825539
3,2012-01-06,59.419998,59.450001,58.869999,59.0,8069400,51.45922
4,2012-01-09,59.029999,59.549999,58.919998,59.18,6679300,51.616215


In [54]:
# 여기서 Date는 object type이다. 이것을 datetime type의 column으로 바꿔보자.

In [53]:
# 방법 1. to_datetime()
# 실행결과 Date column이 datetime으로 type이 바뀌었다는 것을 확인할 수 있다.
df["Date"] = pd.to_datetime(df["Date"])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


In [58]:
# 방법 2. astype()
# type을 직접적으로 바꾸는 방법도 있다.
df["Date"] = df["Date"].astype("datetime64")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


  df["Date"] = df["Date"].astype("datetime64")


In [None]:
# 이처럼 object로 읽은 일시 정보를 datetime으로 바꿀 때 to_datetime()과 astype()을 이용하면 된다.

In [68]:
# 방법 3. parse_dates = []
# data를 불러오면서 datetime tyep으로 바꾼다.
# 입력하는 숫자 값에 해당하는 위치에 있는 column을 datetime type으로 변환한다.

df = pd.read_csv("data/walmart_stock.csv", parse_dates = [0])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1258 non-null   datetime64[ns]
 1   Open       1258 non-null   float64       
 2   High       1258 non-null   float64       
 3   Low        1258 non-null   float64       
 4   Close      1258 non-null   float64       
 5   Volume     1258 non-null   int64         
 6   Adj Close  1258 non-null   float64       
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 68.9 KB


### 2.2.2. Timestamp 간 연산 및 TimeDelta

In [69]:
# 직접 연산을 해보자.

# 먼저 datetime type을 가지는 Series를 두 개 생성하자.

s1 = pd.to_datetime(pd.Series(["2010-01-01", "2010-03-01", "2010-05-01"]))
s2 = pd.to_datetime(pd.Series(["2012-01-01", "2015-03-01", "2018-05-01"]))

In [71]:
# - 연산
# 같은 index의 elementt끼리 일시의 차이를 계산한다.

result = s2 - s1
result

0    730 days
1   1826 days
2   2922 days
dtype: timedelta64[ns]

In [72]:
result[0]

Timedelta('730 days 00:00:00')

In [76]:
# TimeDelta instance를 생성하는 방법
# 간격으로 weeks, days, hours, minutes, seconds, milliseconds, microseconds를 설정할 수 있다.
# TimeDelta instance를 생성해보자.

t_delta = pd.Timedelta(weeks = 2, days = 3)
s = pd.to_datetime(pd.Series(["2010-01-01", "2010-03-01", "2010-05-01"]))
s + t_delta

0   2010-01-18
1   2010-03-18
2   2010-05-18
dtype: datetime64[ns]

# 3. 시계열 데이터셋

- 판다스에서 시계열 데이터셋의 가장 기본적인 형태는 Index가 datetime 타입인 Series나 DataFrame 객체이다.
    - DateTimeIndex: datetime 타입의 index 타입

In [1]:
from datetime import datetime
import pandas as pd
import numpy as np

dates = [
    datetime(2022, 1, 1), datetime(2022, 1, 2), datetime(2022, 1, 3), datetime(2022, 1, 4),
    datetime(2022, 2, 1), datetime(2022, 2, 2), datetime(2022, 2, 3), datetime(2022, 2, 4),
    datetime(2022, 3, 1), datetime(2022, 3, 2), datetime(2022, 3, 3), datetime(2022, 3, 4),
    
    datetime(2023, 1, 1), datetime(2023, 1, 2), datetime(2023, 1, 3), datetime(2023, 1, 4),
    datetime(2023, 2, 1), datetime(2023, 2, 2), datetime(2023, 2, 3), datetime(2023, 2, 4),
    datetime(2023, 3, 1), datetime(2023, 3, 2), datetime(2023, 3, 3), datetime(2023, 3, 4)
]

np.random.seed(0)
values = np.random.standard_normal(size = 24)     # 표준정규분포(평균: 0, 표준편차: 1)를 따르는 난수를 생성한다.

s = pd.Series(values, index = dates)
s.info()
s

<class 'pandas.core.series.Series'>
DatetimeIndex: 24 entries, 2022-01-01 to 2023-03-04
Series name: None
Non-Null Count  Dtype  
--------------  -----  
24 non-null     float64
dtypes: float64(1)
memory usage: 384.0 bytes


2022-01-01    1.764052
2022-01-02    0.400157
2022-01-03    0.978738
2022-01-04    2.240893
2022-02-01    1.867558
2022-02-02   -0.977278
2022-02-03    0.950088
2022-02-04   -0.151357
2022-03-01   -0.103219
2022-03-02    0.410599
2022-03-03    0.144044
2022-03-04    1.454274
2023-01-01    0.761038
2023-01-02    0.121675
2023-01-03    0.443863
2023-01-04    0.333674
2023-02-01    1.494079
2023-02-02   -0.205158
2023-02-03    0.313068
2023-02-04   -0.854096
2023-03-01   -2.552990
2023-03-02    0.653619
2023-03-03    0.864436
2023-03-04   -0.742165
dtype: float64

In [None]:
# 위와 같은 data set이 index가 datetime type인 data set이다. 이를 Time Series Data Set이라 한다.

## 3.1. DatatimeIndex indexing 과 slicing
- Index가 Datetime 타입일 경우(DatetimeIndex) 날짜 시간의 각 요소들(ex: 년도, 월, 시간등등)을 이용해 다양한 조회가 가능하다.

In [81]:
# indexing
# 문자열을 이용해 조회한다.

s["2022-01-02"]

0.4001572083672233

In [82]:
s["2022"]

2022-01-01    1.764052
2022-01-02    0.400157
2022-01-03    0.978738
2022-01-04    2.240893
2022-02-01    1.867558
2022-02-02   -0.977278
2022-02-03    0.950088
2022-02-04   -0.151357
2022-03-01   -0.103219
2022-03-02    0.410599
2022-03-03    0.144044
2022-03-04    1.454274
dtype: float64

In [83]:
s["2022-02"]

2022-02-01    1.867558
2022-02-02   -0.977278
2022-02-03    0.950088
2022-02-04   -0.151357
dtype: float64

In [5]:
s.index.year

Int64Index([2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022,
            2022, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023,
            2023, 2023],
           dtype='int64')

### 3.1.1. slicing
- 부분 매칭(날짜/시간의 특정 요소만으로 매칭)으로 slicing이 가능하다.

In [85]:
s["2022-02-02":"2023-01-03":3]

2022-02-02   -0.977278
2022-03-01   -0.103219
2022-03-04    1.454274
2023-01-03    0.443863
dtype: float64

In [87]:
s["2022-01":"2023-02"]

2022-01-01    1.764052
2022-01-02    0.400157
2022-01-03    0.978738
2022-01-04    2.240893
2022-02-01    1.867558
2022-02-02   -0.977278
2022-02-03    0.950088
2022-02-04   -0.151357
2022-03-01   -0.103219
2022-03-02    0.410599
2022-03-03    0.144044
2022-03-04    1.454274
2023-01-01    0.761038
2023-01-02    0.121675
2023-01-03    0.443863
2023-01-04    0.333674
2023-02-01    1.494079
2023-02-02   -0.205158
2023-02-03    0.313068
2023-02-04   -0.854096
dtype: float64

In [89]:
df = pd.read_csv("data/walmart_stock.csv", parse_dates = [0], index_col = 0)
df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
2012-01-04,60.209999,60.349998,59.470001,59.709999,9593300,52.078475
2012-01-05,59.349998,59.619999,58.369999,59.419998,12768200,51.825539
2012-01-06,59.419998,59.450001,58.869999,59.000000,8069400,51.459220
2012-01-09,59.029999,59.549999,58.919998,59.180000,6679300,51.616215
...,...,...,...,...,...,...
2016-12-23,69.430000,69.750000,69.360001,69.540001,4803900,69.032411
2016-12-27,69.300003,69.820000,69.250000,69.699997,4435700,69.191240
2016-12-28,69.940002,70.000000,69.260002,69.309998,4875700,68.804087
2016-12-29,69.209999,69.519997,69.120003,69.260002,4298400,68.754456


In [90]:
# 위 data 역시 DatetimeIndex를 가지는 data이다.
# 이를 이용해 다양하게 indexing하고 slicing해보자.

df.loc["2012-01-03"]

Open         5.997000e+01
High         6.106000e+01
Low          5.987000e+01
Close        6.033000e+01
Volume       1.266880e+07
Adj Close    5.261924e+01
Name: 2012-01-03 00:00:00, dtype: float64

In [91]:
df.loc["2012-01-03":"2012-01-20"]

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
2012-01-04,60.209999,60.349998,59.470001,59.709999,9593300,52.078475
2012-01-05,59.349998,59.619999,58.369999,59.419998,12768200,51.825539
2012-01-06,59.419998,59.450001,58.869999,59.0,8069400,51.45922
2012-01-09,59.029999,59.549999,58.919998,59.18,6679300,51.616215
2012-01-10,59.43,59.709999,58.98,59.040001,6907300,51.494109
2012-01-11,59.060001,59.529999,59.040001,59.400002,6365600,51.808098
2012-01-12,59.790001,60.0,59.400002,59.5,7236400,51.895316
2012-01-13,59.18,59.610001,59.009998,59.540001,7729300,51.930204
2012-01-17,59.869999,60.110001,59.52,59.849998,8500000,52.200581


In [92]:
df.loc["2012-01"]

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
2012-01-04,60.209999,60.349998,59.470001,59.709999,9593300,52.078475
2012-01-05,59.349998,59.619999,58.369999,59.419998,12768200,51.825539
2012-01-06,59.419998,59.450001,58.869999,59.0,8069400,51.45922
2012-01-09,59.029999,59.549999,58.919998,59.18,6679300,51.616215
2012-01-10,59.43,59.709999,58.98,59.040001,6907300,51.494109
2012-01-11,59.060001,59.529999,59.040001,59.400002,6365600,51.808098
2012-01-12,59.790001,60.0,59.400002,59.5,7236400,51.895316
2012-01-13,59.18,59.610001,59.009998,59.540001,7729300,51.930204
2012-01-17,59.869999,60.110001,59.52,59.849998,8500000,52.200581


In [94]:
df.loc["2012-01":"2012-03":5]

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-03,59.970001,61.060001,59.869999,60.330002,12668800,52.619235
2012-01-10,59.43,59.709999,58.98,59.040001,6907300,51.494109
2012-01-18,59.790001,60.029999,59.650002,60.009998,5911400,52.340131
2012-01-25,61.18,61.610001,61.040001,61.470001,5915800,53.613531
2012-02-01,61.790001,62.630001,61.790001,62.18,12130600,54.232785
2012-02-08,61.91,62.02,61.23,61.619999,7260000,53.744358
2012-02-15,62.32,62.439999,61.59,61.759998,5833700,53.866464
2012-02-23,58.59,58.900002,58.209999,58.540001,14880300,51.058014
2012-03-01,59.360001,59.419998,58.639999,58.82,16283900,51.302226
2012-03-08,59.84,59.950001,59.450001,59.77,7795600,52.479736


## 3.2. DateOffsets
- 빈도를 표현하는 타입이다.
- DateOffsets 타입 객체나 문자 별칭을 이용하여 빈도간격을 표현한다.
    - 타입: https://pandas.pydata.org/docs/user_guide/timeseries.html#dateoffset-objects
    - 별칭: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases

### 3.2.1. DateOffset 이용 메소드
- **pd.date_range()**
    - 동일한 간격 일시로 구성된(고정빈도)의 DatetimeIndex 생성한다.
    - DatetimeIndex
        - 일시 타입의 Index
    - 주요 매개변수
        - start: str 또는 datetime 형식 - 시작 날짜
        - end: str 또는 datetime 형식 - 종료 날짜
        - period:  생성할 개수
            - start에서 end까지 periods에 지정한 개수에 맞춰 등분한 날짜로 구성된 DatetimeIndex를 반환한다.
            - end 대신 period로 
        - freq: str 또는 DateOffsets - 빈도 기준
            - https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases
        - periods와 freq는 둘중 하나만 사용한다. 둘다 생략하면 **일별**로 생성한다.

- **first(offset)**
    - offset 빈도의 앞의 N개 행을 조회한다.

In [6]:
import pandas as pd

In [11]:
# date_range() 사용 방법

# parameter start & end의 기능 확인
# default 간격은 날짜 기준이다. 아래 코드를 실행하면 02월 01일까지 출력된다.
# 즉 end 날짜의 day를 설정하지 않고 month까지만 설정하면 해당 달의 1일을 end 날짜로 자동 설정하는 것이다.
pd.date_range(start = "2023-01", end = "2023-02")

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07', '2023-01-08',
               '2023-01-09', '2023-01-10', '2023-01-11', '2023-01-12',
               '2023-01-13', '2023-01-14', '2023-01-15', '2023-01-16',
               '2023-01-17', '2023-01-18', '2023-01-19', '2023-01-20',
               '2023-01-21', '2023-01-22', '2023-01-23', '2023-01-24',
               '2023-01-25', '2023-01-26', '2023-01-27', '2023-01-28',
               '2023-01-29', '2023-01-30', '2023-01-31', '2023-02-01'],
              dtype='datetime64[ns]', freq='D')

In [12]:
# parameter period의 기능 확인
pd.date_range(start = "2023-01", end = "2023-02", periods = 3)

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-16 12:00:00',
               '2023-02-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [13]:
# end를 생략할 경우
# periods에 의해 시작 날짜로부터 자동으로 3개를 생성한다. 이때 기본값은 day이다.
# 즉 아래 코드는 시작 날짜로부터 하루씩 커지는 값을 3개를 생성하는 것이다.
pd.date_range(start = "2023-01", periods = 3)

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03'], dtype='datetime64[ns]', freq='D')

In [14]:
# parameter freq의 기능 확인
# freq = "Y" 입력할 문자열은 대문자와 소문자 모두 가능하다.
# 단 MS(MonthStart)와 ms(milliseconds)는 구분해야 한다.
# YearEnd를 뜻한다. 시작 날짜를 01월로 설정해도 자동으로 12월 31일로 날짜를 설정한다.
pd.date_range(start = "2023-01", periods = 3, freq = "Y")

DatetimeIndex(['2023-12-31', '2024-12-31', '2025-12-31'], dtype='datetime64[ns]', freq='A-DEC')

In [15]:
# freq = "YS"
# YearStart를 뜻한다. 시작 날짜를 자동으로 01월 01일로 날짜를 설정한다.
pd.date_range(start = "2023-01", periods = 3, freq = "YS")

DatetimeIndex(['2023-01-01', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

In [16]:
# 아래 코드는 3
pd.date_range(start = "2023-01", periods = 3, freq = "3YS")

DatetimeIndex(['2023-01-01', '2026-01-01', '2029-01-01'], dtype='datetime64[ns]', freq='3AS-JAN')

In [17]:
# start와 end는 생략 가능하다.

# freq = "Y"의 기능 확인
pd.date_range("2000", "2023", freq = "5Y")

DatetimeIndex(['2000-12-31', '2005-12-31', '2010-12-31', '2015-12-31',
               '2020-12-31'],
              dtype='datetime64[ns]', freq='5A-DEC')

In [18]:
pd.date_range("2000", "2023", freq = "5YS")

DatetimeIndex(['2000-01-01', '2005-01-01', '2010-01-01', '2015-01-01',
               '2020-01-01'],
              dtype='datetime64[ns]', freq='5AS-JAN')

In [20]:
# freq = "M"의 기능 확인
pd.date_range("2000", "2023", freq = "M")

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-30',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-30', '2000-10-31',
               ...
               '2022-03-31', '2022-04-30', '2022-05-31', '2022-06-30',
               '2022-07-31', '2022-08-31', '2022-09-30', '2022-10-31',
               '2022-11-30', '2022-12-31'],
              dtype='datetime64[ns]', length=276, freq='M')

In [21]:
pd.date_range("2000", "2023", freq = "MS")

DatetimeIndex(['2000-01-01', '2000-02-01', '2000-03-01', '2000-04-01',
               '2000-05-01', '2000-06-01', '2000-07-01', '2000-08-01',
               '2000-09-01', '2000-10-01',
               ...
               '2022-04-01', '2022-05-01', '2022-06-01', '2022-07-01',
               '2022-08-01', '2022-09-01', '2022-10-01', '2022-11-01',
               '2022-12-01', '2023-01-01'],
              dtype='datetime64[ns]', length=277, freq='MS')

In [36]:
# freq = "W"의 기능 확인
# 요일을 설정하지 않으면 Sunday을 한 주의 시작으로 자동 설정한다.
pd.date_range("2023-01", "2023-02", freq = "W")

DatetimeIndex(['2023-01-01', '2023-01-08', '2023-01-15', '2023-01-22',
               '2023-01-29'],
              dtype='datetime64[ns]', freq='W-SUN')

In [35]:
# 아래와 같이 요일을 설정할 수 있다.
# 아래 코드는 Tuesday를 한 주의 시작으로 설정한 것이다.
pd.date_range("2023-01", "2023-02", freq = "W-TUE")

DatetimeIndex(['2023-01-03', '2023-01-10', '2023-01-17', '2023-01-24',
               '2023-01-31'],
              dtype='datetime64[ns]', freq='W-TUE')

In [25]:
# freq = "D"의 기능 확인
pd.date_range("2022-01-01", "2022-01-13", freq = "D")

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13'],
              dtype='datetime64[ns]', freq='D')

In [27]:
# freq = "B"의 기능 확인
# B는 BusinessDay를 뜻한다. 즉 주말을 제외하고 값을 생성한다.
pd.date_range("2022-01-01", "2022-01-13", freq = "B")

DatetimeIndex(['2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06',
               '2022-01-07', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13'],
              dtype='datetime64[ns]', freq='B')

In [40]:
# freq = "H"의 기능 확인
# H는 시간을 뜻한다.
pd.date_range("2023-01-01", "2023-02", freq = "H")

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-01 01:00:00',
               '2023-01-01 02:00:00', '2023-01-01 03:00:00',
               '2023-01-01 04:00:00', '2023-01-01 05:00:00',
               '2023-01-01 06:00:00', '2023-01-01 07:00:00',
               '2023-01-01 08:00:00', '2023-01-01 09:00:00',
               ...
               '2023-01-31 15:00:00', '2023-01-31 16:00:00',
               '2023-01-31 17:00:00', '2023-01-31 18:00:00',
               '2023-01-31 19:00:00', '2023-01-31 20:00:00',
               '2023-01-31 21:00:00', '2023-01-31 22:00:00',
               '2023-01-31 23:00:00', '2023-02-01 00:00:00'],
              dtype='datetime64[ns]', length=745, freq='H')

In [41]:
# freq = "T"의 기능 확인
# T는 분을 뜻한다.
pd.date_range("2023-01-01 10:00", "2023-01-01 12:00", freq = "20T")

DatetimeIndex(['2023-01-01 10:00:00', '2023-01-01 10:20:00',
               '2023-01-01 10:40:00', '2023-01-01 11:00:00',
               '2023-01-01 11:20:00', '2023-01-01 11:40:00',
               '2023-01-01 12:00:00'],
              dtype='datetime64[ns]', freq='20T')

In [97]:
# freq = "S"의 기능 확인
# S는 초를 뜻한다.
pd.date_range("2023-01-01 10:00", "2023-01-01 12:00", freq = "50S")

DatetimeIndex(['2023-01-01 10:00:00', '2023-01-01 10:00:50',
               '2023-01-01 10:01:40', '2023-01-01 10:02:30',
               '2023-01-01 10:03:20', '2023-01-01 10:04:10',
               '2023-01-01 10:05:00', '2023-01-01 10:05:50',
               '2023-01-01 10:06:40', '2023-01-01 10:07:30',
               ...
               '2023-01-01 11:52:30', '2023-01-01 11:53:20',
               '2023-01-01 11:54:10', '2023-01-01 11:55:00',
               '2023-01-01 11:55:50', '2023-01-01 11:56:40',
               '2023-01-01 11:57:30', '2023-01-01 11:58:20',
               '2023-01-01 11:59:10', '2023-01-01 12:00:00'],
              dtype='datetime64[ns]', length=145, freq='50S')

In [30]:
# freq = "Q"의 기능 확인
# Q는 분기를 뜻한다. 즉 아래 코드는 각 분기의 마지막 날에 대한 값을 생성한다.
pd.date_range("2000", "2010", freq = "Q")

DatetimeIndex(['2000-03-31', '2000-06-30', '2000-09-30', '2000-12-31',
               '2001-03-31', '2001-06-30', '2001-09-30', '2001-12-31',
               '2002-03-31', '2002-06-30', '2002-09-30', '2002-12-31',
               '2003-03-31', '2003-06-30', '2003-09-30', '2003-12-31',
               '2004-03-31', '2004-06-30', '2004-09-30', '2004-12-31',
               '2005-03-31', '2005-06-30', '2005-09-30', '2005-12-31',
               '2006-03-31', '2006-06-30', '2006-09-30', '2006-12-31',
               '2007-03-31', '2007-06-30', '2007-09-30', '2007-12-31',
               '2008-03-31', '2008-06-30', '2008-09-30', '2008-12-31',
               '2009-03-31', '2009-06-30', '2009-09-30', '2009-12-31'],
              dtype='datetime64[ns]', freq='Q-DEC')

In [31]:
# 아래 코드는 각 분기의 시작 날에 대한 값을 생성한다.
pd.date_range("2000", "2010", freq = "QS")

DatetimeIndex(['2000-01-01', '2000-04-01', '2000-07-01', '2000-10-01',
               '2001-01-01', '2001-04-01', '2001-07-01', '2001-10-01',
               '2002-01-01', '2002-04-01', '2002-07-01', '2002-10-01',
               '2003-01-01', '2003-04-01', '2003-07-01', '2003-10-01',
               '2004-01-01', '2004-04-01', '2004-07-01', '2004-10-01',
               '2005-01-01', '2005-04-01', '2005-07-01', '2005-10-01',
               '2006-01-01', '2006-04-01', '2006-07-01', '2006-10-01',
               '2007-01-01', '2007-04-01', '2007-07-01', '2007-10-01',
               '2008-01-01', '2008-04-01', '2008-07-01', '2008-10-01',
               '2009-01-01', '2009-04-01', '2009-07-01', '2009-10-01',
               '2010-01-01'],
              dtype='datetime64[ns]', freq='QS-JAN')

In [39]:
# freq의 조합 방법
# freq의 Alias는 여러 방법으로 조합할 수 있다. 조합한 결과를 확인해보자.

pd.date_range("2023-01-01", "2023-01-01 23:59:59", freq = "3T10S")

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-01 00:03:10',
               '2023-01-01 00:06:20', '2023-01-01 00:09:30',
               '2023-01-01 00:12:40', '2023-01-01 00:15:50',
               '2023-01-01 00:19:00', '2023-01-01 00:22:10',
               '2023-01-01 00:25:20', '2023-01-01 00:28:30',
               ...
               '2023-01-01 23:29:10', '2023-01-01 23:32:20',
               '2023-01-01 23:35:30', '2023-01-01 23:38:40',
               '2023-01-01 23:41:50', '2023-01-01 23:45:00',
               '2023-01-01 23:48:10', '2023-01-01 23:51:20',
               '2023-01-01 23:54:30', '2023-01-01 23:57:40'],
              dtype='datetime64[ns]', length=455, freq='190S')

In [48]:
# first() 사용 방법
# first()는 Series나 DataFrame instance에만 사용할 수 있는 method이다.
# first()에는 offset을 입력하는데 이를 빈도로 설정한다. 그리고 해당 빈도만큼의 n개의 row를 앞에서부터 조회한 결과를 반환한다.

# 먼저 Series instance를 생성한다.
s = pd.Series(range(455),
    pd.date_range("2023-01-01", "2023-01-01 23:59:59", freq = "3T10S"))

In [49]:
s.first("900S")

2023-01-01 00:00:00    0
2023-01-01 00:03:10    1
2023-01-01 00:06:20    2
2023-01-01 00:09:30    3
2023-01-01 00:12:40    4
Freq: 190S, dtype: int64

In [50]:
s.first("30T")

2023-01-01 00:00:00    0
2023-01-01 00:03:10    1
2023-01-01 00:06:20    2
2023-01-01 00:09:30    3
2023-01-01 00:12:40    4
2023-01-01 00:15:50    5
2023-01-01 00:19:00    6
2023-01-01 00:22:10    7
2023-01-01 00:25:20    8
2023-01-01 00:28:30    9
Freq: 190S, dtype: int64

In [53]:
s.first("3H")

2023-01-01 00:00:00     0
2023-01-01 00:03:10     1
2023-01-01 00:06:20     2
2023-01-01 00:09:30     3
2023-01-01 00:12:40     4
2023-01-01 00:15:50     5
2023-01-01 00:19:00     6
2023-01-01 00:22:10     7
2023-01-01 00:25:20     8
2023-01-01 00:28:30     9
2023-01-01 00:31:40    10
2023-01-01 00:34:50    11
2023-01-01 00:38:00    12
2023-01-01 00:41:10    13
2023-01-01 00:44:20    14
2023-01-01 00:47:30    15
2023-01-01 00:50:40    16
2023-01-01 00:53:50    17
2023-01-01 00:57:00    18
2023-01-01 01:00:10    19
2023-01-01 01:03:20    20
2023-01-01 01:06:30    21
2023-01-01 01:09:40    22
2023-01-01 01:12:50    23
2023-01-01 01:16:00    24
2023-01-01 01:19:10    25
2023-01-01 01:22:20    26
2023-01-01 01:25:30    27
2023-01-01 01:28:40    28
2023-01-01 01:31:50    29
2023-01-01 01:35:00    30
2023-01-01 01:38:10    31
2023-01-01 01:41:20    32
2023-01-01 01:44:30    33
2023-01-01 01:47:40    34
2023-01-01 01:50:50    35
2023-01-01 01:54:00    36
2023-01-01 01:57:10    37
2023-01-01 0

## 3.3. 데이터 shift
- DatetimeIndex의 index는 그대로 두고 데이터를 앞 또는 뒤로 이동시킨다.
- DataFrame/Series객체.shift() 이용
    - 매개변수
        - periods=1 : 이동할 기간 (기본값 1)
        - freq: 이동시킬 날짜/시간의 단위. DateOffset 객체/alias, timedelta
        

In [54]:
# data shift 방법

# 아래의 DatetimeIndex Series instance를 생성한다.
s = pd.Series(range(10, 15), index = pd.date_range("2023/01/01", "2023/01/05"))
s

2023-01-01    10
2023-01-02    11
2023-01-03    12
2023-01-04    13
2023-01-05    14
Freq: D, dtype: int64

In [55]:
# shift() 사용 방법

# parameter periods의 기능 확인
# periods는 DatetimeIndex는 그대로 두되, 그에 해당하는 값을 움직일 때 사용한다.

# 아래 코드를 작성할 경우 값이 아래로 2칸씩 내려간다. 비는 row는 NaN이 자동으로 입력된다.
s.shift(2)

2023-01-01     NaN
2023-01-02     NaN
2023-01-03    10.0
2023-01-04    11.0
2023-01-05    12.0
Freq: D, dtype: float64

In [56]:
# 아래 코드를 작성할 경우 값이 위로 2칸씩 내려간다. 비는 row는 NaN이 자동으로 입력된다.
s.shift(-2)

2023-01-01    12.0
2023-01-02    13.0
2023-01-03    14.0
2023-01-04     NaN
2023-01-05     NaN
Freq: D, dtype: float64

In [57]:
# parameter freq의 기능 확인
# freq는 DatetimeIndex를 수정한다. alias 사용 규칙은 동일한다.
s.shift(freq = "3M")

2023-03-31    10
2023-03-31    11
2023-03-31    12
2023-03-31    13
2023-03-31    14
dtype: int64

In [59]:
# shift는 언제 유용하게 사용할 수 있을까. shift를 이용하면 일시에 따른 값 비교를 할 수 있다.
# 예를 들어 위 Series instance가 날짜별 제품 판매 개수라고 했을 때 전날 대비 판매 개수가 얼마나 변했는지를 알 수 있다.
# 아래 코드를 작성해보자.

(s / s.shift(1) - 1) * 100

2023-01-01          NaN
2023-01-02    10.000000
2023-01-03     9.090909
2023-01-04     8.333333
2023-01-05     7.692308
Freq: D, dtype: float64

In [None]:
# 위 실행 결과는 전날 대비 제품 판매를 몇 % 더 했는지를 보여준다.
# 즉 2023-01-02에는 2023-01-01보다 제품을 10% 더 판매한 것이다.

## 3.4. resample()을 이용한 집계
- resample()은 시계열 데이터를 지정한 구간별로 나눠서 집계할 수 있도록 grouping 한다.
- groupby() 로 묶을 수도 있지만 DatetimeIndex의 경우 resample이 더 편리하다.
    - 매개변수
        - rule: group으로 묶을 기준을 offset으로 지정한다.
        - closed : "left" 또는 "right" - 간격의 시작과 끝중 어느부분을 포함시킬지(닫을지)를 설정. "left"가 기본으로 왼쪽은 포함하고 오른쪽은 포함되지 않는다.
        - on : 기준 컬럼을 지정한다. Index가 아니라 datetime 타입의 열(컬럼)을 기준으로 resample 할 때 사용

In [61]:
# 먼저 분 단위로 20개의 값을 갖는 DatetimeIndex Series를 만든다.

s = pd.Series(range(1, 21),
             index = pd.date_range("2000/01", periods = 20, freq = "T"))
s

2000-01-01 00:00:00     1
2000-01-01 00:01:00     2
2000-01-01 00:02:00     3
2000-01-01 00:03:00     4
2000-01-01 00:04:00     5
2000-01-01 00:05:00     6
2000-01-01 00:06:00     7
2000-01-01 00:07:00     8
2000-01-01 00:08:00     9
2000-01-01 00:09:00    10
2000-01-01 00:10:00    11
2000-01-01 00:11:00    12
2000-01-01 00:12:00    13
2000-01-01 00:13:00    14
2000-01-01 00:14:00    15
2000-01-01 00:15:00    16
2000-01-01 00:16:00    17
2000-01-01 00:17:00    18
2000-01-01 00:18:00    19
2000-01-01 00:19:00    20
Freq: T, dtype: int64

In [64]:
# resample() 사용 방법

# grouping하는 방법

# resample() 안에 grouping하고자 하는 단위를 alias로 입력한다.
# 아래 코드는 10분을 기준으로 grouping 한다.
# 즉 [00:00:00 ~ 00:10:00) [00:10:00 ~ 00:20:00) 의 group를 생성하는 것이다.
# 00:00:00부터 00:09:00까지 값의 평균을 구하고
# 00:10:00부터 00:19:00까지 값의 평균을 구한다.
# 이때 왼쪽 datetime에 대한 값은 포함하지만 오른쪽 datetime에 대한 값은 포함하지 않는다.
s.resample("10T")
s.resample("10T").mean()

2000-01-01 00:00:00     5.5
2000-01-01 00:10:00    15.5
Freq: 10T, dtype: float64

In [65]:
# parameter closed의 기능 확인
# closed의 기본값은 "left"이다. 이를 "right"로 설정해보자.
s.resample("10T", closed = "right").mean()

1999-12-31 23:50:00     1.0
2000-01-01 00:00:00     6.5
2000-01-01 00:10:00    16.0
Freq: 10T, dtype: float64

In [None]:
# 실행 결과 내가 설정하지 않은 datetime 값이 생겼다.
# 이는 왼쪽 datetime에 대한 값을 포함하지 않기 때문에 짝을 맞추기 위해 만들어진 것이다.
# 즉 1999-12-31 23:50:00부터 2000-01-01 00:00:00
# 2000-01-01 00:00:00부터 2000-01-01 00:10:00
# 2000-01-01 00:10:00부터 2000-01-01 00:19:00
# (23:50:00 ~ 00:00:00] (00:00:00 ~ 00:10:00] (00:10:00 ~ 00:20:00]
# 원래 없던 DatetimeIndex에 대한 값은 NA로 자동 설정한다. 그리고 값을 계산할 때는 NA를 제외하고 실행한다.

In [None]:
# parameter on의 기능 확인
# on은 DatetimeIndex가 아닌 경우 datetime type으로 구성된 column을 기준으로 설정하고자 할 때 사용한다.

In [67]:
# s Series를 DataFrame으로 바꿔보자.
# 아래 DataFrame는 datetime type을 column으로 옮긴 것이다.
d = s.to_frame().reset_index()
d.columns = ["time", "cnt"]
d

Unnamed: 0,time,cnt
0,2000-01-01 00:00:00,1
1,2000-01-01 00:01:00,2
2,2000-01-01 00:02:00,3
3,2000-01-01 00:03:00,4
4,2000-01-01 00:04:00,5
5,2000-01-01 00:05:00,6
6,2000-01-01 00:06:00,7
7,2000-01-01 00:07:00,8
8,2000-01-01 00:08:00,9
9,2000-01-01 00:09:00,10


In [71]:
# 위 DataFrame에 resample()을 사용해보자.

# on에는 datetime type column을 grouping 기준으로 지정한다.
d.resample("5T", on = "time")
# 위 group에 집계를 해보자. 집계 방법은 groupby에서 사용한 것과 동일하다.
d.resample("5T", on = "time")["cnt"].sum()

time
2000-01-01 00:00:00    15
2000-01-01 00:05:00    40
2000-01-01 00:10:00    65
2000-01-01 00:15:00    90
Freq: 5T, Name: cnt, dtype: int64

In [72]:
d.resample("5T", on = "time")["cnt"].agg(["mean", "sum"])

Unnamed: 0_level_0,mean,sum
time,Unnamed: 1_level_1,Unnamed: 2_level_1
2000-01-01 00:00:00,3.0,15
2000-01-01 00:05:00,8.0,40
2000-01-01 00:10:00,13.0,65
2000-01-01 00:15:00,18.0,90


In [74]:
# 다른 경우를 살펴보자.

df = pd.read_csv("data/walmart_stock.csv", parse_dates = [0], index_col = 0)

In [75]:
# 년도별 종가의 평균을 구해보자.
# 이때 위 DataFrame df는 DatetimeIndex를 가지므로 on 설정을 하지 않아도 된다.

df.resample("Y")["Close"].mean()

Date
2012-12-31    67.215120
2013-12-31    75.320516
2014-12-31    77.327381
2015-12-31    72.491111
2016-12-31    69.547063
Freq: A-DEC, Name: Close, dtype: float64

In [76]:
# 분기별 종가의 평균을 구해보자.

df.resample("Q")["Close"].mean()

Date
2012-03-31    60.519516
2012-06-30    63.057143
2012-09-30    73.174921
2012-12-31    72.079839
2013-03-31    71.026000
2013-06-30    76.885781
2013-09-30    75.629063
2013-12-31    77.472813
2014-03-31    75.337213
2014-06-30    77.066508
2014-09-30    75.748593
2014-12-31    81.059844
2015-03-31    85.107213
2015-06-30    76.492540
2015-09-30    68.825313
2015-12-31    60.193281
2016-03-31    65.776557
2016-06-30    69.438437
2016-09-30    72.782812
2016-12-31    70.021111
Freq: Q-DEC, Name: Close, dtype: float64

In [79]:
# 참고 Grouper()
# 여러 개를 기준으로 grouping할 때 Grouper()를 사용한다.
df.groupby(pd.Grouper(freq = "Q"))["Close"].mean()

Date
2012-03-31    60.519516
2012-06-30    63.057143
2012-09-30    73.174921
2012-12-31    72.079839
2013-03-31    71.026000
2013-06-30    76.885781
2013-09-30    75.629063
2013-12-31    77.472813
2014-03-31    75.337213
2014-06-30    77.066508
2014-09-30    75.748593
2014-12-31    81.059844
2015-03-31    85.107213
2015-06-30    76.492540
2015-09-30    68.825313
2015-12-31    60.193281
2016-03-31    65.776557
2016-06-30    69.438437
2016-09-30    72.782812
2016-12-31    70.021111
Freq: Q-DEC, Name: Close, dtype: float64

##  3.5. 기간 이동 집계
- 현재값을 기준으로 N개씩 묶어서 집계를 한다.
    - 예) 이동평균 구하기
- rolling(window, min_periods=None)    
    - window: 범위. 정수
    - min_periods: 집계할 최소 개수. 생략하면 window size로 지정.
    - center: bool - 집계결과를 window의 중간에 둘지 여부. 기본값은 False로 레이블이 창 맨 뒤에 둔다. 

In [80]:
# rolling 사용 방법

In [82]:
# 종가의 5일 이동 평균을 구해보자.
moving_avg = df["Close"].rolling(window = 5).mean()
moving_avg

Date
2012-01-03          NaN
2012-01-04          NaN
2012-01-05          NaN
2012-01-06          NaN
2012-01-09    59.528000
                ...    
2016-12-23    70.753999
2016-12-27    70.377998
2016-12-28    69.875998
2016-12-29    69.479999
2016-12-30    69.386000
Name: Close, Length: 1258, dtype: float64

In [None]:
# 실행 결과 평균의 첫 4개 값은 NaN이다. 왜냐하면 5일에 대한 평균을 구할 수 없기 때문이다.
# 예를 들어 2012-01-09의 5일 이동 평균은 자기 자신의 값을 포함한 이전 값 5개의 평균이다.
# 즉 2012-01-09의 5일 이동 평균은 2012-01-03 ~ 2012-01-09의 평균이다.

In [86]:
# parameter min_periods의 기능 확인
# min_periods의 크기만 되더라도 값을 계산하라는 것이다.
# 아래 코드를 보자. 원래 첫 4개의 값은 NaN이어야 한다. 하지만 2개만 NaN이다.
# min_periods를 3으로 설정했기에 평균을 구할 대상이 3개만 되더라도 평균을 구하는 것이다.
# NaN 값이 하나도 없도록 하고 싶으면 min_periods를 1로 설정한다.
# min_periods의 기본값은 window의 크기이다.
moving_avg = df["Close"].rolling(window = 5, min_periods = 3).mean()
moving_avg

Date
2012-01-03          NaN
2012-01-04          NaN
2012-01-05    59.820000
2012-01-06    59.615000
2012-01-09    59.528000
                ...    
2016-12-23    70.753999
2016-12-27    70.377998
2016-12-28    69.875998
2016-12-29    69.479999
2016-12-30    69.386000
Name: Close, Length: 1258, dtype: float64

In [89]:
# parameter center의 기능 확인
# 위에서는 center를 설정하지 않았다. center = False가 기본값이다.
# 이에 따라 평균을 계산한 값이 끝 DatetimeIndex에 위치했다.
# 하지만 center = True로 설정할 경우 평균을 계산한 값이 가운데 DatetimeIndex에 위치하게 된다.
# 실행 결과를 직접 보면서 확인해보자.

moving_avg = df["Close"].rolling(window = 5, center = True).mean()
moving_avg

Date
2012-01-03          NaN
2012-01-04          NaN
2012-01-05    59.528000
2012-01-06    59.270000
2012-01-09    59.208000
                ...    
2016-12-23    69.875998
2016-12-27    69.479999
2016-12-28    69.386000
2016-12-29          NaN
2016-12-30          NaN
Name: Close, Length: 1258, dtype: float64

In [None]:
# 참고 matplotlib.pyplt
# 그래프를 그려보자.


In [96]:
moving_avg = df["Close"].rolling(window = 20).mean()
# 원래 data
v_origin = df["Close"].first("Y")
# 20일 이동평균
v_20day_avg = moving_avg.first("Y")

In [95]:
import matplotlib.pyplot as plt
plt.figure(figsize = (20, 6))
v.plot()
v2.plot()
plt.show()

ModuleNotFoundError: No module named 'matplotlib'