In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 날짜, 시간 자료형, 도구

#### datetime 모듈의 자료형
|  |  |
| -- | -- |
| date | 그레고리안 달력을 사용해서 날짜(연, 월,  일)를 저장 |
| time | 하루의 시간을 시, 분, 초, 마이크로초 단위로 저장 |
| datetime | 날짜와 시간을 저장 |
| timedelta | 두 datetime 값 간의 차이 (일, 초, 마이크로초) |
| tzinfo | 지역시간대를 저장하기 위한 기본 자료형 |

In [2]:
from datetime import datetime

### ```datetime.now()``` : 현재 시간
- datetime은 날짜와 시간을 모두 저장하며, 마이크로초까지 저장

In [5]:
now = datetime.now(); now

datetime.datetime(2022, 8, 8, 19, 4, 34, 579012)

In [7]:
now.year, now.month, now.day

(2022, 8, 8)

### ```datetime.timedelta``` : 두 datetime 객체 간의 시간 차이 객체

In [8]:
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)
delta

datetime.timedelta(days=926, seconds=56700)

In [10]:
delta.days, delta.seconds

(926, 56700)

- timedelta를 더하거나 빼면 그만큼의 시간이 datetime 객체에 적용되어 새로운 객체를 생성

In [11]:
from datetime import timedelta

In [12]:
start = datetime(2011, 1, 7)
start + timedelta(12)

datetime.datetime(2011, 1, 19, 0, 0)

In [13]:
start - 2 * timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

### 
### 문자열을 datetime으로 변환

#### Datetime 포맷 규칙

|  |  |
| -- | -- |
| %Y |	4자리 연도 |
| %y  |	2자리 연도  |
| %m |	2자리 월 [01, 12]
|%d |	2자리 일 [01, 31]
|%H	|시간 (24시간 형식) [00, 23]
|%I	|시간 (12시간 형식) [01, 12]
|%M	|2자리 분 [00, 59]
|%S	|초 [00, 61] (60, 61은 윤초)
|%w	|정수로 나타낸 요일 [0, 6]
|%U	|연중주차 [00, 53], 일요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 일요일 앞에 있는 날은 0주차가 된다
|%W	|연중주차 [00, 53], 월요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 월요일 앞에 있는 날은 0주차가 된다
|%z	|UTC 시간대 오프셋을 +HHMM 또는 -HHMM으로 표현, 만약 시간대를 신경 쓰지 않는 다면 비워둠
|%F	|%Y-%m-%d 형식에 대한 축약
|%D	|%m/%d/%y 형식에 대한 축약


### ```.str()```, ```.strftime()``` : Timestamp객체를 문자열로 표현

In [14]:
stamp = datetime(2011, 1, 3)
str(stamp)

'2011-01-03 00:00:00'

In [15]:
stamp.strftime('%y-%m-%d')

'11-01-03'

### ```datetime.strptime()``` : 문자열을 날짜로 변환

In [16]:
value = '2011-01-03'
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

In [19]:
datestrs = ['7/6/2011', '8/6/2011']
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

### ```parse.parse()``` : 문자열을 datetime형으로 변환
- 날짜가 월 앞에 오는 경우 ```dayfirst = True```

In [22]:
from dateutil.parser import parse
parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

In [23]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

In [24]:
parse('6/12/2011', dayfirst = True)

datetime.datetime(2011, 12, 6, 0, 0)

### ```pd.to_datetime()``` : 문자형을 datetime형으로 변환. 많은 종류의 날짜 표현을 처리

In [25]:
datestrs = ['2011-07-06 12:00:00', '2011-08-06 00:00:00']
pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

In [26]:
idx = pd.to_datetime(datestrs + [None])
idx

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [28]:
idx[2]

NaT

In [29]:
pd.isnull(idx)

array([False, False,  True])

#### 로케일별 날짜 포맷
|  |  |
| -- | -- |
| %a | 축약된 요일 이름 |
| %A | 요일 이름 |
| %b | 축약된 월 이름 |
| %B | 월 이름 |
| %c | 전체 날짜와 시간 ('Tue 01 May 2012 04:20:57 PM') |
| %p | 해당 로케일에서 AM. PM에 대응되는 이름 (AM은 오전, PM은 오후) |
| %x | 로케일에 맞는 날짜 형식 ('05/01/2012') |
| %X | 로케일에 맞는 시간 형식 ('04:24:12 PM) |

### 
### 시계열 기초

In [31]:
from datetime import datetime

In [32]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

ts = pd.Series(np.random.randn(6), index = dates)

In [34]:
ts, ts.index

(2011-01-02    0.122521
 2011-01-05    1.886185
 2011-01-07    1.347976
 2011-01-08    0.125221
 2011-01-10    0.068008
 2011-01-12    0.124169
 dtype: float64,
 DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
                '2011-01-10', '2011-01-12'],
               dtype='datetime64[ns]', freq=None))

In [35]:
ts + ts[::2], ts.index.dtype

(2011-01-02    0.245042
 2011-01-05         NaN
 2011-01-07    2.695952
 2011-01-08         NaN
 2011-01-10    0.136016
 2011-01-12         NaN
 dtype: float64,
 dtype('<M8[ns]'))

In [36]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

### 인덱스, 선택, 부분 선택
- 시계열은 라벨에 기반해서 데이터를 선택하고 인덱싱할 때, pandas.Series와 동일하게 동작

In [37]:
stamp = ts.index[2]

In [38]:
ts[stamp]

1.3479757784333442

In [41]:
ts['1/10/2011'], ts['20110110']

(0.06800800232490241, 0.06800800232490241)

In [48]:
longer_ts = pd.Series(np.random.randn(1000),
                      index = pd.date_range('1/1/2000', periods = 1000))

longer_ts['2001'].head() # 2001년의 데이터
longer_ts['2001-05'].head() # 2001년 5월의 데이터

2001-05-01    0.842289
2001-05-02   -0.171754
2001-05-03   -0.191754
2001-05-04    0.448671
2001-05-05   -0.277448
Freq: D, dtype: float64

In [52]:
ts[datetime(2011, 1, 7):] # 2011년 1월 7일부터의 데이터
ts['1/6/2011':'1/11/2011'] # 2011 1월 6일 ~ 2011년 1월 10일

2011-01-07    1.347976
2011-01-08    0.125221
2011-01-10    0.068008
dtype: float64

###  ```ts.truncate(after)``` : TimeSeries를 두 개의 날짜로 분할

In [53]:
ts.truncate(after = '1/9/2011')

2011-01-02    0.122521
2011-01-05    1.886185
2011-01-07    1.347976
2011-01-08    0.125221
dtype: float64

### ```pd.date_range(start, periods, freq)```

- 2001년 1월 1일부터, 100번의 수요일

In [56]:
dates = pd.date_range('1/1/2000', periods = 100, freq = 'W-WED')

In [57]:
long_df = pd.DataFrame(np.random.randn(100, 4),
                       index = dates,
                       columns = ['Colorado', 'Texas',
                                  'New York', 'Ohio'])
long_df.loc['5-2001']

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,0.091623,0.010655,-0.719569,1.923798
2001-05-09,0.618226,0.709438,0.24358,-0.444513
2001-05-16,0.360693,0.750749,0.767767,0.616157
2001-05-23,0.06549,-0.181323,-1.114988,-1.933451
2001-05-30,-0.496787,-0.832469,-1.347739,0.622098


### 중복된 인덱스를 갖는 시계열

In [58]:
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000',
                          '1/2/2000', '1/3/2000'])
dup_ts = pd.Series(np.arange(5), index = dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32

In [59]:
dup_ts['1/3/2000']  # 중복 없음
dup_ts['1/2/2000']  # 중복 있음

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int32

-- **한 가지 방법은 groupby에 level = 0 (단일 단계 인덱싱)을 넘기는 것**

In [66]:
grouped = dup_ts.groupby(level = 0)
grouped.mean()
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

### 
### 날짜 범위, 빈도, 이동

### ```ts.resampler()``` : 시계열을 고정된 일 빈도로 변환
- 'D'는 일 빈도로 해석

In [69]:
ts
resampler = ts.resample('D') 

### 날짜 범위 생성

### ```pd.date_range(start, periods, freq)``` : 특정 빈도에 따라 지정한 길이만큼의 DatetimeIndex 객체 생성

In [73]:
index = pd.date_range('2001-04-01', '2012-06-01')
index[:5]

DatetimeIndex(['2001-04-01', '2001-04-02', '2001-04-03', '2001-04-04',
               '2001-04-05'],
              dtype='datetime64[ns]', freq='D')

In [74]:
pd.date_range(start = '2012-04-01', periods = 20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

### 시계열 빈도
| **축약** | **오프셋 종류** | **설명** | 
| -- | -- | -- |
| D | Day | 달력상의 일 |
| B | BusinessDay | 매 영업일 |
| H | Hour | 매 시 |
| T 또는 min | Minute | 매 분 |
| S | Second | 매 초 |
| L 또는 ms  | Milli | 밀리초 |
| U | Micro | 마이크로초 |
| M | MonthEnd | 월 말일 |
| BM | BusinessMonthEnd | 월 영업마감일 |
| MS | MonthBegin | 월 시작일 |
| BMS | BusinessMonthBegin | 월 영업시작일 |
| W-MON, W-TUE, ... | Week | 요일 (MON, TUE, WED, THU, FRI, SAT, SUN) |
| WOM-1MON, WOM-2MON, ... | WeekOfMonth | 월별 주차와 요일, (WOM-3FRI : 매월 3째주 금요일) |
| Q-JAN, Q-FEB, ... | QuarterEnd | 지정된 월을 해당년도의 마감으로 하며, 지정된 월의 마짐가 날짜를 가리키는 분기 주기 (JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, DEC) |
| BQ-JAN, BQ-FEB | BusinessQuarterEnd | 지정된 월을 해당년도의 마감으로 하며 지정된 월의 마지막 영업일을 가리키는 분기 주기 |
| QS-JAN, QS-FEB | QuarterBegin | 지정된 월을 해당년도의 마감으로 하며 지정된 월의 첫쨰 날을 가리키는 분기 주기 |
| BQS-JAN, BQS-FEB | BusinessQuarterBegin | 지정된 월을 해댕년도의 마감으로 하며, 지정된 월의 첫 번째 영업일을 가리키는 분기 주기 |
| A-JAN, A-FEB | YearEnd | 주어진 월의 마지막 일을 가리키는 연간 주기 |
| BA-JAN, BA-FEB, ... | BusinessYearEnd | 주어진 월의 영업 마감일을 가리키는 연간 주기 |
| AS-JAN, AS-FEB, ... | YearBegin | 주어진 월의 시작일을 가리키는 연간 주기 |
| BAS-JAN, BAS-FEB, ... | BusinessYearBegin | 주어진 월의 영업 시작일을 가리키는 연간 주기 |

- 각 월의 마지막 영업일을 포함 ```freq = 'BM```

In [76]:
pd.date_range('2000-01-01', '2000-12-01', freq = 'BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

In [78]:
pd.date_range('2012-05-02 12:56:31', periods = 5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

- 관례에 따라 자정에 맞추어 타임스탬프를 **정규화** ```normalize = True```

In [79]:
pd.date_range('2012-05-02 12:56:31', periods = 5, normalize = True)

DatetimeIndex(['2012-05-02', '2012-05-03', '2012-05-04', '2012-05-05',
               '2012-05-06'],
              dtype='datetime64[ns]', freq='D')

### 빈도와 날짜 오프셋
- pandas에서 빈도는 기본 빈도와 배수의 조합으로 구성
- 각 빈도에는 일반적으로 날짜 오프셋이라고 불리는 객체 사용 가능

In [80]:
from pandas.tseries.offsets import Hour, Minute

In [82]:
hour = Hour(); hour

<Hour>

In [83]:
four_hours = Hour(4); four_hours

<4 * Hours>

- 4시간 간격

In [84]:
pd.date_range('2000-01-01', '2000-01-03 23:59', freq = '4h') 

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

- 1시간 30분 간격의, 10번 구간

In [87]:
pd.date_range('2000-01-01', periods = 10, freq = '1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

- 오프셋 연산

In [85]:
Hour(2) + Minute(30)

<150 * Minutes>

### 월별 주차

- 매월 3째주 금요일

In [89]:
rng = pd.date_range('2012-01-01', '2012-09-01', freq = 'WOM-3FRI')
list(rng)

[Timestamp('2012-01-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-02-17 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-03-16 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-04-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-05-18 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-06-15 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-07-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-08-17 00:00:00', freq='WOM-3FRI')]

### 데이터 시프트
- 데이터를 시간 축에서 앞이나 뒤로 이동
### ```.shift(n)```

In [90]:
ts = pd.Series(np.random.randn(4),
               index=pd.date_range('1/1/2000', periods = 4, freq = 'M'))
ts

2000-01-31    0.246089
2000-02-29    0.481998
2000-03-31    0.099934
2000-04-30   -0.613101
Freq: M, dtype: float64

- 시프트를 하면 시계열의 시작이나 끝에 결측치가 발생

In [91]:
ts.shift(2), ts.shift(-2)

(2000-01-31         NaN
 2000-02-29         NaN
 2000-03-31    0.246089
 2000-04-30    0.481998
 Freq: M, dtype: float64,
 2000-01-31    0.099934
 2000-02-29   -0.613101
 2000-03-31         NaN
 2000-04-30         NaN
 Freq: M, dtype: float64)

- **시계열에서의 퍼센트 변화 계산**

In [92]:
ts / ts.shift(1) - 1

2000-01-31         NaN
2000-02-29    0.958629
2000-03-31   -0.792667
2000-04-30   -7.135062
Freq: M, dtype: float64

- shift에 빈도를 넘겨, 타임스탬프가 확장

In [93]:
ts.shift(2, freq = 'M')

2000-03-31    0.246089
2000-04-30    0.481998
2000-05-31    0.099934
2000-06-30   -0.613101
Freq: M, dtype: float64

In [96]:
ts.shift(1, freq = '90T') # T는 분을 나타냄

2000-01-31 01:30:00    0.246089
2000-02-29 01:30:00    0.481998
2000-03-31 01:30:00    0.099934
2000-04-30 01:30:00   -0.613101
dtype: float64

### 오프셋 만큼 날짜 시프트

In [97]:
from pandas.tseries.offsets import Day, MonthEnd

In [98]:
now = datetime(2011, 11, 17)
now + 3 * Day()

Timestamp('2011-11-20 00:00:00')

- 앵커드 오프셋을 추가하면, 빈도 규칙의 다음 날짜로 롤 포워드

In [99]:
now + MonthEnd()

Timestamp('2011-11-30 00:00:00')

In [100]:
now + MonthEnd(2)

Timestamp('2011-12-31 00:00:00')

### ```.rollforward(datetime)``` : 롤 포워드
### ```.rollback(datetime)``` : 롤 백

In [102]:
offset = MonthEnd()
offset.rollforward(now)

Timestamp('2011-11-30 00:00:00')

In [103]:
offset.rollback(now)

Timestamp('2011-10-31 00:00:00')

### groupby와 함께 사용

- 월 별 평균

In [109]:
ts = pd.Series(np.random.randn(20),
               index = pd.date_range('1/15/2000', periods = 20, freq = '4d'))
ts

2000-01-15   -1.385225
2000-01-19    0.752141
2000-01-23    0.502721
2000-01-27   -0.198490
2000-01-31   -0.349964
2000-02-04    1.856743
2000-02-08   -1.986232
2000-02-12    0.754986
2000-02-16    1.837289
2000-02-20    1.717609
2000-02-24    0.067610
2000-02-28   -0.828107
2000-03-03   -1.013227
2000-03-07    0.400019
2000-03-11   -2.679862
2000-03-15    0.923182
2000-03-19   -0.845343
2000-03-23   -0.556060
2000-03-27    0.880732
2000-03-31    0.348869
Freq: 4D, dtype: float64

In [108]:
ts.groupby(offset.rollforward).mean()

2000-01-31    0.444517
2000-02-29   -0.478713
2000-03-31   -0.575338
dtype: float64

In [110]:
ts.resample('M').mean()

2000-01-31   -0.135763
2000-02-29    0.488557
2000-03-31   -0.317711
Freq: M, dtype: float64