# ch10. 시계열 분석

In [14]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

## 1.파이썬과 pandas 날짜 도구 차이 이해

- 파이썬의 datetime 모듈을 세 가지 서로 다른 데이터 형식을 지원한다.
- date, time, datetime
- date는 연, 월, 일로 이뤄진 특정 시각이다.
- time은 시간, 분, 초, 마이크로초(백만분의 1초)로 이뤄져 있고 날짜와 분리되어 있다.
- datetime은 data와 time의 요소를 모두 갖고 있다.

- pandas의 Timestamp는 단일 객체에서 날짜와 시간을 모두 갖고 있다.
- 나노초(10억분위 1초) 단위의 정밀도
- NumPy의 datetime64 데이터 형식에서 도출

- 파이썬과 pandas는 각각 timedelta 객체를 갖고 있는데 날짜의 덧셈, 뺄셈을 할 때 유용하다.

- datetime 모듈을 import 하고 date, time, datetime 객체를 생성해본다.

In [2]:
import datetime
date = datetime.date(year=2018, month=8, day=7)

In [3]:
time = datetime.time(hour=12, minute=30, second=19,
                     microsecond=123456)

In [4]:
dt = datetime.datetime(year=2018, month=8, day=7,
                       hour=12, minute=30, second=19,
                       microsecond=123456)

In [5]:
print(date)
print(time)
print(dt)

2018-08-07
12:30:19.123456
2018-08-07 12:30:19.123456


- timedelta 객체를 생성하고 출력해보자.

In [6]:
td = datetime.timedelta(weeks=2, days=5, hours=10,
                        minutes=20, seconds=6.73,
                        milliseconds=99, microseconds=8)

In [7]:
print(td)

19 days, 10:20:06.829008


- date와 datetime에 timedelta를 가감해보자.

In [8]:
print(date + td)

2018-08-26


In [10]:
print(dt + td)

2018-08-26 22:50:25.952464


- time 객체에 timedelta를 더하는 것은 불가능하다.

In [12]:
# print(time + td)
# TypeError: unsupported operand type(s) for +: 'datetime.time' and 'datetime.timedelta'

- pandas의 Timestamp 객체를 사용해보자.
- Timestamp 생성자는 매우 유연하다.

In [15]:
pd.Timestamp(year=2018, month=8, day=7,
             hour=12, minute=30, second=19,
             microsecond=123456)

Timestamp('2018-08-07 12:30:19.123456')

In [16]:
pd.Timestamp('2018-01-02')

Timestamp('2018-01-02 00:00:00')

In [17]:
pd.Timestamp('20180103')

Timestamp('2018-01-03 00:00:00')

- pandas에는 to_datetime 함수가 있어 Timestamp 생성자와 비슷하게 동작한다.
- to_datetime에는 특수한 상황을 위한 몇 가지 다른 매개변수가 있다.

In [18]:
pd.to_datetime('2018-05-01')

Timestamp('2018-05-01 00:00:00')

In [19]:
pd.to_datetime(100, unit='D', origin='2018-01-01')

Timestamp('2018-04-11 00:00:00')

- to_datetime 함수는 리스트나 정수, 문자열의 Series를 Timestamp로 변환할 수 있다.

In [22]:
s = pd.Series(['20170101', '20180101', '2019-01-00'])

In [23]:
pd.to_datetime(s, errors='coerce')

0   2017-01-01
1   2018-01-01
2          NaT
dtype: datetime64[ns]

- Timestamp 생성자와 to_datetime 함수와 유사하게 pandas에는 Timedelta와 to_timedelta 가 있어서 시간량을 나타낸다.
- Timedelta 생성자와 to_timedelta함수 모두 단일 Timedelta 객체를 생성한다.

In [24]:
pd.Timedelta('12 days 5 hours 3 minutes 123456789 nanoseconds')

Timedelta('12 days 05:03:00.123456')

In [26]:
pd.Timedelta(days=5, minutes=7.24)

Timedelta('5 days 00:07:14.400000')

In [27]:
pd.Timedelta(100, unit='D')

Timedelta('100 days 00:00:00')

In [28]:
pd.Timedelta(100, unit='W')

Timedelta('700 days 00:00:00')

In [29]:
s = pd.Series([10, 100])

In [30]:
pd.to_timedelta(s, unit='s')

0   00:00:10
1   00:01:40
dtype: timedelta64[ns]

In [31]:
pd.Timedelta('12 days 5 hours 3 minutes') * 2

Timedelta('24 days 10:06:00')

In [32]:
pd.Timestamp('20180101') + pd.Timedelta('12 days 5 hours 3 minutes')

Timestamp('2018-01-13 05:03:00')

In [33]:
td1 = pd.to_timedelta([10, 100], unit='s')
td2 = pd.to_timedelta(['3 hours', '4 hours'])
td1 + td2

TimedeltaIndex(['03:00:10', '04:01:40'], dtype='timedelta64[ns]', freq=None)

In [35]:
pd.Timedelta('12 days') / pd.Timedelta('6 hours')

48.0

- pandas의 Timestamp와 Timedelta는 여러 attribute와 method를 갖고 있다.

In [36]:
ts = pd.Timestamp('2018-01-01 4:23:23')

In [37]:
ts

Timestamp('2018-01-01 04:23:23')

In [38]:
ts.ceil('h')

Timestamp('2018-01-01 05:00:00')

In [39]:
ts.ceil('d')

Timestamp('2018-01-02 00:00:00')

In [44]:
ts.year, ts.month, ts.day, ts.hour, ts.minute, ts.second

(2018, 1, 1, 4, 23, 23)

In [47]:
ts.dayofweek, ts.dayofyear, ts.daysinmonth

(0, 1, 31)

In [48]:
ts.to_pydatetime()

datetime.datetime(2018, 1, 1, 4, 23, 23)

In [56]:
td = pd.Timedelta(125.81, unit='h')

In [57]:
td

Timedelta('5 days 05:48:36')

In [58]:
td.round('min')

Timedelta('5 days 05:49:00')

In [61]:
td.round('h')

Timedelta('5 days 06:00:00')

In [62]:
td.components

Components(days=5, hours=5, minutes=48, seconds=36, milliseconds=0, microseconds=0, nanoseconds=0)

- to_datetime, to_timedelta 함수는 생성자에는 없는 여러 매개변수를 제공한다.
- 그 중 하나는 errors인데 디폴트 값은 문자열은 raise
- ignore나 corece로 설정할 수도 있다.
- raise는 오류를 발생시키고 실행을 멈춘다.
- ignore는 함수에 전달되기 이전의 값을 반환한다. (해당 값 한정이 아닌 모든 값)
- corece로 설정하면 NaT not a time 객체가 반환된다.

In [63]:
s = pd.Series(['20170101', '20180101', '2019-01-00'])

In [64]:
pd.to_datetime(s, errors='coerce')

0   2017-01-01
1   2018-01-01
2          NaT
dtype: datetime64[ns]

In [65]:
pd.to_datetime(s, errors='ignore')

0      20170101
1      20180101
2    2019-01-00
dtype: object

In [66]:
date_string_list = ['20180101'] * 10000

In [69]:
%timeit pd.to_datetime(date_string_list)

2.4 ms ± 22.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [70]:
%timeit pd.to_datetime(date_string_list, format='%Y%m%d')

8 ms ± 18.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [68]:
pd.to_datetime('20180101', format='%Y%m%d')

Timestamp('2018-01-01 00:00:00')


## 2.시계열을 현명하게 분할하기
## 3.DatetimeIndex에만 작동하는 메서드 이용
## 4.주별 범죄 건수 알아보기
## 5.주별 범죄와 교통사고를 별도로 종합
## 6.연도별 주 중 범죄 측정
## 7.DatetimeIndex와 익명 함수로 그룹화하기
## 8.Timestamp와 다른 열로 그룹화
## 9.merge_asof를 사용해 범죄율이 20% 낮은 마지막 시기 찾기