# ch10. 시계열 분석

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

## 1.파이썬과 pandas 날짜 도구 차이 이해

- 파이썬의 datetime 모듈을 세 가지 서로 다른 데이터 형식을 지원한다.
- date, time, datetime
- date는 연, 월, 일로 이뤄진 특정 시각이다.
- time은 시간, 분, 초, 마이크로초(백만분의 1초)로 이뤄져 있고 날짜와 분리되어 있다.
- datetime은 data와 time의 요소를 모두 갖고 있다.

- pandas의 Timestamp는 단일 객체에서 날짜와 시간을 모두 갖고 있다.
- 나노초(10억분위 1초) 단위의 정밀도
- NumPy의 datetime64 데이터 형식에서 도출

- 파이썬과 pandas는 각각 timedelta 객체를 갖고 있는데 날짜의 덧셈, 뺄셈을 할 때 유용하다.

- datetime 모듈을 import 하고 date, time, datetime 객체를 생성해본다.

In [2]:
import datetime
date = datetime.date(year=2018, month=8, day=7)

In [3]:
time = datetime.time(hour=12, minute=30, second=19,
                     microsecond=123456)

In [4]:
dt = datetime.datetime(year=2018, month=8, day=7,
                       hour=12, minute=30, second=19,
                       microsecond=123456)

In [5]:
print(date)
print(time)
print(dt)

2018-08-07
12:30:19.123456
2018-08-07 12:30:19.123456


- timedelta 객체를 생성하고 출력해보자.

In [6]:
td = datetime.timedelta(weeks=2, days=5, hours=10,
                        minutes=20, seconds=6.73,
                        milliseconds=99, microseconds=8)

In [7]:
print(td)

19 days, 10:20:06.829008


- date와 datetime에 timedelta를 가감해보자.

In [8]:
print(date + td)

2018-08-26


In [9]:
print(dt + td)

2018-08-26 22:50:25.952464


- time 객체에 timedelta를 더하는 것은 불가능하다.

In [10]:
# print(time + td)
# TypeError: unsupported operand type(s) for +: 'datetime.time' and 'datetime.timedelta'

- pandas의 Timestamp 객체를 사용해보자.
- Timestamp 생성자는 매우 유연하다.

In [11]:
pd.Timestamp(year=2018, month=8, day=7,
             hour=12, minute=30, second=19,
             microsecond=123456)

Timestamp('2018-08-07 12:30:19.123456')

In [12]:
pd.Timestamp('2018-01-02')

Timestamp('2018-01-02 00:00:00')

In [13]:
pd.Timestamp('20180103')

Timestamp('2018-01-03 00:00:00')

- pandas에는 to_datetime 함수가 있어 Timestamp 생성자와 비슷하게 동작한다.
- to_datetime에는 특수한 상황을 위한 몇 가지 다른 매개변수가 있다.

In [14]:
pd.to_datetime('2018-05-01')

Timestamp('2018-05-01 00:00:00')

In [15]:
pd.to_datetime(100, unit='D', origin='2018-01-01')

Timestamp('2018-04-11 00:00:00')

- to_datetime 함수는 리스트나 정수, 문자열의 Series를 Timestamp로 변환할 수 있다.

In [16]:
s = pd.Series(['20170101', '20180101', '2019-01-00'])

In [17]:
pd.to_datetime(s, errors='coerce')

0   2017-01-01
1   2018-01-01
2          NaT
dtype: datetime64[ns]

- Timestamp 생성자와 to_datetime 함수와 유사하게 pandas에는 Timedelta와 to_timedelta 가 있어서 시간량을 나타낸다.
- Timedelta 생성자와 to_timedelta함수 모두 단일 Timedelta 객체를 생성한다.

In [18]:
pd.Timedelta('12 days 5 hours 3 minutes 123456789 nanoseconds')

Timedelta('12 days 05:03:00.123456')

In [19]:
pd.Timedelta(days=5, minutes=7.24)

Timedelta('5 days 00:07:14.400000')

In [20]:
pd.Timedelta(100, unit='D')

Timedelta('100 days 00:00:00')

In [21]:
pd.Timedelta(100, unit='W')

Timedelta('700 days 00:00:00')

In [22]:
s = pd.Series([10, 100])

In [23]:
pd.to_timedelta(s, unit='s')

0   00:00:10
1   00:01:40
dtype: timedelta64[ns]

In [24]:
pd.Timedelta('12 days 5 hours 3 minutes') * 2

Timedelta('24 days 10:06:00')

In [25]:
pd.Timestamp('20180101') + pd.Timedelta('12 days 5 hours 3 minutes')

Timestamp('2018-01-13 05:03:00')

In [26]:
td1 = pd.to_timedelta([10, 100], unit='s')
td2 = pd.to_timedelta(['3 hours', '4 hours'])
td1 + td2

TimedeltaIndex(['03:00:10', '04:01:40'], dtype='timedelta64[ns]', freq=None)

In [27]:
pd.Timedelta('12 days') / pd.Timedelta('6 hours')

48.0

- pandas의 Timestamp와 Timedelta는 여러 attribute와 method를 갖고 있다.

In [28]:
ts = pd.Timestamp('2018-01-01 4:23:23')

In [29]:
ts

Timestamp('2018-01-01 04:23:23')

In [30]:
ts.ceil('h')

Timestamp('2018-01-01 05:00:00')

In [31]:
ts.ceil('d')

Timestamp('2018-01-02 00:00:00')

In [32]:
ts.year, ts.month, ts.day, ts.hour, ts.minute, ts.second

(2018, 1, 1, 4, 23, 23)

In [33]:
ts.dayofweek, ts.dayofyear, ts.daysinmonth

(0, 1, 31)

In [34]:
ts.to_pydatetime()

datetime.datetime(2018, 1, 1, 4, 23, 23)

In [35]:
td = pd.Timedelta(125.81, unit='h')

In [36]:
td

Timedelta('5 days 05:48:36')

In [37]:
td.round('min')

Timedelta('5 days 05:49:00')

In [38]:
td.round('h')

Timedelta('5 days 06:00:00')

In [39]:
td.components

Components(days=5, hours=5, minutes=48, seconds=36, milliseconds=0, microseconds=0, nanoseconds=0)

- to_datetime, to_timedelta 함수는 생성자에는 없는 여러 매개변수를 제공한다.
- 그 중 하나는 errors인데 디폴트 값은 문자열은 raise
- ignore나 corece로 설정할 수도 있다.
- raise는 오류를 발생시키고 실행을 멈춘다.
- ignore는 함수에 전달되기 이전의 값을 반환한다. (해당 값 한정이 아닌 모든 값)
- corece로 설정하면 NaT not a time 객체가 반환된다.

In [40]:
s = pd.Series(['20170101', '20180101', '2019-01-00'])

In [41]:
pd.to_datetime(s, errors='coerce')

0   2017-01-01
1   2018-01-01
2          NaT
dtype: datetime64[ns]

In [42]:
pd.to_datetime(s, errors='ignore')

0      20170101
1      20180101
2    2019-01-00
dtype: object

- 날짜 형식 명령어는 대규모 문자열을 Timestamp로 변경할 때는 큰 차이가 있다.
- pandas는 to_datetime을 사용해 문자열을 Timestamp로 변경할 때마다 날짜를 나타내는 서로 다른 문자열의 조합을 찾는다.
- 모든 문자열이 동일한 형식을 갖고 있을 때도 마찬가지다.
- format 매개변수로 정확한 날짜 형식을 지정할 수 있으므로 pandas는 매번 정확한 것을 찾지 않아도 된다.

In [47]:
date_string_list = ['Sep 30 2018'] * 10000

In [48]:
%timeit pd.to_datetime(date_string_list)

1.09 s ± 8.97 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [50]:
%timeit pd.to_datetime(date_string_list, format='%b %d %Y')

36.3 ms ± 2.46 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


- 항상 그런 것은 아닌 것 같다.
- 단순한 문자열은 별 차이가 없거나 format을 사용한 것이 더 느리다.

In [51]:
date_string_list2 = ['20180101'] * 10000

In [52]:
%timeit pd.to_datetime(date_string_list2)

2.39 ms ± 10 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [53]:
%timeit pd.to_datetime(date_string_list2, format='%Y%m%d')

8.02 ms ± 25.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2.시계열을 현명하게 분할하기

- 부분 날짜 매칭을 이용해 DatatimeIndex를 가진 DataFrame을 선택하고 분할한다.

- crimes 데이터셋을 crimes.h5라는 hdf5 파일에서 읽어 들인 후, 확인해보자.

- 다음과 같은 에러가 발생하여 pytables를 설치했다.
`ImportError: HDFStore requires PyTables, "No module named 'tables'" problem importing`

- pytables는 다음의 명령으로 설치한다.
`conda install -c conda-forge pytables`

- pytables를 설치하니 정상적으로 실행된다.

In [62]:
crime = pd.read_hdf('../data/crime.h5', key='crime')

In [63]:
crime.head()

Unnamed: 0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,REPORTED_DATE,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
0,traffic-accident-dui-duid,traffic-accident,2014-06-29 02:01:00,-105.000149,39.745753,cbd,0,1
1,vehicular-eluding-no-chase,all-other-crimes,2014-06-29 01:54:00,-104.88466,39.738702,east-colfax,1,0
2,disturbing-the-peace,public-disorder,2014-06-29 02:00:00,-105.020719,39.706674,athmar-park,1,0
3,curfew,public-disorder,2014-06-29 02:18:00,-105.001552,39.769505,sunnyside,1,0
4,aggravated-assault,aggravated-assault,2014-06-29 04:17:00,-105.018557,39.679229,college-view-south-platte,1,0


In [64]:
crime.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 460911 entries, 0 to 460910
Data columns (total 8 columns):
OFFENSE_TYPE_ID        460911 non-null category
OFFENSE_CATEGORY_ID    460911 non-null category
REPORTED_DATE          460911 non-null datetime64[ns]
GEO_LON                457296 non-null float64
GEO_LAT                457296 non-null float64
NEIGHBORHOOD_ID        460911 non-null category
IS_CRIME               460911 non-null int64
IS_TRAFFIC             460911 non-null int64
dtypes: category(3), datetime64[ns](1), float64(2), int64(2)
memory usage: 22.9 MB


In [65]:
crime.shape

(460911, 8)

- 3개의 범주형 col과 Timestamp가 있다.
- 이 데이터 형식은 날짜 파일이 생성될 때마다 저장되고 원시 텍스트만 저장하는 csv 파일과는 다르다.
- 데이터를 보다 유용한 Timestamp로 분할하는 것이 가능하도록 REPORTED_DATE col을 인덱스로 만든다.

In [66]:
crime = crime.set_index('REPORTED_DATE')

In [67]:
crime.head()

Unnamed: 0_level_0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
REPORTED_DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2014-06-29 02:01:00,traffic-accident-dui-duid,traffic-accident,-105.000149,39.745753,cbd,0,1
2014-06-29 01:54:00,vehicular-eluding-no-chase,all-other-crimes,-104.88466,39.738702,east-colfax,1,0
2014-06-29 02:00:00,disturbing-the-peace,public-disorder,-105.020719,39.706674,athmar-park,1,0
2014-06-29 02:18:00,curfew,public-disorder,-105.001552,39.769505,sunnyside,1,0
2014-06-29 04:17:00,aggravated-assault,aggravated-assault,-105.018557,39.679229,college-view-south-platte,1,0


- 인덱스의 Timestamp에는 모든 행이 인덱스 값에 부분적으로 매치되도록 선택할 수 있다.
- 예를 들어 20160505일에 발생한 모든 범죄를 보려면 다음과 같이 처리한다.

In [69]:
crime.loc['20160505'].head()

Unnamed: 0_level_0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
REPORTED_DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2016-05-05 18:59:00,criminal-trespassing,all-other-crimes,-104.847039,39.774204,stapleton,1,0
2016-05-05 08:05:00,traffic-accident,traffic-accident,-104.88163,39.652013,hampden-south,0,1
2016-05-05 14:54:00,traf-other,all-other-crimes,-105.028831,39.718089,barnum,1,0
2016-05-05 21:01:00,traf-other,all-other-crimes,-104.982887,39.751067,five-points,1,0
2016-05-05 12:48:00,theft-stln-vehicle-trailer,auto-theft,-104.909021,39.781011,northeast-park-hill,1,0


- 정확하지 않은 값으로 단일 날짜만 선택하는 것이 아니라 전체 달, 연도, 그리고 하루 중 특정 시각에 대해서도 가능하다.

In [70]:
crime.loc['2016-05'].shape

(8012, 7)

In [71]:
crime.loc['2016'].shape

(91076, 7)

In [72]:
crime.loc['20160505 03'].shape

(7, 7)

In [73]:
crime.loc['20160505 03']

Unnamed: 0_level_0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
REPORTED_DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2016-05-05 03:42:00,traffic-accident-hit-and-run,traffic-accident,-104.989557,39.780108,globeville,0,1
2016-05-05 03:56:00,criminal-mischief-other,public-disorder,-104.992029,39.735009,civic-center,1,0
2016-05-05 03:27:00,criminal-trespassing,all-other-crimes,-105.000019,39.753038,union-station,1,0
2016-05-05 03:41:00,criminal-trespassing,all-other-crimes,-105.025845,39.696449,mar-lee,1,0
2016-05-05 03:14:00,criminal-mischief-mtr-veh,public-disorder,-105.027921,39.715422,barnum,1,0
2016-05-05 03:44:00,traf-other,all-other-crimes,-104.903282,39.652655,hampden-south,1,0
2016-05-05 03:43:00,police-false-information,all-other-crimes,-104.940655,39.687491,cory-merrill,1,0


- 슬라이스 표기법을 통해 데이터의 특정 영역을 선택할 수 있다.

In [75]:
crime.loc['2015-3-4':'2016-1-1'].sort_index().head()

Unnamed: 0_level_0,OFFENSE_TYPE_ID,OFFENSE_CATEGORY_ID,GEO_LON,GEO_LAT,NEIGHBORHOOD_ID,IS_CRIME,IS_TRAFFIC
REPORTED_DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2015-03-04 00:11:00,assault-dv,other-crimes-against-persons,-105.021966,39.770883,sunnyside,1,0
2015-03-04 00:19:00,assault-dv,other-crimes-against-persons,-104.978988,39.748799,five-points,1,0
2015-03-04 00:27:00,theft-of-services,larceny,-105.055082,39.790564,regis,1,0
2015-03-04 00:49:00,traffic-accident-hit-and-run,traffic-accident,-104.987454,39.701378,washington-park-west,0,1
2015-03-04 01:07:00,burglary-business-no-force,burglary,-105.010843,39.762538,highland,1,0


- hdf5 파일의 장점 중 하나는 각 col의 type을 유지한다는 점이다.
- 이것이 메모리 사용량을 근본적으로 줄여준다.

In [76]:
mem_cat = crime.memory_usage().sum()

In [77]:
mem_obj = crime.astype({'OFFENSE_TYPE_ID': 'object',
                        'OFFENSE_CATEGORY_ID': 'object',
                        'NEIGHBORHOOD_ID': 'object'})\
               .memory_usage(deep=True).sum()

In [78]:
mb = 2 ** 20

In [79]:
round(mem_cat / mb, 1), round(mem_obj / mb, 1)

(27.3, 83.8)

- crime DataFrame은 정렬되어 있지 않지만 슬라이스는 예상대로 작동한다.
- 인덱스를 정렬하면 큰 성능 향상을 기대할 수 있다.



## 3.DatetimeIndex에만 작동하는 메서드 이용
## 4.주별 범죄 건수 알아보기
## 5.주별 범죄와 교통사고를 별도로 종합
## 6.연도별 주 중 범죄 측정
## 7.DatetimeIndex와 익명 함수로 그룹화하기
## 8.Timestamp와 다른 열로 그룹화
## 9.merge_asof를 사용해 범죄율이 20% 낮은 마지막 시기 찾기