# Chapter 7. 날짜와 시간 다루기
## 7.0 소개

## 7.1 문자열을 날짜로 변환하기
* 판다스 to_datetime() : 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환한다.
    * format 매개변수 : 날짜와 시간 포맷을 지정한다.

In [6]:
import numpy as np
import pandas as pd

date_strings = np.array(['03-04-2005 11:35 PM',
                        '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

In [7]:
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [8]:
# 오류 처리를 위한 errors 매개 변수 추가 가능
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors='ignore') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

* errors = 'coerce" : 에러난 값을 NaT로 설정.

In [9]:
pd.to_datetime(date_strings)

DatetimeIndex(['2005-03-04 23:35:00', '2010-05-23 00:01:00',
               '2009-04-09 21:09:00'],
              dtype='datetime64[ns]', freq=None)

* NaT(Not a Time) : 판다스 datetime 데이터 타입에서 누락된 값 의미한다.
    * errors = 'raise' : 날짜 포맷에 문제 있으면 예외 발생시킨다.
* 리스트 컴프리헨션 안쓰고 전달 가능하다. format 역시 지정하지 않아도 알아서 날짜 포맷을 추측해서 변환한다.

## 7.2 시간대 다루기
* tz : 시간대(time zone) 정보를 추가하거나 바꾸고 싶다.
* 판다스 객체 만들때, tz 변수를 추가한다.

In [10]:
import pandas as pd

pd.Timestamp('2017-05-01 06:00:00', tz = 'Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

* tz_localize : 이전에 만든 datetime에 시간대 추가 가능하다.

In [11]:
date = pd.Timestamp('2017-05-01 06:00:00')

date_in_london = date.tz_localize('Europe/London')
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [12]:
# 다른 시간대 변환
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [13]:
# 판다스의 Series 객체 : 모든 원소에 tz_localize, tz_convert 적용한다.

dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

* 판다스는 두 종류의 시간대 문자열을 지원한다.
* 그러나, **pytz** 라이브러리 문자열이 더 좋다. all_timezones 임포트하여 전체 시간대 문자열 확인가능하다.

In [14]:
from pytz import all_timezones

all_timezones[0:2]

['Africa/Abidjan', 'Africa/Accra']

* 'dateutil/' : dateutil 문자열 활용

In [15]:
dates.dt.tz_localize('dateutil/Asia/Seoul')

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, tzfile('ROK')]

In [16]:
# pytz 객체 직접 전달
import pytz

tz = pytz.timezone('Asia/Seoul')
dates.dt.tz_localize(tz)

0   2002-02-28 00:00:00+09:00
1   2002-03-31 00:00:00+09:00
2   2002-04-30 00:00:00+09:00
dtype: datetime64[ns, Asia/Seoul]

## 7.3 날짜와 시간 선택하기
* 날짜 벡터에서 하나 이상의 원소 선택 : 시작과 마지막 날짜로 불리언 조건 형성

In [17]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')

dataframe[(dataframe['date'] > '2002-1-1 01:00:00') &
         (dataframe['date'] <= '2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [18]:
# 날짜 열을 데이터프레임의 인덱스로 지정하고 loc을 이용해 슬라이싱 가능

dataframe = dataframe.set_index(dataframe['date'])

dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


* 복잡한 시계열 데이터 : 날짜 열을 데이터프레임 인덱스로 지정한다.
* 데이터 랭글링(일반) : 불리언 조건이 더 좋다.

## 7.4 날짜 데이터를 여러 특성으로 나누기
* Series.dt의 시간 속성 활용 : 날짜와 시간 열을 가지고 년,월,일..등 해당하는 피처를 만든다.

In [1]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')

#연, 월, 일 등의 특성을 만든다. 이때 Series.dt 속성을 적극 활용한다.

dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

In [2]:
dataframe.head()

Unnamed: 0,date,year,month,day,hour,minute
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0
3,2001-01-28,2001,1,28,0,0
4,2001-02-04,2001,2,4,0,0


## 7.5 날짜 간의 차이 계산
* 판다스 이용해서 두 날짜 특성 빼기

In [3]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

# 이제 그 특성 사이의 차이를 계산
dataframe['Left'] - dataframe['Arrived']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [4]:
# 이 때 days의 출력을 삭제하고 수치값만 남기고 싶다.
pd.Series(delta.days for delta in (dataframe['Left'] - dataframe['Arrived']))

0    0
1    2
dtype: int64

* 이렇게 판다스 TimeDelta 데이터 타입으로 시간 간격만을 손쉽게 처리할 수 있다.

## 7.6 요일 인코딩
* Series.dt의 day_name 메서드 이용하자!

In [5]:
import pandas as pd

dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))

# 요일
dates.dt.day_name() # 요일은 dt의 day_name!

0    Thursday
1      Sunday
2     Tuesday
dtype: object

In [8]:
# 수치형으로 출력하면 weekday
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

* 월요일이 0으로 시작한다.

## 7.7 시차 특성 만들기
* n 기간 만큼 차이가 나는 시차 특성을 만든다.(lagged feature)
* 판다스 shift 이용

In [10]:
import pandas as pd

dataframe = pd.DataFrame()

# 날짜 제작
dataframe['dates']= pd.date_range("1/1/2001", periods=5, freq="D")
dataframe['stock_price'] = [1.1,2.2,3.3,4.4,5.5]

# 하루전 주가는 shift(1 일 수)로 해결!
dataframe["previous_day_stock_price"] = dataframe["stock_price"].shift(1)

dataframe

Unnamed: 0,dates,stock_price,previous_day_stock_price
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


## 7.8 이동 시간 윈도 사용하기
* 일정 시간 간격 통계 계산


In [11]:
import pandas as pd

time_index = pd.date_range("01/01/2010", periods=5, freq="M")

dataframe = pd.DataFrame(index=time_index)

dataframe["Stock_Price"] = [1,2,3,4,5]

dataframe.rolling(window=2).mean()

Unnamed: 0,Stock_Price
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


* 이동 시간 윈도(rolling time window or moving time window)
    * 3달 시간 윈도 : mean(1,2,3), mean(2,3,4), mean(3,4,5) 각각 월 단위
* 판다스 rolling 메서드 : window 매개변수에서 윈도 크기 지정 가능하다.
* 이어서 여러 통계량도 함수를 통해 빠르게 구할 수 있다.
    * 시간 윈도 평균 : 시계열 데이터를 부드럽게 만들고자 자주 사용된다.

* 지수 이동 윈도(Exponential Moving window) : 최근 항목에 높은 가중치를 두고 전체 기간 통계 계산
* 판다스 :: ewm 메서드

In [12]:
dataframe.ewm(alpha=0.5).mean()

Unnamed: 0,Stock_Price
2010-01-31,1.0
2010-02-28,1.666667
2010-03-31,2.428571
2010-04-30,3.266667
2010-05-31,4.16129


## 7.9 시계열 데이터에서 누락된 값 다루기

In [13]:
import pandas as pd
import numpy as np

time_index = pd.date_range("01/01/2010", periods=5, freq="M")

dataframe = pd.DataFrame(index=time_index)

dataframe["Sales"] = [1.0,2.0,np.nan,np.nan,5.0]

In [14]:
# 누락된 값 보간
dataframe.interpolate()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [15]:
# 앞쪽으로 채우기(Forward-fill, 이전에 등장한 마지막 값으로 대체)
dataframe.ffill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [16]:
# 뒤쪼 최초 값 채우기(Back-fill
dataframe.bfill()

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


* 두 포인트 사이 간격이 비선형이라면, interpolate :: method 매개변수 변경하면 된다.

In [17]:
# 누락된 값 보간하기.
dataframe.interpolate(method="quadratic")

  return f(*args, **kwds)
  return f(*args, **kwds)


Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


* 누락된 값 간격이 커서 전체 간격을 보간하지 않은 경우
    * limit 변수로 보간 값의 개수를 제한 및 limit_direction 이용해서 마지막 데이터로 앞 보간 혹은 그 반대 결정 가능하다.

In [18]:
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0


In [19]:
dataframe.interpolate(limit=1, limit_direction="backward")

Unnamed: 0,Sales
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,
2010-04-30,4.0
2010-05-31,5.0


* 선형 보간 : 뒤쪽으로 채우기 와 앞쪽으로 채우기. 수평한 직선을 긋고 이걸로 누락된 값을 채운다.