# 日時型

In [1]:
import sys

import pandas as pd
sys.path.append("../src")
from data_loader import load_hotel_reserve, load_holiday_mst

customer_tb, hotel_tb, reserve_tb = load_hotel_reserve()


## 日時型、日付型への変換
予約テーブルのreserve_datetimeを日時型と日付型に変換する。  
checkin_dateとcheckin_timeを合わせて日時型に変換し、checkin_dateを日付型に変換する。

pythonではdatetime64[ns]型を利用できれば十分なことが多い。[ ]内の文字は日時で扱う最小単位を表した文字。 

In [2]:
# to_datetime関数で、datetime64[ns]型に変換
display(
    pd.to_datetime(
        reserve_tb["reserve_datetime"],
        format="%Y-%m-%d %H:%M:%S"))
display(
    pd.to_datetime(reserve_tb["checkin_date"] + reserve_tb["checkin_time"],
                   format="%Y-%m-%d%H:%M:%S"))


0      2016-03-06 13:09:42
1      2016-07-16 23:39:55
2      2016-09-24 10:03:17
3      2017-03-08 03:20:10
4      2017-09-05 19:50:37
               ...        
4025   2017-06-27 23:00:02
4026   2017-09-29 05:24:57
4027   2018-03-14 05:01:45
4028   2016-04-16 15:20:17
4029   2016-06-06 08:16:51
Name: reserve_datetime, Length: 4030, dtype: datetime64[ns]

0      2016-03-26 10:00:00
1      2016-07-20 11:30:00
2      2016-10-19 09:00:00
3      2017-03-29 11:00:00
4      2017-09-22 10:30:00
               ...        
4025   2017-07-10 09:30:00
4026   2017-10-09 10:30:00
4027   2018-04-02 11:30:00
4028   2016-05-10 09:30:00
4029   2016-07-06 09:00:00
Length: 4030, dtype: datetime64[ns]

In [3]:
# datetime64[ns]型から日付情報を取得
display(
    pd.to_datetime(
        reserve_tb["reserve_datetime"],
        format="%Y-%m-%d %H:%M:%S").dt.date)

display(
    pd.to_datetime(reserve_tb["checkin_date"] + reserve_tb["checkin_time"],
                   format="%Y-%m-%d%H:%M:%S").dt.date)


0       2016-03-06
1       2016-07-16
2       2016-09-24
3       2017-03-08
4       2017-09-05
           ...    
4025    2017-06-27
4026    2017-09-29
4027    2018-03-14
4028    2016-04-16
4029    2016-06-06
Name: reserve_datetime, Length: 4030, dtype: object

0       2016-03-26
1       2016-07-20
2       2016-10-19
3       2017-03-29
4       2017-09-22
           ...    
4025    2017-07-10
4026    2017-10-09
4027    2018-04-02
4028    2016-05-10
4029    2016-07-06
Length: 4030, dtype: object

## 年/月/日/分/秒/曜日への変換
日時型から特定の日時要素を取り出す。  
datetime64[ns]は日時要素をデータ内に保持しているので、直接保持している日時要素を取得できる。  
`strftime`関数を利用することで指定したフォーマットの文字列に変換することもできる。

In [4]:
# reserve_datetimeをdatetime64[ns]型に変換
reserve_tb['reserve_datetime'] = \
    pd.to_datetime(reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# 年を取得
print(reserve_tb['reserve_datetime'].dt.year)

# 月を取得
print(reserve_tb['reserve_datetime'].dt.month)

# 日を取得
print(reserve_tb['reserve_datetime'].dt.day)

# 曜日（0=日曜日、1＝月曜日）を数値で取得
print(reserve_tb['reserve_datetime'].dt.dayofweek)

# 時刻の時を取得
print(reserve_tb['reserve_datetime'].dt.hour)

# 時刻の分を取得
print(reserve_tb['reserve_datetime'].dt.minute)

# 時刻の秒を取得
print(reserve_tb['reserve_datetime'].dt.second)

# 指定したフォーマットの文字列に変換
print(reserve_tb['reserve_datetime'].dt.strftime('%Y-%m-%d %H:%M:%S'))


0       2016
1       2016
2       2016
3       2017
4       2017
        ... 
4025    2017
4026    2017
4027    2018
4028    2016
4029    2016
Name: reserve_datetime, Length: 4030, dtype: int64
0       3
1       7
2       9
3       3
4       9
       ..
4025    6
4026    9
4027    3
4028    4
4029    6
Name: reserve_datetime, Length: 4030, dtype: int64
0        6
1       16
2       24
3        8
4        5
        ..
4025    27
4026    29
4027    14
4028    16
4029     6
Name: reserve_datetime, Length: 4030, dtype: int64
0       6
1       5
2       5
3       2
4       1
       ..
4025    1
4026    4
4027    2
4028    5
4029    0
Name: reserve_datetime, Length: 4030, dtype: int64
0       13
1       23
2       10
3        3
4       19
        ..
4025    23
4026     5
4027     5
4028    15
4029     8
Name: reserve_datetime, Length: 4030, dtype: int64
0        9
1       39
2        3
3       20
4       50
        ..
4025     0
4026    24
4027     1
4028    20
4029    16
Name: reserve_datet

## 日時差への変換
予約テーブルの予約日時とチェックイン日時の年/月/日/時/分/秒の差分を計算する。

- datetime[ns]型同士を引き算すると、timedelta64[ns]型の日時分秒に分解された差分のデータが返される
- 差分を日/時/分/秒単位に変換したい場合、`astype`関数でtimedelta64[D/h/m/s]型に変換することで実現できる

In [5]:
# reserve_datetimeをdatetime64[ns]型に変換
reserve_tb['reserve_datetime'] = \
    pd.to_datetime(reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# checkin_datetimeをdatetime64[ns]型に変換
reserve_tb['checkin_datetime'] = \
    pd.to_datetime(reserve_tb['checkin_date'] + reserve_tb['checkin_time'],
                   format='%Y-%m-%d%H:%M:%S')

# 年の差分を計算（月以下の日時要素は考慮しない）
display(reserve_tb["checkin_datetime"].dt.year -
        reserve_tb["reserve_datetime"].dt.year)

# 月の差分を取得（日以下の日時要素は考慮しない）
display((reserve_tb["checkin_datetime"].dt.year * 12 +
         reserve_tb["checkin_datetime"].dt.month)
        - (reserve_tb["reserve_datetime"].dt.year * 12 +
           reserve_tb["reserve_datetime"].dt.month))

# 日単位で差分を計算
display((reserve_tb["checkin_datetime"] - reserve_tb["reserve_datetime"])
        .astype('timedelta64[D]'))

# 時単位で差分を計算
display((reserve_tb["checkin_datetime"] - reserve_tb["reserve_datetime"])
        .astype('timedelta64[h]'))

# 分単位で差分を計算
display((reserve_tb["checkin_datetime"] - reserve_tb["reserve_datetime"])
        .astype('timedelta64[m]'))

# 秒単位で差分を計算
display((reserve_tb["checkin_datetime"] - reserve_tb["reserve_datetime"])
        .astype('timedelta64[s]'))


0       0
1       0
2       0
3       0
4       0
       ..
4025    0
4026    0
4027    0
4028    0
4029    0
Length: 4030, dtype: int64

0       0
1       0
2       1
3       0
4       0
       ..
4025    1
4026    1
4027    1
4028    1
4029    1
Length: 4030, dtype: int64

0       19.0
1        3.0
2       24.0
3       21.0
4       16.0
        ... 
4025    12.0
4026    10.0
4027    19.0
4028    23.0
4029    30.0
Length: 4030, dtype: float64

0       476.0
1        83.0
2       598.0
3       511.0
4       398.0
        ...  
4025    298.0
4026    245.0
4027    462.0
4028    570.0
4029    720.0
Length: 4030, dtype: float64

0       28610.0
1        5030.0
2       35936.0
3       30699.0
4       23919.0
         ...   
4025    17909.0
4026    14705.0
4027    27748.0
4028    34209.0
4029    43243.0
Length: 4030, dtype: float64

0       1716618.0
1        301805.0
2       2156203.0
3       1841990.0
4       1435163.0
          ...    
4025    1074598.0
4026     882303.0
4027    1664895.0
4028    2052583.0
4029    2594589.0
Length: 4030, dtype: float64

## 日時型の増減
分析において、日時のデータを特定の期間だけずらしたい場合はよくある。</br>
予約テーブルの予約日時に1日間/1時間/1分間/1秒間加える。</br>
Pythonでは`timedelta`型という日時の間隔を表すデータ型がある。

In [6]:
import datetime

# reserve_datetimeをdatetime64[ns]型に変換
reserve_tb['reserve_datetime'] = \
    pd.to_datetime(reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# reserve_datetimeからdateを抽出
reserve_tb['reserve_date'] = reserve_tb['reserve_datetime'].dt.date

# reserve_datetimeに1日加える
reserve_tb['reserve_datetime'] + datetime.timedelta(days=1)

# reserve_dateに1日加える
reserve_tb['reserve_date'] + datetime.timedelta(days=1)

# reserve_datetimeに1時間加える
reserve_tb['reserve_datetime'] + datetime.timedelta(hours=1)

# reserve_datetimeに1分加える
reserve_tb['reserve_datetime'] + datetime.timedelta(minutes=1)

# reserve_datetimeに1秒加える
reserve_tb['reserve_datetime'] + datetime.timedelta(seconds=1)


0      2016-03-06 13:09:43
1      2016-07-16 23:39:56
2      2016-09-24 10:03:18
3      2017-03-08 03:20:11
4      2017-09-05 19:50:38
               ...        
4025   2017-06-27 23:00:03
4026   2017-09-29 05:24:58
4027   2018-03-14 05:01:46
4028   2016-04-16 15:20:18
4029   2016-06-06 08:16:52
Name: reserve_datetime, Length: 4030, dtype: datetime64[ns]

## 季節への変換
予約テーブルのreserve_datetimeの月から、予約時の季節のデータを生成する。3/4/5月は春、6/7/8月は夏、9/10/11月は秋、12/1/2月は冬とする。</br>
Pythonで日時型に変換するときは、`apply`関数に変換関数を指定すれば実現できる。

In [7]:
# reserve_datetimeをdatetime64[ns]型に変換
reserve_tb['reserve_datetime'] = pd.to_datetime(
    reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S'
)

# 月の数字を季節に変換する関数


def to_season(month_num):
    season = 'winter'
    if 3 <= month_num <= 5:
        season = 'spring'
    elif 6 <= month_num <= 8:
        season = 'summer'
    elif 9 <= month_num <= 11:
        season = 'autumn'

    return season


# 季節に変換
reserve_tb['reserve_season'] = pd.Categorical(
    reserve_tb['reserve_datetime'].dt.month.apply(to_season),
    categories=['spring', 'summer', 'autumn', 'winter']
)


## 平日／休日への変換
予約テーブルのcheckin_dateに対して、休日マスタを付与する。

In [8]:
holiday_mst = load_holiday_mst()

# 休日マスタと結合
pd.merge(reserve_tb, holiday_mst,
         left_on='checkin_date', right_on='target_day')


Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,checkin_datetime,reserve_date,reserve_season,target_day,holidayday_flg,nextday_is_holiday_flg
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,2016-03-26 10:00:00,2016-03-06,spring,2016-03-26,True,True
1,r1269,h_138,c_309,2016-03-14 13:57:45,2016-03-26,11:30:00,2016-03-29,4,115200,2016-03-26 11:30:00,2016-03-14,spring,2016-03-26,True,True
2,r2192,h_267,c_547,2016-03-21 09:23:13,2016-03-26,11:00:00,2016-03-27,2,19600,2016-03-26 11:00:00,2016-03-21,spring,2016-03-26,True,True
3,r2288,h_144,c_574,2016-03-05 23:44:17,2016-03-26,12:30:00,2016-03-28,3,60000,2016-03-26 12:30:00,2016-03-05,spring,2016-03-26,True,True
4,r2987,h_230,c_754,2016-03-21 07:00:01,2016-03-26,10:00:00,2016-03-27,2,34800,2016-03-26 10:00:00,2016-03-21,spring,2016-03-26,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4025,r3904,h_240,c_970,2018-04-10 10:01:59,2018-04-10,12:00:00,2018-04-13,4,320400,2018-04-10 12:00:00,2018-04-10,spring,2018-04-10,False,False
4026,r3905,h_230,c_970,2018-07-02 01:37:45,2018-07-24,12:30:00,2018-07-25,3,52200,2018-07-24 12:30:00,2018-07-02,summer,2018-07-24,False,False
4027,r3936,h_46,c_979,2018-09-10 05:48:22,2018-10-02,12:00:00,2018-10-05,3,166500,2018-10-02 12:00:00,2018-09-10,autumn,2018-10-02,False,False
4028,r3959,h_93,c_983,2018-02-16 11:01:40,2018-03-15,11:00:00,2018-03-17,3,58800,2018-03-15 11:00:00,2018-02-16,winter,2018-03-15,False,False
