# 7章　日時データの取り扱い 
## レシピ7.1　文字列の日時データへの変換

In [None]:
# ライブラリをロード
import numpy as np
import pandas as pd

# 文字列を作成
date_strings = np.array(['03-04-2005 11:35 PM', 
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

# 日時データに変換
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

In [None]:
# 日時データに変換
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p", errors="coerce")
    for date in date_strings]

 
## レシピ7.2　タイムゾーンの取り扱い

In [None]:
# ライブラリをロード
import pandas as pd

# 日時データを作成
pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

In [None]:

# 日時データを作成
date = pd.Timestamp('2017-05-01 06:00:00')

# タイムゾーンを設定
date_in_london = date.tz_localize('Europe/London')

# 日時データを表示
date_in_london

In [None]:
# タイムゾーンを変更
date_in_london.tz_convert('Africa/Abidjan')

# 日時データを3つ作成
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

# タイムゾーンを設定
dates.dt.tz_localize('Africa/Abidjan')

In [None]:
# ライブラリをロード
from pytz import all_timezones

# タイムゾーンを2つ表示
all_timezones[0:2]

 
## レシピ7.3　日付と時間による選択 


In [None]:
# ライブラリをロード
import pandas as pd

# データフレームを作成
dataframe = pd.DataFrame()

# 日時データを作成
dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')

# 2つの日時の間の観測値を選択
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') &
          (dataframe['date'] <= '2002-1-1 04:00:00')]


In [None]:
# インデックスとして指定
dataframe = dataframe.set_index(dataframe['date'])

# 2つの日時の間の観測値を選択
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

## レシピ7.4　日付データを複数の特徴量に分解 


In [None]:
# ライブラリをロード
import pandas as pd

# データフレームを作成
dataframe = pd.DataFrame()

# 150の日時データを作る
dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')

# 年、月、日、時、分を特徴量として作成
dataframe['year'] = dataframe['date'].dt.year
dataframe['month'] = dataframe['date'].dt.month
dataframe['day'] = dataframe['date'].dt.day
dataframe['hour'] = dataframe['date'].dt.hour
dataframe['minute'] = dataframe['date'].dt.minute

# 3行表示
dataframe.head(3)

## レシピ7.5　日付の差の算出 


In [None]:
# ライブラリをロード
import pandas as pd

# データフレームを作成
dataframe = pd.DataFrame()

# 2つの日時特徴量を作成
dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

# 2つの日時特徴量の差を計算
dataframe['Left'] - dataframe['Arrived']

In [None]:
# 2つの日時特徴量の差を計算
pd.Series(delta.days for delta in (dataframe['Left'] - dataframe['Arrived']))

## レシピ7.6　曜日の算出 


In [None]:
# ライブラリをロード
import pandas as pd

# 日時データを作成
dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))

# 曜日を表示
dates.dt.day_name()

In [None]:
# 曜日を表示
dates.dt.weekday

## レシピ7.7　時間遅れ特徴量の生成 


In [None]:
# ライブラリをロード
import pandas as pd

# データフレームを作成
dataframe = pd.DataFrame()

# 日付データを作成
dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["stock_price"] = [1.1,2.2,3.3,4.4,5.5]

# 1行分ラグのある（遅れている）値を作成
dataframe["previous_days_stock_price"] = dataframe["stock_price"].shift(1)

# データフレームを表示
dataframe

## レシピ7.8　移動時間窓の利用 


In [None]:
# ライブラリをロード
import pandas as pd

# 日時データを作成
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

# データフレームを作成し、インデックスを設定
dataframe = pd.DataFrame(index=time_index)

# 特徴量を作成
dataframe["Stock_Price"] = [1,2,3,4,5]

# 移動平均を計算
dataframe.rolling(window=2).mean()

## レシピ7.9　時系列データ中の欠損値の取り扱い 


In [None]:
# ライブラリをロード
import pandas as pd
import numpy as np

# 日時データを作成
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

# データフレームを作成し、インデックスを設定
dataframe = pd.DataFrame(index=time_index)

# 欠損値を含む特徴量を作成
dataframe["Sales"] = [1.0,2.0,np.nan,np.nan,5.0]

# 欠損値を内挿して補完
dataframe.interpolate()


In [None]:
# 前方補完
dataframe.ffill()

In [None]:
# 後方補完
dataframe.bfill()

In [None]:
# 欠損値を内挿
dataframe.interpolate(method="quadratic")

In [None]:
# 欠損値を内挿
dataframe.interpolate(limit=1, limit_direction="forward")