# 第2部　Pythonによる時系列分析の基本

## 第4章　pandasによる日付処理の基本

### 分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

In [2]:
# 表示設定
np.set_printoptions(linewidth=80)
pd.set_option('display.width', 80)

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 8, 4

### pandasを用いたTimestampの作成

#### Timestampの作成

In [3]:
type('2020-01-01')

str

In [4]:
my_time = pd.Timestamp('2020-05-11')
my_time

Timestamp('2020-05-11 00:00:00')

In [5]:
type(my_time)

pandas._libs.tslibs.timestamps.Timestamp

#### pd.to_datetime関数の利用

In [6]:
my_time2 = pd.to_datetime('2020-05-11')
my_time2

Timestamp('2020-05-11 00:00:00')

In [7]:
pd.to_datetime('2020年6月8日', format='%Y年%m月%d日')

Timestamp('2020-06-08 00:00:00')

In [8]:
pd.to_datetime('2020 Feb 7', format='%Y %b %d')

Timestamp('2020-02-07 00:00:00')

In [9]:
pd.to_datetime('時間は14時28分14秒だよ。ちなみに2020年の6月8日です。',
               format='時間は%H時%M分%S秒だよ。ちなみに%Y年の%m月%d日です。')

Timestamp('2020-06-08 14:28:14')

#### 現在時刻の取得

In [10]:
pd.Timestamp.now()

Timestamp('2024-09-11 16:28:02.648078')

### Timestampからの日付情報の取得

In [11]:
my_time3 = pd.to_datetime('2020-09-08 14:11:04')
my_time3

Timestamp('2020-09-08 14:11:04')

In [12]:
print('年', my_time3.year)
print('月', my_time3.month)
print('日', my_time3.day)
print('時', my_time3.hour)
print('分', my_time3.minute)
print('秒', my_time3.second)
print('1年の何日目か', my_time3.dayofyear)
print('1年の何週目か', my_time3.weekofyear)
print('曜日(月曜が0)', my_time3.dayofweek)
print('四半期　　　 ', my_time3.quarter)

年 2020
月 9
日 8
時 14
分 11
秒 4
1年の何日目か 252
1年の何週目か 37
曜日(月曜が0) 1
四半期　　　  3


In [13]:
print('2020年2月', pd.to_datetime('2020-02').daysinmonth)
print('2021年2月', pd.to_datetime('2021-02').daysinmonth)

2020年2月 29
2021年2月 28


### pandasを用いたDatetimeIndexの作成

#### pd.date_range関数の利用

In [14]:
time_range = pd.date_range(start='2020-01-01', end='2020-03-01', freq='MS')
time_range

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq='MS')

In [15]:
type(time_range)

pandas.core.indexes.datetimes.DatetimeIndex

In [16]:
# endを含まない
pd.date_range(start='2020-01-01', end='2020-03-01', freq='MS', inclusive='left')

DatetimeIndex(['2020-01-01', '2020-02-01'], dtype='datetime64[ns]', freq='MS')

In [17]:
# startを含まない
pd.date_range(start='2020-01-01', end='2020-03-01', freq='MS', inclusive='right')

DatetimeIndex(['2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq='MS')

In [18]:
# start,endを含まない
pd.date_range(start='2020-01-01', end='2020-03-01', freq='MS', inclusive='neither')

DatetimeIndex(['2020-02-01'], dtype='datetime64[ns]', freq='MS')

In [19]:
# periodsの指定
pd.date_range(start='2020-01-01', periods=3, freq='MS')

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq='MS')

#### freqの指定

In [20]:
# 月の終わり
pd.date_range(start='2020-01-01', periods=3, freq='ME')

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31'], dtype='datetime64[ns]', freq='ME')

In [21]:
# 1日単位
pd.date_range(start='2020-01-01', periods=3, freq='D')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')

参考 時間単位の一覧<br>
https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases

In [22]:
# さまざまな時間単位(日より大きい単位)
print(pd.date_range(start='2020-01-01', periods=3, freq='D'))  # Day
print(pd.date_range(start='2020-01-01', periods=3, freq='W'))  # Week

print(pd.date_range(start='2020-01-01', periods=3, freq='SME')) # Semi-Month
print(pd.date_range(start='2020-01-01', periods=3, freq='SMS')) # Semi-Month-Start

print(pd.date_range(start='2020-01-01', periods=3, freq='ME'))  # Month
print(pd.date_range(start='2020-01-01', periods=3, freq='MS'))  # Month-Start

print(pd.date_range(start='2020-01-01', periods=3, freq='QE'))  # Quarter
print(pd.date_range(start='2020-01-01', periods=3, freq='QS'))  # Quater-start

print(pd.date_range(start='2020-01-01', periods=3, freq='YE'))  # Year
print(pd.date_range(start='2020-01-01', periods=3, freq='YS'))  # Year

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')
DatetimeIndex(['2020-01-05', '2020-01-12', '2020-01-19'], dtype='datetime64[ns]', freq='W-SUN')
DatetimeIndex(['2020-01-15', '2020-01-31', '2020-02-15'], dtype='datetime64[ns]', freq='SME-15')
DatetimeIndex(['2020-01-01', '2020-01-15', '2020-02-01'], dtype='datetime64[ns]', freq='SMS-15')
DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31'], dtype='datetime64[ns]', freq='ME')
DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01'], dtype='datetime64[ns]', freq='MS')
DatetimeIndex(['2020-03-31', '2020-06-30', '2020-09-30'], dtype='datetime64[ns]', freq='QE-DEC')
DatetimeIndex(['2020-01-01', '2020-04-01', '2020-07-01'], dtype='datetime64[ns]', freq='QS-JAN')
DatetimeIndex(['2020-12-31', '2021-12-31', '2022-12-31'], dtype='datetime64[ns]', freq='YE-DEC')
DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-01'], dtype='datetime64[ns]', freq='YS-JAN')


In [23]:
# さまざまな時間単位(1日未満の単位)
print(pd.date_range(start='2020-01-01', periods=3, freq='h'))    # Hour
print(pd.date_range(start='2020-01-01', periods=3, freq='min'))  # Minute
print(pd.date_range(start='2020-01-01', periods=3, freq='s'))    # Second

# 以下、本文にない参考
print(pd.date_range(start='2020-01-01', periods=3, freq='ms'))   # milli-second
print(pd.date_range(start='2020-01-01', periods=3, freq='us'))   # micro-seconds
print(pd.date_range(start='2020-01-01', periods=3, freq='ns'))   # nanoseconds

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 01:00:00',
               '2020-01-01 02:00:00'],
              dtype='datetime64[ns]', freq='h')
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:01:00',
               '2020-01-01 00:02:00'],
              dtype='datetime64[ns]', freq='min')
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:00:01',
               '2020-01-01 00:00:02'],
              dtype='datetime64[ns]', freq='s')
DatetimeIndex([       '2020-01-01 00:00:00', '2020-01-01 00:00:00.001000',
               '2020-01-01 00:00:00.002000'],
              dtype='datetime64[ns]', freq='ms')
DatetimeIndex([       '2020-01-01 00:00:00', '2020-01-01 00:00:00.000001',
               '2020-01-01 00:00:00.000002'],
              dtype='datetime64[ns]', freq='us')
DatetimeIndex([          '2020-01-01 00:00:00',
               '2020-01-01 00:00:00.000000001',
               '2020-01-01 00:00:00.000000002'],
              dtype='datetime64[ns]', freq='ns')


#### freqの詳細な指定

In [24]:
# freqの詳細な設定
print(pd.date_range(start='2020-01-01', periods=4, freq='W-SUN'))  # Week-Sunday
print(pd.date_range(start='2020-01-01', periods=4, freq='W-MON'))  # Week-Monday

DatetimeIndex(['2020-01-05', '2020-01-12', '2020-01-19', '2020-01-26'], dtype='datetime64[ns]', freq='W-SUN')
DatetimeIndex(['2020-01-06', '2020-01-13', '2020-01-20', '2020-01-27'], dtype='datetime64[ns]', freq='W-MON')


In [25]:
# 15分単位
print(pd.date_range(start='2020-01-01', periods=6, freq='15min'))  # 15 Minute

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:15:00',
               '2020-01-01 00:30:00', '2020-01-01 00:45:00',
               '2020-01-01 01:00:00', '2020-01-01 01:15:00'],
              dtype='datetime64[ns]', freq='15min')


### SeriesやDataFrameへのindexの付与

#### TimestampのindexをもつSeries

In [26]:
my_ts = pd.Series([1,2,3,4,5])
my_ts

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [27]:
my_ts.index = pd.date_range(start='2020-01-01', periods=5, freq='D')
my_ts

2020-01-01    1
2020-01-02    2
2020-01-03    3
2020-01-04    4
2020-01-05    5
Freq: D, dtype: int64

#### TimestampのindexをもつDataFrame

In [28]:
my_mts = pd.DataFrame({
    'product_a':[1,4,7,4,8],
    'product_b':[4,9,3,1,0]
})
my_mts.index = pd.date_range(start='2020-01-01', periods=5, freq='MS')
print(my_mts)

            product_a  product_b
2020-01-01          1          4
2020-02-01          4          9
2020-03-01          7          3
2020-04-01          4          1
2020-05-01          8          0


#### indexの修正

In [29]:
my_mts.index = pd.date_range(start='2020-01-01', periods=5, freq='W')
print(my_mts)

            product_a  product_b
2020-01-05          1          4
2020-01-12          4          9
2020-01-19          7          3
2020-01-26          4          1
2020-02-02          8          0


### 時系列データの読み込み

#### 時系列データの読み込みの基本

In [30]:
# データの読み込み
ts_month = pd.read_csv(
    '2-4-1-time-series-month.csv',  # ファイル名
    index_col='time',               # インデックスとして扱う列名
    parse_dates=True,               # インデックスを「時間軸」として扱う
    dtype='float'                   # データの型(浮動小数点)
)

ts_month.index.freq = 'MS'

# 結果の確認
print(ts_month)

            sales
time             
2000-01-01   10.0
2000-02-01    5.0
2000-03-01    8.0
2000-04-01   14.0
2000-05-01    9.0


In [31]:
# 日単位データの読み込み
ts_day = pd.read_csv(
    '2-4-2-time-series-day.csv', 
    index_col='time',
    parse_dates=True,
    dtype='float'
)

ts_day.index.freq = 'D'

# 結果の確認
print(ts_day.head(3))
print(ts_day.tail(3))

            value
time             
1990-01-01    1.0
1990-01-02    2.0
1990-01-03    3.0
             value
time              
1999-12-29  3650.0
1999-12-30  3651.0
1999-12-31  3652.0


In [32]:
ts_month.index

DatetimeIndex(['2000-01-01', '2000-02-01', '2000-03-01', '2000-04-01',
               '2000-05-01'],
              dtype='datetime64[ns]', name='time', freq='MS')

In [33]:
# 参考：indexの型
type(ts_month.index)

pandas.core.indexes.datetimes.DatetimeIndex

#### 時間情報がわかれたデータの読み込み(日単位)

In [34]:
# 時間情報がわかれたデータの読み込み
separate_day = pd.read_csv('2-4-3-separate-time-day.csv')

# 結果の確認
print(separate_day.head(3))

   year  month  day  value
0  1990      1    1      1
1  1990      1    2      2
2  1990      1    3      3


In [35]:
# インデックスの作成
separate_day.index = pd.to_datetime(separate_day[['year', 'month', 'day']])
separate_day.index.freq = 'D'

# 結果の確認
print(separate_day.head(3))

            year  month  day  value
1990-01-01  1990      1    1      1
1990-01-02  1990      1    2      2
1990-01-03  1990      1    3      3


In [36]:
# 不要な列の削除
separate_day = separate_day.drop(['year', 'month', 'day'], axis=1)

# 結果の確認
print(separate_day.head(3))

            value
1990-01-01      1
1990-01-02      2
1990-01-03      3


#### 時間情報がわかれたデータの読み込み(月単位)

In [37]:
# 時間情報がわかれたデータの読み込み
separate_month = pd.read_csv('2-4-4-separate-time-month.csv')

# 結果の確認
print(separate_month.head(3))

   year  month  value
0  1990      1      1
1  1990      2      2
2  1990      3      3


In [38]:
# 日付情報の結合
# インデックスの作成
separate_month.index = pd.to_datetime(
    {'year':separate_month['year'], 
     'month':separate_month['month'], 
     'day':np.tile(1, len(separate_month))}
)
separate_month.index.freq = 'MS'
# 不要な列の削除
separate_month = separate_month.drop(['year', 'month'], axis=1)

# 結果の確認
print(separate_month.head(3))

            value
1990-01-01      1
1990-02-01      2
1990-03-01      3


### 日時を指定したデータの抽出

#### データ抽出の基本

In [39]:
print(ts_day.head(3))
print(ts_day.tail(3))

            value
time             
1990-01-01    1.0
1990-01-02    2.0
1990-01-03    3.0
             value
time              
1999-12-29  3650.0
1999-12-30  3651.0
1999-12-31  3652.0


In [40]:
# 日付の指定
print(ts_day.loc['1990-01-02'])

value    2.0
Name: 1990-01-02 00:00:00, dtype: float64


In [41]:
# 範囲の指定
print(ts_day.loc['1990-01-02':'1990-01-04'])

            value
time             
1990-01-02    2.0
1990-01-03    3.0
1990-01-04    4.0


In [42]:
# 月単位での指定
print(ts_day.loc['1990-01'])

            value
time             
1990-01-01    1.0
1990-01-02    2.0
1990-01-03    3.0
1990-01-04    4.0
1990-01-05    5.0
1990-01-06    6.0
1990-01-07    7.0
1990-01-08    8.0
1990-01-09    9.0
1990-01-10   10.0
1990-01-11   11.0
1990-01-12   12.0
1990-01-13   13.0
1990-01-14   14.0
1990-01-15   15.0
1990-01-16   16.0
1990-01-17   17.0
1990-01-18   18.0
1990-01-19   19.0
1990-01-20   20.0
1990-01-21   21.0
1990-01-22   22.0
1990-01-23   23.0
1990-01-24   24.0
1990-01-25   25.0
1990-01-26   26.0
1990-01-27   27.0
1990-01-28   28.0
1990-01-29   29.0
1990-01-30   30.0
1990-01-31   31.0


#### 日時の詳細な指定

In [43]:
time_idx = pd.date_range(start='2020-01-01', end='2021-01-01', 
                         freq='15min', inclusive='left')
long_ts = pd.Series(np.arange(0, len(time_idx), 1), index=time_idx)

print(long_ts.head(3))
print(long_ts.tail(3))

2020-01-01 00:00:00    0
2020-01-01 00:15:00    1
2020-01-01 00:30:00    2
Freq: 15min, dtype: int32
2020-12-31 23:15:00    35133
2020-12-31 23:30:00    35134
2020-12-31 23:45:00    35135
Freq: 15min, dtype: int32


In [44]:
# データの長さ
366 * 24 * 4

35136

In [45]:
# 日次の指定
long_ts.loc['2020-12-31 23:30:00']

35134

In [46]:
# TImestampの作成
pd.Timestamp(2020, 12, 31, 23, 30, 0)

Timestamp('2020-12-31 23:30:00')

In [47]:
# Timestampを利用したデータの抽出
long_ts.loc[pd.Timestamp(2020, 12, 31, 23, 30, 0)]

35134

In [48]:
long_ts.loc[pd.Timestamp(2020, 12, 30):pd.Timestamp(2020, 12, 31, 10)]

2020-12-30 00:00:00    34944
2020-12-30 00:15:00    34945
2020-12-30 00:30:00    34946
2020-12-30 00:45:00    34947
2020-12-30 01:00:00    34948
                       ...  
2020-12-31 09:00:00    35076
2020-12-31 09:15:00    35077
2020-12-31 09:30:00    35078
2020-12-31 09:45:00    35079
2020-12-31 10:00:00    35080
Freq: 15min, Length: 137, dtype: int32

#### 時間の指定

In [49]:
# 10時のデータのみ抽出
long_ts.at_time('10:00:00')

2020-01-01 10:00:00       40
2020-01-02 10:00:00      136
2020-01-03 10:00:00      232
2020-01-04 10:00:00      328
2020-01-05 10:00:00      424
                       ...  
2020-12-27 10:00:00    34696
2020-12-28 10:00:00    34792
2020-12-29 10:00:00    34888
2020-12-30 10:00:00    34984
2020-12-31 10:00:00    35080
Freq: 1440min, Length: 366, dtype: int32

In [50]:
# 10時から11時までのデータを抽出
long_ts.between_time(start_time='10:00:00', end_time='11:00:00', 
                     inclusive='left')

2020-01-01 10:00:00       40
2020-01-01 10:15:00       41
2020-01-01 10:30:00       42
2020-01-01 10:45:00       43
2020-01-02 10:00:00      136
                       ...  
2020-12-30 10:45:00    34987
2020-12-31 10:00:00    35080
2020-12-31 10:15:00    35081
2020-12-31 10:30:00    35082
2020-12-31 10:45:00    35083
Length: 1464, dtype: int32

### 日次を用いたデータの集計

#### 日付情報を持つ列の作成

In [51]:
# 月を表すmonth列を追加する
ts_day['month'] = ts_day.index.month
print(ts_day.head(3))

            value  month
time                    
1990-01-01    1.0      1
1990-01-02    2.0      1
1990-01-03    3.0      1


In [52]:
# 月ごとの合計値
print(ts_day.groupby('month').sum())

          value
month          
1      514445.0
2      475961.0
3      532797.0
4      524760.0
5      551707.0
6      543060.0
7      570617.0
8      580227.0
9      570660.0
10     599137.0
11     588960.0
12     618047.0


In [53]:
# 参考：applyメソッドの利用
print(ts_day.groupby('month')['value'].apply(np.sum))

month
1     514445.0
2     475961.0
3     532797.0
4     524760.0
5     551707.0
6     543060.0
7     570617.0
8     580227.0
9     570660.0
10    599137.0
11    588960.0
12    618047.0
Name: value, dtype: float64


In [54]:
# 参考：日時情報の列を使わない例
print(ts_day.groupby(ts_day.index.month).sum())

         value  month
time                 
1     514445.0    310
2     475961.0    564
3     532797.0    930
4     524760.0   1200
5     551707.0   1550
6     543060.0   1800
7     570617.0   2170
8     580227.0   2480
9     570660.0   2700
10    599137.0   3100
11    588960.0   3300
12    618047.0   3720


In [55]:
# 参考：年ごと、月ごとの集計
ts_day.groupby([ts_day.index.year, ts_day.index.month]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value,month
time,time,Unnamed: 2_level_1,Unnamed: 3_level_1
1990,1,496.0,31
1990,2,1274.0,56
1990,3,2325.0,93
1990,4,3165.0,120
1990,5,4216.0,155
...,...,...,...
1999,8,108965.0,248
1999,9,106365.0,270
1999,10,110856.0,310
1999,11,108195.0,330


### PeriodIndexの作成と利用

#### period_range関数の利用

In [56]:
period_range = pd.period_range(start='2020-01-01', end='2020-02-01', freq='M')
period_range

PeriodIndex(['2020-01', '2020-02'], dtype='period[M]')

In [57]:
type(period_range)

pandas.core.indexes.period.PeriodIndex

#### DatetimeIndexとPeriodIndexの変換

In [58]:
time_range = pd.date_range(start='2020-01-01', end='2020-02-01', freq='MS')
time_range

DatetimeIndex(['2020-01-01', '2020-02-01'], dtype='datetime64[ns]', freq='MS')

In [59]:
# DatetimeIndexをPeriodIndexにする
time_range.to_period()

PeriodIndex(['2020-01', '2020-02'], dtype='period[M]')

In [60]:
# PeriodIndexをDatetimeIndexにする
period_range.to_timestamp()

DatetimeIndex(['2020-01-01', '2020-02-01'], dtype='datetime64[ns]', freq=None)

#### DataFrameのindexの変換

In [61]:
print(ts_month)

            sales
time             
2000-01-01   10.0
2000-02-01    5.0
2000-03-01    8.0
2000-04-01   14.0
2000-05-01    9.0


In [62]:
# 参考：indexを対象に変換することもできる
ts_month.index.to_period()

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05'], dtype='period[M]', name='time')

In [63]:
# DataFrameに対して直接実行
ts_month_period = ts_month.copy()
ts_month_period = ts_month_period.to_period()
print(ts_month_period)

         sales
time          
2000-01   10.0
2000-02    5.0
2000-03    8.0
2000-04   14.0
2000-05    9.0


#### PeriodIndexの操作

In [64]:
# 日付情報の取得
print('年', period_range.year)
print('月', period_range.month)

年 Index([2020, 2020], dtype='int64')
月 Index([1, 2], dtype='int64')


In [65]:
ts_month_period.loc['2000-04']

sales    14.0
Name: 2000-04, dtype: float64

In [66]:
print(ts_month_period.loc['2000-03':'2000-05'])

         sales
time          
2000-03    8.0
2000-04   14.0
2000-05    9.0
