In [3]:
import pandas as pd
import numpy as np

#### pandasで時系列データを扱う際に、Indexは時刻型(datetime)型にする

#### 1. 時刻を計算して設定する場合。date_range　で時刻を設定する
* start / end / periods の中で2つを指定する
* freq で時間の刻み幅を指定（D -日、　minー分）


In [32]:
#d = pd.read_csv(ファイル名)

d = pd.DataFrame(np.arange(72))
d.index = pd.date_range(start = '2016/1/2', periods = len(d), freq = '60min')
d

Unnamed: 0,0
2016-01-02 00:00:00,0
2016-01-02 01:00:00,1
2016-01-02 02:00:00,2
2016-01-02 03:00:00,3
2016-01-02 04:00:00,4
...,...
2016-01-04 19:00:00,67
2016-01-04 20:00:00,68
2016-01-04 21:00:00,69
2016-01-04 22:00:00,70


#### 一つの列に日時が入っている場合
時刻が入ってるcsvファイルを読み込み

1. 指定列がIndexとなり、DFから削除される。　parse_dates を指定しないと、文字列になってしまう
  *d = pd.read_csv(ファイル名, parse_dates = [列番号], index_col = 列番号)

d = pd.read_csv(ファイル名, parse_dates = [列番号], index_col = 列番号)

#### 一つの列に日時が入っている場合２
時刻が入ってるDataFrameにindexを指定

d = pd.read_csv(ファイル名)   
d.index = pd.to_datetime(d.DATETIME) # 仮にDATETIMEという列に時刻が入ってて、それを時刻型に変更して、インデックスにする   
d.drop('DATETIME', axis = 1, inplace = True) #元の列を削除する

#### 一つの列に日時が入っていて、加工する場合

d = pd.read_csv(ファイル名)  
d.index = pd.to_datetime(d.DT.str[2:]) # 仮にDTという列に文字列が入ってて、先頭２文字を削除して日時変換すると、このようにコードを書く   
d.drop('DT', axis = 1, inplace = True) #元の列を削除する

#### 複数の列を使って指定する場合
例えば、DATEという列に日付が、TIMEという列に時間が入っているならば、

d = pd.read_csv(ファイル名)   
d.index = pd.to_datetime(d.DATE + ' ' + d.TIME) 

または、CSVファイルを読み込むときに複数列を指定することもできる

d = pd.read_csv(ファイル名,　parse_dates = [['DATE', 'TIME']], index_col = 'DATETIME')

時系列データのIndexは時刻の型(Timestamp型)になっている。
このデータをCSV保存して、parse_datesを指定せずに、もう一度読み込むと、文字列になってしまう

pickle形式を用いれば、保存前と同じ型で読み込むことができる

#### 時系列データのメソッド

* asfreq 時間感覚を指定して取り出す、数値以外の列も有効
* at_time 指定時間を取り出す
* between_time 指定した範囲の時間を取り出す
* tshift indexを次のindexで置き換える
* resample 時間間隔を変更する、数値以外の列は削除される

In [58]:
type(d)

pandas.core.frame.DataFrame

In [74]:
print('例１：　１月２日の１２時台')

print('方法１')
#print(d['2016-1-2 12:00:00']) #KeyError: '2016-1-2 12:00:00'
print(d['2016-01-04'])  #問題ありません
#print(d['2016-01-04 12:00:00']) #KeyError
#print(d.datetime(2016,1,4,12)) #KeyError
print('方法２')
print(d[(d.index.day == 2) & (d.index.hour == 12)])

例１：　１月２日の１２時台
方法１
                      0
2016-01-04 00:00:00  48
2016-01-04 01:00:00  49
2016-01-04 02:00:00  50
2016-01-04 03:00:00  51
2016-01-04 04:00:00  52
2016-01-04 05:00:00  53
2016-01-04 06:00:00  54
2016-01-04 07:00:00  55
2016-01-04 08:00:00  56
2016-01-04 09:00:00  57
2016-01-04 10:00:00  58
2016-01-04 11:00:00  59
2016-01-04 12:00:00  60
2016-01-04 13:00:00  61
2016-01-04 14:00:00  62
2016-01-04 15:00:00  63
2016-01-04 16:00:00  64
2016-01-04 17:00:00  65
2016-01-04 18:00:00  66
2016-01-04 19:00:00  67
2016-01-04 20:00:00  68
2016-01-04 21:00:00  69
2016-01-04 22:00:00  70
2016-01-04 23:00:00  71
方法２
                      0
2016-01-02 12:00:00  12


In [77]:
print('例２：１月2日から１月3日まで')

print('方法１')
print(d['2016/1/2 23':'2016.1.3 05'])

#print(d['2016/1/2 23':'2016.1.3 5'])
# DateParseError: Unknown datetime string format, unable to parse: 2016.1.3 5

print(d['2016-1-2 23:00:00':'2016-1-3 5:00:00'])

print('方法２')
print(d[(d.index.day >= 2) & (d.index.day < 4)])

例２：１月2日から１月3日まで
方法１
                      0
2016-01-02 23:00:00  23
2016-01-03 00:00:00  24
2016-01-03 01:00:00  25
2016-01-03 02:00:00  26
2016-01-03 03:00:00  27
2016-01-03 04:00:00  28
2016-01-03 05:00:00  29
                      0
2016-01-02 23:00:00  23
2016-01-03 00:00:00  24
2016-01-03 01:00:00  25
2016-01-03 02:00:00  26
2016-01-03 03:00:00  27
2016-01-03 04:00:00  28
2016-01-03 05:00:00  29
方法２
                      0
2016-01-02 00:00:00   0
2016-01-02 01:00:00   1
2016-01-02 02:00:00   2
2016-01-02 03:00:00   3
2016-01-02 04:00:00   4
2016-01-02 05:00:00   5
2016-01-02 06:00:00   6
2016-01-02 07:00:00   7
2016-01-02 08:00:00   8
2016-01-02 09:00:00   9
2016-01-02 10:00:00  10
2016-01-02 11:00:00  11
2016-01-02 12:00:00  12
2016-01-02 13:00:00  13
2016-01-02 14:00:00  14
2016-01-02 15:00:00  15
2016-01-02 16:00:00  16
2016-01-02 17:00:00  17
2016-01-02 18:00:00  18
2016-01-02 19:00:00  19
2016-01-02 20:00:00  20
2016-01-02 21:00:00  21
2016-01-02 22:00:00  22
2016-01-02 23:00

In [81]:
print('例３：任意の日の12:00')

print('方法１')
print(d.at_time('12:00'))
#print(d.at_time['12:00']) #[]ではありません


print('方法２')
print(d[(d.index.hour == 12) & (d.index.minute ==0)])

例３：任意の日の12:00
方法１
                      0
2016-01-02 12:00:00  12
2016-01-03 12:00:00  36
2016-01-04 12:00:00  60
方法２
                      0
2016-01-02 12:00:00  12
2016-01-03 12:00:00  36
2016-01-04 12:00:00  60


In [83]:
print('例４：任意の日の10:00から11：59')

print('方法１')
print(d.between_time('10:00', '11:59'))

print('方法２')
print(d[(d.index.hour >= 10) & (d.index.hour < 12)])

例４：任意の日の10:00から11：59
方法１
                      0
2016-01-02 10:00:00  10
2016-01-02 11:00:00  11
2016-01-03 10:00:00  34
2016-01-03 11:00:00  35
2016-01-04 10:00:00  58
2016-01-04 11:00:00  59
方法２
                      0
2016-01-02 10:00:00  10
2016-01-02 11:00:00  11
2016-01-03 10:00:00  34
2016-01-03 11:00:00  35
2016-01-04 10:00:00  58
2016-01-04 11:00:00  59


#### shift
shiftを用いるとデータをずらすことができる
tshiftを用いると時刻をずらすことができる


In [84]:
print('例：前の時刻との差分の値')

(d-d.shift(1)).fillna(0)

(d-d.tshift(1)).fillna(0) #時間幅が同じ場合

例：前の時刻との差分の値


Unnamed: 0,0
2016-01-02 00:00:00,0.0
2016-01-02 01:00:00,1.0
2016-01-02 02:00:00,1.0
2016-01-02 03:00:00,1.0
2016-01-02 04:00:00,1.0
...,...
2016-01-04 20:00:00,1.0
2016-01-04 21:00:00,1.0
2016-01-04 22:00:00,1.0
2016-01-04 23:00:00,1.0
