In [346]:
import pandas as pd
import numpy as np
import datetime
import tensorflow as tf
from tensorflow import keras
import time
import matplotlib as mpl
import matplotlib.pyplot as plt

#numpy配列を省略しないようにする
np.set_printoptions(threshold=np.inf)
#pandasを省略しないようにする
pd.set_option('display.max_columns', 500) # 列
pd.set_option('display.max_rows', 500)  # 行

In [339]:
# トレーニングデータの作成
def create_data(read_dir, save_dir):
    df = pd.read_csv(read_dir, encoding='shift_jis')
    #カラムを削除
    df = df.dropna()  # NaNを削除
    df.drop(labels='日付(ローソク足)', axis=1, inplace=True) # ろうそく足データの日付
    
    df['日付'] = pd.to_datetime(df['日付'], format='%Y-%m-%d-%A %H:%M:%S')  # 日付カラムを日付型に変換
    df['日付(hour)'] = df['日付'].dt.hour  # hourをデータに追加
    df['日付(minute)'] = df['日付'].dt.minute  # minuteをデータに追加
    df['日付(weekday)'] = df['日付'].dt.dayofweek  # minuteをデータに追加
    # df['日付']カラムが [datetime64[ns]]型になっていて扱いづらいので最後に削除する
    #df.drop(labels='日付', axis=1, inplace=True)
    
    date = df['日付'] # 代入して変数を避難させる
    
    df = df.loc[:, '2':'日付(weekday)'].astype('float32')  # データ型をfloatに変換して代入
    df.insert(0, '日付', date)  # 日付を1列目に代入
    #df.to_csv(save_dir , encoding='shift_jis', index=False)
    return df

In [342]:
# n時間後の時刻とレートを計算
def UNIX_RATE_conversion(df, time, name):
    # UNIX時間に変更
    df['日付UNIX'] = pd.to_datetime(df['日付']).dt.tz_localize('Asia/Tokyo')
    df['日付UNIX'] = df['日付UNIX'].astype('int64') // 10**9
    
    df['日付UNIX' + name] = df['日付UNIX'].shift(time) # 1行上にずらして5分後の値にしている
    df['日付UNIX_計算後' + name] = df['日付UNIX' + name] - df['日付UNIX'] # -分後の値か表した変数
    df['RATE' + name] = df['bid_close'].shift(time)

    return df  # n分後のUNIX時間、レートの計算結果を反映している

In [340]:
# 変数宣言
read_dir = "./shape/GBP_JPY_X_train_data.csv"
save_dir =  "./model/GBPJPY_5M.csv"
after_5min = -1 # shift関数のスライド数 
name = '5min'

In [349]:
# トレーニングデータの作成
df = create_data(read_dir, save_dir)

# n時間後の時刻とレートを計算
df = UNIX_RATE_conversion(df, after_5min, name)

df = df[(df['日付UNIX_計算後' + name] < 320) & (270 < df['日付UNIX_計算後' + name])] # 
df.to_csv("./model/5分後予測のGBPJPYデータ.csv", encoding='shift_jis', index=False)

In [372]:
X_train = df.loc[:, '2':'日付(weekday)']  # 全行 , 列名称(始まり):列名称(終わり)
y_train = df.iloc[:,-1 ]  # 全行 , 最終列
#y_train = y_train.round(3)
print(X_train.dtypes)
print(y_train)

2              float32
3              float32
4              float32
5              float32
6              float32
                ...   
bid_low        float32
bid_close      float32
日付(hour)       float32
日付(minute)     float32
日付(weekday)    float32
Length: 2441, dtype: object
0      141.654999
1      141.639008
2      141.645996
3      141.628006
4      141.630997
5      141.626999
6      141.636993
7      141.626007
8      141.582993
9      141.647003
10     141.630005
11     141.584000
12     141.578003
13     141.561005
14     141.546005
15     141.552002
16     141.554993
17     141.544006
18     141.574005
19     141.595001
20     141.619003
21     141.632004
22     141.673004
23     141.612000
24     141.653000
25     141.673004
26     141.673004
27     141.623001
28     141.617004
29     141.669006
30     141.664001
31     141.681000
33     142.125000
34     142.145996
35     142.139008
36     142.143005
37     142.102005
38     142.061996
39     142.035995
40     142.013000