In [5]:
import pandas as pd

# CSVファイルからデータを読み込む
df = pd.read_csv('japan_2022.csv')

In [6]:
# 欠損値の確認
print(df.isnull().sum())

# 欠損値の補完（例えば、前日の値で補完する）
# 'ffill'は前の値で欠損値を埋める方法
df.fillna(method='ffill', inplace=True)

# 移動平均の計算 (5日, 10日, 20日)
# 移動平均を特徴量として追加
df['MA_5'] = df['Close'].rolling(window=5).mean()
df['MA_10'] = df['Close'].rolling(window=10).mean()
df['MA_20'] = df['Close'].rolling(window=20).mean()

# ボラティリティ（標準偏差）の計算
# ボラティリティを特徴量として追加
df['Volatility'] = df['Close'].rolling(window=5).std()

# クラスラベルの作成
# 翌日の終値が今日の終値より高ければ1、低ければ0とする
df['Target'] = (df['Close'].shift(-1) > df['Close']).astype(int)

# 最後の行は目的変数（Target）が欠損しているため削除
df.dropna(inplace=True)

# データの先頭5行を表示して確認する
print(df.head())


Date         0
Open         0
High         0
Low          0
Close        0
Adj Close    0
Volume       0
dtype: int64
                   Date         Open         High          Low        Close  \
19  2022-02-01 00:00:00  27167.14063  27410.78906  27016.71094  27078.48047   
20  2022-02-02 00:00:00  27302.99023  27564.61914  27289.16016  27533.59961   
21  2022-02-03 00:00:00  27330.96094  27357.33008  27165.92969  27241.31055   
22  2022-02-04 00:00:00  27095.90039  27455.98047  27075.99023  27439.99023   
23  2022-02-07 00:00:00  27327.63086  27369.67969  27085.32031  27248.86914   

      Adj Close    Volume          MA_5         MA_10         MA_20  \
19  27078.48047  81100000  26795.886328  27146.156055  27862.712989   
20  27533.59961  85200000  26900.340234  27152.792969  27774.303517   
21  27241.31055  81100000  27114.542188  27099.631055  27669.761036   
22  27439.99023  79600000  27259.072266  27091.404101  27617.367090   
23  27248.86914  77100000  27308.450000  27057.45410

  df.fillna(method='ffill', inplace=True)


In [7]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# 説明変数と目的変数の設定
# 説明変数（特徴量）の選択
X = df[['Open', 'High', 'Low', 'Close', 'Volume', 'MA_5', 'MA_10', 'MA_20', 'Volatility']]
# 目的変数（ターゲット）の選択
y = df['Target']

# データの分割
# 訓練データとテストデータに分割（80%訓練データ、20%テストデータ）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ランダムフォレスト分類モデルの構築
model = RandomForestClassifier(n_estimators=100, random_state=42)
# モデルを訓練データで学習
model.fit(X_train, y_train)

# テストデータを用いて予測
y_pred = model.predict(X_test)

# 評価
# 混同行列の作成
cm = confusion_matrix(y_test, y_pred)
# 正解率（Accuracy）の計算
accuracy = accuracy_score(y_test, y_pred)
# 精度（Precision）の計算
precision = precision_score(y_test, y_pred)
# 再現率（Recall）の計算
recall = recall_score(y_test, y_pred)
# F1スコアの計算
f1 = f1_score(y_test, y_pred)

# 評価結果を表示
print(f'Confusion Matrix:\n{cm}')
print(f'Accuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')

Confusion Matrix:
[[ 8 12]
 [ 9 16]]
Accuracy: 0.5333333333333333
Precision: 0.5714285714285714
Recall: 0.64
F1 Score: 0.6037735849056605
