# 02_data_splitting.ipynb（データ分割）

### CSVファイルで保存

In [10]:
import os
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.utils import to_categorical

# データ保存先
DATA_DIR = "./data/"
if not os.path.exists(DATA_DIR):
    os.makedirs(DATA_DIR)

# ✅ 保存した特徴量（MFCC）とラベルデータをロード
features_path = os.path.join(DATA_DIR, "features.npy")
labels_path = os.path.join(DATA_DIR, "labels.npy")

X = np.load(features_path)  # 特徴量データ
y = np.load(labels_path)  # ラベルデータ

# ✅ ラベルデータを One-Hot Encoding に変換
y = to_categorical(y)

# ✅ 特徴量データの正規化（Min-Max Scaling）
scaler = MinMaxScaler()
X = scaler.fit_transform(X.reshape(-1, X.shape[-1])).reshape(X.shape)

# ✅ データセットを分割（80% 訓練, 10% 検証, 10% テスト）
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=np.argmax(y, axis=1)
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, random_state=42, stratify=np.argmax(y_temp, axis=1)
)

### 13次元の特徴量（データ）10種類に分類（クラス）

In [11]:
# ✅ 分割結果を確認
print(f"訓練データ: {X_train.shape}, 検証データ: {X_val.shape}, テストデータ: {X_test.shape}")
print(f"訓練ラベル: {y_train.shape}, 検証ラベル: {y_val.shape}, テストラベル: {y_test.shape}")

訓練データ: (30836, 13), 検証データ: (3855, 13), テストデータ: (3855, 13)
訓練ラベル: (30836, 10), 検証ラベル: (3855, 10), テストラベル: (3855, 10)


### 分割したデータを保存

In [12]:
# ✅ 分割後のデータを保存
np.save(os.path.join(DATA_DIR, "X_train.npy"), X_train)
np.save(os.path.join(DATA_DIR, "X_val.npy"), X_val)
np.save(os.path.join(DATA_DIR, "X_test.npy"), X_test)
np.save(os.path.join(DATA_DIR, "y_train.npy"), y_train)
np.save(os.path.join(DATA_DIR, "y_val.npy"), y_val)
np.save(os.path.join(DATA_DIR, "y_test.npy"), y_test)

print("✅ データセットの分割と保存が完了しました。")

✅ データセットの分割と保存が完了しました。
