In [None]:
# -*- coding: utf-8 -*-
"""lstm_training.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/YOUR_COLAB_LINK_HERE
"""

# Thay YOUR_COLAB_LINK_HERE bằng link thực tế của notebook trên Google Colab nếu bạn đang dùng

# ## Tuần 2: Huấn luyện LSTM – Phân loại trạng thái

# ### 1. Import các thư viện cần thiết

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from tensorflow.keras.utils import to_categorical
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# ### 2. Đọc dữ liệu từ file CSV

file_path = 'data/sensor_data_labeled.csv'
df = pd.read_csv(file_path)

# Hiển thị vài dòng đầu của dữ liệu để kiểm tra
print("5 dòng đầu của dữ liệu:")
print(df.head())

# Kiểm tra thông tin cơ bản của DataFrame
print("\nThông tin DataFrame:")
df.info()

# Kiểm tra phân phối của các nhãn
print("\nPhân phối nhãn:")
print(df['label'].value_counts())

# ### 3. Tiền xử lý dữ liệu

# Chọn các cột dữ liệu cảm biến
sensor_cols = ['accel_x', 'accel_y', 'accel_z', 'gyro_x', 'gyro_y', 'gyro_z']
sensor_data = df[sensor_cols]
labels = df['label']

# **Chuẩn hóa dữ liệu**
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(sensor_data)

# **Tạo sliding windows**
def create_sliding_windows(data, labels, window_size):
    windows = []
    window_labels = []
    for i in range(window_size, len(data)):
        windows.append(data[i - window_size:i])
        window_labels.append(labels[i-1]) # Lấy nhãn của mẫu cuối cùng trong window (có thể điều chỉnh)
    return np.array(windows), np.array(window_labels)

WINDOW_SIZE = 20  # Kích thước cửa sổ (tùy chỉnh)
X, y_str = create_sliding_windows(scaled_data, labels, WINDOW_SIZE)

print("\nKích thước của X (sau khi tạo windows):", X.shape)
print("Kích thước của y_str (sau khi tạo windows):", y_str.shape)

# **Chuyển nhãn sang số và sau đó sang one-hot encoding**
label_encoder = LabelEncoder()
integer_labels = label_encoder.fit_transform(y_str)
y_categorical = to_categorical(integer_labels)

print("\nCác nhãn sau khi chuyển sang số:", integer_labels[:10])
print("Các nhãn sau khi chuyển sang one-hot encoding:\n", y_categorical[:5])

# **Chia dữ liệu thành tập huấn luyện và tập kiểm tra**
X_train, X_test, y_train, y_test = train_test_split(X, y_categorical, test_size=0.2, random_state=42, stratify=y_categorical)

print("\nKích thước tập huấn luyện (X_train):", X_train.shape)
print("Kích thước tập kiểm tra (X_test):", X_test.shape)
print("Kích thước nhãn huấn luyện (y_train):", y_train.shape)
print("Kích thước nhãn kiểm tra (y_test):", y_test.shape)

# ### 4. Xây dựng mô hình LSTM

FEATURES = X_train.shape[2]  # Số lượng features (accel_x, ...)
NUM_CLASSES = y_train.shape[1] # Số lượng lớp (ỔN ĐỊNH, NGHIÊNG NGUY HIỂM, RUNG MẠNH)

model = Sequential([
    LSTM(units=50, activation='relu', input_shape=(WINDOW_SIZE, FEATURES), return_sequences=True),
    LSTM(units=50, activation='relu'),
    Dense(units=NUM_CLASSES, activation='softmax')
])

# Compile mô hình
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# In tóm tắt mô hình
print("\nTóm tắt mô hình LSTM:")
model.summary()

# ### 5. Huấn luyện mô hình

EPOCHS = 20      # Số lượng epochs (tùy chỉnh)
BATCH_SIZE = 64  # Kích thước batch (tùy chỉnh)

history = model.fit(
    X_train, y_train,
    epochs=EPOCHS,
    batch_size=BATCH_SIZE,
    validation_data=(X_test, y_test),
    verbose=1 # Hiển thị quá trình huấn luyện
)

# ### 6. Đánh giá mô hình

# Đánh giá trên tập kiểm tra
loss, accuracy = model.evaluate(X_test, y_test, verbose=0)
print(f"\nĐánh giá trên tập kiểm tra:")
print(f"Loss: {loss:.4f}, Accuracy: {accuracy:.4f}")

# Dự đoán nhãn trên tập kiểm tra
y_pred_probs = model.predict(X_test)
y_pred = np.argmax(y_pred_probs, axis=1)
y_true = np.argmax(y_test, axis=1)

# Chuyển đổi nhãn số trở lại dạng chuỗi để hiển thị
label_names = label_encoder.classes_
y_pred_labels = [label_names[i] for i in y_pred]
y_true_labels = [label_names[i] for i in y_true]

# In Classification Report
print("\nClassification Report:")
print(classification_report(y_true_labels, y_pred_labels))

# Vẽ Confusion Matrix
cm = confusion_matrix(y_true_labels, y_pred_labels, labels=label_names)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=label_names, yticklabels=label_names)
plt.title('Confusion Matrix')
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.show()

# Vẽ đồ thị lịch sử huấn luyện (loss và accuracy)
plt.figure(figsize=(12, 4))

# Đồ thị loss
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss qua các Epoch')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()

# Đồ thị accuracy
plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.title('Accuracy qua các Epoch')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()

plt.tight_layout()
plt.show()

# ### 7. Lưu mô hình đã huấn luyện

model_save_path = 'models/lstm_model.h5'
model.save(model_save_path)
print(f"\nMô hình đã được lưu tại: {model_save_path}")

# ### 8. (Tùy chọn) Thử nghiệm với một mẫu dữ liệu đơn lẻ (ví dụ)

# Lấy một mẫu từ tập kiểm tra
sample_index = 0
sample_data = X_test[sample_index]
sample_label_true = label_names[np.argmax(y_test[sample_index])]

# Reshape dữ liệu mẫu để phù hợp với đầu vào của mô hình
sample_data = np.expand_dims(sample_data, axis=0)

# Dự đoán
predictions = model.predict(sample_data)
predicted_class_index = np.argmax(predictions)
predicted_label = label_names[predicted_class_index]
predicted_probability = predictions[0][predicted_class_index]

print("\n--- Thử nghiệm với một mẫu đơn lẻ ---")
print("Dữ liệu mẫu (5 hàng đầu):")
print(X_test[sample_index][:5])
print(f"Nhãn thực tế: {sample_label_true}")
print(f"Nhãn dự đoán: {predicted_label} (Xác suất: {predicted_probability:.4f})")