In [1]:
# %%
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import os # Thêm thư viện os để kiểm tra file

# %% [markdown]
# Tải dữ liệu từ file CSV.
# Hãy đảm bảo file `data.xlsx - Sheet1.csv` nằm trong cùng thư mục với notebook này, hoặc cung cấp đường dẫn đầy đủ.



In [3]:
# %%
file_path = "/content/drive/MyDrive/dataset/datacsv.csv"

if not os.path.exists(file_path):
    print(f"Lỗi: Không tìm thấy file '{file_path}'. Vui lòng kiểm tra lại đường dẫn.")
    # exit() # Trong notebook, bạn có thể không muốn thoát kernel ngay
else:
    try:
        # Thử đọc với dấu phẩy làm dấu phân cách
        df = pd.read_csv(file_path)
        print(f"Đã tải thành công file '{file_path}' với dấu phẩy phân cách.")
    except Exception as e:
        print(f"Lỗi khi đọc file CSV bằng dấu phẩy: {e}")
        try:
            # Thử đọc với dấu chấm phẩy làm dấu phân cách
            df = pd.read_csv(file_path, delimiter=';')
            print(f"Đã tải thành công file '{file_path}' với dấu chấm phẩy phân cách.")
        except Exception as e_delim:
            print(f"Vẫn lỗi khi đọc file CSV với dấu phân cách khác: {e_delim}")
            df = None # Gán df là None nếu không đọc được file

if df is not None:
    print("\n--- Thông tin ban đầu của dữ liệu ---")
    df.info()

Đã tải thành công file '/content/drive/MyDrive/dataset/datacsv.csv' với dấu phẩy phân cách.

--- Thông tin ban đầu của dữ liệu ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10463 entries, 0 to 10462
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID           10463 non-null  int64  
 1   Timestamp    10463 non-null  object 
 2   humidity     10463 non-null  float64
 3   temperature  10463 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 327.1+ KB


In [None]:
# # Giả sử df là DataFrame chứa toàn bộ dữ liệu của bạn
# # Và bạn đã xác định được temp_col_name và humi_col_name

# # Ví dụ: Chia dữ liệu (bạn có thể dùng train_test_split của scikit-learn)
# train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42) # 70% train
# val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42) # 15% val, 15% test
# CHÚ Ý: Với dữ liệu chuỗi thời gian, việc chia ngẫu nhiên có thể không phù hợp,
# bạn có thể cần chia theo thứ tự thời gian.

# Giả sử train_df là DataFrame chứa dữ liệu huấn luyện của bạn
# scaler_temp = MinMaxScaler(feature_range=(0, 1))
# scaler_humi = MinMaxScaler(feature_range=(0, 1))

# Fit scaler CHỈ trên dữ liệu huấn luyện
# Dữ liệu cần có dạng cột (N_samples, 1)
# scaler_temp.fit(train_df[[temp_col_name]].astype(float))
# scaler_humi.fit(train_df[[humi_col_name]].astype(float))

# print("Đã fit scaler_temp và scaler_humi trên dữ liệu huấn luyện.")

In [None]:
# %% [markdown]
# ---
# ## Bước 2: Kiểm tra dữ liệu ban đầu

In [4]:
# %%
if df is not None:
    print("\n--- 5 dòng dữ liệu đầu tiên ---")
    print(df.head())
    print("\n--- 5 dòng dữ liệu cuối cùng ---")
    print(df.tail())
    print("\n--- Thống kê mô tả ---")
    print(df.describe(include='all')) # include='all' để xem cả các cột không phải số
else:
    print("DataFrame chưa được tải. Vui lòng kiểm tra lỗi ở bước tải dữ liệu.")


--- 5 dòng dữ liệu đầu tiên ---
   ID            Timestamp   humidity  temperature
0   1  2025-05-14 16:18:56  56.568050    27.420235
1   2  2025-05-14 16:19:06  57.285023    27.423477
2   3  2025-05-14 16:19:16  57.293415    27.423668
3   4  2025-05-14 16:19:26  57.070732    27.427673
4   5  2025-05-14 16:21:03  57.070732    27.427673

--- 5 dòng dữ liệu cuối cùng ---
          ID            Timestamp   humidity  temperature
10458  10459  2025-05-19 05:04:12  74.792770    31.539536
10459  10460  2025-05-19 05:04:22  74.007889    31.541824
10460  10461  2025-05-19 05:04:32  73.658180    31.557846
10461  10462  2025-05-19 05:04:42  73.520851    31.565666
10462  10463  2025-05-19 05:04:52  73.128128    31.559181

--- Thống kê mô tả ---
                  ID            Timestamp      humidity   temperature
count   10463.000000                10463  10463.000000  10463.000000
unique           NaN                10463           NaN           NaN
top              NaN  2025-05-19 05:04:52    

In [None]:
# %% [markdown]
# ---
# ## Bước 3: Xác định các cột quan trọng
#
# Dựa vào kết quả `df.info()` và `df.head()` ở trên, hãy xác định chính xác tên các cột chứa Timestamp, Temperature, và Humidity trong file của bạn.
#
# **Quan trọng:** Chỉnh sửa các biến `timestamp_col_name`, `temperature_col_name`, `humidity_col_name` dưới đây cho phù hợp với tên cột thực tế trong file CSV của bạn.

In [5]:
# %%
if df is not None:
    # --- Người dùng cần CẬP NHẬT tên cột thực tế tại đây ---
    timestamp_col_name = 'Timestamp' # Ví dụ: 'ThoiGian', 'Timestamp', 'Date Time'
    temperature_col_name = 'temperature' # Ví dụ: 'NhietDo', 'Temp (C)', 'Temperature'
    humidity_col_name = 'humidity' # Ví dụ: 'DoAm', 'Humid (%)', 'Humidity'
    # --- Kết thúc phần người dùng cần cập nhật ---

    # Cố gắng tự động phát hiện (heuristic)
    potential_cols = list(df.columns)
    for col in potential_cols:
        col_lower = str(col).lower() # Đảm bảo col là string trước khi lower()
        if not timestamp_col_name and ('time' in col_lower or 'date' in col_lower or 'ngày' in col_lower or 'thời gian' in col_lower):
            timestamp_col_name = col
        elif not temperature_col_name and ('temp' in col_lower or 'nhiet' in col_lower or 'nhiệt' in col_lower):
            temperature_col_name = col
        elif not humidity_col_name and ('humid' in col_lower or 'ẩm' in col_lower or 'am' in col_lower):
            humidity_col_name = col

    # Nếu không tự động tìm được, yêu cầu người dùng nhập
    if not timestamp_col_name:
        print("Không tự động tìm thấy cột Timestamp. Vui lòng nhập tên cột chính xác.")
        # timestamp_col_name = input("Nhập tên cột Timestamp: ") # Hoặc gán thủ công
    if not temperature_col_name:
        print("Không tự động tìm thấy cột Temperature. Vui lòng nhập tên cột chính xác.")
        # temperature_col_name = input("Nhập tên cột Temperature: ") # Hoặc gán thủ công
    if not humidity_col_name:
        print("Không tự động tìm thấy cột Humidity. Vui lòng nhập tên cột chính xác.")
        # humidity_col_name = input("Nhập tên cột Humidity: ") # Hoặc gán thủ công

    print(f"\n--- Các cột được xác định (vui lòng kiểm tra lại!) ---")
    print(f"Cột Timestamp: {timestamp_col_name}")
    print(f"Cột Temperature: {temperature_col_name}")
    print(f"Cột Humidity: {humidity_col_name}")

    # Kiểm tra xem các cột đã được xác định chưa
    if not all([timestamp_col_name, temperature_col_name, humidity_col_name]):
        print("\nLỖI: Một hoặc nhiều tên cột quan trọng (Timestamp, Temperature, Humidity) chưa được xác định chính xác.")
        print("Vui lòng cập nhật các biến `timestamp_col_name`, `temperature_col_name`, `humidity_col_name` trong ô code phía trên.")
        df_selected = None
    elif not all(col in df.columns for col in [timestamp_col_name, temperature_col_name, humidity_col_name]):
        print("\nLỖI: Một hoặc nhiều tên cột đã xác định không tồn tại trong DataFrame.")
        print(f"Các cột trong DataFrame: {df.columns.tolist()}")
        print(f"Cột đã xác định: Timestamp='{timestamp_col_name}', Temperature='{temperature_col_name}', Humidity='{humidity_col_name}'")
        df_selected = None
    else:
        df_selected = df[[timestamp_col_name, temperature_col_name, humidity_col_name]].copy()
        df_selected.rename(columns={
            timestamp_col_name: 'Timestamp',
            temperature_col_name: 'Temperature',
            humidity_col_name: 'Humidity'
        }, inplace=True)
        print("\n--- Dữ liệu đã chọn và đổi tên cột ---")
        print(df_selected.head())
else:
    df_selected = None
    print("DataFrame chưa được tải.")


--- Các cột được xác định (vui lòng kiểm tra lại!) ---
Cột Timestamp: Timestamp
Cột Temperature: temperature
Cột Humidity: humidity

--- Dữ liệu đã chọn và đổi tên cột ---
             Timestamp  Temperature   Humidity
0  2025-05-14 16:18:56    27.420235  56.568050
1  2025-05-14 16:19:06    27.423477  57.285023
2  2025-05-14 16:19:16    27.423668  57.293415
3  2025-05-14 16:19:26    27.427673  57.070732
4  2025-05-14 16:21:03    27.427673  57.070732


In [None]:
# %% [markdown]
# ---
# ## Bước 4: Xử lý cột Timestamp
# Chuyển đổi cột 'Timestamp' sang kiểu `datetime`, sắp xếp và đặt làm index.

In [6]:
# %%
if df_selected is not None:
    try:
        # Cố gắng chuyển đổi trực tiếp
        df_selected['Timestamp'] = pd.to_datetime(df_selected['Timestamp'])
        print("Chuyển đổi Timestamp thành công (thử trực tiếp).")
    except Exception as e_direct:
        print(f"Lỗi khi chuyển đổi Timestamp trực tiếp: {e_direct}")
        try:
            # Thử với dayfirst=True (ví dụ: dd/mm/yyyy)
            df_selected['Timestamp'] = pd.to_datetime(df_selected['Timestamp'], dayfirst=True)
            print("Chuyển đổi Timestamp thành công (thử với dayfirst=True).")
        except Exception as e_dayfirst:
            print(f"Lỗi khi chuyển đổi Timestamp với dayfirst=True: {e_dayfirst}")
            try:
                # Thử với một số định dạng phổ biến khác (bạn có thể cần thêm định dạng của mình)
                # Ví dụ: '%Y-%m-%d %H:%M:%S', '%m/%d/%Y %I:%M:%S %p'
                df_selected['Timestamp'] = pd.to_datetime(df_selected['Timestamp'], format='%d/%m/%Y %H:%M') # CẬP NHẬT ĐỊNH DẠNG NẾU CẦN
                print("Chuyển đổi Timestamp thành công (thử với định dạng cụ thể, ví dụ: %d/%m/%Y %H:%M).")
            except Exception as e_format:
                print(f"LỖI NGHIÊM TRỌNG: Không thể chuyển đổi cột Timestamp sang datetime: {e_format}")
                print("Vui lòng kiểm tra định dạng của cột Timestamp trong file CSV và cập nhật `format` trong `pd.to_datetime()` nếu cần.")
                df_selected = None # Đánh dấu là lỗi để các bước sau không chạy

if df_selected is not None:
    df_selected.sort_values('Timestamp', inplace=True)
    df_selected.set_index('Timestamp', inplace=True)
    print("\n--- Dữ liệu sau khi xử lý Timestamp ---")
    print(df_selected.head())
    print(df_selected.info())
else:
    print("Không thể tiếp tục do lỗi xử lý Timestamp hoặc lựa chọn cột.")

Chuyển đổi Timestamp thành công (thử trực tiếp).

--- Dữ liệu sau khi xử lý Timestamp ---
                     Temperature   Humidity
Timestamp                                  
2025-05-14 16:18:56    27.420235  56.568050
2025-05-14 16:19:06    27.423477  57.285023
2025-05-14 16:19:16    27.423668  57.293415
2025-05-14 16:19:26    27.427673  57.070732
2025-05-14 16:21:03    27.427673  57.070732
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 10463 entries, 2025-05-14 16:18:56 to 2025-05-19 05:04:52
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Temperature  10463 non-null  float64
 1   Humidity     10463 non-null  float64
dtypes: float64(2)
memory usage: 245.2 KB
None


In [7]:
print(df_selected)

                     Temperature   Humidity
Timestamp                                  
2025-05-14 16:18:56    27.420235  56.568050
2025-05-14 16:19:06    27.423477  57.285023
2025-05-14 16:19:16    27.423668  57.293415
2025-05-14 16:19:26    27.427673  57.070732
2025-05-14 16:21:03    27.427673  57.070732
...                          ...        ...
2025-05-19 05:04:12    31.539536  74.792770
2025-05-19 05:04:22    31.541824  74.007889
2025-05-19 05:04:32    31.557846  73.658180
2025-05-19 05:04:42    31.565666  73.520851
2025-05-19 05:04:52    31.559181  73.128128

[10463 rows x 2 columns]


In [None]:
# %% [markdown]
# ---
# ## Bước 5: Xử lý giá trị thiếu (Missing Values)
# Sử dụng phương pháp `ffill` (forward fill) và `bfill` (backward fill).

In [8]:
# %%
if df_selected is not None:
    # Chuyển đổi cột Temperature và Humidity sang kiểu số, lỗi sẽ thành NaN
    df_selected['Temperature'] = pd.to_numeric(df_selected['Temperature'], errors='coerce')
    df_selected['Humidity'] = pd.to_numeric(df_selected['Humidity'], errors='coerce')

    missing_before = df_selected.isnull().sum()
    df_selected.ffill(inplace=True)
    df_selected.bfill(inplace=True) # Để xử lý NaN ở đầu nếu có
    missing_after = df_selected.isnull().sum()

    print("\n--- Xử lý giá trị thiếu ---")
    print("Số giá trị thiếu trước khi xử lý:\n", missing_before)
    print("\nSố giá trị thiếu sau khi xử lý (ffill, bfill):\n", missing_after)

    if df_selected.isnull().sum().any():
        print("\nCẢNH BÁO: Vẫn còn giá trị thiếu sau khi ffill/bfill. Có thể do toàn bộ cột bị thiếu hoặc dữ liệu không đủ.")
        print("Xem xét các phương pháp xử lý khác hoặc kiểm tra lại dữ liệu gốc.")
    print(df_selected.head())
else:
    print("Không thể tiếp tục do lỗi ở các bước trước.")


--- Xử lý giá trị thiếu ---
Số giá trị thiếu trước khi xử lý:
 Temperature    0
Humidity       0
dtype: int64

Số giá trị thiếu sau khi xử lý (ffill, bfill):
 Temperature    0
Humidity       0
dtype: int64
                     Temperature   Humidity
Timestamp                                  
2025-05-14 16:18:56    27.420235  56.568050
2025-05-14 16:19:06    27.423477  57.285023
2025-05-14 16:19:16    27.423668  57.293415
2025-05-14 16:19:26    27.427673  57.070732
2025-05-14 16:21:03    27.427673  57.070732


In [None]:
# %% [markdown]
# ---
# ## Bước 6: Kiểm tra tần suất dữ liệu và Resample (Lấy mẫu lại)
#
# Mô hình yêu cầu đầu vào là dữ liệu mỗi 10 giây. Chúng ta sẽ resample dữ liệu về tần suất này.
# Đầu ra của mô hình là mỗi 15 phút.

In [9]:
# %%
if df_selected is not None and not df_selected.isnull().sum().any():
    time_diffs = df_selected.index.to_series().diff().dropna()
    print("\n--- Thống kê khoảng cách thời gian giữa các mẫu (trước resample) ---")
    if not time_diffs.empty:
        print(time_diffs.describe())
        median_freq_seconds = time_diffs.median().total_seconds()
        print(f"Khoảng cách thời gian phổ biến (median) trước resample: {median_freq_seconds} giây")
    else:
        print("Không đủ dữ liệu để tính khoảng cách thời gian (chỉ có 1 dòng hoặc không có).")

    # Resample về tần suất 10 giây, điền giá trị thiếu bằng ffill rồi bfill
    # Điều này rất quan trọng và phụ thuộc vào bản chất dữ liệu gốc của bạn.
    # Nếu dữ liệu gốc thưa (ví dụ: mỗi giờ), việc resample xuống 10s có thể không mang lại thông tin thực.
#     print("\n--- Resampling dữ liệu về tần suất 10 giây ---")
#     try:
#         df_resampled = df_selected.resample('10S').ffill().bfill()
#         print("Dữ liệu đã được resample/điền đầy về tần suất 10 giây.")
#         print(df_resampled.head())
#         print(df_resampled.info())
#     except Exception as e:
#         print(f"Lỗi khi resampling: {e}. Cân nhắc kiểm tra dữ liệu index.")
#         df_resampled = None # Đánh dấu lỗi
# else:
#     df_resampled = None
#     print("Không thể tiếp tục do lỗi ở các bước trước hoặc còn giá trị thiếu.")


--- Thống kê khoảng cách thời gian giữa các mẫu (trước resample) ---
count                        10462
mean     0 days 00:00:37.426495889
std      0 days 00:39:45.611835314
min                0 days 00:00:03
25%                0 days 00:00:10
50%                0 days 00:00:10
75%                0 days 00:00:10
max                2 days 18:35:59
Name: Timestamp, dtype: object
Khoảng cách thời gian phổ biến (median) trước resample: 10.0 giây


In [None]:
# %% [markdown]
# ---
# ## Bước 7: Chuẩn hóa dữ liệu (Scaling)
# Chuẩn hóa giá trị Nhiệt độ và Độ ẩm về khoảng (0, 1).

In [10]:
# %%
df_resampled = df_selected
if df_resampled is not None:
    scaler_temp = MinMaxScaler(feature_range=(0, 1))
    scaler_hum = MinMaxScaler(feature_range=(0, 1))

    # Đảm bảo cột là số trước khi scale
    df_resampled['Temperature'] = pd.to_numeric(df_resampled['Temperature'], errors='coerce')
    df_resampled['Humidity'] = pd.to_numeric(df_resampled['Humidity'], errors='coerce')

    # Kiểm tra lại NaN sau to_numeric (nếu có lỗi chuyển đổi)
    if df_resampled[['Temperature', 'Humidity']].isnull().sum().any():
        print("CẢNH BÁO: Có giá trị NaN trong cột Temperature/Humidity sau khi ép kiểu số. Xử lý lại...")
        df_resampled.ffill(inplace=True).bfill(inplace=True) # Thử fill lại

    if not df_resampled[['Temperature', 'Humidity']].isnull().sum().any():
        df_resampled['Temperature_scaled'] = scaler_temp.fit_transform(df_resampled[['Temperature']])
        df_resampled['Humidity_scaled'] = scaler_hum.fit_transform(df_resampled[['Humidity']])
        print("\n--- Dữ liệu sau khi chuẩn hóa ---")
        print(df_resampled.head())
    else:
        print("LỖI: Vẫn còn NaN trong Temperature/Humidity trước khi scaling. Không thể tiếp tục.")
        df_resampled = None # Đánh dấu lỗi
else:
    print("Không thể tiếp tục do lỗi ở bước resample.")


--- Dữ liệu sau khi chuẩn hóa ---
                     Temperature   Humidity  Temperature_scaled  \
Timestamp                                                         
2025-05-14 16:18:56    27.420235  56.568050            0.213039   
2025-05-14 16:19:06    27.423477  57.285023            0.213525   
2025-05-14 16:19:16    27.423668  57.293415            0.213553   
2025-05-14 16:19:26    27.427673  57.070732            0.214153   
2025-05-14 16:21:03    27.427673  57.070732            0.214153   

                     Humidity_scaled  
Timestamp                             
2025-05-14 16:18:56         0.141827  
2025-05-14 16:19:06         0.162964  
2025-05-14 16:19:16         0.163211  
2025-05-14 16:19:26         0.156646  
2025-05-14 16:21:03         0.156646  


In [13]:
# --- SCALER HANDLING ---
        # QUAN TRỌNG: Đoạn này fit scaler từ CSV mỗi lần chạy.
        # Trong sản xuất, bạn NÊN fit scalers một lần trên tập training,
        # lưu chúng (ví dụ dùng joblib), và tải chúng lên ở đây.
        # print(f"\nFitting scalers using data from '{file_path}' (NOTE: Ideally, load pre-fitted scalers).")
df_for_scaler = pd.read_csv(file_path)

if 'temperature' not in df_for_scaler.columns or 'humidity' not in df_for_scaler.columns:
    print(f"FATAL: One or both columns ('temperature', 'humidity') not found in CSV for scaler fitting: {df_for_scaler.columns.tolist()}")

scaler_temp = MinMaxScaler(feature_range=(0, 1))
scaler_humi = MinMaxScaler(feature_range=(0, 1))

scaler_temp.fit(df_for_scaler['temperature'].astype(float))
scaler_humi.fit(df_for_scaler['humidity'].astype(float))
print(f"Scalers fitted for this session using columns: 'temperature' and 'humidity'.")

ValueError: Expected a 2-dimensional container but got <class 'pandas.core.series.Series'> instead. Pass a DataFrame containing a single row (i.e. single sample) or a single column (i.e. single feature) instead.

In [11]:
import joblib
scaler_output_dir = "/content/drive/MyDrive/IOT_saved_model/scalers" # Ví dụ đường dẫn
if not os.path.exists(scaler_output_dir):
    os.makedirs(scaler_output_dir)

joblib.dump(scaler_temp, os.path.join(scaler_output_dir, 'scaler_temp_trained.joblib'))
joblib.dump(scaler_humi, os.path.join(scaler_output_dir, 'scaler_humi_trained.joblib'))
print("Đã lưu các scalers đã fit.")

NameError: name 'scaler_humi' is not defined

In [None]:
# %% [markdown]
# ---
# ## Bước 8: Tạo chuỗi Đầu vào (X) và Đầu ra (y) (ĐÃ CẬP NHẬT)
#
# * **Đầu vào (X)**: Dữ liệu 2 phút (12 điểm @ 10 giây/điểm) => 12 điểm dữ liệu (Nhiệt độ, Độ ẩm).
# * **Đầu ra (y)**: Dữ liệu 24 giờ tiếp theo, lấy mẫu mỗi 15 phút => (24 * 60) / 15 = 96 điểm dữ liệu (Nhiệt độ, Độ ẩm).

In [None]:
# %%
if df_resampled is not None and 'Temperature_scaled' in df_resampled.columns:
    # --- THAY ĐỔI THAM SỐ ĐẦU VÀO ---
    num_input_timesteps = 12  # 12 điểm dữ liệu đầu vào
    input_sample_interval_seconds = 10 # Giữ nguyên tần suất resample cho đầu vào
    input_window_duration_seconds = num_input_timesteps * input_sample_interval_seconds # 12 * 10s = 120s = 2 phút

    # --- THAY ĐỔI THAM SỐ ĐẦU RA ---
    output_window_duration_hours = 24 # 24 giờ dự đoán
    output_sample_interval_minutes = 15 # Khoảng cách 15 phút cho mỗi điểm dự đoán
    # Số điểm dữ liệu trong 24 giờ / khoảng cách lấy mẫu (15 phút)
    num_output_timesteps = (output_window_duration_hours * 60) // output_sample_interval_minutes # (24*60)/15 = 96

    X_list = []
    y_list = []

    data_np = df_resampled[['Temperature_scaled', 'Humidity_scaled']].values
    timestamps_np = df_resampled.index

    print(f"\nBắt đầu tạo chuỗi X và y (ĐÃ CẬP NHẬT)...")
    print(f"Số mẫu đầu vào (X) mỗi chuỗi: {num_input_timesteps} (trên {input_window_duration_seconds // 60} phút, mỗi {input_sample_interval_seconds} giây)")
    print(f"Số mẫu đầu ra (y) mỗi chuỗi: {num_output_timesteps} (trên {output_window_duration_hours} giờ, mỗi {output_sample_interval_minutes} phút)")
    print(f"Tổng số điểm dữ liệu sau resample (10s): {len(data_np)}")

    # Số điểm 10s trong một khoảng thời gian của Y (15 phút)
    steps_per_output_interval = (output_sample_interval_minutes * 60) // input_sample_interval_seconds # (15 * 60) / 10 = 90

    for i in range(len(data_np)):
        # Xác định điểm kết thúc của chuỗi X
        end_idx_x = i + num_input_timesteps
        if end_idx_x > len(data_np): # Không đủ dữ liệu cho X
            break

        current_x_sequence = data_np[i : end_idx_x]

        # Xác định thời điểm bắt đầu của chuỗi Y (ngay sau khi chuỗi X kết thúc)
        timestamp_start_x = timestamps_np[i]
        # Thời điểm bắt đầu Y là thời điểm ngay sau điểm cuối cùng của X
        # Nếu X có num_input_timesteps điểm, mỗi điểm cách nhau input_sample_interval_seconds
        # thì Y sẽ bắt đầu sau (num_input_timesteps * input_sample_interval_seconds) kể từ lúc X bắt đầu
        timestamp_start_y_target = timestamp_start_x + pd.Timedelta(seconds=input_window_duration_seconds)

        current_y_sequence_points = []
        possible_y_sequence = True

        # Tìm index trong timestamps_np cho thời điểm bắt đầu của Y
        idx_actual_start_y = timestamps_np.searchsorted(timestamp_start_y_target)

        if idx_actual_start_y >= len(timestamps_np) or \
           (timestamps_np[idx_actual_start_y] - timestamp_start_y_target).total_seconds() != 0 :
            possible_y_sequence = False # Không tìm thấy điểm bắt đầu Y chính xác

        if possible_y_sequence:
            for k in range(num_output_timesteps): # 96 điểm cho Y
                # Index của điểm y_k trong data_np (đã resample 10s)
                # Mỗi điểm y cách nhau 15 phút = 90 mẫu 10 giây (steps_per_output_interval)
                idx_yk = idx_actual_start_y + k * steps_per_output_interval

                if idx_yk < len(data_np):
                    current_y_sequence_points.append(data_np[idx_yk])
                else:
                    possible_y_sequence = False # Không đủ dữ liệu cho toàn bộ chuỗi Y
                    break

        if possible_y_sequence and len(current_y_sequence_points) == num_output_timesteps:
            X_list.append(current_x_sequence)
            y_list.append(np.array(current_y_sequence_points))

        if (i + 1) % 5000 == 0:
            print(f"Đã xử lý {i+1}/{len(data_np)} điểm bắt đầu tiềm năng cho X. Số cặp (X,y) đã tạo: {len(X_list)}")

    if not X_list:
        print("\nLỖI: Không thể tạo được chuỗi X, y nào. Các lý do có thể:")
        print("1. Dữ liệu quá ngắn.")
        print(f"   - Số điểm dữ liệu 10s sau resample: {len(data_np)}")
        # Tính toán sơ bộ số điểm 10s cần thiết
        # Thời gian bao phủ bởi X: (num_input_timesteps - 1) * 10s
        # Thời gian từ đầu X đến đầu Y: num_input_timesteps * 10s
        # Thời gian bao phủ bởi Y: (num_output_timesteps - 1) * 15 phút
        # Điểm cuối cùng của Y so với đầu X: (num_input_timesteps * 10s) + (num_output_timesteps - 1) * 15 phút
        # Quy ra số lượng index 10s:
        min_indices_needed = (num_input_timesteps -1) + \
                             1 + \
                             (num_output_timesteps -1) * steps_per_output_interval
        print(f"   - Ước tính số index 10s tối thiểu cần thiết để tạo 1 cặp (X,y) hoàn chỉnh: ~{min_indices_needed}")

        if len(data_np) < min_indices_needed:
             print(f"   ---> DỮ LIỆU CỦA BẠN (sau resample 10s) có {len(data_np)} điểm, CÓ VẺ QUÁ NGẮN.")
        print("2. Lỗi logic trong việc tìm kiếm điểm dữ liệu cho chuỗi Y (vấn đề timestamp alignment).")
        print("   Kiểm tra lại tần suất dữ liệu gốc và quá trình resample.")
        X_np = np.array([])
        y_np = np.array([])
    else:
        X_np = np.array(X_list)
        y_np = np.array(y_list)
        print(f"\n--- Hoàn thành tạo chuỗi X, y (ĐÃ CẬP NHẬT) ---")
        print(f"Hình dạng của X: {X_np.shape}") # Mong đợi: (số_mẫu, 12, 2)
        print(f"Hình dạng của y: {y_np.shape}") # Mong đợi: (số_mẫu, 96, 2)
else:
    print("Không thể tiếp tục tạo chuỗi X, y do lỗi ở các bước trước.")
    X_np = np.array([])
    y_np = np.array([])


Bắt đầu tạo chuỗi X và y (ĐÃ CẬP NHẬT)...
Số mẫu đầu vào (X) mỗi chuỗi: 12 (trên 2 phút, mỗi 10 giây)
Số mẫu đầu ra (y) mỗi chuỗi: 96 (trên 24 giờ, mỗi 15 phút)
Tổng số điểm dữ liệu sau resample (10s): 10463
Đã xử lý 5000/10463 điểm bắt đầu tiềm năng cho X. Số cặp (X,y) đã tạo: 603
Đã xử lý 10000/10463 điểm bắt đầu tiềm năng cho X. Số cặp (X,y) đã tạo: 603

--- Hoàn thành tạo chuỗi X, y (ĐÃ CẬP NHẬT) ---
Hình dạng của X: (603, 12, 2)
Hình dạng của y: (603, 96, 2)


In [None]:
# %% [markdown]
# ---
# ## Bước 9: (Placeholder) Xây dựng Mô hình LSTM (ĐÃ CẬP NHẬT CHO INPUT/OUTPUT MỚI)
#
# Phần này sẽ định nghĩa kiến trúc mô hình LSTM sử dụng TensorFlow/Keras.
# Các thay đổi chính:
# - `Input(shape=(12, số_features))`: Vì `num_input_timesteps` là 12.
# - `RepeatVector(96)`: Vì `num_output_timesteps` là 96.

In [None]:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, RepeatVector, TimeDistributed, Input

if X_np.shape[0] > 0: # Chỉ xây dựng model nếu có dữ liệu
    model = Sequential()
    # --- CẬP NHẬT SHAPE ĐẦU VÀO ---
    model.add(Input(shape=(num_input_timesteps, X_np.shape[2]))) # (12, 2)

    # Encoder
    model.add(LSTM(128, activation='relu', return_sequences=False))
    # model.add(LSTM(64, activation='relu')) # Có thể thêm layer nếu muốn phức tạp hơn

    # --- CẬP NHẬT SỐ LƯỢNG TIMESTEPS CHO DECODER ---
    model.add(RepeatVector(num_output_timesteps)) # 96 timesteps cho output

    # Decoder
    model.add(LSTM(128, activation='relu', return_sequences=True))
    # model.add(LSTM(64, activation='relu', return_sequences=True))

    # TimeDistributed Dense layer để áp dụng một Dense layer cho mỗi timestep của output
    model.add(TimeDistributed(Dense(y_np.shape[2]))) # y_np.shape[2] là số features output (2: Temp, Humid)

    model.compile(optimizer='adam', loss='mse', metrics=['mae'])
    print("\n--- Cấu trúc Model (ĐÃ CẬP NHẬT) ---")
    model.summary()
else:
    print("Không có dữ liệu X, y để xây dựng model. Bỏ qua bước này.")
    model = None


--- Cấu trúc Model (ĐÃ CẬP NHẬT) ---


In [None]:
# %% [markdown]
# ---
# ## Bước 10: (Placeholder) Chia dữ liệu và Huấn luyện Mô hình
#
# Chia dữ liệu thành tập huấn luyện (train), kiểm định (validation) và kiểm tra (test).
# Sau đó huấn luyện mô hình.

In [None]:
from sklearn.model_selection import train_test_split

if X_np.shape[0] > 0 and model is not None:
    # Chia dữ liệu: 70% train, 15% validation, 15% test
    # Với chuỗi thời gian, thường không xáo trộn (shuffle=False)
    X_train, X_temp, y_train, y_temp = train_test_split(X_np, y_np, test_size=0.3, random_state=42, shuffle=False)
    X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, shuffle=False) # 0.5 * 0.3 = 0.15

    print(f"\n--- Kích thước các tập dữ liệu ---")
    print(f"X_train shape: {X_train.shape}, y_train shape: {y_train.shape}")
    print(f"X_val shape: {X_val.shape}, y_val shape: {y_val.shape}")
    print(f"X_test shape: {X_test.shape}, y_test shape: {y_test.shape}")
else:
    print("Không có dữ liệu hoặc model để huấn luyện. Bỏ qua bước này.")


--- Kích thước các tập dữ liệu ---
X_train shape: (422, 12, 2), y_train shape: (422, 96, 2)
X_val shape: (90, 12, 2), y_val shape: (90, 96, 2)
X_test shape: (91, 12, 2), y_test shape: (91, 96, 2)


In [None]:
# %% [markdown]
# ---
# ## Bước 10A: Chia dữ liệu và Lưu trữ các tập con ra file
#
# Thực hiện chia tách `X_np` và `y_np` thành các tập huấn luyện (train),
# kiểm định (validation), và kiểm tra (test). Sau đó, lưu từng tập dữ liệu này
# ra các file `.npy` riêng biệt.

In [None]:
print("\n--- Kích thước các tập dữ liệu sau khi chia ---")
print(f"X_train shape: {X_train.shape}, y_train shape: {y_train.shape}")
print(f"X_val shape: {X_val.shape}, y_val shape: {y_val.shape}")
print(f"X_test shape: {X_test.shape}, y_test shape: {y_test.shape}")

# Tạo thư mục để lưu file nếu chưa có (ví dụ: 'data_splits')
output_dir = "/content/drive/MyDrive/dataset/data_splits"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"\nĐã tạo thư mục: '{output_dir}'")

# Lưu các tập dữ liệu
print("\n--- Bắt đầu lưu các tập dữ liệu ---")

np.save(os.path.join(output_dir, 'X_train.npy'), X_train)
print(f"Đã lưu X_train vào: {os.path.join(output_dir, 'X_train.npy')}")

np.save(os.path.join(output_dir, 'y_train.npy'), y_train)
print(f"Đã lưu y_train vào: {os.path.join(output_dir, 'y_train.npy')}")

np.save(os.path.join(output_dir, 'X_val.npy'), X_val)
print(f"Đã lưu X_val vào: {os.path.join(output_dir, 'X_val.npy')}")

np.save(os.path.join(output_dir, 'y_val.npy'), y_val)
print(f"Đã lưu y_val vào: {os.path.join(output_dir, 'y_val.npy')}")

np.save(os.path.join(output_dir, 'X_test.npy'), X_test)
print(f"Đã lưu X_test vào: {os.path.join(output_dir, 'X_test.npy')}")

np.save(os.path.join(output_dir, 'y_test.npy'), y_test)
print(f"Đã lưu y_test vào: {os.path.join(output_dir, 'y_test.npy')}")

print("\n--- Hoàn tất việc lưu dữ liệu! ---")


--- Kích thước các tập dữ liệu sau khi chia ---
X_train shape: (422, 12, 2), y_train shape: (422, 96, 2)
X_val shape: (90, 12, 2), y_val shape: (90, 96, 2)
X_test shape: (91, 12, 2), y_test shape: (91, 96, 2)

--- Bắt đầu lưu các tập dữ liệu ---
Đã lưu X_train vào: /content/drive/MyDrive/dataset/data_splits/X_train.npy
Đã lưu y_train vào: /content/drive/MyDrive/dataset/data_splits/y_train.npy
Đã lưu X_val vào: /content/drive/MyDrive/dataset/data_splits/X_val.npy
Đã lưu y_val vào: /content/drive/MyDrive/dataset/data_splits/y_val.npy
Đã lưu X_test vào: /content/drive/MyDrive/dataset/data_splits/X_test.npy
Đã lưu y_test vào: /content/drive/MyDrive/dataset/data_splits/y_test.npy

--- Hoàn tất việc lưu dữ liệu! ---


In [None]:
import numpy as np
import os

output_dir = "/content/drive/MyDrive/dataset/data_splits" # Đường dẫn đến thư mục chứa file

X_train_loaded = np.load(os.path.join(output_dir, 'X_train.npy'))
y_train_loaded = np.load(os.path.join(output_dir, 'y_train.npy'))
X_val_loaded = np.load(os.path.join(output_dir, 'X_val.npy'))
y_val_loaded = np.load(os.path.join(output_dir, 'y_val.npy'))
X_test_loaded = np.load(os.path.join(output_dir, 'X_test.npy'))
y_test_loaded = np.load(os.path.join(output_dir, 'y_test.npy'))

print("Đã tải lại X_train_loaded shape:", X_train_loaded.shape)
print("Đã tải lại y_train_loaded shape:", y_train_loaded.shape)
# Tương tự cho các tập val và test...

Đã tải lại X_train_loaded shape: (422, 12, 2)
Đã tải lại y_train_loaded shape: (422, 96, 2)


In [None]:
if X_np.shape[0] > 0 and model is not None:
    # Huấn luyện model (có thể mất nhiều thời gian)
    epochs = 50 # Số lần lặp qua toàn bộ tập huấn luyện
    batch_size = 32 # Số mẫu được đưa vào model trong một lần cập nhật trọng số

    print("\n--- Bắt đầu huấn luyện Model ---")
    history = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_val, y_val), verbose=1)

    print("\n--- Đánh giá Model trên tập Test ---")
    test_loss, test_mae = model.evaluate(X_test, y_test, verbose=0)
    print(f"Test Loss (MSE): {test_loss}")
    print(f"Test Mean Absolute Error (MAE): {test_mae}")

    # Để lấy lại giá trị dự đoán về thang đo gốc, bạn cần dùng scaler_temp.inverse_transform() và scaler_hum.inverse_transform()


--- Bắt đầu huấn luyện Model ---
Epoch 1/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 404ms/step - loss: 0.3382 - mae: 0.5342 - val_loss: 0.0228 - val_mae: 0.1169
Epoch 2/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 339ms/step - loss: 0.0512 - mae: 0.1669 - val_loss: 0.0144 - val_mae: 0.0902
Epoch 3/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 387ms/step - loss: 0.0277 - mae: 0.1215 - val_loss: 0.0139 - val_mae: 0.0880
Epoch 4/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 241ms/step - loss: 0.0165 - mae: 0.0978 - val_loss: 0.0138 - val_mae: 0.0921
Epoch 5/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 387ms/step - loss: 0.0142 - mae: 0.0918 - val_loss: 0.0122 - val_mae: 0.0861
Epoch 6/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 244ms/step - loss: 0.0134 - mae: 0.0895 - val_loss: 0.0119 - val_mae: 0.0863
Epoch 7/50
[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0

In [None]:

## Bước 11: (Placeholder) Dự đoán và Chuyển đổi ngược

# Sau khi huấn luyện, bạn có thể dùng `model.predict()` và sau đó `scaler.inverse_transform()` để xem kết quả ở thang đo gốc.

# ```python
# Lấy một mẫu từ tập test để dự đoán
sample_x = X_test[0:1] # Lấy mẫu đầu tiên, giữ nguyên dạng 3D
predicted_scaled = model.predict(sample_x)

predicted_temp_scaled = predicted_scaled[:, :, 0] # Lấy cột nhiệt độ đã chuẩn hóa
predicted_hum_scaled = predicted_scaled[:, :, 1]  # Lấy cột độ ẩm đã chuẩn hóa

# Chuyển đổi ngược về thang đo gốc
predicted_temp_original = scaler_temp.inverse_transform(predicted_temp_scaled.reshape(-1,1)) # Reshape cho scaler
predicted_hum_original = scaler_hum.inverse_transform(predicted_hum_scaled.reshape(-1,1))

print("\n--- Dự đoán Nhiệt độ (24 giờ tới, mỗi 15 phút, thang đo gốc) ---")
print(predicted_temp_original.flatten())
print("\n--- Dự đoán Độ ẩm (24 giờ tới, mỗi 15 phút, thang đo gốc) ---")
print(predicted_hum_original.flatten())
# ```
# ---
# Kết thúc hướng dẫn chuẩn bị dữ liệu và khung sườn cho mô hình.
# Bạn cần chạy các ô code theo thứ tự.
# Hãy chú ý các phần **CẬP NHẬT** để đảm bảo mã phù hợp với dữ liệu của bạn.

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step

--- Dự đoán Nhiệt độ (24 giờ tới, mỗi 15 phút, thang đo gốc) ---
[30.666487 30.88613  30.810629 30.85708  30.873081 30.825054 30.781733
 30.746166 30.710384 30.67321  30.633812 30.594625 30.557749 30.523916
 30.49354  30.466898 30.44735  30.442575 30.45196  30.473564 30.506716
 30.552536 30.607676 30.670061 30.73809  30.80997  30.88314  30.9571
 31.031769 31.107014 31.182625 31.258339 31.333836 31.408775 31.482794
 31.55553  31.626371 31.693794 31.760832 31.82725  31.892311 31.95528
 32.015507 32.072464 32.125748 32.175056 32.22019  32.26101  32.29746
 32.329525 32.357235 32.380653 32.399887 32.41505  32.426292 32.433784
 32.437702 32.43825  32.43551  32.42813  32.416313 32.4007   32.381832
 32.360718 32.339775 32.319313 32.299213 32.279068 32.258488 32.23716
 32.214863 32.19148  32.16695  32.14132  32.114647 32.08666  32.055935
 32.022324 31.986858 31.950506 31.913681 31.87677  31.84007  31.803835
 31.76811  31.7

In [None]:
# %% [markdown]
# ---
# ## Bước 12: Lưu Model đã Huấn luyện
#
# Sau khi mô hình đã được huấn luyện, chúng ta sẽ lưu nó lại để có thể
# sử dụng sau này mà không cần huấn luyện lại từ đầu.
# Model sẽ được lưu dưới định dạng HDF5 (file .h5 hoặc .keras).

In [None]:
# %%
import os
# Đảm bảo rằng tensorflow đã được import nếu bạn tách cell này ra xa
# import tensorflow as tf

if 'model' in locals() and model is not None:
    # Tạo thư mục để lưu model nếu chưa có
    output_model_dir = "/content/drive/MyDrive/IOT_saved_model"
    if not os.path.exists(output_model_dir):
        os.makedirs(output_model_dir)
        print(f"\nĐã tạo thư mục: '{output_model_dir}'")

    # --- Lưu model dưới định dạng HDF5 (phổ biến) ---
    model_path_h5 = os.path.join(output_model_dir, 'nhiet_do_do_am_predictor.h5')
    try:
        model.save(model_path_h5)
        print(f"\nĐã lưu model thành công vào (HDF5): {model_path_h5}")
        print("File này bao gồm kiến trúc model, trọng số và trạng thái optimizer.")
    except Exception as e:
        print(f"\nLỖI khi lưu model dưới dạng HDF5: {e}")
        print("Hãy đảm bảo bạn đã cài đặt thư viện h5py: pip install h5py")

    # --- (Tùy chọn) Lưu model dưới định dạng SavedModel của TensorFlow ---
    # Định dạng này là một thư mục, không phải một file đơn lẻ.
    # model_path_tf = os.path.join(output_model_dir, 'nhiet_do_do_am_predictor_tf_format')
    # try:
    #     model.save(model_path_tf) # Không cần đuôi .h5 hay .keras
    #     print(f"\nĐã lưu model thành công vào (TensorFlow SavedModel format): {model_path_tf}")
    # except Exception as e:
    #     print(f"\nLỖI khi lưu model dưới dạng TensorFlow SavedModel: {e}")

    print("\nLƯU Ý: Nếu bạn sử dụng Keras 3 và muốn sử dụng định dạng .keras mới,")
    print("bạn có thể thay đổi đuôi file thành '.keras', ví dụ: 'my_model.keras'.")
    print("model.save('path/to/your_model.keras')")

elif not ('model' in locals() and model is not None):
    print("LỖI: Biến `model` không tồn tại hoặc chưa được huấn luyện.")
    print("Vui lòng đảm bảo bạn đã chạy các ô code định nghĩa và huấn luyện model trước khi lưu.")




Đã lưu model thành công vào (HDF5): /content/drive/MyDrive/IOT_saved_model/nhiet_do_do_am_predictor.h5
File này bao gồm kiến trúc model, trọng số và trạng thái optimizer.

LƯU Ý: Nếu bạn sử dụng Keras 3 và muốn sử dụng định dạng .keras mới,
bạn có thể thay đổi đuôi file thành '.keras', ví dụ: 'my_model.keras'.
model.save('path/to/your_model.keras')


In [None]:
pip install paho-mqtt==1.6.1

Collecting paho-mqtt==1.6.1
  Downloading paho-mqtt-1.6.1.tar.gz (99 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/99.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m99.4/99.4 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: paho-mqtt
  Building wheel for paho-mqtt (setup.py) ... [?25l[?25hdone
  Created wheel for paho-mqtt: filename=paho_mqtt-1.6.1-py3-none-any.whl size=62116 sha256=ea7042045c98d0d70a2b207cda3f89f5c807a4fdb64ea4352d37885aefcdd42e
  Stored in directory: /root/.cache/pip/wheels/29/ea/a5/ba9a63aaf4cd4e16e8a87ee31fb4d11b04ff5e1735d312619a
Successfully built paho-mqtt
Installing collected packages: paho-mqtt
Successfully installed paho-mqtt-1.6.1


In [None]:
pip install schedule

Collecting schedule
  Downloading schedule-1.2.2-py3-none-any.whl.metadata (3.8 kB)
Downloading schedule-1.2.2-py3-none-any.whl (12 kB)
Installing collected packages: schedule
Successfully installed schedule-1.2.2


In [None]:
import tensorflow as tf
print(tf.__version__)

2.18.0


In [7]:
import paho.mqtt.client as mqttclient
import time
import json
import pandas as pd
import numpy as np
from datetime import datetime, timedelta # Thêm timedelta
from tensorflow.keras.models import load_model
from tensorflow.keras.losses import MeanSquaredError # Hoặc tf.keras.metrics.MeanSquaredError nếu dùng làm metric
from sklearn.preprocessing import MinMaxScaler
import collections
import schedule
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
import threading
import os # Để tạo thư mục
# import joblib # Bỏ comment nếu bạn dùng joblib để lưu/tải scalers

print("Initializing Advanced IoT Application with Full Prediction Reporting...")

# --- Configuration Constants ---
# MQTT Configuration
BROKER_ADDRESS = "app.coreiot.io"
PORT = 1883
ACCESS_TOKEN = "kNT0dUABeA28fk7jFbpe"

# Model and Data Parameters
N_STEPS_IN = 12
N_FEATURES = 2
N_STEPS_OUT = 96
DATA_SAMPLING_INTERVAL_SECONDS = 1

# Scheduling Configuration
PREDICTION_INTERVAL_MINUTES = 2

# Email Configuration (CẦN THAY THẾ BẰNG THÔNG TIN CỦA BẠN)
SMTP_SERVER = 'smtp.gmail.com'  # Ví dụ cho Gmail
SMTP_PORT = 587  # Hoặc 465 cho SSL
EMAIL_SENDER = 'tuan.tranhoangkhoii@hcmut.edu.vn' # Email của bạn
EMAIL_PASSWORD = 'guhy rafi hcqw eequ'    # Mật khẩu ứng dụng cho email của bạn
EMAIL_RECIPIENT = 'khoituan65@gmail.com' # Email người nhận

# Alarm Thresholds (CẦN ĐIỀU CHỈNH)
TEMP_ALARM_THRESHOLD = 32.0
HUMI_ALARM_THRESHOLD = 75.0

# --- Global Variables ---
data_buffer = collections.deque(maxlen=(2 * 60 // DATA_SAMPLING_INTERVAL_SECONDS) + 20)
latest_actual_temp = None
latest_actual_humi = None
latest_predictions_temp_full = None
latest_predictions_humi_full = None
model = None
scaler_temp = None
scaler_humi = None
mqtt_client = None

# --- MQTT Callbacks ---
def on_connect_mqtt(client, userdata, flags, rc):
    if rc == 0:
        print(f"MQTT: Connected successfully to {BROKER_ADDRESS}!")
    else:
        print(f"MQTT: Connection failed to {BROKER_ADDRESS}, result code {rc}")

def on_disconnect_mqtt(client, userdata, rc):
    print(f"MQTT: Disconnected from {BROKER_ADDRESS} with result code {rc}.")

def on_publish_mqtt(client, userdata, mid):
    print(f"MQTT: Data published successfully, mid: {mid}")

# --- Email Sending Function ---
def send_email_generic(subject, body_html, recipient=EMAIL_RECIPIENT, sender=EMAIL_SENDER, password=EMAIL_PASSWORD):
    try:
        msg = MIMEMultipart('alternative')
        msg['From'] = sender
        msg['To'] = recipient
        msg['Subject'] = subject
        msg.attach(MIMEText(body_html, 'html'))

        server = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
        server.starttls()
        server.login(sender, password)
        text = msg.as_string()
        server.sendmail(sender, recipient, text)
        server.quit()
        print(f"Email sent successfully to {recipient} with subject: {subject}")
        return True
    except Exception as e:
        print(f"Error sending email: {e}")
        return False

# --- Function to Email FULL Predictions (Cập nhật thời gian tuyệt đối) ---
def send_full_prediction_email(predicted_temps_full, predicted_humis_full, prediction_start_time): # Thêm prediction_start_time
    global latest_actual_temp, latest_actual_humi
    subject = f"Full 24-Hour Weather Prediction Report - {prediction_start_time.strftime('%Y-%m-%d %H:%M')}"

    body_html = f"<html><body><h2>Full 24-Hour Weather Prediction Report</h2>"
    body_html += f"<p>Prediction generated at: <strong>{prediction_start_time.strftime('%Y-%m-%d %H:%M:%S')}</strong></p>"

    if latest_actual_temp is not None and latest_actual_humi is not None:
        body_html += f"<h3>Latest Actual Readings (around prediction time):</h3>"
        body_html += f"<p>Temperature: {latest_actual_temp:.2f}°C</p>"
        body_html += f"<p>Humidity: {latest_actual_humi:.2f}%</p><hr>"

    body_html += "<h3>Predicted Values (Next 24 Hours):</h3>"
    body_html += "<table border='1' style='border-collapse: collapse; width:70%;'>" # Tăng chiều rộng bảng
    body_html += "<tr><th>Predicted Time (Actual)</th><th>Temperature (°C)</th><th>Humidity (%)</th></tr>"

    for i in range(len(predicted_temps_full)):
        # Tính toán thời gian tuyệt đối cho mỗi điểm dự đoán
        time_offset_minutes = (i + 1) * 15 # Mỗi điểm dự đoán cách nhau 15 phút
        absolute_prediction_time = prediction_start_time + timedelta(minutes=time_offset_minutes)
        time_label_absolute = absolute_prediction_time.strftime("%Y-%m-%d %H:%M") # Định dạng ngày giờ phút

        temp = predicted_temps_full[i]
        humi = predicted_humis_full[i]
        body_html += f"<tr><td style='text-align:center;'>{time_label_absolute}</td><td style='text-align:center;'>{temp:.2f}</td><td style='text-align:center;'>{humi:.2f}</td></tr>"

    body_html += "</table></body></html>"
    send_email_generic(subject, body_html)

# --- Function to Check and Send Alarm Email (Cập nhật thời gian tuyệt đối) ---
def check_and_send_alarm_email(predicted_temps_full, predicted_humis_full, temp_thresh, humi_thresh, prediction_start_time): # Thêm prediction_start_time
    global latest_actual_temp, latest_actual_humi
    alarm_triggers = []

    for i in range(len(predicted_temps_full)):
        # Tính toán thời gian tuyệt đối cho điểm dự đoán này
        time_offset_minutes = (i + 1) * 15
        absolute_alarm_time = prediction_start_time + timedelta(minutes=time_offset_minutes)
        time_label_absolute = absolute_alarm_time.strftime("%Y-%m-%d %H:%M") # Định dạng ngày giờ phút

        if predicted_temps_full[i] > temp_thresh:
            alarm_triggers.append(
                f"Nhiệt độ dự đoán CAO: {predicted_temps_full[i]:.2f}°C (Ngưỡng: {temp_thresh}°C) vào lúc {time_label_absolute}"
            )

        if predicted_humis_full[i] > humi_thresh:
            alarm_triggers.append(
                f"Độ ẩm dự đoán CAO: {predicted_humis_full[i]:.2f}% (Ngưỡng: {humi_thresh}%) vào lúc {time_label_absolute}"
            )

    if alarm_triggers:
        subject = f"🚨 CẢNH BÁO THỜI TIẾT KHẨN CẤP! - {prediction_start_time.strftime('%Y-%m-%d %H:%M')} 🚨"
        body_html = f"<html><body><h2>Weather Alarm Details (Prediction from {prediction_start_time.strftime('%Y-%m-%d %H:%M:%S')}):</h2>"
        body_html += "<ul>"
        for trigger in alarm_triggers:
            body_html += f"<li>{trigger}</li>"
        body_html += "</ul><hr>"

        if latest_actual_temp is not None and latest_actual_humi is not None:
            body_html += f"<p><strong>Current Actual Temperature (around prediction time):</strong> {latest_actual_temp:.2f}°C</p>"
            body_html += f"<p><strong>Current Actual Humidity (around prediction time):</strong> {latest_actual_humi:.2f}%</p>"

        body_html += "<h3>Summary of Full Prediction Period:</h3>"
        body_html += f"<p>Max Predicted Temperature: {np.max(predicted_temps_full):.2f}°C</p>"
        # ... (các dòng tóm tắt khác giữ nguyên) ...
        body_html += f"<p>Min Predicted Humidity: {np.min(predicted_humis_full):.2f}%</p>"
        body_html += "</body></html>"

        send_email_generic(subject, body_html)
        print(f"ALARM EMAIL SENT due to: {', '.join(alarm_triggers)}")
    else:
        print(f"No alarm conditions met for predicted values from {prediction_start_time.strftime('%Y-%m-%d %H:%M:%S')}.")

# --- Scheduled Prediction Function ---
def run_prediction_cycle():
    global latest_predictions_temp_full, latest_predictions_humi_full, model
    global scaler_temp, scaler_humi, latest_actual_temp, latest_actual_humi, mqtt_client

    # --- GHI LẠI THỜI ĐIỂM BẮT ĐẦU DỰ ĐOÁN ---
    prediction_initiation_time = datetime.now()
    current_time_str_display = prediction_initiation_time.strftime("%Y-%m-%d %H:%M:%S")
    print(f"\n--- Running scheduled prediction cycle at {current_time_str_display} ---")

    if model is None or scaler_temp is None or scaler_humi is None:
        print("Model or scalers not loaded. Skipping prediction.")
        return

    if len(data_buffer) < N_STEPS_IN:
        print(f"Not enough data in buffer ({len(data_buffer)} points) for prediction. Need {N_STEPS_IN}.")
        return

    current_data_sequence = list(data_buffer)[-N_STEPS_IN:]
    humi_seq_raw = np.array([item[1] for item in current_data_sequence])
    temp_seq_raw = np.array([item[2] for item in current_data_sequence])

    latest_actual_humi = float(humi_seq_raw[-1])
    latest_actual_temp = float(temp_seq_raw[-1])

    humi_seq_scaled = scaler_humi.transform(humi_seq_raw.reshape(-1, 1)).flatten()
    temp_seq_scaled = scaler_temp.transform(temp_seq_raw.reshape(-1, 1)).flatten()

    x_input_scaled = np.vstack((humi_seq_scaled, temp_seq_scaled)).T
    x_input_scaled = x_input_scaled.reshape((1, N_STEPS_IN, N_FEATURES))

    predicted_values_scaled = model.predict(x_input_scaled, verbose=0)

    humi_predictions_scaled = predicted_values_scaled[0, :, 0].reshape(-1, 1)
    temp_predictions_scaled = predicted_values_scaled[0, :, 1].reshape(-1, 1)

    latest_predictions_humi_full = scaler_humi.inverse_transform(humi_predictions_scaled).flatten()
    latest_predictions_temp_full = scaler_temp.inverse_transform(temp_predictions_scaled).flatten()

    print(f"Prediction successful. First predicted Temp (T+15min from {current_time_str_display}): {latest_predictions_temp_full[0]:.2f}°C, Humi: {latest_predictions_humi_full[0]:.2f}%")

    # # ... (Phần publish MQTT giữ nguyên) ...
    # if mqtt_client and mqtt_client.is_connected():
    #     payload_coreiot = {
    #         'timestamp_prediction_event': prediction_initiation_time.timestamp(), # Gửi timestamp dạng số
    #         'temperature_actual': latest_actual_temp,
    #         'humidity_actual': latest_actual_humi,
    #         'predicted_temperatures_24h': [round(float(t), 2) for t in latest_predictions_temp_full],
    #         'predicted_humidities_24h': [round(float(h), 2) for h in latest_predictions_humi_full],
    #     }
    #     try:
    #         mqtt_client.publish('v1/devices/me/telemetry', json.dumps(payload_coreiot), 1)
    #         print("MQTT: Published FULL PREDICTIONS to CoreIOT.")
    #     except Exception as e_mqtt:
    #         print(f"MQTT Error publishing full predictions: {e_mqtt}")
    # # ...


    # 1. Send FULL predictions to CoreIOT Server
    if mqtt_client and mqtt_client.is_connected():
        payload_coreiot = {
            'timestamp': time.time(), # Add a timestamp for the prediction event
            'temperature_actual': latest_actual_temp,
            'humidity_actual': latest_actual_humi,
            'predicted_temperatures_24h': [round(float(t), 2) for t in latest_predictions_temp_full],
            'predicted_humidities_24h': [round(float(h), 2) for h in latest_predictions_humi_full],
            # Add other relevant actual data if available (light, GPS, etc.)
        }
        try:
            mqtt_client.publish('v1/devices/me/telemetry', json.dumps(payload_coreiot), 1)
            # on_publish_mqtt callback will confirm, or can print here
        except Exception as e_mqtt:
            print(f"MQTT Error publishing full predictions: {e_mqtt}")
    elif mqtt_client:
        print("MQTT client not connected. Cannot send full predictions to CoreIOT.")
    else:
        print("MQTT client not initialized. Cannot send full predictions to CoreIOT.")

    # --- TRUYỀN prediction_initiation_time VÀO HÀM EMAIL ---
    send_full_prediction_email(latest_predictions_temp_full, latest_predictions_humi_full, prediction_initiation_time)
    check_and_send_alarm_email(latest_predictions_temp_full, latest_predictions_humi_full,
                               TEMP_ALARM_THRESHOLD, HUMI_ALARM_THRESHOLD, prediction_initiation_time)

# --- Function to Simulate Sensor Data and Populate Buffer (from CSV) ---
# <--- THAY ĐỔI / LƯU Ý QUAN TRỌNG: Thêm tham số tên cột
def populate_data_buffer_from_csv(csv_path, temp_col_name_in_csv, humi_col_name_in_csv):
    global data_buffer
    print(f"Data Populator: Attempting to load data from CSV: {csv_path}")
    try:
        data_df = pd.read_csv(csv_path)
        # --- SỬ DỤNG TÊN CỘT ĐƯỢC TRUYỀN VÀO ---
        if humi_col_name_in_csv not in data_df.columns or temp_col_name_in_csv not in data_df.columns:
            print(f"Data Populator CSV Error: Required columns ('{humi_col_name_in_csv}', '{temp_col_name_in_csv}') not found in CSV.")
            return

        humidity_all_raw = data_df[humi_col_name_in_csv].values.astype(float)
        temperature_all_raw = data_df[temp_col_name_in_csv].values.astype(float)

        if scaler_humi is None or scaler_temp is None: # Kiểm tra lại
             print("Data Populator Warning: Scalers not initialized when populator started.")

        idx = 0
        while True:
            if idx >= len(temperature_all_raw):
                print("Data Populator: Reached end of CSV. Looping again.")
                idx = 0

            current_humi = humidity_all_raw[idx]
            current_temp = temperature_all_raw[idx]
            current_timestamp = time.time()

            data_buffer.append((current_timestamp, current_humi, current_temp))
            idx += 1
            time.sleep(DATA_SAMPLING_INTERVAL_SECONDS)

    except FileNotFoundError:
        print(f"Data Populator FATAL: CSV file not found at '{csv_path}'")
    except KeyError as e:
        print(f"Data Populator FATAL: KeyError - likely a wrong column name ('{temp_col_name_in_csv}' or '{humi_col_name_in_csv}') not found in CSV. Error: {e}")
    except Exception as e:
        print(f"Data Populator FATAL: Error in data population thread: {e}")

# --- Main Execution ---
if __name__ == "__main__":
    print("Starting Main Application...")

    model_path = '/content/drive/MyDrive/IOT_saved_model/nhiet_do_do_am_predictor.h5'
    # --- THAY ĐỔI / LƯU Ý QUAN TRỌNG: Sử dụng file datacsv.csv ---
    csv_data_path = '/content/drive/MyDrive/dataset/datacsv.csv'
    print(f"Data for testing will be sourced from: {csv_data_path}")

    # --- USER MUST VERIFY AND UPDATE ---
    # Các biến này sẽ lưu trữ tên cột thực tế sau khi bạn kiểm tra file CSV
    assumed_temp_col = 'temperature' # THAY THẾ NẾU CẦN
    assumed_humi_col = 'humidity'  # THAY THẾ NẾU CẦN

    try:
        print(f"\nInspecting columns in '{csv_data_path}'...")
        temp_inspection_df = pd.read_csv(csv_data_path)
        actual_columns = temp_inspection_df.columns.tolist()
        print("Columns found in CSV:", actual_columns)
        print("First 5 rows of the CSV:")
        print(temp_inspection_df.head().to_string())

        print(f"\nIMPORTANT: Script currently assumes temperature column is '{assumed_temp_col}' and humidity column is '{assumed_humi_col}'.")
        print("Please VERIFY these names from the 'Columns found in CSV' output above.")
        print("If they are different, UPDATE the 'assumed_temp_col' and 'assumed_humi_col' variables at the beginning of the 'if __name__ == \"__main__\":' block.")

        if assumed_temp_col not in actual_columns or assumed_humi_col not in actual_columns:
            print(f"\nWARNING: One or both assumed columns ('{assumed_temp_col}', '{assumed_humi_col}') were NOT FOUND in '{csv_data_path}'.")
            print("Please correct the 'assumed_temp_col' and 'assumed_humi_col' variables in the script before proceeding seriously.")
            # Forcing user to acknowledge, or script might fail later
            # corrected_temp_col = input(f"Enter correct temperature column name (or press Enter to use '{assumed_temp_col}'): ")
            # corrected_humi_col = input(f"Enter correct humidity column name (or press Enter to use '{assumed_humi_col}'): ")
            # if corrected_temp_col: assumed_temp_col = corrected_temp_col
            # if corrected_humi_col: assumed_humi_col = corrected_humi_col
            # print(f"Using Temperature Column: '{assumed_temp_col}', Humidity Column: '{assumed_humi_col}'")

        del temp_inspection_df

    except FileNotFoundError:
        print(f"FATAL: Test data CSV file not found at '{csv_data_path}'.")
        exit()
    except Exception as e:
        print(f"FATAL: Error reading or inspecting CSV file '{csv_data_path}': {e}")
        exit()

    # scaler_dir = "scalers" # Bỏ comment nếu bạn dùng joblib để lưu scalers
    # if not os.path.exists(scaler_dir):
    #     os.makedirs(scaler_dir)
    # scaler_temp_path = os.path.join(scaler_dir, "scaler_temp.joblib")
    # scaler_humi_path = os.path.join(scaler_dir, "scaler_humi.joblib")

    try:
        model = load_model(model_path, custom_objects={'mse': MeanSquaredError()})
        print(f"Model '{model_path}' loaded successfully.")

        print(f"\nFitting scalers using data from '{csv_data_path}' (Placeholder - use pre-fitted scalers from training data).")
        df_for_scaler_fitting = pd.read_csv(csv_data_path)

        if assumed_temp_col not in df_for_scaler_fitting.columns:
            print(f"FATAL: Confirmed temperature column '{assumed_temp_col}' NOT FOUND in CSV for scaler fitting.")
            exit()
        if assumed_humi_col not in df_for_scaler_fitting.columns:
            print(f"FATAL: Confirmed humidity column '{assumed_humi_col}' NOT FOUND in CSV for scaler fitting.")
            exit()

        scaler_temp = MinMaxScaler(feature_range=(0, 1))
        scaler_humi = MinMaxScaler(feature_range=(0, 1))

        scaler_temp.fit(df_for_scaler_fitting[[assumed_temp_col]].astype(float))
        scaler_humi.fit(df_for_scaler_fitting[[assumed_humi_col]].astype(float))
        print(f"Scalers fitted for this session using columns: '{assumed_temp_col}' and '{assumed_humi_col}'.")
        del df_for_scaler_fitting

    except FileNotFoundError:
        print(f"FATAL: CSV file '{csv_data_path}' not found during scaler fitting.")
        exit()
    except KeyError as e:
        print(f"FATAL: KeyError during scaler fitting using assumed columns. Column not found: {e}.")
        exit()
    except Exception as e:
        print(f"Error during initial model/scaler setup: {e}")
        exit()

    # mqtt_client = mqttclient.Client(client_id="4c72b3f0-0555-11f0-a887-6d1a184f2bb5")
    # mqtt_client = mqttclient.Client(client_id="FullPredictDevice_01")
    # mqtt_client = mqttclient.Client("Sensor C1")
    mqtt_client.username_pw_set(username=None, password=ACCESS_TOKEN)
    mqtt_client.on_connect = on_connect_mqtt
    mqtt_client.on_disconnect = on_disconnect_mqtt
    mqtt_client.on_publish = on_publish_mqtt
    try:
        print(f"Attempting to connect to MQTT broker: {BROKER_ADDRESS}:{PORT}")
        mqtt_client.connect(BROKER_ADDRESS, PORT, 60)
        mqtt_client.loop_start()
    except Exception as e_mqtt_main:
        print(f"Main MQTT Connection Error: {e_mqtt_main}")

    # --- THAY ĐỔI / LƯU Ý QUAN TRỌNG: Truyền tên cột đã xác nhận vào thread
    data_populator_thread = threading.Thread(
        target=populate_data_buffer_from_csv,
        args=(csv_data_path, assumed_temp_col, assumed_humi_col), # Truyền tên cột
        daemon=True
    )
    data_populator_thread.start()
    print("Data population thread started.")

    print(f"Waiting for initial data buffer to fill (approx. {DATA_SAMPLING_INTERVAL_SECONDS * (N_STEPS_IN + 3)} seconds)...")
    time.sleep(DATA_SAMPLING_INTERVAL_SECONDS * (N_STEPS_IN + 3))

    print(f"Scheduling prediction job to run every {PREDICTION_INTERVAL_MINUTES} minutes.")
    schedule.every(PREDICTION_INTERVAL_MINUTES).minutes.do(run_prediction_cycle)

    if len(data_buffer) >= N_STEPS_IN:
        print("Buffer has enough data. Running initial prediction cycle...")
        run_prediction_cycle()
    else:
        print(f"Buffer has {len(data_buffer)}/{N_STEPS_IN} points. Not enough for initial prediction. Waiting for scheduled run.")

    print("Scheduler started. Press Ctrl+C to exit.")
    try:
        while True:
            schedule.run_pending()
            time.sleep(1)
    except KeyboardInterrupt:
        print("\nApplication shutting down by user request...")
    finally:
        if mqtt_client and mqtt_client.is_connected(): # Kiểm tra is_connected() trước khi ngắt
            mqtt_client.loop_stop()
            mqtt_client.disconnect()
            print("MQTT client disconnected.")
        print("Scheduler stopped. Exiting.")



Initializing Advanced IoT Application with Full Prediction Reporting...
Starting Main Application...
Data for testing will be sourced from: /content/drive/MyDrive/dataset/datacsv.csv

Inspecting columns in '/content/drive/MyDrive/dataset/datacsv.csv'...
Columns found in CSV: ['ID', 'Timestamp', 'humidity', 'temperature']
First 5 rows of the CSV:
   ID            Timestamp   humidity  temperature
0   1  2025-05-14 16:18:56  56.568050    27.420235
1   2  2025-05-14 16:19:06  57.285023    27.423477
2   3  2025-05-14 16:19:16  57.293415    27.423668
3   4  2025-05-14 16:19:26  57.070732    27.427673
4   5  2025-05-14 16:21:03  57.070732    27.427673

IMPORTANT: Script currently assumes temperature column is 'temperature' and humidity column is 'humidity'.
Please VERIFY these names from the 'Columns found in CSV' output above.
If they are different, UPDATE the 'assumed_temp_col' and 'assumed_humi_col' variables at the beginning of the 'if __name__ == "__main__":' block.
Model '/content/driv

AttributeError: 'NoneType' object has no attribute 'username_pw_set'