In [1]:
import torch
import os
import sys

In [2]:
from pymongo import MongoClient
import pandas as pd

def fetch_data_from_mongodb():
    # Kết nối tới MongoDB
    client = MongoClient('mongodb+srv://dbUser:123@openaq.mqifn0v.mongodb.net/?retryWrites=true&w=majority&appName=OpenAQ')
    db = client['openaq_db']

    # Danh sách các cột cần query
    columns = [
        '1543132_pm25', '1563313_pm25', '1563313_temperature',
        '2161296_co', '2161296_no2', '2161296_pm10', '2161296_pm25',
        '225579_pm25', '225631_pm25', '225661_co', '225661_no2', '225661_o3',
        '225661_pm10', '225661_pm25', '2857820_pm25',
        '2857820_relativehumidity', '2857820_temperature', '2857820_um003',
        '3038744_pm25', '3038744_relativehumidity', '3038744_temperature',
        '3038744_um003', '3276359_pm25', '3276359_relativehumidity',
        '3276359_temperature', '3276359_um003',
    ]

    # Hàm để lấy location_id từ tên cột
    def get_location_id(column):
        return column.split('_')[0]

    # Hàm để lấy param từ tên cột
    def get_param(column):
        return column.split('_')[1]

    # Khởi tạo dictionary để lưu dữ liệu
    data = {col: [] for col in columns}

    # Query dữ liệu
    for col in columns:
        location_id = get_location_id(col)
        param = get_param(col)
        collection = db[f'location_{location_id}']
        
        # Truy vấn MongoDB: lấy 24 bản ghi mới nhất theo datetime_utc
        cursor = collection.find(
            {'name': {'$regex': param, '$options': 'i'}}  # Tìm param trong name
        ).sort('datetime_utc', -1).limit(336)  # Sắp xếp giảm dần, giới hạn 24 bản ghi
        
        # Lấy giá trị value từ cursor
        values = [doc.get('value', None) for doc in cursor]
        
        # Đảo ngược thứ tự chuỗi giá trị (từ mới nhất -> cũ nhất thành cũ nhất -> mới nhất)
        values = values[::-1]
        
        # Thêm giá trị vào data
        data[col] = values

    # Chuyển data thành DataFrame
    df = pd.DataFrame(data)
    
    # Đóng kết nối MongoDB
    client.close()
    
    return df


#Gọi hàm và lấy DataFrame
df = fetch_data_from_mongodb()
print(df.shape)

(336, 26)


In [3]:
!git clone https://github.com/Secilia-Cxy/SOFTS.git

fatal: destination path 'SOFTS' already exists and is not an empty directory.


In [4]:
import sys

# Thêm thư mục gốc chứa `utils/`
sys.path.append(r"C:\Users\NITRO\Desktop\Workspace\CS313\Final\model\SOFTS")


In [5]:
from exp.exp_custom import Exp_Custom


In [6]:
import argparse

config = {
    'root_path': './',
    'data_path': '/kaggle/input/openaq-26-sensors/merged_openaq_2024_2025_timeseries_cleaned.csv',
    'data': 'air_pm25',
    'features': 'M',
    'freq': 'h',
    'seq_len': 336,
    'pred_len': 24,
    'model': 'SOFTS',
    'checkpoints': './checkpoints/',
    'd_model': 256,
    'd_core': 128,
    'd_ff': 512,
    'e_layers': 4,
    'learning_rate': 0.00005,
    'lradj': 'cosine',
    'train_epochs': 100,
    'patience': 10,
    'batch_size': 8,
    'dropout': 0.05,
    'activation': 'gelu',
    'use_norm': True,
    'num_workers': 0,
    'use_gpu': True,
    'gpu': '0',
    'save_model': True,
}

parser = argparse.ArgumentParser()
args = parser.parse_args([])
args.__dict__.update(config)
args.use_gpu = torch.cuda.is_available() and args.use_gpu


In [7]:
# Khởi tạo mô hình
exp = Exp_Custom(args)

# Load trọng số
model_path = r'C:\Users\NITRO\Desktop\Workspace\CS313\Final\model\softs.pt'  # hoặc nơi bạn đã lưu
exp.model.load_state_dict(torch.load(model_path, map_location='cpu'))
exp.model.eval()

Use GPU: cuda:0


Model(
  (enc_embedding): DataEmbedding_inverted(
    (value_embedding): Linear(in_features=336, out_features=256, bias=True)
    (dropout): Dropout(p=0.05, inplace=False)
  )
  (encoder): Encoder(
    (attn_layers): ModuleList(
      (0-3): 4 x EncoderLayer(
        (attention): STAR(
          (gen1): Linear(in_features=256, out_features=256, bias=True)
          (gen2): Linear(in_features=256, out_features=128, bias=True)
          (gen3): Linear(in_features=384, out_features=256, bias=True)
          (gen4): Linear(in_features=256, out_features=256, bias=True)
        )
        (conv1): Conv1d(256, 512, kernel_size=(1,), stride=(1,))
        (conv2): Conv1d(512, 256, kernel_size=(1,), stride=(1,))
        (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (dropout): Dropout(p=0.05, inplace=False)
      )
    )
  )
  (projection): Linear(in_features=256, out_features=24, bias=True)
)

In [8]:
torch.cuda.is_available()

True

In [9]:
# Bước 5: Dự đoán
setting = f"{args.data}_{args.model}_{args.seq_len}_{args.pred_len}"
pred = exp.predict(setting=setting, pred_data=df)

print("✅ Dự đoán thành công. Shape:", pred.shape)

loading model from ./checkpoints/air_pm25_SOFTS_336_24\checkpoint.pth
✅ Dự đoán thành công. Shape: (1, 24, 26)


In [10]:
pred[0].shape

(24, 26)

In [11]:
from pymongo import MongoClient
from datetime import datetime, timedelta
import pytz

def save_predictions_to_mongodb(pred, df, timestamps):
    # Kết nối tới MongoDB
    client = MongoClient('mongodb+srv://dbUser:123@openaq.mqifn0v.mongodb.net/?retryWrites=true&w=majority&appName=OpenAQ')
    db = client['openaq_db']
    
    # Lặp qua từng feature (tên cột)
    for feature_idx, feature_name in enumerate(df.columns):
        # Lấy location_id từ tên cột
        location_id = feature_name.split('_')[0]
        param = feature_name.split('_')[1]
        collection = db[f'predict_location_{location_id}']
        
        # Lấy giá trị dự đoán cho feature hiện tại
        pred_vals = pred[0, :, feature_idx]
        
        # Lưu từng giá trị dự đoán vào collection tương ứng
        for i, pred_value in enumerate(pred_vals):
            # Lấy datetime_utc từ timestamps (đã ở UTC)
            datetime_utc = timestamps[i]
            
            # Tạo document để lưu vào MongoDB
            document = {
                'name': param,
                'value': float(pred_value),  # Chuyển giá trị dự đoán sang float
                'datetime_utc': datetime_utc
            }
            
            # Chèn document vào collection
            collection.insert_one(document)
    
    # Đóng kết nối MongoDB
    client.close()
    print("Predictions saved to MongoDB successfully.")

# Tạo timestamps ở múi giờ UTC
# Bắt đầu từ giờ hiện tại ở múi giờ +7, chuyển về UTC
tz_vn = pytz.timezone('Asia/Ho_Chi_Minh')  # Múi giờ Việt Nam (+7)
now_vn = datetime.now(tz_vn)  # Lấy thời gian hiện tại ở Việt Nam
next_hour_vn = (now_vn + timedelta(hours=1)).replace(minute=0, second=0, microsecond=0)  # Giờ tiếp theo, làm tròn
next_hour_utc = next_hour_vn.astimezone(pytz.UTC)  # Chuyển về UTC

# Tạo danh sách timestamps trong UTC
timestamps = [next_hour_utc + timedelta(hours=i) for i in range(pred.shape[1])]

# Gọi hàm để lưu kết quả dự đoán
save_predictions_to_mongodb(pred, df, timestamps)

Predictions saved to MongoDB successfully.


In [12]:
print(timestamps[0])

2025-05-04 12:00:00+00:00


In [13]:
from pymongo import MongoClient
from datetime import datetime, timedelta
import pandas as pd
import pytz

def query_predictions_next_24h_and_delete(df):
    # Kết nối tới MongoDB
    client = MongoClient('mongodb+srv://dbUser:123@openaq.mqifn0v.mongodb.net/?retryWrites=true&w=majority&appName=OpenAQ')
    db = client['openaq_db']
    
    # Lấy thời gian hiện tại ở múi giờ +7 (Asia/Ho_Chi_Minh) và chuyển sang UTC
    local_tz = pytz.timezone('Asia/Ho_Chi_Minh')
    now_local = datetime.now(local_tz)
    now_utc = now_local.astimezone(pytz.UTC)
    
    # Khoảng thời gian truy vấn (1h - 24h tiếp theo), dựa trên UTC
    start_time = now_utc + timedelta(hours=0)
    end_time = now_utc + timedelta(hours=24)
    
    print("Local time (+7):", now_local.isoformat())
    print("UTC time:", now_utc.isoformat())
    print("Query range (UTC):", start_time.isoformat(), "to", end_time.isoformat())
    
    # Khởi tạo dictionary để lưu dữ liệu
    data = {}
    
    # Lặp qua từng feature (tên cột) trong DataFrame
    for feature_name in df.columns:
        # Lấy location_id và param từ tên cột
        location_id = feature_name.split('_')[0]
        param = feature_name.split('_')[1]
        collection = db[f'predict_location_{location_id}']
        
        # Truy vấn MongoDB: lấy các bản ghi trong khoảng 1h - 24h tiếp theo
        cursor = collection.find({
            'name': param,
            'datetime_utc': {
                '$gte': start_time,
                '$lte': end_time
            }
        }).sort('datetime_utc', 1)  # Sắp xếp theo datetime_utc tăng dần
        
        # Lấy danh sách giá trị và thời gian
        values = []
        timestamps = []
        for doc in cursor:
            value = doc.get('value', None)
            timestamp = doc.get('datetime_utc')
            # Đảm bảo timestamp là UTC
            if timestamp.tzinfo is None:
                timestamp = pytz.UTC.localize(timestamp)
            values.append(value)
            timestamps.append(timestamp)
        
        print(f"Feature {feature_name}: {len(values)} records found")
        
        # Lưu vào dictionary
        data[f'{feature_name}_value'] = values
        data[f'{feature_name}_datetime'] = timestamps
    
    # Chuyển data thành DataFrame
    result_df = pd.DataFrame(data)
    
    # Xóa các collection bắt đầu bằng 'predict_location'
    collections = db.list_collection_names()
    deleted_collections = []
    for collection_name in collections:
        if collection_name.startswith('predict_location'):
            db[collection_name].drop()
            deleted_collections.append(collection_name)
    
    # Đóng kết nối MongoDB
    client.close()
    
    print("Shape of result DataFrame:", result_df.shape)
    print(result_df.head())
    print("Deleted collections:", deleted_collections)
    print("✅ Dữ liệu dự đoán đã được truy vấn và xóa thành công. Tất cả thời gian được chuẩn hóa sang UTC.")
    
    return result_df

# Gọi hàm để query dữ liệu dự đoán và xóa collections
result_df = query_predictions_next_24h_and_delete(df)

Local time (+7): 2025-05-04T18:24:35.972148+07:00
UTC time: 2025-05-04T11:24:35.972148+00:00
Query range (UTC): 2025-05-04T11:24:35.972148+00:00 to 2025-05-05T11:24:35.972148+00:00
Feature 1543132_pm25: 24 records found
Feature 1563313_pm25: 24 records found
Feature 1563313_temperature: 24 records found
Feature 2161296_co: 24 records found
Feature 2161296_no2: 24 records found
Feature 2161296_pm10: 24 records found
Feature 2161296_pm25: 24 records found
Feature 225579_pm25: 24 records found
Feature 225631_pm25: 24 records found
Feature 225661_co: 24 records found
Feature 225661_no2: 24 records found
Feature 225661_o3: 24 records found
Feature 225661_pm10: 24 records found
Feature 225661_pm25: 24 records found
Feature 2857820_pm25: 24 records found
Feature 2857820_relativehumidity: 24 records found
Feature 2857820_temperature: 24 records found
Feature 2857820_um003: 24 records found
Feature 3038744_pm25: 24 records found
Feature 3038744_relativehumidity: 24 records found
Feature 3038744

In [14]:
result_df['1543132_pm25_datetime']

0    2025-05-04 12:00:00+00:00
1    2025-05-04 13:00:00+00:00
2    2025-05-04 14:00:00+00:00
3    2025-05-04 15:00:00+00:00
4    2025-05-04 16:00:00+00:00
5    2025-05-04 17:00:00+00:00
6    2025-05-04 18:00:00+00:00
7    2025-05-04 19:00:00+00:00
8    2025-05-04 20:00:00+00:00
9    2025-05-04 21:00:00+00:00
10   2025-05-04 22:00:00+00:00
11   2025-05-04 23:00:00+00:00
12   2025-05-05 00:00:00+00:00
13   2025-05-05 01:00:00+00:00
14   2025-05-05 02:00:00+00:00
15   2025-05-05 03:00:00+00:00
16   2025-05-05 04:00:00+00:00
17   2025-05-05 05:00:00+00:00
18   2025-05-05 06:00:00+00:00
19   2025-05-05 07:00:00+00:00
20   2025-05-05 08:00:00+00:00
21   2025-05-05 09:00:00+00:00
22   2025-05-05 10:00:00+00:00
23   2025-05-05 11:00:00+00:00
Name: 1543132_pm25_datetime, dtype: datetime64[ns, UTC]