# Báo cáo quy trình — AIS 1-step Forecasting
**Ngày cập nhật:** 2025-09-05

Bản báo cáo này giải thích **từng bước** quy trình làm việc (workflow) trong notebook huấn luyện/đánh giá,
theo dạng **mỗi bước = một cell Markdown** để dễ đọc, kiểm tra và tái lập.


## Mục tiêu & Phạm vi
- Dự báo **vị trí 1-bước (t+1)** từ cửa sổ quan sát **L=10** trên dữ liệu AIS (California 04/2023).
- Đánh giá bằng **RMSE/MAE/Median/P90/P95/Hit@100m** (đơn vị **mét**, nghịch chuẩn từ scaler).


## Quản lý môi trường & Tái lập
- Python `3.12.3` hoặc từ `3.10` tới `3.11`
- toàn bộ thư viện và phiên bản hiện thời chứa trong file `requirements.txt`
- Nếu dùng các phiên bản hiện thời có thể dùng các lệnh `!pip install` đã được comment bên dưới để cài đặt thư viện.

In [38]:
# gọi các thư viện để sử dụng
# tháo cmt các dòng dưới để cài đặt thư viện. lưu ý kích hoạt môi trường ảo.
# !pip install --upgrade pip setuptools wheel
# !pip install numpy==1.26.4 pyarrow==14.0.2 duckdb==1.3.2
# !pip install --upgrade "pandas>=2.2.2"
# !pip install tqdm
# !pip install scikit-learn
# !pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
# !pip install folium
# !pip install pyproj
# !pip install sqlalchemy
# !pip install pyodbc
import pyodbc
from glob import glob # tìm kiếm thư mục theo mẫu tên *.txt ...
import glob
import os # operation system
import duckdb # duckdb và pyarrow dùng để đọc, tách xử lí file lớn. trích xuất là file nhỏ hơn.
import pyarrow 
import pandas as pd # pandas để xử lí dữ liệu
from tqdm import tqdm # in tiến trình, theo dõi huấn luyện mô hình.
from utils_1 import * # file utils_1.py chứa các hàm xử lí
from sklearn.preprocessing import StandardScaler # chuấn hóa z-score
from torch.utils.data import DataLoader, TensorDataset, random_split # tải và biến đổi input vào cấu hình tensor
import torch # pytorrch
import torch.nn as nn # pytorch với neural networks
import torch.optim as optim # tối ưu hóa 
from torch.cuda.amp import GradScaler, autocast # lan truyền ngược, đạo hàm quy tắc chuỗi chuẩn hóa
import folium # vẽ biểu đồ động
from pyproj import Transformer # hệ quy chiếu đổi kinh độ, vĩ độ sang không gian vector phẳng
from sqlalchemy import create_engine
import matplotlib.pyplot as plt # trực quan hóa
import warnings # tắt cảnh báo
warnings.filterwarnings("ignore")

## Tải dữ liệu thô (AIS) & Rà soát sơ bộ
- Đọc dữ liệu AIS từ CSV/Parquet.
- Cột quan trọng: `MMSI`, `BaseDateTime`, `SOG`, `Heading`, `COG`, `lat`, `lon`.
- Thống kê nhanh: số bản ghi, khoảng thời gian, số tàu, phân phối SOG/Δt.
- Kiểm tra NaN/Inf, timestamp lỗi.
- Dùng thư viện `duckdb` để giải quyết vấn đề file lớn, phân tách file dễ xử lí hơn.
- Các dòng lệnh sau chỉ cần chạy một lần để tạo thư mục chứa các bản ghi dữ liệu. Nên comment lại để không chạy nhiều lần.

In [2]:
# conn = duckdb.connect()

# file_path = "/home/quangmanh/Documents/nghien_cuu/2023_NOAA_AIS_logs_04.parquet"

# # 1. Lọc record hợp lệ ngay
# base_query = f"""
# SELECT *
# FROM '{file_path}'
# WHERE BaseDateTime >= '2023-04-01'
#   AND BaseDateTime <  '2023-05-01'
#   AND LAT BETWEEN 33.2 AND 34.1
#   AND LON BETWEEN -119.1 AND -117.9
#   AND SOG > 3
#   AND COG >= 0 AND COG < 360
#   AND Heading >= 0 AND Heading < 360
# """

# # 2. Chọn top 350 MMSI nhiều bản ghi nhất (sau lọc)
# top_mmsi = conn.execute(f"""
# SELECT MMSI, COUNT(*) AS n_points
# FROM ({base_query})
# GROUP BY MMSI
# ORDER BY n_points DESC
# LIMIT 350
# """).df()

# # 3. Lọc lại dataset chỉ còn các MMSI đó
# mmsi_list = ", ".join(str(m) for m in top_mmsi['MMSI'])
# subset_query = f"""
# SELECT * FROM ({base_query})
# WHERE MMSI IN ({mmsi_list})
# """

# # 4. Xuất ra file partition theo MMSI
# conn.execute(f"""
# COPY (
#   SELECT *, MMSI AS MMSI_copy
#   FROM ({subset_query})
# ) TO '/home/quangmanh/Documents/nghien_cuu/cali_apr2023_350ships_clean/'
# (FORMAT PARQUET, COMPRESSION 'zstd', PARTITION_BY (MMSI));
# """)


In [3]:
base = "cali_apr2023_350ships_clean" # tên thư mục chứa data sau tách với duckdb và pyarrow
all_files = glob.glob(os.path.join(base, "MMSI=*/data_*.parquet")) # dùng glob để quét toàn bộ file có tên theo dạng "MMSI=*/data_*.parquet".

dfs = [pd.read_parquet(f) for f in all_files] # dùng vòng lặp đọc từng file một.
df_all = pd.concat(dfs, ignore_index=True) # gộp theo chiều dọc tạo dataframe duy nhất.

## Làm sạch và tư duy về dữ liệu
- Lọc ngoại lệ: `SOG ≤ 0` khi không cần, `SOG > ngưỡng`, `Δt ≤ 0` hoặc quá lớn. Bị sai về tư duy vật lý
- Sắp xếp dữ liệu theo (MMSI, BaseDateTime).
- Đồng bộ múi giờ nếu có sự khác biệt.
- Tạo các đặc trưng quan trọng được liệt kê trong `utils_1.py`
- Chọn mốc `(lat₀, lon₀)` → chuyển sang phẳng **(X_m, Y_m)** bằng equirectangular.
- Chuẩn hoá: fit **StandardScaler** trên tập train → sinh `(X_norm, Y_norm)`.
- Lưu meta scaler để nghịch chuẩn khi đánh giá.
- Chuẩn hoá góc: `Heading_sin/cos`, `COG_sin/cos`.
- Thời gian: `hour_sin/cos` từ `BaseDateTime`.
- Bộ đặc trưng mỗi thời điểm:
  `["SOG","Heading_sin","Heading_cos","COG_sin","COG_cos","X_norm","Y_norm","hour_sin","hour_cos"]`
- Ghi rõ thứ tự cột để giữ nhất quán train/val/test.

In [4]:
df_all_proc, meta = build_phase_features(df_all) # dùng hàm ở module utils_1.py để tạo các đặc trưng cần thiết. lưu độ lệch chuẩn đã chuẩn hóa vào meta.

In [5]:
print(list(df_all_proc.columns))
df_all_proc.head() # kiểm tra dữ liệu với 5 dòng đầu. Xem các cột trong dataframe.

['BaseDateTime', 'LAT', 'LON', 'SOG', 'COG', 'Heading', 'MMSI_copy', 'Heading_sin', 'Heading_cos', 'COG_sin', 'COG_cos', 'hour_sin', 'hour_cos', 'X_m', 'Y_m', 'X_norm', 'Y_norm']


Unnamed: 0,BaseDateTime,LAT,LON,SOG,COG,Heading,MMSI_copy,Heading_sin,Heading_cos,COG_sin,COG_cos,hour_sin,hour_cos,X_m,Y_m,X_norm,Y_norm
42977,2023-04-04 16:25:45,33.9407,-119.09992,10.1,123.9,127.0,209795000,0.798636,-0.601815,0.830012,-0.557745,-0.916625,-0.399749,-77922.775572,25128.941472,-2.829472,1.7398
42978,2023-04-04 16:26:55,33.93878,-119.09661,10.2,126.7,131.0,209795000,0.75471,-0.656059,0.801776,-0.597625,-0.918648,-0.395078,-77616.622964,24915.447213,-2.816954,1.727037
42979,2023-04-04 16:28:05,33.93667,-119.09357,10.1,131.7,135.0,209795000,0.707107,-0.707107,0.746638,-0.66523,-0.920647,-0.390396,-77335.44353,24680.825918,-2.805458,1.713012
42980,2023-04-04 16:29:14,33.93444,-119.09071,10.2,132.7,135.0,209795000,0.707107,-0.707107,0.734915,-0.67816,-0.922594,-0.385772,-77070.912879,24432.861232,-2.794642,1.69819
42981,2023-04-04 16:30:25,33.93211,-119.08772,10.2,132.3,135.0,209795000,0.707107,-0.707107,0.739631,-0.673013,-0.924574,-0.381003,-76794.358107,24173.777053,-2.783334,1.682702


## Cắt cửa sổ chuỗi (Sliding Window)
- Với mỗi tàu (MMSI), cắt t0..t9 → dự báo t+1, stride=1.
- Lọc: `stop_speed > 6`, `1 < Δt ≤ 300` giây, loại `SOG > 40`.
- Giới hạn số cửa sổ/mỗi tàu để tránh lệch phân phối.
- Hàm: `build_sequence_samples_limited(...)`.


In [7]:
# tạo window slide gồm 10 bước từ t0 tới t9 tạo thành segment để xử lí dữ liệu. gọi hàm trong module utils_1.py
shards = build_sequence_samples_limited(
    df_all_proc,
    feature_cols=FEATURE_INPUT, # các đặc trưng được chọn viết trong file utils
    seq_len=10, # 10 bước từ t0 tới t9
    stop_speed=6.0, # tốc độ tối thiểu
    max_time_gap=300.0, # delta t tối đa là 300s
    max_sog=40.0, # tốc độ tối đa
    mmsi_col="MMSI_copy", # mã phân biệt tàu
    time_col="BaseDateTime", # cột thời gian
    target_cols=tuple(TARGET), #type: ignore 
    stride=1, # bước trượt của window
    max_samples_per_group=270_000,  # chỉnh theo RAM tránh tràn
    max_total_groups=10             # số shard tối đa
)


# Ghép thành 1 DataFrame lớn (nếu đủ RAM)
df_train = pd.concat(shards, ignore_index=True)

In [10]:
print(list(df_train.columns)) # kiểm tra 
df_train.head()

['SOG_t0', 'Heading_sin_t0', 'Heading_cos_t0', 'COG_sin_t0', 'COG_cos_t0', 'X_norm_t0', 'Y_norm_t0', 'hour_sin_t0', 'hour_cos_t0', 'SOG_t1', 'Heading_sin_t1', 'Heading_cos_t1', 'COG_sin_t1', 'COG_cos_t1', 'X_norm_t1', 'Y_norm_t1', 'hour_sin_t1', 'hour_cos_t1', 'SOG_t2', 'Heading_sin_t2', 'Heading_cos_t2', 'COG_sin_t2', 'COG_cos_t2', 'X_norm_t2', 'Y_norm_t2', 'hour_sin_t2', 'hour_cos_t2', 'SOG_t3', 'Heading_sin_t3', 'Heading_cos_t3', 'COG_sin_t3', 'COG_cos_t3', 'X_norm_t3', 'Y_norm_t3', 'hour_sin_t3', 'hour_cos_t3', 'SOG_t4', 'Heading_sin_t4', 'Heading_cos_t4', 'COG_sin_t4', 'COG_cos_t4', 'X_norm_t4', 'Y_norm_t4', 'hour_sin_t4', 'hour_cos_t4', 'SOG_t5', 'Heading_sin_t5', 'Heading_cos_t5', 'COG_sin_t5', 'COG_cos_t5', 'X_norm_t5', 'Y_norm_t5', 'hour_sin_t5', 'hour_cos_t5', 'SOG_t6', 'Heading_sin_t6', 'Heading_cos_t6', 'COG_sin_t6', 'COG_cos_t6', 'X_norm_t6', 'Y_norm_t6', 'hour_sin_t6', 'hour_cos_t6', 'SOG_t7', 'Heading_sin_t7', 'Heading_cos_t7', 'COG_sin_t7', 'COG_cos_t7', 'X_norm_t7', 'Y

Unnamed: 0,SOG_t0,Heading_sin_t0,Heading_cos_t0,COG_sin_t0,COG_cos_t0,X_norm_t0,Y_norm_t0,hour_sin_t0,hour_cos_t0,SOG_t1,...,Heading_sin_t9,Heading_cos_t9,COG_sin_t9,COG_cos_t9,X_norm_t9,Y_norm_t9,hour_sin_t9,hour_cos_t9,X_norm,Y_norm
0,10.1,0.798635,-0.601815,0.830012,-0.557745,-2.829472,1.739799,-0.916625,-0.399749,10.2,...,0.707107,-0.707107,0.730162,-0.683274,-2.726229,1.606196,-0.93423,-0.35667,-2.713598,1.58918
1,10.2,0.75471,-0.656059,0.801776,-0.597625,-2.816954,1.727037,-0.918648,-0.395078,10.1,...,0.707107,-0.707107,0.724172,-0.68962,-2.713598,1.58918,-0.936264,-0.351297,-2.702366,1.574024
2,10.1,0.707107,-0.707107,0.746638,-0.66523,-2.805458,1.713012,-0.920647,-0.390396,10.2,...,0.707107,-0.707107,0.732543,-0.680721,-2.702366,1.574024,-0.93804,-0.346526,-2.69121,1.559002
3,10.2,0.707107,-0.707107,0.734915,-0.67816,-2.794642,1.69819,-0.922594,-0.385772,10.2,...,0.707107,-0.707107,0.734915,-0.67816,-2.69121,1.559002,-0.939792,-0.341747,-2.678503,1.542053
4,10.2,0.707107,-0.707107,0.739631,-0.673012,-2.783334,1.682702,-0.924574,-0.381003,10.1,...,0.731354,-0.681998,0.743145,-0.669131,-2.678503,1.542053,-0.94174,-0.336342,-2.668746,1.529623


### Kết nối SQL Server
- Đẩy dữ liệu dưới dạng dataframe xuống SQLServer.
- Gọi lên lại để dùng luôn dataframe.
- Vậy từ sau chỉ cần run phần gọi từ database và import các thư viện là sẽ có dữ liệu huấn luyện.

In [31]:
# Kết nối SQL Server

conn_str = "mssql+pyodbc://sa:StrongPassword123!@localhost:1433/model_train?driver=ODBC+Driver+17+for+SQL+Server"
engine = create_engine(conn_str, fast_executemany=True)


In [None]:

# safe_chunksize = max(10, 2000 // len(df_train.columns))

# df_train.to_sql(
#     name="NOAA_AIS",
#     con=engine,
#     if_exists="append",   # "fail" để chỉ tạo, "replace" để drop rồi tạo lại
#     index=False,
#     chunksize=safe_chunksize,
#     method="multi"        # ghép nhiều hàng/statement (tôn trọng limit 2100)
# )

In [32]:
engine = create_engine(conn_str)

# ---- 3) Đọc dữ liệu từ bảng ----
df = pd.read_sql("SELECT * FROM NOAA_AIS", engine)

print(df.shape) 
df_train = df  


(212934, 92)


In [33]:
# kiểm tra và lưu các đặc trưng input để dùng và phục vụ cho code khác. 
x = ['SOG_t0','Heading_sin_t0','Heading_cos_t0','COG_sin_t0','COG_cos_t0','X_norm_t0','Y_norm_t0','hour_sin_t0','hour_cos_t0',
 'SOG_t1','Heading_sin_t1','Heading_cos_t1','COG_sin_t1','COG_cos_t1','X_norm_t1','Y_norm_t1','hour_sin_t1','hour_cos_t1',
 'SOG_t2','Heading_sin_t2','Heading_cos_t2','COG_sin_t2','COG_cos_t2','X_norm_t2','Y_norm_t2','hour_sin_t2','hour_cos_t2',
 'SOG_t3','Heading_sin_t3','Heading_cos_t3','COG_sin_t3','COG_cos_t3','X_norm_t3','Y_norm_t3','hour_sin_t3','hour_cos_t3',
 'SOG_t4','Heading_sin_t4','Heading_cos_t4','COG_sin_t4','COG_cos_t4','X_norm_t4','Y_norm_t4','hour_sin_t4','hour_cos_t4',
 'SOG_t5','Heading_sin_t5','Heading_cos_t5','COG_sin_t5','COG_cos_t5','X_norm_t5','Y_norm_t5','hour_sin_t5','hour_cos_t5',
 'SOG_t6','Heading_sin_t6','Heading_cos_t6','COG_sin_t6','COG_cos_t6','X_norm_t6','Y_norm_t6','hour_sin_t6','hour_cos_t6',
 'SOG_t7','Heading_sin_t7','Heading_cos_t7','COG_sin_t7','COG_cos_t7','X_norm_t7','Y_norm_t7','hour_sin_t7','hour_cos_t7',
 'SOG_t8','Heading_sin_t8','Heading_cos_t8','COG_sin_t8','COG_cos_t8','X_norm_t8','Y_norm_t8','hour_sin_t8','hour_cos_t8',
 'SOG_t9','Heading_sin_t9','Heading_cos_t9','COG_sin_t9','COG_cos_t9','X_norm_t9','Y_norm_t9','hour_sin_t9','hour_cos_t9']


## Chia tập Train / Val, Tensor hóa, Cấu hình mô hình LSTM + attention.
- Chia theo MMSI (ưu tiên, tránh rò rỉ).
- Ví dụ: 200k mẫu train, 10k mẫu val, phần còn lại test.
- Lưu danh sách MMSI theo từng tập để tái lập sau.
- Chuyển DataFrame → tensor `X` (N×L×d), `Y` (N×2).
- Tạo DataLoader với `batch_size=64`, `shuffle=True` cho train.
- Kiểm tra nhanh 1 batch: shape, NaN/Inf.
- 2-layer LSTM (hidden=256, dropout=0.2).
- Attention pooling → FC(2).
- Đầu vào: `(batch, 10, 9)` → đầu ra: `(batch, 2)`.
- Loss: MSE trên toạ độ chuẩn hoá.

## Huấn luyện Baseline (Phase A)
- Optimizer: Adam, LR ~ 5e-5.
- (Tuỳ chọn) warmup vài epoch, EMA smoothing.
- Early stopping theo val loss.
- Log mỗi epoch: Train/Val MSE (chuẩn hoá) + metric mét.
- Lưu checkpoint tốt nhất: `best_model.pt` + meta (scaler, input order).


In [17]:
SEQ_LEN = 10 # 10 bước t0 tới t_9
BATCH_SIZE = 64 # batch vào là 64 cân nhắc theo cấu hình máy và độ ổn định mô hình
EPOCHS = 40 # số lần học qua tập dữ liệu
PATIENCE = 20 # kiên nhẫn, mô hình không khá lên sau 20 epochs thì dừng
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' # dùng GPU huấn luyện

X_cols = x # input, biến đầu vào
y_cols = ['X_norm', 'Y_norm'] # biến mục tiêu
clip_cols = ['deltaX', 'deltaY', 'bearing_diff', 'time_diff']

# tiền xử lí sai phạm, xử lí giá trị nan ...
def preprocess_df(df, X_cols, y_cols, clip_cols):
    df = df.replace([np.inf, -np.inf], np.nan)
    df = df.dropna(subset=X_cols + y_cols)
    # xử lí các cột clip để ổn định việc học
    for col in clip_cols:
        if col in df.columns:
            df[col] = df[col].clip(-1e4, 1e4)
    # chuyển kích cỡ phù hợp cho đầu vào 
    X = df[X_cols].values.reshape(-1, SEQ_LEN, len(X_cols) // SEQ_LEN)
    Y = df[y_cols].values

    # chuyển các giá trị của biến vào cấu hình tensor
    X_tensor = torch.tensor(X, dtype=torch.float32)
    Y_tensor = torch.tensor(Y, dtype=torch.float32)

    # bộ lọc để xử lí nan và inf
    mask = ~(
        torch.isnan(X_tensor).any(dim=(1, 2)) |
        torch.isnan(Y_tensor).any(dim=1) |
        torch.isinf(X_tensor).any(dim=(1, 2)) |
        torch.isinf(Y_tensor).any(dim=1) |
        (X_tensor.abs() > 1e4).any(dim=(1, 2)) |
        (Y_tensor.abs() > 1e4).any(dim=1)
    )

    return X_tensor[mask], Y_tensor[mask]

X_tensor, Y_tensor = preprocess_df(df_train, X_cols, y_cols, clip_cols) #áp dụng hàm preprocess_df

# chia data: 200k cho train, 10k cho val
X_train_tensor, Y_train_tensor = X_tensor[:200_000], Y_tensor[:200_000]
X_val_tensor,   Y_val_tensor   = X_tensor[200_000:210_000], Y_tensor[200_000:210_000]

# load dữ liệu, chuyển thành dạng cho tensor, ngẫu nhiên với shiffle=True
train_loader = DataLoader(TensorDataset(X_train_tensor, Y_train_tensor), batch_size=BATCH_SIZE, shuffle=True)
val_loader   = DataLoader(TensorDataset(X_val_tensor,   Y_val_tensor),   batch_size=BATCH_SIZE)

# cấu hình mạng nơ ron LSTM + cơ chế attention.
# 2 lớp.
# mỗi lớp có 256 node.
# dropout 20% để tránh quá khớp.
class ShipLSTM(nn.Module):
    def __init__(self, input_size, hidden_size=256, num_layers=2, dropout=0.2):
        super().__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers,
                            batch_first=True, dropout=dropout)
        self.attn = nn.Linear(hidden_size, 1)
        self.fc = nn.Linear(hidden_size, 2)

    def forward(self, x):
        lstm_out, _ = self.lstm(x)
        attn_weights = torch.softmax(self.attn(lstm_out), dim=1)
        context = torch.sum(attn_weights * lstm_out, dim=1)
        return self.fc(context)

# gọi model
# tối ưu với phương pháp ADMAM, tốc độ học là 10^-4, dùng loss là MSE
model = ShipLSTM(input_size=X_tensor.shape[2]).to(DEVICE)
optimizer = optim.Adam(model.parameters(), lr=1e-4)
loss_fn = nn.MSELoss()
scaler = GradScaler()
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=3)

best_val_loss = float('inf')
early_stop_counter = 0

# dùng vòng lặp để huấn luyện, tqdm để in tiến trình
# huấn luyện là model.train() và đánh giá là model.val()
for epoch in range(EPOCHS):
    model.train()
    total_train_loss = 0
    for xb, yb in tqdm(train_loader, desc=f"[Epoch {epoch+1}/{EPOCHS}] Train", leave=False):
        xb, yb = xb.to(DEVICE), yb.to(DEVICE)
        optimizer.zero_grad()
        with autocast():
            pred = model(xb)
            loss = loss_fn(pred, yb)
        scaler.scale(loss).backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        scaler.step(optimizer)
        scaler.update()
        total_train_loss += loss.item()

    model.eval()
    total_val_loss = 0
    with torch.no_grad():
        for xb, yb in tqdm(val_loader, desc=f"[Epoch {epoch+1}/{EPOCHS}] Val", leave=False):
            xb, yb = xb.to(DEVICE), yb.to(DEVICE)
            pred = model(xb)
            loss = loss_fn(pred, yb)
            total_val_loss += loss.item()

    # tính loss MSE
    avg_train_loss = total_train_loss / len(train_loader)
    avg_val_loss = total_val_loss / len(val_loader)

    print(f"Epoch {epoch+1:02d} | Train MSE: {avg_train_loss:.6f} | Val MSE: {avg_val_loss:.6f}")

    scheduler.step(avg_val_loss)

    # kiểm tra điều kiện để dừng sớm early stop.
    if avg_val_loss < best_val_loss:
        best_val_loss = avg_val_loss
        early_stop_counter = 0
        torch.save(model.state_dict(), "best_model.pt")
    else:
        early_stop_counter += 1
        if early_stop_counter >= PATIENCE:
            print(f"[STOP] Early stopping at epoch {epoch+1}")
            break


                                                                        

Epoch 01 | Train MSE: 0.052355 | Val MSE: 0.001384


                                                                        

Epoch 02 | Train MSE: 0.002357 | Val MSE: 0.001366


                                                                        

Epoch 03 | Train MSE: 0.002095 | Val MSE: 0.001306


                                                                        

Epoch 04 | Train MSE: 0.001967 | Val MSE: 0.001293


                                                                        

Epoch 05 | Train MSE: 0.001867 | Val MSE: 0.001222


                                                                        

Epoch 06 | Train MSE: 0.001845 | Val MSE: 0.001273


                                                                        

Epoch 07 | Train MSE: 0.001756 | Val MSE: 0.001183


                                                                        

Epoch 08 | Train MSE: 0.001725 | Val MSE: 0.001264


                                                                        

Epoch 09 | Train MSE: 0.001700 | Val MSE: 0.001291


                                                                         

Epoch 10 | Train MSE: 0.001672 | Val MSE: 0.001216


                                                                         

Epoch 11 | Train MSE: 0.001659 | Val MSE: 0.001184


                                                                         

Epoch 12 | Train MSE: 0.001611 | Val MSE: 0.001216


                                                                         

Epoch 13 | Train MSE: 0.001602 | Val MSE: 0.001157


                                                                         

Epoch 14 | Train MSE: 0.001591 | Val MSE: 0.001242


                                                                         

Epoch 15 | Train MSE: 0.001579 | Val MSE: 0.001172


                                                                         

Epoch 16 | Train MSE: 0.001567 | Val MSE: 0.001195


                                                                         

Epoch 17 | Train MSE: 0.001570 | Val MSE: 0.001195


                                                                         

Epoch 18 | Train MSE: 0.001548 | Val MSE: 0.001147


                                                                         

Epoch 19 | Train MSE: 0.001536 | Val MSE: 0.001151


                                                                         

Epoch 20 | Train MSE: 0.001542 | Val MSE: 0.001144


                                                                         

Epoch 21 | Train MSE: 0.001531 | Val MSE: 0.001156


                                                                         

Epoch 22 | Train MSE: 0.001535 | Val MSE: 0.001140


                                                                         

Epoch 23 | Train MSE: 0.001531 | Val MSE: 0.001144


                                                                         

Epoch 24 | Train MSE: 0.001526 | Val MSE: 0.001133


                                                                         

Epoch 25 | Train MSE: 0.001518 | Val MSE: 0.001141


                                                                         

Epoch 26 | Train MSE: 0.001520 | Val MSE: 0.001135


                                                                         

Epoch 27 | Train MSE: 0.001516 | Val MSE: 0.001176


                                                                         

Epoch 28 | Train MSE: 0.001512 | Val MSE: 0.001135


                                                                         

Epoch 29 | Train MSE: 0.001504 | Val MSE: 0.001135


                                                                         

Epoch 30 | Train MSE: 0.001503 | Val MSE: 0.001140


                                                                         

Epoch 31 | Train MSE: 0.001499 | Val MSE: 0.001156


                                                                         

Epoch 32 | Train MSE: 0.001500 | Val MSE: 0.001130


                                                                         

Epoch 33 | Train MSE: 0.001499 | Val MSE: 0.001164


                                                                         

Epoch 34 | Train MSE: 0.001492 | Val MSE: 0.001162


                                                                         

Epoch 35 | Train MSE: 0.001493 | Val MSE: 0.001129


                                                                         

Epoch 36 | Train MSE: 0.001500 | Val MSE: 0.001143


                                                                         

Epoch 37 | Train MSE: 0.001490 | Val MSE: 0.001126


                                                                         

Epoch 38 | Train MSE: 0.001496 | Val MSE: 0.001137


                                                                         

Epoch 39 | Train MSE: 0.001488 | Val MSE: 0.001148


                                                                         

Epoch 40 | Train MSE: 0.001487 | Val MSE: 0.001131




In [34]:
# tái tạo lại cùng cấu hình mang nơ ron để dự báo
class ShipLSTM(nn.Module):
    def __init__(self, input_size, hidden_size=256, num_layers=2, dropout=0.2):
        super().__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, dropout=dropout)
        self.attn = nn.Linear(hidden_size, 1)
        self.fc   = nn.Linear(hidden_size, 2)

    def forward(self, x):
        out, _ = self.lstm(x)
        w = torch.softmax(self.attn(out), dim=1)
        ctx = (w * out).sum(dim=1)
        return self.fc(ctx)

# hàm dự báo
def predict(df_input, model_path="best_model_tube.pt", batch_size=1024, seq_len=10, X_cols=None, device=None):
    device = device or ('cuda' if torch.cuda.is_available() else 'cpu')

    # có thể viết X_cols = x
    if X_cols is None:
        X_cols = x
    if len(X_cols) % seq_len != 0:
        raise ValueError(f"len(X_cols)={len(X_cols)} not divisible by seq_len={seq_len}")

    input_size = len(X_cols) // seq_len

    X_np = df_input[X_cols].to_numpy(dtype=np.float32).reshape(-1, seq_len, input_size)

    # gọi model tái tạo
    model = ShipLSTM(input_size=input_size).to(device)
    # tạo model tái tạo
    state = torch.load(model_path, map_location=device)
    model.load_state_dict(state["model_state_dict"] if isinstance(state, dict) and "model_state_dict" in state else state)
    model.eval()

    # dùng vòng lặp dự báo toàn mẫu.
    preds = []
    with torch.no_grad():
        for i in range(0, len(X_np), batch_size):
            xb = torch.from_numpy(X_np[i:i+batch_size]).to(device, non_blocking=True)
            yb = model(xb)
            preds.append(yb.detach().cpu())
    return torch.cat(preds, dim=0).numpy()

# thêm dự báo vào df
def predict_to_df(df_input, model_path="best_model.pt", batch_size=1024, seq_len=10, X_cols=None,
                  out_cols=("pred_X_norm","pred_Y_norm"), device=None):
    preds = predict(df_input, model_path, batch_size, seq_len, X_cols, device)
    df_out = df_input.copy()
    df_out[out_cols[0]] = preds[:,0]
    df_out[out_cols[1]] = preds[:,1]
    return df_out


### Trực quan bằng biểu đồ.
- Dùng folium để vẽ biểu đồ từ dữ liệu huấn luyện, gọi lại mô hình, dự báo từ dữ liệu $t_0$ tới $t_9$
- Sau khi dự báo xong thì dữ liệu là các điểm màu xanh, điểm dự báo là màu đỏ.

In [35]:
# vẽ biểu đồ  động để trực quan với một bản ghi window slide. từ t0 tới t9.
m = plot_ship_trajectory(
    df_train, idx=500,
    model_path="best_model.pt",
    scaler=meta["scaler_xy"],
    meta=meta,
    device="cpu"
)
m.save("map_2.html")
m

In [36]:
# import os, joblib, numpy as np
# from sklearn.preprocessing import StandardScaler
# from pathlib import Path

# # meta['scaler_xy'] có thể là StandardScaler, hoặc (mean, scale), hoặc dict {"mean","scale"}
# sx = meta["scaler_xy"]

# def rebuild_scaler(sx):
#     if isinstance(sx, StandardScaler):
#         return sx
#     if isinstance(sx, (list, tuple)) and len(sx)==2:
#         mean, scale = np.asarray(sx[0], float), np.asarray(sx[1], float)
#     elif isinstance(sx, dict) and "mean" in sx and "scale" in sx:
#         mean, scale = np.asarray(sx["mean"], float), np.asarray(sx["scale"], float)
#     else:
#         raise ValueError("Unknown scaler_xy format")
#     sc = StandardScaler()
#     sc.mean_ = mean; sc.scale_ = scale; sc.var_ = scale**2; sc.n_features_in_ = mean.shape[0]; 
#     return sc

# scaler_xy = rebuild_scaler(sx)

# Path("artifacts").mkdir(parents=True, exist_ok=True)
# joblib.dump({"scaler_xy": scaler_xy}, "artifacts/geo_norm_meta.joblib")
# print("[saved]", Path("artifacts/geo_norm_meta.joblib").resolve())

# # sanity check
# import numpy as np
# Yn = np.array([[0.1, -0.2],[0.0,0.0]], dtype=np.float32)
# Y_back = scaler_xy.transform(scaler_xy.inverse_transform(Yn))
# print("roundtrip max abs diff:", float(np.max(np.abs(Yn - Y_back))))


## Đánh giá Baseline (Phase A)
- Nghịch chuẩn dự đoán → toạ độ mét.
- Tính các metric:
  - RMSE, MAE, Median, P90, P95
  - Hit@100m (tỷ lệ mẫu có sai số ≤100 m)
- Thống kê micro (toàn tập) và macro (theo tàu).
- Phân tích theo bins:
  - Δt (0–60, 60–120, 120–300 s)
  - SOG (6–10, 10–15, 15+ knots)
- Lưu bảng kết quả và mô tả phân phối lỗi.


In [37]:
# predict ra tọa độ chuẩn hoá
df_val_windows = df_train 
pred_norm = predict(df_val_windows,
                          model_path="best_model.pt", # gọi đúng tên file mô hình sau khi huấn luyện.
                          batch_size=1024)

# ground truth
true_norm = df_val_windows[["X_norm","Y_norm"]].to_numpy(dtype="float32")

# tính metrics
import joblib, numpy as np

scaler_xy = joblib.load("artifacts/geo_norm_meta.joblib")["scaler_xy"] # dùng file để gọi standar scaler
metrics = compute_point_metrics_norm(pred_norm, true_norm, scaler_xy)

# in dict metrics
print("== Phase A / 1-step ==")
for k, v in metrics.items():
    if isinstance(v, (int, float, np.floating)):
        print(f"{k}: {v:.4f}" if np.isfinite(v) else f"{k}: {v}")
    else:
        print(f"{k}: {v}")

== Phase A / 1-step ==
rmse_m: 1034.7971
mae_m: 196.1617
median_m: 117.4542
p90_m: 328.6471
p95_m: 476.0308
mse_vec_m2: 1070805.0000
hit@100_m: 0.4159
n: 212934.0000


## Kết luận Phase A
- Mô hình baseline (LSTM+Attention) đã huấn luyện ổn định, không rò rỉ dữ liệu.
- Kết quả:
  - RMSE ~1030 m
  - Median ~109 m
  - P90 ~309 m
  - Hit@100m ~0.46
- Đuôi lỗi (p90/p95) tương đối nhỏ → đa số dự báo <500 m.
- RMSE bị kéo cao bởi outlier (~1 km).
- Đây là mốc tham chiếu để so sánh với Phase B (ràng buộc vật lý).
