In [1]:
import os, random, math
import numpy as np
import pandas as pd

In [2]:
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
os.environ["PYTHONHASHSEED"] = str(SEED)

# 1) Load data (2 cột: text, category)
data_path = '/home/dangth2004/Programming/Natural-Language-Processing/data/hwu'
df_train = pd.read_csv(os.path.join(data_path, 'train.csv'), header=None, names=['text', 'category'])
df_val = pd.read_csv(os.path.join(data_path, 'val.csv'), header=None, names=['text', 'category'])
df_test = pd.read_csv(os.path.join(data_path, 'test.csv'), header=None, names=['text', 'category'])


# Nếu dòng đầu là header cũ bị đọc nhầm (ví dụ cell đầu tiên là 'text' hoặc 'category'), ta bỏ:
def drop_misread_header(df):
    if isinstance(df.iloc[0, 0], str) and df.iloc[0, 0].strip().lower() in {"text", "utterance", "sentence"}:
        return df.iloc[1:].reset_index(drop=True)
    if isinstance(df.iloc[0, 1], str) and df.iloc[0, 1].strip().lower() in {"category", "intent", "label"}:
        return df.iloc[1:].reset_index(drop=True)
    return df.reset_index(drop=True)


df_train = drop_misread_header(df_train)
df_val = drop_misread_header(df_val)
df_test = drop_misread_header(df_test)

print("Train shape:", df_train.shape)
print("Validation shape:", df_val.shape)
print("Test shape:", df_test.shape)
print(df_train.head())

Train shape: (8954, 2)
Validation shape: (1076, 2)
Test shape: (1076, 2)
                                                text     category
0                what alarms do i have set right now  alarm_query
1                    checkout today alarm of meeting  alarm_query
2                              report alarm settings  alarm_query
3  see see for me the alarms that you have set to...  alarm_query
4                       is there an alarm for ten am  alarm_query


In [3]:
for d in (df_train, df_val, df_test):
    d["text"] = d["text"].astype(str).fillna("")
    d["category"] = d["category"].astype(str).fillna("")

# Encode labels
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(pd.concat([df_train["category"], df_val["category"], df_test["category"]], axis=0))
y_train = le.transform(df_train["category"])
y_val = le.transform(df_val["category"])
y_test = le.transform(df_test["category"])
num_classes = len(le.classes_)
print("Num classes:", num_classes)

Num classes: 64


# Pipeline TF-IDF + Logistic Regression

In [4]:
from sklearn.metrics import f1_score, classification_report
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

tfidf_lr_pipeline = make_pipeline(
    TfidfVectorizer(max_features=5000, ngram_range=(1, 2)),
    LogisticRegression(max_iter=1000, n_jobs=None)  # n_jobs=None để tương thích nhiều môi trường
)
tfidf_lr_pipeline.fit(df_train["text"], y_train)

y_pred_lr = tfidf_lr_pipeline.predict(df_test["text"])
f1_lr = f1_score(y_test, y_pred_lr, average="macro")

print("\n[TF-IDF + LR] Classification report (test):")
print(classification_report(y_test, y_pred_lr, target_names=le.classes_))

# LR không dùng Keras, không có test loss theo nghĩa cross-entropy ở Keras
loss_lr = np.nan


[TF-IDF + LR] Classification report (test):
                          precision    recall  f1-score   support

             alarm_query       0.95      0.95      0.95        19
            alarm_remove       1.00      0.73      0.84        11
               alarm_set       0.85      0.89      0.87        19
       audio_volume_down       1.00      0.75      0.86         8
       audio_volume_mute       0.92      0.80      0.86        15
         audio_volume_up       1.00      1.00      1.00        13
          calendar_query       0.55      0.58      0.56        19
         calendar_remove       0.78      0.95      0.86        19
            calendar_set       0.87      0.68      0.76        19
          cooking_recipe       0.92      0.63      0.75        19
        datetime_convert       0.78      0.88      0.82         8
          datetime_query       0.71      0.89      0.79        19
        email_addcontact       0.88      0.88      0.88         8
             email_query      

# Pipeline Word2Vec (Trung bình) + Dense Layer

In [5]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# 1) Train Word2Vec trên text train (có thể thêm val để phong phú)
sentences_train = [simple_preprocess(t) for t in df_train["text"].tolist()]
sentences_all = sentences_train  # hoặc: sentences_train + [simple_preprocess(t) for t in df_val["text"]]
w2v_model = Word2Vec(sentences=sentences_all, vector_size=100, window=5, min_count=1, workers=4, seed=SEED)


# 2) Hàm chuyển câu -> vector trung bình
def sentence_to_avg_vector(text, model, vector_size=100):
    tokens = simple_preprocess(text)
    vectors = []
    for tok in tokens:
        if tok in model.wv:
            vectors.append(model.wv[tok])
    if len(vectors) == 0:
        return np.zeros(vector_size, dtype=np.float32)
    return np.mean(vectors, axis=0).astype(np.float32)


# 3) Tạo X_avg cho train/val/test
X_train_avg = np.vstack([sentence_to_avg_vector(t, w2v_model, w2v_model.vector_size) for t in df_train["text"]])
X_val_avg = np.vstack([sentence_to_avg_vector(t, w2v_model, w2v_model.vector_size) for t in df_val["text"]])
X_test_avg = np.vstack([sentence_to_avg_vector(t, w2v_model, w2v_model.vector_size) for t in df_test["text"]])

# 4) Mô hình Dense
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.utils import to_categorical

y_train_oh = to_categorical(y_train, num_classes)
y_val_oh = to_categorical(y_val, num_classes)
y_test_oh = to_categorical(y_test, num_classes)

dense_avg = Sequential([
    Dense(128, activation='relu', input_shape=(w2v_model.vector_size,)),
    Dropout(0.5),
    Dense(num_classes, activation='softmax')
])
dense_avg.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
dense_avg.summary()

es = EarlyStopping(patience=3, restore_best_weights=True, monitor='val_loss')
hist_dense = dense_avg.fit(
    X_train_avg, y_train_oh,
    validation_data=(X_val_avg, y_val_oh),
    epochs=30, batch_size=64, callbacks=[es], verbose=0
)

test_loss_dense, test_acc_dense = dense_avg.evaluate(X_test_avg, y_test_oh, verbose=0)
y_pred_dense = dense_avg.predict(X_test_avg, verbose=0).argmax(axis=1)
f1_dense = f1_score(y_test, y_pred_dense, average="macro")

print("\n[W2V Avg + Dense] Test loss:", test_loss_dense, " | Test macro-F1:", f1_dense)
print(classification_report(y_test, y_pred_dense, target_names=le.classes_))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
I0000 00:00:1762877215.521739   43703 gpu_device.cc:2020] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 2141 MB memory:  -> device: 0, name: NVIDIA GeForce RTX 3050 Laptop GPU, pci bus id: 0000:01:00.0, compute capability: 8.6


2025-11-11 23:06:57.488181: I external/local_xla/xla/service/service.cc:163] XLA service 0x71ae14002d60 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2025-11-11 23:06:57.488195: I external/local_xla/xla/service/service.cc:171]   StreamExecutor device (0): NVIDIA GeForce RTX 3050 Laptop GPU, Compute Capability 8.6
2025-11-11 23:06:57.518511: I tensorflow/compiler/mlir/tensorflow/utils/dump_mlir_util.cc:269] disabling MLIR crash reproducer, set env var `MLIR_CRASH_REPRODUCER_DIRECTORY` to enable.
2025-11-11 23:06:57.670627: I external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:473] Loaded cuDNN version 91002
2025-11-11 23:06:57.765873: I external/local_xla/xla/service/gpu/autotuning/dot_search_space.cc:208] All configs were filtered out because none of them sufficiently match the hints. Maybe the hints set does not contain a good representative set of valid configs? Working around this by using the full hints set instead.
2025-11-11 23:06:57.


[W2V Avg + Dense] Test loss: 3.083510398864746  | Test macro-F1: 0.1465069598224745
                          precision    recall  f1-score   support

             alarm_query       0.19      0.53      0.27        19
            alarm_remove       0.25      0.09      0.13        11
               alarm_set       0.43      0.84      0.57        19
       audio_volume_down       0.50      0.12      0.20         8
       audio_volume_mute       0.12      0.07      0.09        15
         audio_volume_up       0.12      0.15      0.14        13
          calendar_query       0.06      0.05      0.05        19
         calendar_remove       0.23      0.26      0.24        19
            calendar_set       0.20      0.16      0.18        19
          cooking_recipe       0.33      0.05      0.09        19
        datetime_convert       0.00      0.00      0.00         8
          datetime_query       0.15      0.63      0.24        19
        email_addcontact       0.00      0.00      0.00 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


# Embedding Pre-trained + LSTM

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM


# 1) Tokenizer + sequences + padding
def estimate_max_len(texts, q=0.95):
    lens = [len(simple_preprocess(t)) for t in texts]
    return max(5, int(np.quantile(lens, q)))


max_len = estimate_max_len(df_train["text"])
tokenizer = Tokenizer(oov_token="<UNK>")
tokenizer.fit_on_texts(df_train["text"].tolist())


def to_padded(texts, tokenizer, max_len):
    seqs = tokenizer.texts_to_sequences(texts)
    return pad_sequences(seqs, maxlen=max_len, padding='post', truncating='post')


X_train_pad = to_padded(df_train["text"], tokenizer, max_len)
X_val_pad = to_padded(df_val["text"], tokenizer, max_len)
X_test_pad = to_padded(df_test["text"], tokenizer, max_len)

vocab_size = len(tokenizer.word_index) + 1
embedding_dim = w2v_model.vector_size

# 2) Embedding matrix từ Word2Vec
embedding_matrix = np.zeros((vocab_size, embedding_dim), dtype=np.float32)
for word, i in tokenizer.word_index.items():
    if word in w2v_model.wv:
        embedding_matrix[i] = w2v_model.wv[word]

# 3) LSTM với embedding pretrained (đóng băng)
from tensorflow.keras.layers import Dense as KDense, Dropout as KDropout
from tensorflow.keras.models import Sequential as KSequential

lstm_pre = KSequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=embedding_dim,
        weights=[embedding_matrix],
        input_length=max_len,
        trainable=False
    ),
    LSTM(128, dropout=0.2, recurrent_dropout=0.2),
    KDense(num_classes, activation='softmax')
])
lstm_pre.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
lstm_pre.summary()

es2 = EarlyStopping(patience=3, restore_best_weights=True, monitor='val_loss')
hist_pre = lstm_pre.fit(
    X_train_pad, y_train_oh,
    validation_data=(X_val_pad, y_val_oh),
    epochs=20, batch_size=64, callbacks=[es2], verbose=0
)

test_loss_pre, test_acc_pre = lstm_pre.evaluate(X_test_pad, y_test_oh, verbose=0)
y_pred_pre = lstm_pre.predict(X_test_pad, verbose=0).argmax(axis=1)
f1_pre = f1_score(y_test, y_pred_pre, average="macro")
print("\n[LSTM + Pretrained Emb] Test loss:", test_loss_pre, " | Test macro-F1:", f1_pre)
print(classification_report(y_test, y_pred_pre, target_names=le.classes_))




[LSTM + Pretrained Emb] Test loss: 2.6372928619384766  | Test macro-F1: 0.2477003674309803
                          precision    recall  f1-score   support

             alarm_query       0.25      0.47      0.33        19
            alarm_remove       0.56      0.45      0.50        11
               alarm_set       0.56      0.79      0.65        19
       audio_volume_down       0.33      0.38      0.35         8
       audio_volume_mute       0.06      0.07      0.06        15
         audio_volume_up       0.35      0.46      0.40        13
          calendar_query       0.08      0.05      0.06        19
         calendar_remove       0.20      0.42      0.27        19
            calendar_set       0.12      0.16      0.13        19
          cooking_recipe       0.10      0.05      0.07        19
        datetime_convert       0.00      0.00      0.00         8
          datetime_query       0.40      0.53      0.45        19
        email_addcontact       0.50      0.12    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


# Embedding học từ đầu + LSTM (trainable)

In [7]:
lstm_scratch = KSequential([
    Embedding(
        input_dim=vocab_size,
        output_dim=100,
        input_length=max_len
    ),
    LSTM(128, dropout=0.2, recurrent_dropout=0.2),
    KDense(num_classes, activation='softmax')
])
lstm_scratch.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
lstm_scratch.summary()

es3 = EarlyStopping(patience=3, restore_best_weights=True, monitor='val_loss')
hist_scratch = lstm_scratch.fit(
    X_train_pad, y_train_oh,
    validation_data=(X_val_pad, y_val_oh),
    epochs=20, batch_size=64, callbacks=[es3], verbose=0
)

test_loss_scratch, test_acc_scratch = lstm_scratch.evaluate(X_test_pad, y_test_oh, verbose=0)
y_pred_scratch = lstm_scratch.predict(X_test_pad, verbose=0).argmax(axis=1)
f1_scratch = f1_score(y_test, y_pred_scratch, average="macro")
print("\n[LSTM + Scratch Emb] Test loss:", test_loss_scratch, " | Test macro-F1:", f1_scratch)
print(classification_report(y_test, y_pred_scratch, target_names=le.classes_))




[LSTM + Scratch Emb] Test loss: 0.7178176045417786  | Test macro-F1: 0.8274877091803279
                          precision    recall  f1-score   support

             alarm_query       0.95      1.00      0.97        19
            alarm_remove       0.92      1.00      0.96        11
               alarm_set       0.89      0.89      0.89        19
       audio_volume_down       0.88      0.88      0.88         8
       audio_volume_mute       0.77      0.67      0.71        15
         audio_volume_up       0.86      0.92      0.89        13
          calendar_query       0.46      0.58      0.51        19
         calendar_remove       0.86      1.00      0.93        19
            calendar_set       0.87      0.68      0.76        19
          cooking_recipe       0.65      0.58      0.61        19
        datetime_convert       0.83      0.62      0.71         8
          datetime_query       0.77      0.89      0.83        19
        email_addcontact       0.80      1.00      0

# Bảng so sánh định lượng + Phân tích định tính

In [8]:
results = pd.DataFrame({
    "Pipeline": [
        "TF-IDF + Logistic Regression",
        "Word2Vec (Avg) + Dense",
        "Embedding (Pre-trained) + LSTM",
        "Embedding (Scratch) + LSTM"
    ],
    "F1-score (Macro)": [
        f1_lr,
        f1_dense,
        f1_pre,
        f1_scratch
    ],
    "Test Loss": [
        np.nan,
        test_loss_dense,
        test_loss_pre,
        test_loss_scratch
    ]
})
print("\n=== Tổng hợp kết quả (Test) ===")
print(results)

# --------- Phân tích định tính ----------
hard_sentences = [
    ("can you remind me to not call my mom", None),  # kỳ vọng: reminder_create
    ("is it going to be sunny or rainy tomorrow", None),  # kỳ vọng: weather_query
    ("find a flight from new york to london but not through paris", None)  # kỳ vọng: flight_search
]


def predict_all_models(raw_text):
    # 1) TF-IDF + LR
    pred_lr = le.classes_[tfidf_lr_pipeline.predict([raw_text])[0]]

    # 2) W2V Avg + Dense
    x_avg = sentence_to_avg_vector(raw_text, w2v_model, w2v_model.vector_size).reshape(1, -1)
    pred_dense = le.classes_[dense_avg.predict(x_avg, verbose=0).argmax(axis=1)[0]]

    # 3) LSTM pretrained
    x_pad = to_padded([raw_text], tokenizer, max_len)
    pred_pre = le.classes_[lstm_pre.predict(x_pad, verbose=0).argmax(axis=1)[0]]

    # 4) LSTM scratch
    pred_scr = le.classes_[lstm_scratch.predict(x_pad, verbose=0).argmax(axis=1)[0]]

    return pred_lr, pred_dense, pred_pre, pred_scr


print("\n=== Phân tích định tính trên các câu 'khó' ===")
for sent, gold in hard_sentences:
    p_lr, p_dense, p_pre, p_scr = predict_all_models(sent)
    print(f"\nCâu: {sent}")
    print(f" - TF-IDF+LR:              {p_lr}")
    print(f" - W2V(Avg)+Dense:         {p_dense}")
    print(f" - LSTM + Pretrained Emb:  {p_pre}")
    print(f" - LSTM + Scratch Emb:     {p_scr}")
    if gold is not None:
        print(f" -> Nhãn thật: {gold}")


=== Tổng hợp kết quả (Test) ===
                         Pipeline  F1-score (Macro)  Test Loss
0    TF-IDF + Logistic Regression          0.828865        NaN
1          Word2Vec (Avg) + Dense          0.146507   3.083510
2  Embedding (Pre-trained) + LSTM          0.247700   2.637293
3      Embedding (Scratch) + LSTM          0.827488   0.717818

=== Phân tích định tính trên các câu 'khó' ===

Câu: can you remind me to not call my mom
 - TF-IDF+LR:              calendar_set
 - W2V(Avg)+Dense:         general_explain
 - LSTM + Pretrained Emb:  general_explain
 - LSTM + Scratch Emb:     calendar_set

Câu: is it going to be sunny or rainy tomorrow
 - TF-IDF+LR:              weather_query
 - W2V(Avg)+Dense:         alarm_query
 - LSTM + Pretrained Emb:  social_query
 - LSTM + Scratch Emb:     weather_query

Câu: find a flight from new york to london but not through paris
 - TF-IDF+LR:              transport_query
 - W2V(Avg)+Dense:         email_sendemail
 - LSTM + Pretrained Emb:  transpo

- TF-IDF + Logistic Regression hoạt động xuất sắc: Mặc dù mô hình này bỏ qua hoàn toàn thứ tự từ và các mối quan hệ ngữ pháp phức tạp (như "not through paris"), F1-score cao (0.828) và kết quả định tính chính xác cho thấy: việc phân loại ý định trong bộ dữ liệu này phụ thuộc chủ yếu vào các từ khóa (keywords) đặc trưng (ví dụ: "flight", "sunny", "remind me"). Yếu tố phủ định ("not") dường như không đủ trọng số để làm thay đổi ý định chính (transport_query).

- Word2Vec (Avg) + Dense thất bại hoàn toàn: Như giả định, việc lấy trung bình (averaging) các vector từ đã làm mất hoàn toàn cấu trúc chuỗi và thông tin ngữ nghĩa quan trọng. Một câu có ý nghĩa (find a flight...) và một câu vô nghĩa (a flight find...) sẽ có vector biểu diễn gần giống nhau, khiến mô hình không thể học được (F1=0.14).

- LSTM + Pretrained Embedding gây bất ngờ lớn: Trái với lý thuyết thông thường (rằng pre-trained embedding giúp tổng quát hóa tốt hơn khi dữ liệu ít), kết quả F1 (0.24) cho thấy sự không tương thích (mismatch) nghiêm trọng về miền dữ liệu (domain). Các vector từ được huấn luyện trước (ví dụ: trên Wikipedia, tin tức) không mang ngữ nghĩa chính xác cho các câu lệnh ngắn, đặc thù của bộ dữ liệu này.

- LSTM + Embedding (Scratch) là mô hình học sâu tốt nhất: Đây là kết luận then chốt. Khi được phép học embedding từ đầu (from scratch), mô hình LSTM đã xây dựng được một không gian vector từ vựng tùy chỉnh (custom), hoàn toàn phù hợp với domain dữ liệu. Nó đã học được các sắc thái ngữ nghĩa (và có thể cả thứ tự từ) cần thiết để đạt F1-score cao (0.827), ngang bằng với baseline TF-IDF mạnh nhất. Điều này cho thấy dữ liệu là đủ "phong phú" để tự học embedding mà không bị overfitting.