# RNN đơn giản (one-to-one, many-to-one)

In [1]:
import tensorflow as tf

# Cấu hình mô hình RNN nhiều lớp (many-to-one)
num_classes = 5  # ví dụ 5 lớp phân loại
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=32),   # Embedding từ từ thành vector
    tf.keras.layers.SimpleRNN(64),                              # RNN layer với 64 đơn vị ẩn
    tf.keras.layers.Dense(num_classes, activation='softmax')    # Lớp output với softmax
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# LSTM

In [2]:
import tensorflow as tf

# Ví dụ LSTM cho phân loại chuỗi (many-to-one)
num_classes = 3  # ví dụ 3 lớp phân loại
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=64),   # Embedding với 64 chiều
    tf.keras.layers.LSTM(128),                                  # LSTM layer với 128 đơn vị ẩn
    tf.keras.layers.Dense(num_classes, activation='softmax')    # Output softmax
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# GRU

In [3]:
import tensorflow as tf

# Ví dụ GRU cho phân loại chuỗi
num_classes = 4
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=64),   # Embedding
    tf.keras.layers.GRU(64),                                    # GRU layer với 64 đơn vị ẩn
    tf.keras.layers.Dense(num_classes, activation='softmax')    # Output softmax
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# BiLSTM

In [4]:
import tensorflow as tf

# Ví dụ BiLSTM cho phân loại chuỗi (many-to-one)
num_classes = 2
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=64),     # Embedding
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),      # BiLSTM với 64 đơn vị (32 mỗi chiều)
    tf.keras.layers.Dense(num_classes, activation='softmax')
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# Mạng LSTM xếp chồng

In [5]:
import tensorflow as tf

# Ví dụ Stacked LSTM (2 tầng)
num_classes = 5
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=64),
    tf.keras.layers.LSTM(128, return_sequences=True),  # LSTM tầng 1 (xuất ra chuỗi)
    tf.keras.layers.LSTM(128),                         # LSTM tầng 2 (xuất ra ẩn cuối)
    tf.keras.layers.Dense(num_classes, activation='softmax')
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# Pipeline xử lý văn bản (Phân loại)

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1. Dữ liệu văn bản mẫu
texts = [
    "Tôi yêu học máy",
    "Mạng nơ-ron rất mạnh mẽ",
    "Học sâu trong NLP"
]
labels = [1, 0, 1]  # Ví dụ nhãn nhị phân

# 2. Tokenization & tạo từ điển
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

# 3. Đệm chuỗi về độ dài bằng nhau
data = pad_sequences(sequences, maxlen=5)
print(data)  # Mỗi câu được chuyển thành mảng số nguyên cố định độ dài

[[ 0  2  3  1  4]
 [ 6  7  8  9 10]
 [ 0  1 11 12 13]]


# Nhận dạng Thực thể có tên (NER) với BiLSTM

In [7]:
import tensorflow as tf

# Giả sử có 3 loại nhãn (ví dụ: PERSON, ORG, O)
num_tags = 3
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=5000, output_dim=64),
    tf.keras.layers.Bidirectional(
        tf.keras.layers.LSTM(64, return_sequences=True)
    ),
    tf.keras.layers.TimeDistributed(
        tf.keras.layers.Dense(num_tags, activation='softmax')
    )
])
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

None


# EDA DATASET

Yêu cầu: Thực hiện EDA và tiền xử lý 2 bộ dataset trước khi làm bài lab

## BỘ DỮ LIỆU UIT-VSFC (Phân loại văn bản)

1. Kiểm tra cấu trúc bộ dữ liệu

* Tải và đọc các file .txt hoặc .csv từ UIT-VSFC.

* Kiểm tra các cột có trong dataset (ví dụ: sentence, label).

* Kiểm tra số lượng mẫu train/valid/test.

* Lấy 10 mẫu đầu tiên để xem dữ liệu thực trông như thế nào.

2. Phân tích phân bố nhãn (Label Distribution)

* Thống kê tần suất mỗi nhãn (Positive / Negative / Neutral).

* Vẽ biểu đồ (bar chart) phân bố nhãn.

* **Trả lời câu hỏi**: Bộ dữ liệu có bị mất cân bằng nhãn không?

3. Phân tích độ dài câu

* Tính số token/word trong từng câu.

* Vẽ histogram hoặc boxplot độ dài câu.

Tìm: Max sequence length hợp lý khi padding (ví dụ: 50, 100, 200).

4. Thống kê từ vựng

* Đếm số lượng từ vựng (unique tokens).

* Top 20 từ xuất hiện nhiều nhất.

* Trả lời câu hỏi: Có cần làm preprocessing không? (lowercase, remove punctuation, fix unicode…)

5. Tiền xử lý dữ liệu

* Sinh viên phải mô tả:

* Các bước preprocessing sẽ áp dụng cho text: chuẩn hóa unicode, tách từ (tokenization dùng VnCoreNLP / underthesea / pyvi…), lowercasing, xử lý emoji, loại bỏ ký tự thừa, ...

Minh hoạ bằng ví dụ before → after.

## BỘ DỮ LIỆU PhoNERT

1. Kiểm tra cấu trúc dữ liệu

* Tải và đọc các file train, test, dev.

* In 20 dòng đầu để xem cấu trúc dữ liệu BIO

2. Thống kê số câu trong từng tập

* Số câu trong train/dev/test

* Số lượng token mỗi tập

3. Phân bố nhãn thực thể

* Thống kê số lần xuất hiện của từng nhãn (B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG, O,...).

* Vẽ biểu đồ bar chart phân bố nhãn.

Trả lời:

* Nhãn nào xuất hiện nhiều nhất?

* Nhãn nào xuất hiện hiếm?

4. Phân tích độ dài câu

* Tính số token cho từng câu.

* Tìm min / max / mean.

Trả lời câu hỏi: padding tối ưu? có câu nào quá dài gây bất lợi cho LSTM?