In [None]:
import torch
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from transformers import AutoModel, AutoTokenizer

In [None]:
df = pd.read_csv('data.csv')

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
train_texts, test_texts, train_labels, test_labels = train_test_split(df['free_text'], df['label_id'], test_size=0.2, random_state=42)

# Tải mô hình PhoBERT và tokenizer
phobert_model = AutoModel.from_pretrained("vinai/phobert-base")
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base")

In [None]:
def text_to_phobert_embedding(text, max_length=256):
    tokens = tokenizer(text, return_tensors="pt", truncation=True, max_length=max_length)
    if 'input_ids' not in tokens or len(tokens['input_ids'][0]) == 0:
        return np.zeros((1, phobert_model.config.hidden_size))

    with torch.no_grad():
        outputs = phobert_model(**tokens)

    embeddings = outputs.last_hidden_state[:, 0, :].numpy()
    return embeddings

In [None]:
train_texts = train_texts.astype(str).tolist()

# Chuyển đổi tất cả văn bản thành biểu diễn của PhoBERT
train_embeddings = np.array([text_to_phobert_embedding(text) for text in train_texts])

test_texts = test_texts.astype(str).tolist()

# Chuyển đổi tất cả văn bản thành biểu diễn của PhoBERT
test_embeddings = np.array([text_to_phobert_embedding(text) for text in test_texts])

In [None]:
# Xây dựng mô hình
model = Sequential()
model.add(LSTM(32, input_shape=(train_embeddings.shape[1], train_embeddings.shape[2])))
model.add(Dense(1, activation='sigmoid'))


In [None]:
# Biên soạn và đào tạo mô hình
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(train_embeddings, train_labels, epochs=10, batch_size=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x795aff3ae980>

In [None]:
# Kiểm thử mô hình với dữ liệu kiểm tra
predictions = model.predict(test_embeddings)
predictions_binary = np.round(predictions).flatten()



In [None]:
# Đánh giá mô hình
accuracy = np.sum(predictions_binary == test_labels) / len(test_labels)
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 79.38%


In [None]:
# Chuẩn bị câu cần kiểm tra
sample_text = "con đuỹ"

# Chuyển đổi câu thành biểu diễn của PhoBERT
sample_tokens = tokenizer(sample_text, return_tensors="pt", truncation=True, max_length=256)
with torch.no_grad():
    sample_outputs = phobert_model(**sample_tokens)

# Lấy vector biểu diễn của [CLS] token
sample_embedding = sample_outputs.last_hidden_state[:, 0, :].numpy()

# Dự đoán bằng mô hình đã được đào tạo
sample_prediction = model.predict(np.array([sample_embedding]))

# In kết quả
print(f"Câu: {sample_text}")
print(f"Dự đoán: {'Tục' if sample_prediction > 0.5 else 'Không tục'}")

In [None]:
# Lưu mô hình
model.save("vietnam_model.h5")

  saving_api.save_model(
