## Sử dụng Sentence Embedding để xây dựng mô hình phân loại cảm xúc
Sentence Embedding là cách biểu diễn văn bản dưới dạng vector sử dụng các mô hình nhúng ngữ nghĩa sâu (như Sentence-BERT, FastText, hoặc Transformers).Ở đây sử dụng Sentence-BERT (SBERT), một mô hình dựa trên BERT nhưng được tối ưu hóa để tính toán tương đồng và vector hóa câu.

# Bước 1: Load dữ liệu

In [None]:
import os

# Đọc dữ liệu từ folder (CÁ NHÂN HÓA ĐƯỜNG DẪN `base_dir` DƯỚI ĐÂY)
def load_data_from_folder(base_dir):
    """
    base_dir: Thư mục gốc chứa dữ liệu train/test với cấu trúc:
    ├── test
    │   ├── neg
    │   └── pos
    └── train
        ├── neg
        └── pos
    """
    texts, labels = [], []
    for label_type in ["neg", "pos"]:
        dir_name = os.path.join(base_dir, label_type)
        for fname in os.listdir(dir_name):
            if fname.endswith(".txt"):
                with open(os.path.join(dir_name, fname), encoding="utf-8") as f:
                    texts.append(f.read())
                labels.append(0 if label_type == "neg" else 1)
    return texts, labels

train_dir = "D:/Code/KPW/Final_project_Auto_craw_NLP/data_train/data_train/train"
test_dir = "D:/Code/KPW/Final_project_Auto_craw_NLP/data_test/data_test/test"

train_texts, train_labels = load_data_from_folder(train_dir)
test_texts, test_labels = load_data_from_folder(test_dir)

print(f"Số mẫu train: {len(train_texts)}")
print(f"Số mẫu test: {len(test_texts)}")


Số mẫu train: 30000
Số mẫu test: 10000


# Bước 2: Tiền xử lý

In [2]:
import re
from pyvi import ViTokenizer

# Hàm tiền xử lý văn bản
def preprocess_text(text):
    """
    text: Văn bản cần xử lý
    - Chuyển thành chữ thường
    - Loại bỏ số, ký tự đặc biệt, khoảng trắng thừa
    - Tách từ tiếng Việt
    """
    text = text.lower()
    text = re.sub(r"\d+", "", text)
    text = re.sub(r"[^\w\s]", "", text)
    text = re.sub(r"\s+", " ", text)
    text = text.strip()
    return ViTokenizer.tokenize(text)

# Áp dụng tiền xử lý cho dữ liệu
train_texts = [preprocess_text(text) for text in train_texts]
test_texts = [preprocess_text(text) for text in test_texts]

print(f"Mẫu dữ liệu sau tiền xử lý: {train_texts[:1]}")


Mẫu dữ liệu sau tiền xử lý: ['mua có mỗi bingsu thập_cẩm k mà mình f đợi hơn hỏi lại thì nv tl có r nhg bảo chờ thêm nữa tụi e lm liền mình k biết có ngon k nhg cũng muốn ăn thử thiết_nghĩ nv quán nên xem_lại cách pv và nc vs khách']


# Bước 3: Vector hóa với Sentence-BERT

In [6]:
from sentence_transformers import SentenceTransformer

# Tải mô hình Sentence-BERT
model = SentenceTransformer("distiluse-base-multilingual-cased-v1")

# Vector hóa dữ liệu
X_train = model.encode(train_texts, show_progress_bar=True)
X_test = model.encode(test_texts, show_progress_bar=True)

print(f"Kích thước vector của một câu: {X_train[0].shape}")





To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Batches: 100%|██████████| 938/938 [19:13<00:00,  1.23s/it]
Batches: 100%|██████████| 313/313 [07:29<00:00,  1.44s/it]


Kích thước vector của một câu: (512,)


# Bước 4: Huấn luyện mô hình
Không cần cá nhân hóa, nhưng bạn có thể thay đổi siêu tham số max_iter nếu muốn.

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Huấn luyện Logistic Regression
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, train_labels)

# Dự đoán trên tập test
y_pred = clf.predict(X_test)

# Đánh giá mô hình
print(f"Độ chính xác trên tập test: {accuracy_score(test_labels, y_pred):.2f}")
print("Báo cáo phân loại:")
print(classification_report(test_labels, y_pred))


Độ chính xác trên tập test: 0.70
Báo cáo phân loại:
              precision    recall  f1-score   support

           0       0.69      0.70      0.70      5000
           1       0.70      0.69      0.69      5000

    accuracy                           0.70     10000
   macro avg       0.70      0.70      0.70     10000
weighted avg       0.70      0.70      0.70     10000



# Bước 5: Lưu mô hình

In [19]:
import joblib

model_save_path = "D:/Code/KPW/Final_project_Auto_craw_NLP/model_save_path/sentiment_classifier.pkl"
vectorizer_save_path = "D:/Code/KPW/Final_project_Auto_craw_NLP/vectorizer_save_path/sentence_transformer.pkl"

# Lưu mô hình phân loại và Sentence-BERT
os.makedirs(os.path.dirname(model_save_path), exist_ok=True)
joblib.dump(clf, model_save_path)
joblib.dump(model, vectorizer_save_path)
print("Mô hình và Sentence-BERT đã được lưu.")


Mô hình và Sentence-BERT đã được lưu.


# Bước 6: Dự đoán với dữ liệu mới
Bạn có thể cá nhân hóa văn bản đầu vào new_text theo ngữ cảnh sử dụng của bạn.

In [1]:
import joblib
from sentence_transformers import SentenceTransformer

# Tải mô hình đã lưu
loaded_clf = joblib.load("D:/Code/KPW/Final_project_Auto_craw_NLP/model_save_path/sentiment_classifier.pkl")
loaded_model = SentenceTransformer("distiluse-base-multilingual-cased-v1")


  from .autonotebook import tqdm as notebook_tqdm





In [2]:
import re
from pyvi import ViTokenizer
def preprocess_text(text):
    """
    text: Văn bản cần xử lý
    - Chuyển thành chữ thường
    - Loại bỏ số, ký tự đặc biệt, khoảng trắng thừa
    - Tách từ tiếng Việt
    """
    text = text.lower()
    text = re.sub(r"\d+", "", text)
    text = re.sub(r"[^\w\s]", "", text)
    text = re.sub(r"\s+", " ", text)
    text = text.strip()
    return ViTokenizer.tokenize(text)

In [3]:
new_text = "Thầy Thủy tuy khó nhưng dạy hay"
preprocessed_text = preprocess_text(new_text)
vectorized_text = loaded_model.encode([preprocessed_text])
prediction = loaded_clf.predict(vectorized_text)

print(f"Dự đoán cảm xúc: {'Tích cực' if prediction[0] == 1 else 'Tiêu cực'}")

Dự đoán cảm xúc: Tiêu cực


In [4]:
new_text = "Thầy Thủy rất đẹp trai"
preprocessed_text = preprocess_text(new_text)
vectorized_text = loaded_model.encode([preprocessed_text])
prediction = loaded_clf.predict(vectorized_text)

print(f"Dự đoán cảm xúc: {'Tích cực' if prediction[0] == 1 else 'Tiêu cực'}")

Dự đoán cảm xúc: Tiêu cực


## Bước 7: Thực hiện lấy dữ liệu từ MongoDB về và phân tích cảm xúc bình luận

In [None]:
from pymongo import MongoClient

client = MongoClient('mongodb+srv://MLadmin:admin1021@machinelearning.so3qxxp.mongodb.net/')
db = client['KPW']
col_group = db['groupScraping']
col_fanpage = db['fanpageScraping']
d=0

type = input('Bạn muốn phân tích cảm xúc trong bình luận của group hay fanpage? (group/fanpage): ')

if type == 'fanpage':
    for item in col_fanpage.find():
        for i in item['Cmts']:
            if d==0:
                print('-------------------------------------------------------------------------------')
                print(item['Text-Content'])
            d+=1
            
            preprocessed_text = preprocess_text(i)
            vectorized_text = loaded_model.encode([preprocessed_text])
            prediction = loaded_clf.predict(vectorized_text)
            print(i)
            print(f"Dự đoán cảm xúc: {'Tích cực' if prediction[0] == 1 else 'Tiêu cực'}")
        d=0
else:
    for item in col_group.find():
        for i in item['Cmts']:
            if d==0:
                print('-------------------------------------------------------------------------------')
                print(item['Text-Content'])
            d+=1
            
            preprocessed_text = preprocess_text(i)
            vectorized_text = loaded_model.encode([preprocessed_text])
            prediction = loaded_clf.predict(vectorized_text)
            print(i)
            print(f"Dự đoán cảm xúc: {'Tích cực' if prediction[0] == 1 else 'Tiêu cực'}")
        d=0

-------------------------------------------------------------------------------
Chuyện là hôm qua mình có "vô tình" truy cập vào trang web phim hành động ít diễn viên (trong này chắc chưa ông nào mà chưa  "vô tình" lần nào nhỉ 
 ).
Trong này có ông nào làm trong nhà mạng internet thì cho mình hỏi cái này: từ lâu tới nay mọi người vẫn nghĩ nhà mạng logs lại internet activities của clients, vậy với số lượng client và lượng truy cập khổng lồ thì cái database dùng để log nó phải có tốc độ xử lý khủng khiếp và dung lượng lưu trữ lớn tới như thế nào mới có thể đáp ứng được việc này.
Hay thực sự không có logs nhỉ? 
 #j2team_ask
có cách nào tải về khi idm không bắt link được không mn nhỉ ?
Dự đoán cảm xúc: Tiêu cực
Các huynh đài cho hỏi, giờ dùng extension nào chặn q/c ytb vậy. Ublock hết dc r
Dự đoán cảm xúc: Tiêu cực
Câu hỏi hay đấy, họ đo traffic hàng tuần, tháng và năm để xem nhu cầu của người dùng. Họ tracking các ip truy cập đến các trang web 'ko bình thường' và add nó vào danh sách 'cần