
# **Xây dựng Model phân loại đánh giá sản phẩm**

In [1]:
!pip install pandas scikit-learn joblib



## **1. Import các thư viện cần thiết**

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
import joblib
import os

## **2. Tải dữ liệu**

In [4]:
# Định nghĩa đường dẫn tới file CSV
file_path = 'data.csv'

# Kiểm tra xem file có tồn tại không
if not os.path.exists(file_path):
    print(f"Lỗi: File không tìm thấy tại đường dẫn: {file_path}")

# Tải dữ liệu từ file CSV vào DataFrame
try:
    df = pd.read_csv(file_path)
    print("Đã tải dữ liệu thành công!")
    print("5 dòng đầu tiên của dữ liệu:")
    print(df.head())
    print("\nThông tin dữ liệu:")
    df.info()
except Exception as e:
    print(f"Lỗi khi tải dữ liệu: {e}")
    # Thoát nếu không thể tải dữ liệu thực tế
    exit()

Đã tải dữ liệu thành công!
5 dòng đầu tiên của dữ liệu:
                       comment label  rate Unnamed: 3
0               Áo bao đẹp ạ!!   POS     5        NaN
1                  Tuyệt vời !   POS     5        NaN
2   2day ao khong giong trong.   NEG     1        NaN
3  Mùi thơm,bôi lên da mềm da.   POS     5        NaN
4            Vải đẹp, dày dặn.   POS     5        NaN

Thông tin dữ liệu:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18183 entries, 0 to 18182
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   comment     18183 non-null  object
 1   label       18183 non-null  object
 2   rate        18183 non-null  int64 
 3   Unnamed: 3  23 non-null     object
dtypes: int64(1), object(3)
memory usage: 568.3+ KB


## **3. Tiền xử lý dữ liệu**


In [5]:
# Loại bỏ các hàng có giá trị NaN trong cột 'comment' hoặc 'label'
df.dropna(subset=['comment', 'label'], inplace=True)

# Chuyển đổi nhãn về định dạng thống nhất (ví dụ: chữ hoa)
df['label'] = df['label'].astype(str).str.upper()

print(f"\nSố lượng mẫu sau khi loại bỏ NaN: {len(df)}")
print("Phân bố các nhãn:")
print(df['label'].value_counts())


Số lượng mẫu sau khi loại bỏ NaN: 18183
Phân bố các nhãn:
POS    6816
NEG    6669
NEU    4698
Name: label, dtype: int64


## **4. Chia tập dữ liệu Training và Testing**

In [6]:

# Định nghĩa features (X) và target (y)
X = df['comment']
y = df['label']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
# test_size=0.2 có nghĩa là 20% dữ liệu sẽ được dùng để kiểm tra
# random_state để đảm bảo kết quả chia dữ liệu là như nhau mỗi lần chạy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Số lượng mẫu trong tập huấn luyện: {len(X_train)}")
print(f"Số lượng mẫu trong tập kiểm tra: {len(X_test)}")


Số lượng mẫu trong tập huấn luyện: 14546
Số lượng mẫu trong tập kiểm tra: 3637


## **5. Vector hóa văn bản (TF-IDF Vectorization)**

In [7]:
# Khởi tạo TF-IDF Vectorizer
# max_features giới hạn số lượng từ/cụm từ độc nhất được xem xét
# min_df bỏ qua các từ xuất hiện quá ít (ví dụ: chỉ 1 lần)
# stop_words='english' loại bỏ các từ dừng tiếng Anh (nếu cần, bạn có thể tự xây dựng danh sách stop_words tiếng Việt)
vectorizer = TfidfVectorizer(max_features=5000, min_df=5, stop_words=None) # Giữ stop_words=None nếu dữ liệu tiếng Việt

# Học từ vựng từ tập huấn luyện và chuyển đổi văn bản thành ma trận TF-IDF
X_train_vec = vectorizer.fit_transform(X_train)

# Chỉ chuyển đổi tập kiểm tra bằng vectorizer đã được huấn luyện
X_test_vec = vectorizer.transform(X_test)

print(f"Kích thước ma trận TF-IDF tập huấn luyện: {X_train_vec.shape}")
print(f"Kích thước ma trận TF-IDF tập kiểm tra: {X_test_vec.shape}")

Kích thước ma trận TF-IDF tập huấn luyện: (14546, 1557)
Kích thước ma trận TF-IDF tập kiểm tra: (3637, 1557)


## **6. Xây dựng và huấn luyện Model**

In [8]:
# Khởi tạo mô hình Logistic Regression
# Logistic Regression là một lựa chọn tốt cho bài toán phân loại văn bản
model = LogisticRegression(max_iter=1000, random_state=42)

# Huấn luyện mô hình trên dữ liệu đã được vector hóa
print("\nBắt đầu huấn luyện mô hình...")
model.fit(X_train_vec, y_train)
print("Huấn luyện mô hình hoàn tất!")


Bắt đầu huấn luyện mô hình...
Huấn luyện mô hình hoàn tất!


## **7. Đánh giá Model**

In [9]:
# Dự đoán nhãn trên tập kiểm tra
y_pred = model.predict(X_test_vec)

# In báo cáo phân loại
print("\nBáo cáo phân loại:")
print(classification_report(y_test, y_pred))

# In độ chính xác tổng thể
accuracy = accuracy_score(y_test, y_pred)
print(f"Độ chính xác tổng thể (Accuracy): {accuracy:.4f}")


Báo cáo phân loại:
              precision    recall  f1-score   support

         NEG       0.68      0.79      0.73      1334
         NEU       0.48      0.35      0.41       940
         POS       0.79      0.80      0.80      1363

    accuracy                           0.68      3637
   macro avg       0.65      0.65      0.64      3637
weighted avg       0.67      0.68      0.67      3637

Độ chính xác tổng thể (Accuracy): 0.6835


## **8. Xuất Model và Vectorizer**

In [10]:
# Tạo thư mục 'model' nếu chưa tồn tại
output_dir = 'model'
os.makedirs(output_dir, exist_ok=True)

# Định nghĩa đường dẫn để lưu model và vectorizer
model_path = os.path.join(output_dir, 'model.pkl')
vectorizer_path = os.path.join(output_dir, 'vectorizer.pkl')

# Lưu model đã huấn luyện
joblib.dump(model, model_path)
print(f"\nModel đã được lưu tại: {model_path}")

# Lưu vectorizer đã huấn luyện
joblib.dump(vectorizer, vectorizer_path)
print(f"Vectorizer đã được lưu tại: {vectorizer_path}")

# %% [markdown]


Model đã được lưu tại: model/model.pkl
Vectorizer đã được lưu tại: model/vectorizer.pkl


## **9. Ví dụ sử dụng Model đã lưu**

In [23]:
# Tải lại model và vectorizer để kiểm tra
loaded_model = joblib.load(model_path)
loaded_vectorizer = joblib.load(vectorizer_path)

# Thử dự đoán với một câu bình luận mới
new_comments = [
    "Sản phẩm rất tốt, tôi rất ưng ý!",
    "Chất lượng kém, không đáng tiền chút nào.",
    "Bình thường",
    "Chán, dùng như hạch",
    "Tuyệt vời, tôi rất ưng ý!",
    "nhàu nát, tôi sẽ trả lại"
    "tệ, khống đáng mua",
    "tạm ổn",
    "good, sẽ mua thêm cái nữa",
    "tuyệt vời, sẽ rủ người thân mua"
]

# Vector hóa các bình luận mới
new_comments_vec = loaded_vectorizer.transform(new_comments)

# Dự đoán nhãn
predictions = loaded_model.predict(new_comments_vec)

print("\nDự đoán cho các bình luận mới:")
for comment, pred_label in zip(new_comments, predictions):
    print(f"- '{comment}' -> Nhãn dự đoán: {pred_label}")



Dự đoán cho các bình luận mới:
- 'Sản phẩm rất tốt, tôi rất ưng ý!' -> Nhãn dự đoán: POS
- 'Chất lượng kém, không đáng tiền chút nào.' -> Nhãn dự đoán: NEG
- 'Bình thường' -> Nhãn dự đoán: NEU
- 'Chán, dùng như hạch' -> Nhãn dự đoán: NEG
- 'Tuyệt vời, tôi rất ưng ý!' -> Nhãn dự đoán: POS
- 'nhàu nát, tôi sẽ trả lạitệ, khống đáng mua' -> Nhãn dự đoán: NEG
- 'tạm ổn' -> Nhãn dự đoán: NEU
- 'good, sẽ mua thêm cái nữa' -> Nhãn dự đoán: POS
- 'tuyệt vời, sẽ rủ người thân mua' -> Nhãn dự đoán: POS
