In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.utils import resample

# Đọc dữ liệu từ file Excel
file_path = "D:/SIC/dataset.xlsx"
data = pd.read_excel(file_path, engine='openpyxl')

# Giảm kích thước tập dữ liệu (nếu cần)
data_sample = resample(data, n_samples=10000, random_state=42)

# Chuẩn bị văn bản và nhãn
texts = data_sample['Comment'].astype(str).fillna('')
labels = data_sample['StarCount'].fillna(0).astype(int)

# Sử dụng TF-IDF để chuyển đổi văn bản thành vector
vectorizer = TfidfVectorizer(max_features=5000)  # Giới hạn số lượng đặc trưng
X = vectorizer.fit_transform(texts)

# Chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu (không áp dụng mean vì dữ liệu dạng thưa)
scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Huấn luyện mô hình Logistic Regression
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Đánh giá mô hình
accuracy = model.score(X_test, y_test)
print(f'Accuracy: {accuracy}')


  labels = data_sample['StarCount'].fillna(0).astype(int)


Accuracy: 0.8145


In [2]:
from sklearn.metrics import recall_score, f1_score, accuracy_score
y_pred = model.predict(X_test)
accuracy = model.score(X_test, y_test)
print(f'Độ chính xác: {accuracy:.3f}')
correct_predictions = accuracy_score(y_test, y_pred, normalize=False)
recall = recall_score(y_test, y_pred, average='weighted')  
f_score = f1_score(y_test, y_pred, average='weighted')  
incorrect_predictions = len(y_test) - correct_predictions
print("Số lượng dự đoán chính xác (Prediction):", correct_predictions)
print("Số lượng dự đoán sai:", incorrect_predictions)
print("Recall:", recall)
print("F1-Score:", f_score)

Độ chính xác: 0.815
Số lượng dự đoán chính xác (Prediction): 1629.0
Số lượng dự đoán sai: 371.0
Recall: 0.8145
F1-Score: 0.8177309407566878


In [9]:
user_input = "kém"
user_vector = vectorizer.transform([user_input])
user_vector = scaler.transform(user_vector)

# Dự đoán với dữ liệu người dùng
user_prediction = model.predict(user_vector)
print(user_prediction)

[1]
