In [71]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.model_selection import GridSearchCV

# 1. Đọc dữ liệu
data = pd.read_csv('shopping_trends.csv')

# 2. Tiền xử lý
data['Gender'] = LabelEncoder().fit_transform(data['Gender'])
data['Discount Applied'] = LabelEncoder().fit_transform(data['Discount Applied'])
data['Promo Code Used'] = LabelEncoder().fit_transform(data['Promo Code Used'])

# 3. Chia dữ liệu
X = data[['Age', 'Gender', 'Discount Applied', 'Promo Code Used']]
y = data['Subscription Status'].apply(lambda x: 1 if x == 'Yes' else 0)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Xây dựng mô hình hồi quy logistic
log_model = LogisticRegression(max_iter=1000)
log_model.fit(X_train, y_train)

# 5. Dự đoán và đánh giá
y_pred = log_model.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

# 6. Dự đoán trên dữ liệu mới
new_data = pd.DataFrame({'Age': [30, 25], 'Gender': [0, 1], 'Discount Applied': [1, 0], 'Promo Code Used': [1, 0]})
future_predictions = log_model.predict(new_data)
print("Predictions for new data:", future_predictions)


Accuracy: 0.8256410256410256
Confusion Matrix:
 [[422 136]
 [  0 222]]
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.76      0.86       558
           1       0.62      1.00      0.77       222

    accuracy                           0.83       780
   macro avg       0.81      0.88      0.81       780
weighted avg       0.89      0.83      0.83       780

Predictions for new data: [0 0]


-> 
Kết quả của bạn cho thấy mô hình hồi quy logistic hoạt động khá tốt, với độ chính xác (accuracy) là **82.56%**. Dưới đây là phân tích chi tiết về các chỉ số:

### Phân Tích Kết Quả
1. **Độ Chính Xác (Accuracy)**: 
   - **82.56%**: Đây là tỷ lệ dự đoán đúng tổng số dự đoán. 

2. **Confusion Matrix**:
   - \[
   \begin{array}{cc|c}
         & \text{Predicted 0} & \text{Predicted 1} \\
   \hline
   \text{Actual 0} & 422 & 136 \\
   \text{Actual 1} & 0 & 222 \\
   \end{array}
   \]
   - **Số lượng dự đoán đúng cho lớp 0 (Không đăng ký)** là 422, nhưng có 136 dự đoán sai thành lớp 1 (Đăng ký).
   - **Số lượng dự đoán đúng cho lớp 1 (Đăng ký)** là 222, không có sai sót nào.

3. **Báo cáo Phân Loại (Classification Report)**:
   - **Precision** cho lớp 0 (Không đăng ký) là **1.00**, điều này có nghĩa là tất cả các dự đoán là chính xác.
   - **Recall** cho lớp 1 (Đăng ký) là **1.00**, cho thấy mô hình nhận diện tất cả các trường hợp thực tế trong lớp 1.
   - **F1-score** cho lớp 0 là **0.86** và cho lớp 1 là **0.77**, cho thấy mô hình có độ chính xác tốt cho cả hai lớp.

4. **Dự Đoán Trên Dữ Liệu Mới**:
   - Kết quả dự đoán cho dữ liệu mới là **[0 0]**, có nghĩa là cả hai mẫu dự đoán đều không đăng ký.

### Các Đề Xuất Tiếp Theo
- **Xem Xét Mô Hình Khác**: Bạn có thể thử nghiệm thêm với các mô hình khác như Random Forest hoặc Gradient Boosting để xem liệu có cải thiện được độ chính xác hay không.
- **Tuning Tham Số**: Dùng GridSearchCV để tối ưu hóa các tham số của mô hình logistic hồi quy, hoặc mô hình khác mà bạn chọn.
- **Khám Phá Dữ Liệu**: Phân tích thêm các đặc điểm của tập dữ liệu (như Age, Gender) để tìm hiểu sâu hơn về các yếu tố ảnh hưởng đến việc đăng ký.
- **Xem Xét Kết Quả Dự Đoán**: Cố gắng phân tích lý do tại sao một số mẫu dự đoán sai để cải thiện mô hình trong tương lai.

Nếu bạn cần hỗ trợ thêm về các khía cạnh cụ thể hoặc muốn triển khai một mô hình khác, hãy cho tôi biết!