In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, f1_score

# Đọc dữ liệu từ tệp CSV
try:
    data = pd.read_csv('../../../data/Amazon_Sale.csv')

    # Xem trước dữ liệu
    print(data.head())
    print(data.columns)
    
    # Xử lý dữ liệu
    le_fulfillment = LabelEncoder()
    data['Fulfillment'] = le_fulfillment.fit_transform(data['Fulfillment'])

    le_sales_channel = LabelEncoder()
    data['Sales_Channel'] = le_sales_channel.fit_transform(data['Sales Channel'])

    le_ship_service = LabelEncoder()
    data['ship_service'] = le_ship_service.fit_transform(data['ship-service'])

    le_courier = LabelEncoder()
    data['Courier'] = le_courier.fit_transform(data['Courier'])

    le_ship_city = LabelEncoder()
    data['ship_city'] = le_ship_city.fit_transform(data['ship-city'])

    le_ship_state = LabelEncoder()
    data['ship_state'] = le_ship_state.fit_transform(data['ship-state'])

    le_fulfilled_by = LabelEncoder()
    data['fulfilled_by'] = le_fulfilled_by.fit_transform(data['fulfilled-by'])

    # Chuyển đổi Amount thành nhị phân (0 hoặc 1)
    data['Amount_binary'] = (data['Amount'] > data['Amount'].mean()).astype(int)

    # Chọn các đặc trưng
    features = ['Fulfillment', 'Sales_Channel', 'ship_service', 
                'Courier', 'Qty', 'ship_city', 'ship_state', 
                'fulfilled_by']

    X = data[features]
    y = data['Amount_binary']

    # Chia dữ liệu thành tập huấn luyện và tập kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Chuẩn hóa dữ liệu
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    # Huấn luyện mô hình hồi quy Logistic
    logistic_model = LogisticRegression()
    logistic_model.fit(X_train, y_train)

    # Dự đoán với mô hình hồi quy Logistic
    y_pred_logistic = logistic_model.predict(X_test)

    # Huấn luyện mô hình MLP
    mlp_model = MLPClassifier(hidden_layer_sizes=(10,), max_iter=1000, random_state=42)
    mlp_model.fit(X_train, y_train)

    # Dự đoán với mô hình MLP
    y_pred_mlp = mlp_model.predict(X_test)

    # Kết hợp kết quả dự đoán từ cả hai mô hình
    y_pred_combined = (y_pred_logistic + y_pred_mlp) / 2
    y_pred_combined = np.round(y_pred_combined).astype(int)

    # Đánh giá độ chính xác và F1 score
    accuracy = accuracy_score(y_test, y_pred_combined)
    f1 = f1_score(y_test, y_pred_combined)

    print(f"Accuracy: {accuracy:.2f}")
    print(f"F1 Score: {f1:.2f}")

except Exception as e:
    print(f"Error reading the file: {e}")


       Date                        Status Fulfilment Sales Channel   \
0  04-30-22                     Cancelled   Merchant      Amazon.in   
1  04-30-22  Shipped - Delivered to Buyer   Merchant      Amazon.in   
2  04-30-22                       Shipped     Amazon      Amazon.in   
3  04-30-22                     Cancelled   Merchant      Amazon.in   
4  04-30-22                       Shipped     Amazon      Amazon.in   

  ship-service-level    Style              SKU       Category Size  \
0           Standard   SET389   SET389-KR-NP-S            Set    S   
1           Standard  JNE3781  JNE3781-KR-XXXL          kurta  3XL   
2          Expedited  JNE3371    JNE3371-KR-XL          kurta   XL   
3           Standard    J0341       J0341-DR-L  Western Dress    L   
4          Expedited  JNE3671  JNE3671-TU-XXXL            Top  3XL   

         ASIN  ... currency  Amount    ship-city   ship-state  \
0  B09KXVBD7Z  ...      INR  647.62       MUMBAI  MAHARASHTRA   
1  B09K3WFS32  ...    

  data = pd.read_csv('../../../data/Amazon_Sale.csv')
