# Setting

In [39]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# Hàm

In [40]:
def evaluate_softmax_model(file_pairs, base_path):
    for train_file, test_file in file_pairs:
        print(f"\n----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ {train_file[:-4]} - {test_file[:-4]} -----")

        df_train = pd.read_csv(f"{base_path}/{train_file}")
        df_test = pd.read_csv(f"{base_path}/{test_file}")

        X_train = df_train.drop(columns=['Index', 'id', 'satisfaction_satisfied'], errors='ignore')
        y_train = df_train['satisfaction_satisfied']

        X_test = df_test.drop(columns=['Index', 'id', 'satisfaction_satisfied'], errors='ignore')
        y_test = df_test['satisfaction_satisfied']

        model = LogisticRegression(solver='lbfgs', max_iter=2000)
        model.fit(X_train, y_train)
        
        y_pred = model.predict(X_test)
        print(classification_report(y_test, y_pred, digits=4))
        
        conf_matrix = confusion_matrix(y_test, y_pred)
        print("\nMa trận nhầm lẫn:")
        print(conf_matrix)


# Test

## Original

In [41]:
file_pairs = [
    ("train41.csv", "test41.csv"),
    ("train64.csv", "test64.csv"),
    ("train73.csv", "test73.csv")
]
base_path = "D:\9. ky2nam3\ML\Project_ML\data\original_data"

evaluate_softmax_model(file_pairs, base_path)



----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train41 - test41 -----
              precision    recall  f1-score   support

           0     0.8792    0.9031    0.8910     14668
           1     0.8688    0.8379    0.8531     11230

    accuracy                         0.8749     25898
   macro avg     0.8740    0.8705    0.8720     25898
weighted avg     0.8747    0.8749    0.8746     25898


Ma trận nhầm lẫn:
[[13247  1421]
 [ 1820  9410]]

----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train64 - test64 -----
              precision    recall  f1-score   support

           0     0.8768    0.9000    0.8883     29354
           1     0.8646    0.8346    0.8493     22441

    accuracy                         0.8717     51795
   macro avg     0.8707    0.8673    0.8688     51795
weighted avg     0.8715    0.8717    0.8714     51795


Ma trận nhầm lẫn:
[[26420  2934]
 [ 3711 18730]]

----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train73 - test73 -----
              precision    recall  f1-score   support

           0     0.8774    0.

## PCA

In [32]:
file_pairs = [
    ("train_pca_41.csv", "test_pca_41.csv"),
    ("train_pca_64.csv", "test_pca_64.csv"),
    ("train_pca_73.csv", "test_pca_73.csv")
]
base_path = "D:\9. ky2nam3\ML\Project_ML\data\PCA_data"

evaluate_softmax_model(file_pairs, base_path)



----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_pca_41 - test_pca_41 -----
              precision    recall  f1-score   support

           0     0.8419    0.8584    0.8501     14668
           1     0.8102    0.7894    0.7997     11230

    accuracy                         0.8285     25898
   macro avg     0.8260    0.8239    0.8249     25898
weighted avg     0.8281    0.8285    0.8282     25898


----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_pca_64 - test_pca_64 -----
              precision    recall  f1-score   support

           0     0.8396    0.8578    0.8486     29354
           1     0.8085    0.7856    0.7969     22441

    accuracy                         0.8265     51795
   macro avg     0.8241    0.8217    0.8227     51795
weighted avg     0.8261    0.8265    0.8262     51795


----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_pca_73 - test_pca_73 -----
              precision    recall  f1-score   support

           0     0.8420    0.8566    0.8493     22029
           1     0.8078    0.7895    0.7986  

## LDA

In [34]:
file_pairs = [
    ("train_lda_41.csv", "test_lda_41.csv"),
    ("train_lda_64.csv", "test_lda_64.csv"),
    ("train_lda_73.csv", "test_lda_73.csv")
]
base_path = "D:\9. ky2nam3\ML\Project_ML\data\LDA_data"

evaluate_softmax_model(file_pairs, base_path)


----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_lda_41 - test_lda_41 -----
              precision    recall  f1-score   support

           0     0.8772    0.8996    0.8883     14668
           1     0.8644    0.8355    0.8497     11230

    accuracy                         0.8718     25898
   macro avg     0.8708    0.8676    0.8690     25898
weighted avg     0.8717    0.8718    0.8716     25898


----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_lda_64 - test_lda_64 -----
              precision    recall  f1-score   support

           0     0.8743    0.8984    0.8862     29354
           1     0.8622    0.8311    0.8463     22441

    accuracy                         0.8693     51795
   macro avg     0.8683    0.8648    0.8663     51795
weighted avg     0.8691    0.8693    0.8689     51795


----- ĐÁNH GIÁ MÔ HÌNH VỚI BỘ train_lda_73 - test_lda_73 -----
              precision    recall  f1-score   support

           0     0.8753    0.8984    0.8867     22029
           1     0.8622    0.8323    0.8470  