In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, roc_auc_score

# Sử dụng SVM cho bài toán hồi quy

In [2]:
import os
BASE_DIR = os.path.dirname(
    os.path.dirname(
        os.path.dirname(
            os.path.abspath('notebook/preprocessing.ipynb'))))

# Sử dụng trên bộ dữ liệu 9 class và 4 class
# Do đầu ra của bộ dữ liệu có một số class quá ít nên ta tiến hành loại bỏ các hàng dữ liệu chứa các class thiểu số đó
df_4_class = pd.read_csv(os.path.join(BASE_DIR, 'data/processed_data_4_classes.csv'))
df_9_class = pd.read_csv(os.path.join(BASE_DIR, 'data/processed_data_9_classes.csv'))

df_9_class_pca = pd.read_csv(os.path.join(BASE_DIR, 'data/X_9_classes_PCA_6dims.csv'))
df_4_class_pca = pd.read_csv(os.path.join(BASE_DIR, 'data/X_4_classes_PCA_6dims.csv'))

df_9_class_lda = pd.read_csv(os.path.join(BASE_DIR, 'data/X_9_classes_LDA_2dims.csv'))
df_4_class_lda = pd.read_csv(os.path.join(BASE_DIR, 'data/X_4_classes_LDA_2dims.csv'))

In [3]:
def test_svm(df, test_size):
  target_class = "C3S1"

  x = df.drop("Classification", axis=1)
  y = df["Classification"]

  # nhị phân hoá: y_bin ∈ {0,1}
  y_bin = (y == target_class).astype(int)

  x_train, x_test, y_train, y_test = train_test_split(
      x, y_bin, test_size=test_size, random_state=42, stratify=y_bin
  )

  model = Pipeline([
      ("scaler", StandardScaler()),
      ("svc", SVC(kernel="rbf", C=1, gamma="scale", class_weight="balanced"))
  ])

  model.fit(x_train, y_train)

  # score liên tục (hàm quyết định)
  scores = model.decision_function(x_test)  # shape (n_samples,)

  # đánh giá kiểu hồi quy
  mse = mean_squared_error(y_test, scores)
  mae = mean_absolute_error(y_test, scores)
  r2  = r2_score(y_test, scores)
  auc = roc_auc_score(y_test, scores)

  print("MSE:", mse, "MAE:", mae, "R2:", r2, "ROC-AUC:", auc)


## Thử trên bộ dữ liệu gốc 9 class

In [4]:
test_svm(df_9_class, 0.2)

MSE: 1.642089746569895 MAE: 1.0696889494781712 R2: -6.072425512541467 ROC-AUC: 0.9816578483245151


In [5]:
test_svm(df_9_class, 0.3)

MSE: 1.5523788825775546 MAE: 1.0412653302597625 R2: -5.670334251866008 ROC-AUC: 0.9778413993254373


In [6]:
test_svm(df_9_class, 0.4)

MSE: 1.4818349542959175 MAE: 1.0158297741086386 R2: -5.376139292588706 ROC-AUC: 0.979667241913359


## Thử trên bộ dữ gốc 4 class

In [7]:
test_svm(df_4_class, 0.2)

MSE: 1.6172440373141104 MAE: 1.0725027882774574 R2: -6.148967947185037 ROC-AUC: 0.9894787644787644


In [8]:
test_svm(df_4_class, 0.3)

MSE: 1.8380814989678056 MAE: 1.1387346177353457 R2: -7.091154978432231 ROC-AUC: 0.9821855775803144


In [9]:
test_svm(df_4_class, 0.4)

MSE: 1.683467988153616 MAE: 1.0951790360157918 R2: -6.433523074979672 ROC-AUC: 0.9853482514772838


## giảm chiều dữ liệu bằng pca và test trên bô dữ liệu 9 class và 4 class

In [10]:
test_svm(df_9_class_pca, 0.2)

MSE: 0.8250394479387071 MAE: 0.7261014493686992 R2: -2.5534172554474774 ROC-AUC: 0.9535273368606703


In [11]:
test_svm(df_9_class_pca, 0.3)

MSE: 0.8454894109800705 MAE: 0.7276267358238835 R2: -2.632938479739097 ROC-AUC: 0.953839516824849


In [12]:
test_svm(df_9_class_pca, 0.4)

MSE: 0.7863395878177588 MAE: 0.6971714754208049 R2: -2.3835149647857325 ROC-AUC: 0.9573874950219036


In [13]:
test_svm(df_4_class_pca, 0.2)

MSE: 0.705285621238083 MAE: 0.6474487161375573 R2: -2.117689219133132 ROC-AUC: 0.9808880308880308


In [14]:
test_svm(df_4_class_pca, 0.3)

MSE: 0.8659629499040995 MAE: 0.7098639255537685 R2: -2.811931319252748 ROC-AUC: 0.9729579630895421


In [15]:
test_svm(df_4_class_pca, 0.4)

MSE: 0.8129689397530477 MAE: 0.6933193090560089 R2: -2.5897465324090243 ROC-AUC: 0.9784461881236074
