In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Đọc dữ liệu
data = pd.read_csv("D:/ML_water_quality/dataset/water_potability.csv")

# Xử lý giá trị bị thiếu bằng phương pháp điền giá trị trung vị
imputer = SimpleImputer(strategy="median")
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Tách đặc trưng (X) và nhãn (y)
X = data_imputed.drop('Potability', axis=1)
y = data_imputed['Potability']

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Cài đặt mô hình SVM
model = SVC(kernel='rbf', random_state=42)  # Sử dụng kernel RBF (Gaussian)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá hiệu năng
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2%}")

print("\nClassification Report:")
print(classification_report(y_test, y_pred))

print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))


Accuracy: 69.68%

Classification Report:
              precision    recall  f1-score   support

         0.0       0.69      0.93      0.79       617
         1.0       0.72      0.30      0.42       366

    accuracy                           0.70       983
   macro avg       0.71      0.62      0.61       983
weighted avg       0.70      0.70      0.66       983


Confusion Matrix:
[[575  42]
 [256 110]]
