In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer

# Load dữ liệu
data = pd.read_csv('D:/ML_water_quality/dataset/water_potability.csv')

# Kiểm tra giá trị bị thiếu
print("Số lượng giá trị bị thiếu:")
print(data.isnull().sum())

# Xử lý giá trị bị thiếu bằng cách điền giá trị trung vị (median)
imputer = SimpleImputer(strategy="median")
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Kiểm tra lại dữ liệu
print("\nKiểm tra lại giá trị bị thiếu sau khi xử lý:")
print(data.isnull().sum())

# Phân chia dữ liệu thành đầu vào (X) và đầu ra (y)
X = data.drop('Potability', axis=1)
y = data['Potability']

# Chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Khởi tạo mô hình Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# Huấn luyện mô hình
rf_model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = rf_model.predict(X_test)

# Đánh giá hiệu năng mô hình
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

print("\nClassification Report:")
print(classification_report(y_test, y_pred))

print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))

Số lượng giá trị bị thiếu:
ph                 491
Hardness             0
Solids               0
Chloramines          0
Sulfate            781
Conductivity         0
Organic_carbon       0
Trihalomethanes    162
Turbidity            0
Potability           0
dtype: int64

Kiểm tra lại giá trị bị thiếu sau khi xử lý:
ph                 491
Hardness             0
Solids               0
Chloramines          0
Sulfate            781
Conductivity         0
Organic_carbon       0
Trihalomethanes    162
Turbidity            0
Potability           0
dtype: int64
Accuracy: 66.63%

Classification Report:
              precision    recall  f1-score   support

           0       0.67      0.89      0.76       600
           1       0.64      0.32      0.43       383

    accuracy                           0.67       983
   macro avg       0.66      0.60      0.60       983
weighted avg       0.66      0.67      0.63       983


Confusion Matrix:
[[531  69]
 [259 124]]
