Данный набор данных содержит данные обо всех основных факторах, влияющих на питьевую воду. Набор взят на Kaggle.

Признак  | Описание
-------------------|--------------------
ph       | Водородный показатель (pH)
Hardness       | Жесткость воды
Solids       | Общее содержание растворенных твердых веществ
Chloramines       | Хлорамины - это дезинфицирующие средства, которые используются для обеззараживания воды
Sulfate       | Сульфаты - это соли серной кислоты, которые могут встречаться в воде в естественных условиях или в результате антропогенной деятельности
Conductivity       | Проводимость - это мера способности воды проводить электрический ток. Она зависит от количества растворенных в ней минералов и солей
Organic_carbon       | Органический углерод - это мера содержания в воде органических веществ, таких как листья, ветки и продукты жизнедеятельности животных
Trihalomethanes       | Тригалометан - это группа органических соединений, которые могут образовываться в воде при дезинфекции хлором. Некоторые из них являются потенциальными канцерогенами
Turbidity       | Мутность воды
Potability       | Потабельность - это мера пригодности воды к употреблению в пищу


Импорт необходимых библиотек и набора данных

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import numpy as np

data = pd.read_csv("/content/water.csv")
data.head()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
0,,204.890455,20791.318981,7.300212,368.516441,564.308654,10.379783,86.99097,2.963135,0
1,3.71608,129.422921,18630.057858,6.635246,,592.885359,15.180013,56.329076,4.500656,0
2,8.099124,224.236259,19909.541732,9.275884,,418.606213,16.868637,66.420093,3.055934,0
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.5466,310.135738,398.410813,11.558279,31.997993,4.075075,0


Обработка данных. Прежде чем делать дальнейшую работу стоит удалить все строки, содержащие нулевые значения.

In [2]:
data = data.dropna()
data.isnull().sum()

ph                 0
Hardness           0
Solids             0
Chloramines        0
Sulfate            0
Conductivity       0
Organic_carbon     0
Trihalomethanes    0
Turbidity          0
Potability         0
dtype: int64

# Постановка задачи и построение модели

Моя задача - обучение модели машинного обучения задаче анализа качества воды с использованием Python. Для этой задачи я буду использовать библиотеку PyCaret на Python.

In [3]:
!pip install pycaret[full]

Collecting pycaret[full]
  Downloading pycaret-3.3.2-py3-none-any.whl (486 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m486.1/486.1 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
Collecting joblib<1.4,>=1.2.0 (from pycaret[full])
  Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.2/302.2 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scikit-learn>1.4.0 (from pycaret[full])
  Downloading scikit_learn-1.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m30.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyod>=1.1.3 (from pycaret[full])
  Downloading pyod-1.1.3.tar.gz (160 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m160.5/160.5 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting imbalance

Прежде чем обучать модель машинного обучения,можно посмотреть на корреляцию всех функций по отношению к столбцу Potability в наборе данных:

In [4]:
correlation = data.corr()
correlation["ph"].sort_values(ascending=False)

ph                 1.000000
Hardness           0.108948
Organic_carbon     0.028375
Trihalomethanes    0.018278
Potability         0.014530
Conductivity       0.014128
Sulfate            0.010524
Chloramines       -0.024768
Turbidity         -0.035849
Solids            -0.087615
Name: ph, dtype: float64

теперь можно определить какой алгоритм машинного обучения лучше всего подходит для этого набора данных, используя библиотеку PyCaret в Python

In [7]:
from pycaret.classification import *
clf = setup(data, target = "Potability", session_id = 786)
compare_models()

Unnamed: 0,Description,Value
0,Session id,786
1,Target,Potability
2,Target type,Binary
3,Original data shape,"(2011, 10)"
4,Transformed data shape,"(2011, 10)"
5,Transformed train set shape,"(1407, 10)"
6,Transformed test set shape,"(604, 10)"
7,Numeric features,9
8,Preprocess,True
9,Imputation type,simple


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
et,Extra Trees Classifier,0.6802,0.6956,0.3952,0.6778,0.4977,0.287,0.31,0.27
catboost,CatBoost Classifier,0.6802,0.7086,0.4216,0.6652,0.5144,0.2937,0.3116,4.261
rf,Random Forest Classifier,0.678,0.6844,0.404,0.6696,0.5024,0.2854,0.3063,0.501
qda,Quadratic Discriminant Analysis,0.6745,0.7091,0.3866,0.6795,0.4879,0.2746,0.3013,0.032
gbc,Gradient Boosting Classifier,0.6532,0.6559,0.3564,0.6297,0.4517,0.2257,0.2473,0.632
lightgbm,Light Gradient Boosting Machine,0.6432,0.6658,0.4869,0.5719,0.5232,0.2416,0.2453,1.965
xgboost,Extreme Gradient Boosting,0.6333,0.6677,0.4729,0.554,0.5074,0.2193,0.2224,0.172
nb,Naive Bayes,0.6212,0.628,0.2506,0.5728,0.3474,0.1344,0.1581,0.032
lr,Logistic Regression,0.6034,0.5085,0.0353,0.655,0.0665,0.0262,0.0733,0.952
ridge,Ridge Classifier,0.5984,0.5188,0.0282,0.6267,0.0534,0.0137,0.0499,0.033


Processing:   0%|          | 0/69 [00:00<?, ?it/s]

Согласно приведенному выше результату, я могу использовать алгоритм Random Forest Classifier для обучения модели машинного обучения для задачи анализа качества воды.

In [8]:
model = create_model("rf")
predict = predict_model(model, data=data)
predict.head()

Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.6596,0.672,0.3684,0.6364,0.4667,0.2419,0.2614
1,0.6809,0.7256,0.3684,0.7,0.4828,0.2828,0.3133
2,0.7163,0.6705,0.4211,0.7742,0.5455,0.3644,0.4002
3,0.7021,0.6919,0.4386,0.7143,0.5435,0.3407,0.363
4,0.6383,0.6312,0.4035,0.575,0.4742,0.2113,0.219
5,0.6454,0.6917,0.3509,0.6061,0.4444,0.2103,0.2273
6,0.7092,0.7448,0.4035,0.7667,0.5287,0.3466,0.3839
7,0.65,0.6197,0.375,0.6,0.4615,0.2222,0.2357
8,0.7,0.7027,0.5,0.6667,0.5714,0.3478,0.3563
9,0.6786,0.6937,0.4107,0.6571,0.5055,0.2857,0.303


Processing:   0%|          | 0/4 [00:00<?, ?it/s]

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Random Forest Classifier,0.8951,0.9681,0.8089,0.9213,0.8615,0.7776,0.7819


Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability,prediction_label,prediction_score
3,8.316766,214.373398,22018.417969,8.059333,356.886139,363.26651,18.436525,100.341675,4.62877,0,0,0.84
4,9.092223,181.101517,17978.986328,6.5466,310.135742,398.410828,11.558279,31.997993,4.075076,0,0,0.94
5,5.584086,188.313324,28748.6875,7.544869,326.678375,280.467926,8.399734,54.917862,2.559708,0,0,0.85
6,10.223862,248.071732,28749.716797,7.513409,393.663391,283.651642,13.789696,84.603554,2.672989,0,0,0.67
7,8.635849,203.361526,13672.091797,4.563009,303.309784,474.607635,12.363816,62.798309,4.401425,0,0,0.95


# Вывод
Так можно анализировать качество воды и обучить модель машинного обучения классифицировать безопасную и небезопасную воду для питья.