# **Prevendo a Qualidade da Água**

**Objetivo**

* Criar um algoritmo de machine learning capaz de prever se a água é ou não potável.

### **1. Introdução**

<p align="justify">
Em um mundo onde a escassez de água potável se torna uma preocupação cada vez mais crítica, a capacidade de prever a qualidade da água é de suma importância. Neste projeto, embarcaremos em uma jornada para desenvolver um modelo de machine learning que nos permitirá determinar se uma amostra de água é potável ou não, com base em uma série de atributos e características.

<p align="justify">
A qualidade da água é influenciada por diversos fatores, como concentração de minerais, níveis de poluentes, pH, turbidez e muito mais. A tarefa de classificar a água como potável ou não é complexa e requer a análise de um conjunto de dados abrangente. É nesse cenário que o PyCaret, uma biblioteca Python para aprendizado de máquina automatizado, entra em cena.

<p align="justify">
O PyCaret simplifica o processo de construção, treinamento e avaliação de modelos de machine learning, permitindo que os cientistas de dados e engenheiros de machine learning se concentrem mais nas análises e menos na codificação. Neste projeto, utilizaremos o PyCaret para ajudar a escolher o melhor modelo para prever a qualidade da água.

<p align="justify">
Nosso objetivo é criar um modelo que seja capaz de fornecer previsões precisas e confiáveis sobre a potabilidade da água com base nos atributos coletados.

In [None]:
# Instalando biblioteca

!pip install pycaret

In [2]:
# Carregando bibliotecas

import numpy as np
import pandas as pd

from pycaret.classification import *
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

In [3]:
# Carregando base de dados

dados = pd.read_csv('/content/drive/MyDrive/Ciência de Dados com Python/Projetos/Dados/Qualidade_da_Agua.csv', sep = ',')

In [4]:
# Visualizando dados

dados.head()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
0,,204.890455,20791.318981,7.300212,368.516441,564.308654,10.379783,86.99097,2.963135,0
1,3.71608,129.422921,18630.057858,6.635246,,592.885359,15.180013,56.329076,4.500656,0
2,8.099124,224.236259,19909.541732,9.275884,,418.606213,16.868637,66.420093,3.055934,0
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.5466,310.135738,398.410813,11.558279,31.997993,4.075075,0


### **2. Análise Exporatória de Dados**

In [5]:
# Informações sobre o dataset

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3276 entries, 0 to 3275
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ph               2785 non-null   float64
 1   Hardness         3276 non-null   float64
 2   Solids           3276 non-null   float64
 3   Chloramines      3276 non-null   float64
 4   Sulfate          2495 non-null   float64
 5   Conductivity     3276 non-null   float64
 6   Organic_carbon   3276 non-null   float64
 7   Trihalomethanes  3114 non-null   float64
 8   Turbidity        3276 non-null   float64
 9   Potability       3276 non-null   int64  
dtypes: float64(9), int64(1)
memory usage: 256.1 KB


In [6]:
# Verificando a existência de valores faltantes

dados.isnull().sum()

ph                 491
Hardness             0
Solids               0
Chloramines          0
Sulfate            781
Conductivity         0
Organic_carbon       0
Trihalomethanes    162
Turbidity            0
Potability           0
dtype: int64

In [7]:
# Realizando contagem das classes

## 0: não potável
## 1: potável

dados['Potability'].value_counts()

0    1998
1    1278
Name: Potability, dtype: int64

### **3. Pré-Processamento de Dados**

In [8]:
# Removendo valores faltantes

dados = dados.dropna()

## DEVE-SE TER MUITO CUIDADO AO MODO COMO OS VALORES FALTANTES SERÃO REMOVIDOS
## NEM SEMPRE EXCLUÍ-LOS É A OPÇÃO MAIS ADEQUADA

In [9]:
# Escolhendo o algoritmo mais adequado para o estudo

clf = setup(dados, target = "Potability", session_id = 0)
compare_models()

Unnamed: 0,Description,Value
0,Session id,0
1,Target,Potability
2,Target type,Binary
3,Original data shape,"(2011, 10)"
4,Transformed data shape,"(2011, 10)"
5,Transformed train set shape,"(1407, 10)"
6,Transformed test set shape,"(604, 10)"
7,Numeric features,9
8,Preprocess,True
9,Imputation type,simple


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
qda,Quadratic Discriminant Analysis,0.6986,0.7164,0.4235,0.7156,0.5287,0.3292,0.3552,0.073
rf,Random Forest Classifier,0.6666,0.6916,0.3792,0.6506,0.4779,0.2572,0.2783,0.5
et,Extra Trees Classifier,0.6652,0.7038,0.3563,0.6569,0.4586,0.2479,0.2731,0.178
lightgbm,Light Gradient Boosting Machine,0.6503,0.6773,0.4427,0.5876,0.504,0.2426,0.2488,0.861
gbc,Gradient Boosting Classifier,0.6425,0.6525,0.3474,0.6013,0.4392,0.203,0.2205,0.292
xgboost,Extreme Gradient Boosting,0.6403,0.6732,0.4567,0.5687,0.5055,0.2283,0.2324,0.113
nb,Naive Bayes,0.6225,0.5997,0.254,0.5849,0.35,0.1381,0.1648,0.03
lda,Linear Discriminant Analysis,0.6055,0.4884,0.0247,0.66,0.0471,0.0264,0.0893,0.018
ridge,Ridge Classifier,0.6048,0.0,0.023,0.66,0.0439,0.0244,0.0859,0.029
lr,Logistic Regression,0.5992,0.501,0.0053,0.2,0.0103,0.0063,0.025,0.718


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

* O resultado acima mostra que o melhor modelo para o estudo é o QDA.

In [10]:
# Separando os dados em previsores e classes

previsores = dados.drop('Potability', axis = 1)
classes = dados['Potability']

In [11]:
# Dividindo os dados em treino e teste

X_treino, X_teste, y_treino, y_teste = train_test_split(previsores,
                                                        classes,
                                                        test_size = 0.3,
                                                        random_state = 0)

In [12]:
# Distribuição dos dados

print(X_treino.shape)
print(y_treino.shape)
print(X_teste.shape)
print(y_teste.shape)

(1407, 9)
(1407,)
(604, 9)
(604,)


### **4. Construindo Modelo**

In [13]:
# Carregando biblioteca

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

In [14]:
# Instânciando modelo

modelo = QuadraticDiscriminantAnalysis(priors = None,
                                       reg_param = 0.0,
                                       store_covariance = False,
                                       tol = 0.0001)

In [15]:
# Treinando modelo

modelo.fit(X_treino, y_treino)

In [16]:
# Aplicando modelo treinado aos dados de teste

y_predito = modelo.predict(X_teste)

### **5. Avaliando Modelo**

In [17]:
# Métricas do modelo

print(classification_report(y_teste, y_predito))

              precision    recall  f1-score   support

           0       0.69      0.88      0.77       367
           1       0.67      0.39      0.50       237

    accuracy                           0.69       604
   macro avg       0.68      0.63      0.63       604
weighted avg       0.68      0.69      0.66       604



In [18]:
# Acurácia do modelo

accuracy_score(y_teste, y_predito)

0.6870860927152318

### **6. Considerações Finais**

<p align="justify">
Utilizando o PyCaret, chegou-se a conclusão que o melhor modelo era o QDA (Quadratic Discriminant Analysis). A partir das métricas obtidas pode-se considerar o desempenho do modelo como razoável, com margens para melhorar. Acredito que com a utilização de um algoritmo mais robusto e alguns processamentos nos dados a serem realizados na etapa de pré-processamento de dados possam melhorar o desempenho do modelo ou de outro que venha a ser construido.