In [None]:
pip install sklearn pandas seaborn numpy matplotlib  graphviz

In [None]:
from sklearn import datasets
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.preprocessing import StandardScaler
from collections import namedtuple
import warnings
import numpy as np

import matplotlib as mpl

In [None]:
mpl.rcParams["figure.figsize"] = (10,5)

# Qualidade de Água

O acesso à água potável é essencial para a saúde, um direito humano básico e um componente de uma política efetiva de proteção à saúde.

Isto é importante como uma questão de saúde e desenvolvimento a nível nacional, regional e local.

Em algumas regiões, foi demonstrado que os investimentos em abastecimento de água e saneamento podem gerar um benefício econômico líquido, uma vez que as reduções nos efeitos adversos à saúde e nos custos de saúde superam os custos de realização das intervenções.

Atributos:

    - PH: O pH é um parâmetro importante na avaliação do equilíbrio ácido-base da água.
    
    - Hardness: A dureza é causada principalmente por sais de cálcio e magnésio.
    
    - Solids: A água tem a capacidade de dissolver uma ampla gama de minerais ou sais inorgânicos e alguns orgânicos, como potássio, cálcio, sódio, bicarbonatos, cloretos, magnésio, sulfatos, etc. Esses minerais produziram sabor indesejado e cor diluída na aparência da água.
    
    - Chloramines: Cloro e cloramina são os principais desinfetantes usados em sistemas públicos de água. As cloraminas são mais comumente formadas quando a amônia é adicionada ao cloro para tratar a água potável.
    
    - Sulfate: Os sulfatos são substâncias naturais encontradas em minerais, solo e rochas. Eles estão presentes no ar ambiente, águas subterrâneas, plantas e alimentos.
    
    - Conductivity: A condutividade elétrica mede o processo iônico de uma solução que lhe permite transmitir corrente. De acordo com os padrões da OMS, o valor EC não deve exceder 400 μS/cm.
    
    - Organic Carbon: O Carbono Orgânico Total nas águas de nascente vem de matéria orgânica natural em decomposição, bem como de fontes sintéticas. O Carbono Orgânico Total é uma medida da quantidade total de carbono em compostos orgânicos em água pura.
    
    - Trihalomethanes: THMs são produtos químicos que podem ser encontrados em água tratada com cloro. A concentração de THMs na água potável varia de acordo com o nível de matéria orgânica na água, a quantidade de cloro necessária para tratar a água e a temperatura da água que está sendo tratada.
    
    - Turbidity: A turbidez da água depende da quantidade de matéria sólida presente no estado suspenso. É uma medida das propriedades de emissão de luz da água e o teste é usado para indicar a qualidade da descarga de resíduos em relação à matéria coloidal.
    
    - Potability: Indica se a água é segura para consumo humano onde 1 significa Potável e 0 significa Não potável.



Fonte: https://www.kaggle.com/datasets/adityakadiwal/water-potability

## Carregamento de Dados

In [None]:
df = pd.read_csv('data/water_potability.csv')

In [None]:
# Mostra 5 primeiros elementos do DataFrame(df)
df.head()

## Limpeza Dados

Objetivo: Tratar os dados de forma que consigamos usá-los para algoritmo de ML

Possíveis técnicas:
 - Remoção de Dados Inválidos
 - Remoção de Outliers (Valores muito fora do esperado para o conjunto. Normalmente são erros de coleta)
 - Imputação de Valores em Campos Nulos
 - Transformação de tipos de variáveis

### Visualização Básica

#### Quantidade de Linhas e Colunas

In [None]:
linhas, colunas = df.shape

print("O Dataset possui {} linhas e {} colunas".format(linhas, colunas))

#### Informações Básicas

Aqui é possivel visualizar as colunas, os tipos de dados, e se o dataset possui valores nulos

In [None]:
df.info()

### Renomear Colunas

Para fins de facilidade de uso, deixamos tudo em _snake_case_, padrão do Python

In [None]:
# Colunas Existes
df.columns

In [None]:
df = df.rename(columns={
    "ph": "ph",
    "Hardness": "hardness",
    "Solids": "solids",
    "Chloramines": "chloramines",
    "Sulfate": "sulfate",
    "Conductivity": "conductivity",
    "Organic_carbon": "organic_carbon",
    "Trihalomethanes": "trihalomethanes",
    "Turbidity": "turbidity",
    "Potability": "potability",
})

In [None]:
# Colunas Renomeadas
df.columns

##### Dataset Renomeado

In [None]:
df.head()

### Imputação de dados

Para modelar o Machine Learning precisamos de dados não nulos.

Por isso, precisamos tratar os dados nulos deste dataset.

Existes duas técnicas bastante utilizadas:

    - Remoção de linhas com valores nulos
    - Imputação de dados
        - Consiste em inserir valores fictícios, porém factíveis.

In [None]:
quantidade_linhas_com_valores_nulo = df.isna().any(axis=1).sum()
quantidade_linhas = df.shape[0]
porcentagem_nulos = quantidade_linhas_com_valores_nulo / quantidade_linhas

print("O Dataset possui {} linhas, sendo que {} delas possui campos nulos.".format(quantidade_linhas, quantidade_linhas_com_valores_nulo))
print("Porcentagem de linhas com valores nulos: {:.1f}%.".format(porcentagem_nulos*100))

#### PH

##### Analise descritiva antes da imputação

In [None]:
df["ph"].describe()

##### Atribui a Mediana nos campos nulos

In [None]:
# Calcula a Mediana
mediana = df["ph"].median()

print("Mediana Calculada: {:.2f}".format(mediana))

# Atribuição da Mediana nos campos nulos
df["ph"] = df["ph"].fillna(mediana)

##### Analise descritiva depois da imputação

In [None]:
df["ph"].describe()

#### Sulfato

##### Analise descritiva antes da imputação

In [None]:
df["sulfate"].describe()

##### Atribui a Mediana nos campos nulos

In [None]:
# Calcula a Mediana
mediana = df["sulfate"].median()

print("Mediana Calculada: {:.2f}".format(mediana))

# Atribuição da Mediana nos campos nulos
df["sulfate"] = df["sulfate"].fillna(mediana)

##### Analise descritiva depois da imputação

In [None]:
df["sulfate"].describe()

#### Trihalomethanes

##### Analise descritiva antes da imputação

In [None]:
df["trihalomethanes"].describe()

##### Atribui a Mediana nos campos nulos

In [None]:
# Calcula a Mediana
mediana = df["trihalomethanes"].median()

print("Mediana Calculada: {:.2f}".format(mediana))

# Atribuição da Mediana nos campos nulos
df["trihalomethanes"] = df["trihalomethanes"].fillna(mediana)

##### Analise descritiva depois da imputação

In [None]:
df["trihalomethanes"].describe()

#### Informações Básicas do Dataset após a Imputação de Dados

In [None]:
df.info()

## Visualização de Varáveis

### PH

#### Estatística Descritiva

In [None]:
df["ph"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="ph", kde=True, bins=20, color="green")

ax.set_title("Histograma de PH")

#### BoxPlot PH vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='ph', color="green", orient="h")

ax.set_title("PH vs Potabilidade")

In [None]:
# Estatistica descritiva  a respeito do gráfico acima
df[df["potability"] == 0]["ph"].describe()

### Hardness

#### Estatística Descritiva

In [None]:
df["hardness"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="hardness", kde=True, bins=20, color="blue")

ax.set_title("Histograma de Hardness")

#### BoxPlot Hardness vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='hardness', color="blue", orient="h")

ax.set_title("Hardness vs Potabilidade")

### Solids

#### Estatística Descritiva

In [None]:
df["solids"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="solids", kde=True, bins=20, color="red")

ax.set_title("Histograma de Solids")

#### BoxPlot Solids vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='solids', color="red", orient="h")

ax.set_title("Solids vs Potabilidade")

### Chloramines

#### Estatística Descritiva

In [None]:
df["chloramines"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="chloramines", kde=True, bins=20, color="cyan")

ax.set_title("Histograma de Chloramines")

#### BoxPlot Chloramines vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='chloramines', color="cyan", orient="h")

ax.set_title("Chloramines vs Potabilidade")

### Sulfate

#### Estatística Descritiva

In [None]:
df["sulfate"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="sulfate", kde=True, bins=15, color="yellow")

ax.set_title("Histograma de Sulfate")

#### BoxPlot Sulfate vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='sulfate', color="yellow", orient="h")

ax.set_title("Sulfate vs Potabilidade")

### Conductivity

#### Estatística Descritiva

In [None]:
df["conductivity"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="conductivity", kde=True, bins=20, color="orange")

ax.set_title("Histograma de Conductivity")

#### BoxPlot Conductivity vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='conductivity', color="orange", orient="h")

ax.set_title("Conductivity vs Potabilidade")

### Organic Carbon

#### Estatística Descritiva

In [None]:
df["organic_carbon"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="organic_carbon", kde=True, bins=20, color="brown")

ax.set_title("Histograma de Organic Carbon")

#### BoxPlot Organic Carbon vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='organic_carbon', color="brown", orient="h")

ax.set_title("Organic Carbon vs Potabilidade")

### Trihalomethanes

#### Estatística Descritiva

In [None]:
df["trihalomethanes"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="trihalomethanes", kde=True, bins=20, color="magenta")

ax.set_title("Histograma de Trihalomethanes")

#### BoxPlot Trihalomethanes vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='trihalomethanes', color="magenta", orient="h")

ax.set_title("Trihalomethanes vs Potabilidade")

### Turbidity

#### Estatística Descritiva

In [None]:
df["turbidity"].describe()

#### Histograma

In [None]:
ax = sns.histplot(data=df, x="turbidity", kde=True, bins=20, color="purple")

ax.set_title("Histograma de Turbidity")

#### BoxPlot Turbidity vs Potabilidade

In [None]:
ax = sns.boxplot(data=df, y='potability', x='turbidity', color="purple", orient="h")

ax.set_title("Turbidity vs Potabilidade")

### Potabilidade

#### Estatística Descritiva

In [None]:
df["potability"].describe()

#### CountPlot Potabilidade

In [None]:
ax = sns.countplot(data=df, x="potability")

ax.set_title("Distribuição de Potabilidade")

## Machine Learning

### Visualização dos Dados

In [None]:
df.sample(10)

### Separação Conjunto Treinamento e Teste

- Treino: Utilizado no treinamento do modelo de Machine Learning
- Teste: Utilizado para verificar se o modelo generaliza o que aprendeu para exemplos não vistos no treinamento

#### Separar X e y

- X: Contém os atributos que serão utilizados para treinar/testar o modelo de ML
- y: Contém a variável alvo, que desejamos prever

In [None]:
X = df.drop('potability', axis=1)
X.sample(5)

In [None]:
y = df['potability']
y.sample(5)

#### Separar Conjuntos de Treino e de Teste
- Treino: 70%
- Teste: 30%

In [None]:
# Separação de Conjuntos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Quantidade de elementos em cada conjunto
quantidade_conjunto_treino = X_train.shape[0]
quantidade_conjunto_teste = X_test.shape[0]

print("O conjunto de Treino ficou com {} elementos, e o conjunto de Teste ficou com {} elementos".format(quantidade_conjunto_treino, quantidade_conjunto_teste))

### Aprendizado

Treinamento do modelo utilizando Árvore de Decisão no conjunto de dados de Treino

In [None]:
# Inicialização da Arvore
dt = DecisionTreeClassifier(max_depth=25, min_samples_leaf=3, min_samples_split=3, random_state=42)

In [None]:
# Modelagem
dt.fit(X_train, y_train)

#### Visualizando a Arvore

In [None]:
def save_tree(classificador,atributos_nomes,alvo_nomes):
    # Import
    from IPython.display import Image
    from graphviz import Source
    from sklearn.tree import export_graphviz

    # Gerar a arvore
    graph = Source(
        export_graphviz(
            classificador,
            out_file=None,
            feature_names=atributos_nomes,
            class_names=alvo_nomes,
            filled=True,
            rounded=True,
            special_characters=True
        )
    )
    
    graph.render(filename='tree', view = False, format='png')

In [None]:
save_tree(dt, X.columns, ["Não Potável", "Potável"])

#### Predição do Conjunto de Treinamento

Aqui vamos verificar a performance do modelo treinado no conjunto de Treinamento

In [None]:
# Predizer o resultado
y_pred = dt.predict(X_train)

In [None]:
y_pred[0:10]

In [None]:
y_train[0:10].values

##### F1 Score

Métrica para medir a performance do modelo

F1_Score = (2 TP) / (2 TP + FP + FN)

In [None]:
# Calcular a performance
performance = f1_score(y_train, y_pred)

print("F1 Score: {:.2f}%".format(performance*100))

##### Matrix de Confusão

In [None]:
cm = confusion_matrix(y_train, y_pred)
ConfusionMatrixDisplay(cm).plot()

#### Predição do Conjunto de Teste

Aqui vamos verificar a performance do modelo treinado no conjunto de Teste

Verificamos se o modelo generalizou bem o resultado

In [None]:
# Predizer o resultado
y_pred = dt.predict(X_test)

In [None]:
y_pred[0:10]

In [None]:
y_test[0:10].values

#### Predição do Conjunto de Treinamento

Aqui vamos verificar a performance do modelo treinado no conjunto de Treinamento

In [None]:
# Calcular a performance
performance = f1_score(y_test, y_pred)

print("F1 Score: {:.2f}%".format(performance*100))

##### Matrix de Confusão

In [None]:
cm = confusion_matrix(y_test, y_pred)
ConfusionMatrixDisplay(cm).plot()

#### Teste Aleatório

In [None]:
def predict_test(index):
    
    exemplo = X_test.iloc[index]
    
    print("Exemplo:")
    print(exemplo)
    print('')
    
    y_true_exemplo = y_test.iloc[index]
    
    Resultado = namedtuple('Resultado', ['y_true', 'y_pred'])
    
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        y_pred_exemplo = dt.predict([exemplo])[0]
    
    print("Resultado:")
    return Resultado(y_true_exemplo, round(y_pred_exemplo,3))

In [None]:
predict_test(3)