# Contexto do projeto
Nosso projeto visa prever a potabilidade da água(target) através de algumas variáveis(features) como por exemplo o ph, hardness(quantidade de mineral), solids(quantidade de sólidos dissolvidos), conductivity (condutividade) entre outras fatores. A qualidade da água é um dos maiores problemas do mundo, pois muitas pessoas não tem acesso a saniamento básico e água potável, por isso nosso problema de prever a potabilidade é muito relevante, pois seria de grande auxílio para o combate a falta de água. 

#### Pergunta: É possível prever a potabilidade da água?

In [8]:
%matplotlib notebook

import pandas as pd
import numpy as np
from scipy.stats import norm, probplot
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

# Para ter melhor print
from IPython.display import display


from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import plot_confusion_matrix

### Abrindo o arquivo e limpando 

In [21]:
dfWater = pd.read_csv('water_potability.csv')
dfWater = dfWater.dropna()
dfWater.isnull().sum()
dfWater

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.546600,310.135738,398.410813,11.558279,31.997993,4.075075,0
5,5.584087,188.313324,28748.687739,7.544869,326.678363,280.467916,8.399735,54.917862,2.559708,0
6,10.223862,248.071735,28749.716544,7.513408,393.663396,283.651634,13.789695,84.603556,2.672989,0
7,8.635849,203.361523,13672.091764,4.563009,303.309771,474.607645,12.363817,62.798309,4.401425,0
...,...,...,...,...,...,...,...,...,...,...
3267,8.989900,215.047358,15921.412018,6.297312,312.931022,390.410231,9.899115,55.069304,4.613843,1
3268,6.702547,207.321086,17246.920347,7.708117,304.510230,329.266002,16.217303,28.878601,3.442983,1
3269,11.491011,94.812545,37188.826022,9.263166,258.930600,439.893618,16.172755,41.558501,4.369264,1
3270,6.069616,186.659040,26138.780191,7.747547,345.700257,415.886955,12.067620,60.419921,3.669712,1


## Analise do PairPlot:

Ao analisar os gráficos gerados pelo PairPlot, ou seja iremos cruzar duas varíaveis, assim chegamos a conclusão que praticamente nenhuma feature está interligada, pois em todos os gráficos as bolas estão espalhadas e o que não demonstra nenhum padrão, isso mostra que as features não são relacionadas umas pela outras, forcando-nos a ultilizar um boxplot.

In [54]:
sns.pairplot(dfWater, height=1.5);

<IPython.core.display.Javascript object>

## Analisando boxplot
Como nossa análise do pairplot não foi efetiva nós fizemos novos gráficos, atráves do boxplot que é um método para representar graficamente grupos de dados numéricos através de seus quartis, assim nós chegarmos em novas conclusões, pórem como os valores do solids eram muito altos ele impossibilitava a visualização das outras features, fazendo com que nós excluíssemos o solids.

In [51]:
import plotly.express as px

px.box(dfWater, y=['ph', 'Hardness', 'Solids', 'Chloramines','Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity'], color='Potability',title='Gráfico de Boxplot')

#Esta sem escala (utilize zoom)

### Gráfico sem 'solids'
Ao excluirmos o solids a visualização das outras features ficam mais visivéis, através desses gráficos é possível analisar que as features sozinhas não tem uma alteração grande o suficiente na potabilidade, apenas uma junção delas. Isso é visivél pois os valores de potavél e não potavél são muito parecidos em todas as features, não existe grande discrepância entre azul(não potável) e vermelho(potável)


In [52]:
px.box(dfWater, y=['ph', 'Hardness', 'Chloramines','Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity'], color='Potability', title=' Gráfico Boxplot sem o solids')

## Aplicando "get_dummies"
A função get_dummies serve para tornar variáveis categoricas em 'dummy', ou seja, em variáveis quantitativas, é necessário fazer tal transformação para aplicar as técnicas de classificação

In [13]:
data = pd.get_dummies(dfWater)
data.head()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.5466,310.135738,398.410813,11.558279,31.997993,4.075075,0
5,5.584087,188.313324,28748.687739,7.544869,326.678363,280.467916,8.399735,54.917862,2.559708,0
6,10.223862,248.071735,28749.716544,7.513408,393.663396,283.651634,13.789695,84.603556,2.672989,0
7,8.635849,203.361523,13672.091764,4.563009,303.309771,474.607645,12.363817,62.798309,4.401425,0


### TESTE
Para realização dos testes nos dropamos a coluna 'Potability', pois é nossa variavél target. E utilizamos a função StandardScaler que remove a média e escala para variância unitária.   


In [14]:
X = data.drop(['Potability'], axis = 1)
Y = data['Potability']


X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=0.75, random_state=83)


sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

# Técnicas do grupo
Nosso grupo está utilizando técnicas de classificação, pois nossa target é qualitativa, ou seja, sua previsão só pode ser dois casos e no nosso é potável e não potável

### Decision Tree Classifier
Para nosso primeiro método classificador, nós optamos por utilizar o decision tree classifier que encontrou uma acurácia de 71.31% no treinamento e 63.68% no teste, de primeira vista é uma ótima acurácia, pórem mais pra frente iremos explicá-la melhor.
O decision tree classifier é como um diagrama de fluxograma com os nós terminais representando decisões de classificação. Começando com um conjunto de dados, você pode medir a entropia para encontrar uma maneira de dividir o conjunto até que todos os dados pertençam à mesma classe. A fim de querer melhorar a acurária de nossa técnica nós adicionamos alguns parâmetros como max_depth e min_samples_leaf


![decisiontreeclassifier.png](attachment:decisiontreeclassifier.png)

In [43]:
decision_tree = DecisionTreeClassifier(random_state=83, max_depth=5, min_samples_leaf=8)
decision_tree.fit(X_train, y_train)

acc_decision_treeTRAIN = round(decision_tree.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_decision_treeTRAIN))

acc_decision_treeTESTE = round(decision_tree.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_decision_treeTESTE))

71.31%
64.15%


### Random Forest Classifier
Para nosso segundo método classificador, nós optamos por utilizar o random forest classifier que encontrou uma acurácia de 95.02% no treinamento e 64.02% no teste, de primeira vista é uma ótima acurácia, pórem mais pra frente iremos explicá-la melhor. As Random Forest Classifier são um método de aprendizagem de conjunto para classificação, regressão e outras tarefas que operam através da construção de uma infinidade de árvores de decisão no momento do treinamento. Nessa técnica, assim como na decision tree, nós utilizamos alguns parâmetros para melhorar nossa porcentagem de acurária como max_depth e min_samples_leaf.

![randomtreeclassifier.png](attachment:randomtreeclassifier.png)

In [44]:
random_forest = RandomForestClassifier(n_estimators=100, random_state=83, n_jobs=-1, max_depth=10, min_samples_leaf=1)
random_forest.fit(X_train, y_train)

acc_random_forestTRAIN = round(random_forest.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_random_forestTRAIN))

acc_random_forestTESTE = round(random_forest.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_random_forestTESTE))

95.02%
64.02%


### Logistic Regression
Para nosso terceiro e último método classificador, nós optamos por utilizar o logistic regression que encontrou uma acurácia de 60.96% no treinamento e 59.97% no teste, que também são ótimos números mas não tão bons quanto os outros, e novamente vamos falar mais sobre mais para frente. Logistic Regression é usado para modelar a probabilidade de uma determinada classe ou evento existir, como aprovação / reprovação, vitória / derrota, vivo / morto ou saudável / doente. E como no nosso caso potável/ não potável

![logisticregression.png](attachment:logisticregression.png)

In [45]:
logreg = LogisticRegression(random_state=83)
logreg.fit(X_train, y_train)

acc_logTRAIN = round(logreg.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_logTRAIN))

acc_logTESTE = round(logreg.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_logTESTE))

60.96%
59.97%


# Matrizes de confusão 
Para validar nossas técnicas nós utilizamos matrizes de confusão que mostram a quantidade de acertos e erros para as técnicas(foram feitas 3 matrizes uma para cada técnica). Para plotar é necessário apenas chegar uma função, a matriz de confusão mostra seus acertos na diagonal principal e seus erros na diagonal secundária

### Primeira matriz (decision tree classifier)
Com essa matriz será possível finalmente explicar a acurácia da técnica, a diagonal principal é onde mostram os acertos e a diagonal secundária os erros. Assim, é possível analisar que o número 796 representa o acerto em relação a 0x0, ou seja, não potável, assim nossa técnica é ótima para prever quando a água não é potável, pois acertou 796 e errou apenas 101. Pórem, quando se trata de prever se é potável, não é correto, pois acerta apenas 172 enquanto erra 440. Por fim, a acurária então é feita através de uma média ponderada entre os acertos e erros, e como a taxa de acerto para não potável é muito alta, isso faz com que a porcentagem final de acerto também seja muito alta, apesar de na verdade a acurária não ser tão boa para prever se é potável.

In [46]:
plot_confusion_matrix(decision_tree, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>

### Segunda matriz (random forest classifier)
Com essa matriz será possível finalmente explicar a acurácia da técnica, a diagonal principal é onde mostram os acertos e a diagonal secundária os erros. Assim, é possível analisar que o número 776 representa o acerto em relação a 0x0, ou seja, não potável, assim nossa técnica é ótima para prever quando a água não é potável, pois acertou 776 e errou apenas 121. Pórem, quando se trata de prever se é potável, não é correto, pois acerta apenas 190 enquanto erra 422. Por fim, a acurária então é feita através de uma média ponderada entre os acertos e erros, e como a taxa de acerto para não potável é muito alta, isso faz com que a porcentagem final de acerto também seja muito alta, apesar de na verdade a acurária não ser tão boa para prever se é potável.

In [19]:
plot_confusion_matrix(random_forest, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>

### Terceira matriz (logistic regression classifier)
Nessa técnica a matriz de confusão mostra que nosso classificador acerta praticamente todos os casos quando não é potável (0x0), pórem erra praticamente todos quando é potável (1x1). Assim sua acurária era pra ser de 50%, mas a quantidade de 0x0 é maior que a de 1x1, o que faz com que seja aproximadamente 60%.

In [20]:
plot_confusion_matrix(logreg, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>

# Conclusão final
#### Pergunta: É possível prever a potabilidade da água?
Nosso trabalho tem como resposta da nossa pergunta, que sim é possível, pórem dependendo da sua precisão, por exemplo nosso trabalho é ótimo em prever se a água não é potável mas não é bom em prever se é potável. Como dito no contexto inicial, nosso problema tem grande relavância para o mundo e só de saber se algo não é potável já é uma informação decente e imp