In [1]:
%matplotlib notebook

import pandas as pd
import numpy as np
from scipy.stats import norm, probplot
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

# Para ter melhor print
from IPython.display import display


from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import plot_confusion_matrix

In [2]:
def regress(Y,X):
    '''
    Y: coluna do DataFrame utilizada como variável resposta (TARGET)
    X: coluna(s) do DataFrame utilizadas como variável(is) explicativas (FEATURES)
    '''
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp)
    results = model.fit()
    
    return results

In [3]:
dfWater = pd.read_csv('water_potability.csv')
dfWater = dfWater.dropna()
dfWater.isnull().sum()
dfWater

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.546600,310.135738,398.410813,11.558279,31.997993,4.075075,0
5,5.584087,188.313324,28748.687739,7.544869,326.678363,280.467916,8.399735,54.917862,2.559708,0
6,10.223862,248.071735,28749.716544,7.513408,393.663396,283.651634,13.789695,84.603556,2.672989,0
7,8.635849,203.361523,13672.091764,4.563009,303.309771,474.607645,12.363817,62.798309,4.401425,0
...,...,...,...,...,...,...,...,...,...,...
3267,8.989900,215.047358,15921.412018,6.297312,312.931022,390.410231,9.899115,55.069304,4.613843,1
3268,6.702547,207.321086,17246.920347,7.708117,304.510230,329.266002,16.217303,28.878601,3.442983,1
3269,11.491011,94.812545,37188.826022,9.263166,258.930600,439.893618,16.172755,41.558501,4.369264,1
3270,6.069616,186.659040,26138.780191,7.747547,345.700257,415.886955,12.067620,60.419921,3.669712,1


### Analise do PairPlot:

Ao analisar os gráficos gerados pelo PairPlot, chegamos a conclusão que praticamente nehuma feature está interligada, isso mostra que as features não são alteradas uma pela outras, forcando-nos a ultilizar um boxplot.

In [4]:
sns.pairplot(dfWater, height=1.5);

<IPython.core.display.Javascript object>

### Analisando boxplot
Como nossa análise do pairplot não foi efetiva nós fizemos novos gráficos que fez nós chegarmos em novas conclusões, pórem como os valores do solids eram muito altos ele impossibilitava a visualização das outras features, fazendo com que nós excluíssemos o solids.

In [5]:
import plotly.express as px

px.box(dfWater, y=['ph', 'Hardness', 'Solids', 'Chloramines',
                   'Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity'], color='Potability')

#Esta sem escala (utilize zoom)

### Gráfico sem 'solids'
Ao excluirmos o solids a visualização das outras features ficam mais visivéis, através desses gráficos é possível analisar que as features sozinhas não tem uma alteração grande o suficiente na potabilidade, apenas um junção delas. Isso é visivél pois os valores de potavél e não potavél são muito parecidos 

In [6]:
px.box(dfWater, y=['ph', 'Hardness', 'Chloramines',
                   'Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity'], color='Potability')

In [7]:
data = pd.get_dummies(dfWater)
data.head()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.5466,310.135738,398.410813,11.558279,31.997993,4.075075,0
5,5.584087,188.313324,28748.687739,7.544869,326.678363,280.467916,8.399735,54.917862,2.559708,0
6,10.223862,248.071735,28749.716544,7.513408,393.663396,283.651634,13.789695,84.603556,2.672989,0
7,8.635849,203.361523,13672.091764,4.563009,303.309771,474.607645,12.363817,62.798309,4.401425,0


### TESTE
Para realização dos testes nos dropamos a coluna 'Potability', pois é nossa variavél target


In [23]:
X = data.drop(['Potability'], axis = 1)
Y = data['Potability']


X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=0.75, random_state=83)


sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

### Decision Tree Classifier
Para nosso primeiro método classificador, nós optamos por utilizar o decision tree classifier que encontrou uma acurácia de 71.31% no treinamento e 63.68% no teste, de primeira vista é uma ótima acurácia, pórem mais pra frente iremos explicá-la melhor

In [9]:
decision_tree = DecisionTreeClassifier(random_state=83, max_depth=5, min_samples_leaf=10)
decision_tree.fit(X_train, y_train)

acc_decision_treeTRAIN = round(decision_tree.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_decision_treeTRAIN))

acc_decision_treeTESTE = round(decision_tree.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_decision_treeTESTE))

71.31%
63.68%


### Random Forest Classifier
Para nosso segundo método classificador, nós optamos por utilizar o random forest classifier que encontrou uma acurácia de 95.02% no treinamento e 64.02% no teste, de primeira vista é uma ótima acurácia, pórem mais pra frente iremos explicá-la melhor

In [21]:
random_forest = RandomForestClassifier(n_estimators=100, random_state=83, n_jobs=-1, max_depth=10, min_samples_leaf=1)
random_forest.fit(X_train, y_train)

acc_random_forestTRAIN = round(random_forest.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_random_forestTRAIN))

acc_random_forestTESTE = round(random_forest.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_random_forestTESTE))

95.02%
64.02%


### Logistic Regression
Para nosso terceiro e último método classificador, nós optamos por utilizar o logistic regress que encontrou uma acurácia de 95.02% no treinamento e 64.02% no teste, de primeira vista é uma ótima acurácia, pórem mais pra frente iremos explicá-la melhor

In [11]:
logreg = LogisticRegression(random_state=83)
logreg.fit(X_train, y_train)

acc_logTRAIN = round(logreg.score(X_train, y_train) * 100, 2)
print('{}%'.format(acc_logTRAIN))

acc_logTESTE = round(logreg.score(X_test, y_test) * 100, 2)
print('{}%'.format(acc_logTESTE))

60.96%
59.97%


In [16]:
plot_confusion_matrix(decision_tree, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>

In [22]:
plot_confusion_matrix(random_forest, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>

In [14]:
plot_confusion_matrix(logreg, X_test, y_test)  
plt.show()

<IPython.core.display.Javascript object>