In [8]:
# Manipulacao de dados e operacoes
import pandas as pd 
import numpy as np 
from numpy import median
from itertools import combinations
from sklearn.model_selection import train_test_split
import math

# Visualizacao
import matplotlib.pyplot as plt 
import seaborn as sns; sns.set()

# Estatistica
from statistics import mean 
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.metrics import classification_report    # output: accuracy, f1-score, recall e precision
from sklearn.metrics import confusion_matrix

# Modelos de Regressao
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, RidgeCV, Lasso, LassoCV
from sklearn.model_selection import train_test_split, cross_val_score 
from sklearn.tree import DecisionTreeRegressor  
from sklearn.neighbors import KNeighborsRegressor

# Modelos de Classificacao
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import RidgeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB

# Pre-processamento
from sklearn.preprocessing import scale, LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

# Outros
from datetime import datetime, timedelta

# CLASSIFICACAO:
---

In [9]:
# Criando objeto dos modelos de classificacao
regLog = LogisticRegression(max_iter=1000)
nb = GaussianNB()
sgd = SGDClassifier()

## BASE SAHeart.csv - Logistic Regression, SGD e Naive Bayes

In [10]:
# Lendo a base de dados
dados = pd.read_csv("SAheart.csv")

In [11]:
# Separando caracteristicas e coluna a ser prevista
X = dados.drop(['chd'], axis=1)
y = dados.chd

In [12]:
# Codificando colunas categoricas
le = LabelEncoder()
X['famhist'] = le.fit_transform(X['famhist'])

In [13]:
# Separando dados de treino e de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [14]:
# Treinando dados no modelo de classificacao
treino_LR  = regLog.fit(X_train, y_train)
treino_NB  = nb.fit(X_train, y_train)
treino_SGD = sgd.fit(X_train, y_train) 

# Calculando score do treino
score_train_LR  = treino_LR.score(X_train, y_train)
score_train_NB  = treino_NB.score(X_train, y_train)
score_train_SGD = treino_SGD.score(X_train, y_train)

# Predicao
ypred_LR  = treino_LR.predict(X_test)
ypred_NB  = treino_NB.predict(X_test)
ypred_SGD = treino_SGD.predict(X_test)


# Matriz de Confusao
confusionMtxLR = confusion_matrix(y_test, ypred_LR)
confusionMtxNB = confusion_matrix(y_test, ypred_NB)
confusionMtxSGD = confusion_matrix(y_test, ypred_SGD)

# Classification Report
clfReportLR    = classification_report(y_test, ypred_LR)
clfReportNB    = classification_report(y_test, ypred_NB)
clfReportSGD   = classification_report(y_test, ypred_SGD)

# Printando tudo
print("Matriz de confusao - Logistic Regression:\n", confusionMtxLR)
print("\nClassification Report (LR):\n", clfReportLR)
print("\n\nMatriz de confusao - Naive Bayes:\n", confusionMtxNB)
print("\nClassification Report (NB):\n", clfReportNB)
print("\n\nMatriz de confusao - SGDClassifier:\n", confusionMtxSGD)
print("\nClassification Report (SGD):\n", clfReportSGD)

# Salvando reports em forma de dicionario apos o print, para posteriores comparacoes
clfReportLR    = classification_report(y_test, ypred_LR, output_dict=True)
clfReportNB    = classification_report(y_test, ypred_NB, output_dict=True)
clfReportSGD   = classification_report(y_test, ypred_SGD, output_dict=True)

Matriz de confusao - Logistic Regression:
 [[47 11]
 [20 15]]

Classification Report (LR):
               precision    recall  f1-score   support

           0       0.70      0.81      0.75        58
           1       0.58      0.43      0.49        35

    accuracy                           0.67        93
   macro avg       0.64      0.62      0.62        93
weighted avg       0.65      0.67      0.65        93



Matriz de confusao - Naive Bayes:
 [[47 11]
 [14 21]]

Classification Report (NB):
               precision    recall  f1-score   support

           0       0.77      0.81      0.79        58
           1       0.66      0.60      0.63        35

    accuracy                           0.73        93
   macro avg       0.71      0.71      0.71        93
weighted avg       0.73      0.73      0.73        93



Matriz de confusao - SGDClassifier:
 [[40 18]
 [18 17]]

Classification Report (SGD):
               precision    recall  f1-score   support

           0       0.69 

## Conclusão: SAheart.csv
---
**Matriz de Confusão:** analisando somente a matriz de confusão de cada um dos classificadores, o resultado com *Naive Bayes* possui menor erro nas predições (menos falsos positivos e menos falsos negativos);

**Acurácia:** da mesma forma, a acurácia obtida no *Classification Report* aponta o classificador *Naive Bayes* como sendo o mais acurado dentre os três analisados;

**Recall:** como a coluna a ser predita se trata de *Coronary Heart Disease* (Doença arterial coronária), deseja-se evitar que pessoas que de fato têm a doença deixem de ser diagnosticadas com a tal. Dessa forma, analisar o recall da classe 1 para Chd traz essa noção de quantas pessoas com a doença passaram despercebidas pelo modelo. Assim como nos indicadores anteriores, o classificador *Naive Bayes* se saiu melhor, uma vez que o recall para o rótulo 1 da coluna *Chd* está em 0.6.

**De modo geral, o classificador *Naive Bayes* apresenta melhores resultados comparados aos demais.**

## BASE indians-[...].csv - Logistic Regression, SGD e Naive Bayes

In [19]:
# Lendo a base de dados
url = 'https://raw.githubusercontent.com/advinstai/Aprendizagem-estatistica-classificacao/master/pima-indians-diabetes.data.csv'
indians = pd.read_csv(url)

In [20]:
# Separando caracteristicas e coluna a ser prevista
X_indians = indians.drop(['Class'], axis=1)
y_indians = indians.Class

In [21]:
# Separando dados de treino e de teste
X_train_indians, X_test_indians, y_train_indians, y_test_indians = train_test_split(X_indians, y_indians, test_size=0.2)

In [22]:
# Treinando dados no modelo de classificacao
treino_indians_LR  = regLog.fit(X_train_indians, y_train_indians)
treino_indians_NB  = nb.fit(X_train_indians, y_train_indians)
treino_indians_SGD = sgd.fit(X_train_indians, y_train_indians)

# Calculando score do treino
score_train_indians_LR  = treino_indians_LR.score(X_train_indians, y_train_indians)
score_train_indians_NB  = treino_indians_NB.score(X_train_indians, y_train_indians)
score_train_indians_SGD = treino_indians_SGD.score(X_train_indians, y_train_indians)

# Predicao
ypred_indians_LR  = treino_indians_LR.predict(X_test_indians)
ypred_indians_NB  = treino_indians_NB.predict(X_test_indians)
ypred_indians_SGD = treino_indians_SGD.predict(X_test_indians)

# Matriz de Confusao
confusionMtxLR_indians  = confusion_matrix(y_test_indians, ypred_indians_LR)
confusionMtxNB_indians  = confusion_matrix(y_test_indians, ypred_indians_NB)
confusionMtxSGD_indians = confusion_matrix(y_test_indians, ypred_indians_SGD)

# Classification Reports
clfReport_LR_indians  = classification_report(y_test_indians, ypred_indians_LR)
clfReport_NB_indians  = classification_report(y_test_indians, ypred_indians_NB)
clfReport_SGD_indians = classification_report(y_test_indians, ypred_indians_SGD)

# Printando tudo
print("Matriz de confusao - Logistic Regression:\n", confusionMtxLR_indians)
print("\nClassification Report (LR):\n", clfReport_LR_indians)
print("\n\nMatriz de confusao - Naive Bayes:\n", confusionMtxNB_indians)
print("\nClassification Report (NB):\n", clfReport_NB_indians)
print("\n\nMatriz de confusao - SGDClassifier:\n", confusionMtxSGD_indians)
print("\nClassification Report (SGD):\n", clfReport_SGD_indians)

# Salvando reports em forma de dicionario apos o print, para posteriores comparacoes
clfReport_LR_indians = classification_report(y_test_indians, ypred_indians_LR, output_dict=True)
clfReport_NB_indians = classification_report(y_test_indians, ypred_indians_NB, output_dict=True)
clfReport_SGD_indians = classification_report(y_test_indians, ypred_indians_SGD, output_dict=True)

Matriz de confusao - Logistic Regression:
 [[89 12]
 [16 37]]

Classification Report (LR):
               precision    recall  f1-score   support

           0       0.85      0.88      0.86       101
           1       0.76      0.70      0.73        53

    accuracy                           0.82       154
   macro avg       0.80      0.79      0.79       154
weighted avg       0.82      0.82      0.82       154



Matriz de confusao - Naive Bayes:
 [[86 15]
 [17 36]]

Classification Report (NB):
               precision    recall  f1-score   support

           0       0.83      0.85      0.84       101
           1       0.71      0.68      0.69        53

    accuracy                           0.79       154
   macro avg       0.77      0.77      0.77       154
weighted avg       0.79      0.79      0.79       154



Matriz de confusao - SGDClassifier:
 [[100   1]
 [ 53   0]]

Classification Report (SGD):
               precision    recall  f1-score   support

           0       0

## Conclusão: pima-indians-diabetes.data.csv
---
**Matriz de Confusão:** analisando somente a matriz de confusão de cada um dos classificadores, o resultado com *Logistic Regression* possui menor erro nas predições (menos falsos positivos e menos falsos negativos);

**Acurácia:** da mesma forma, a acurácia obtida no *Classification Report* aponta o classificador *Logistic Regression* como sendo o mais acurado dentre os três analisados;

**Recall:** como a coluna a ser predita se trata de DIABETES (1-tem; 0-não tem), deseja-se evitar que pessoas que de fato têm diabetes deixem de ser diagnosticadas com a tal. Dessa forma, analisar o recall da classe 1 para *Class* traz essa noção de quantas pessoas com diabetes passaram despercebidas pelo modelo (em outras palavras, foram diagnosticadas como não-diabéticas). Assim como nos indicadores anteriores, o classificador *Logistic Regression* se saiu melhor, uma vez que o recall para o rótulo 1 da coluna *Class* está em 0.73.

**De modo geral, o classificador *Logistic Regression* apresenta melhores resultados comparados aos demais.**