In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.model_selection import train_test_split

# Pre-processamento
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler

# Classificadores
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from xgboost import XGBClassifier

# Metricas
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score,fbeta_score, roc_auc_score, roc_curve
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression

In [None]:
# ----------------------------
# 1. Dados de câncer de mama
# ----------------------------
bc = datasets.load_breast_cancer()
X = bc.data
y = bc.target

In [None]:
# ----------------------------------------
# Data splitting: Dados de treino e teste
# ----------------------------------------

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=1, stratify=y)

sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

# Modelo SVC
 O SVC (Support Vector Classification) é um algoritmo de aprendizado de máquina utilizado principalmente para problemas de classificação. É uma variação do SVM tradicional que usa uma função de base radial (`kernel=rbf`) como kernel para mapear os dados em um espaço de características de alta dimensão.

 A função de base radial, também conhecida como **função gaussiana**, é uma função que depende da distância entre um ponto de dados e um centro. Essa função atribui um peso decrescente aos pontos de dados à medida que se afastam do centro. O parâmetro gamma ($\gamma$) controla a largura da função gaussiana e afeta a suavidade da separação entre as classes.

É um algoritmo muito bom, mas é importante ajustar adequadamente os parâmetros, como $C$ (parâmetro de regularização) e $\gamma$ (parâmetro de largura da função gaussiana), para obter um desempenho ideal.

In [None]:
# ------------------------------------------------------
# Ajuste do modelo SVC (Support Vector Classification)
# ------------------------------------------------------

svc = SVC(kernel='linear', C=10.0, random_state=None)
svc.fit(X_train, y_train)

# -------------------------
# Calculando as previsões
# -------------------------
y_pred = svc.predict(X_test)

In [None]:
help(SVC)

In [None]:
# ----------------------------------
# Calculando a matriz de confusão
# ----------------------------------
conf_matrix = confusion_matrix(y_true=y_test, y_pred=y_pred)

# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

In [None]:
print('Acurácia: %.3f' % accuracy_score(y_test, y_pred))

In [None]:
print('Precisão: %.3f' % precision_score(y_test, y_pred))

In [None]:
print('Recall: %.3f' % recall_score(y_test, y_pred))

In [None]:
print('F1-Score: %.3f' % f1_score(y_test, y_pred))

In [None]:
#
# 2. Credit Card Default Dataset
# Dados disponíveis em https://r-data.pmagunia.com/system/files/datasets/dataset-63314.csv
# ou https://r-data.pmagunia.com/dataset/r-dataset-package-islr-default
#
# O conjunto de dados contém informações de débito de cartão de crédito para
# 10000 usuários e possui as seguintes colunas:
# > default (inadimplência): indica se o consumidor está inadimplente com a
#   dívida (0 - não inadimplente, 1 - inadimplente);
# > student (aluno): indica se o consumidor é aluno (0 - Não, 1 - Sim);
# > balance (saldo): saldo do cartão de crédito do usuário;
# > income (renda): renda anual do consumidor.

dataset = pd.read_csv('/content/Dataset.csv')
dataset = dataset.replace(to_replace=['No','Yes'],value=[0,1])
dataset.info()

In [None]:
dataset['default'].value_counts()

In [None]:
# Agrupando dados para criar X
X = dataset.drop(columns='default')

# Criando variável y com dados da coluna 'default'
y = dataset['default']

In [None]:
# ---------------------------------
# Modelo 1
# ---------------------------------

# Divisão do conjunto de dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# O parâmetro 'liblinear' trabalha bem com dados não-dimensionados
model = LogisticRegression(solver='liblinear')
#
# Ajuste do modelo
#
model.fit(X_train, y_train)

# Calculando as previsões
y_test_predictions = model.predict(X_test)

# Calculando a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_test_predictions)
conf_matrix

In [None]:
# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

In [None]:
#
# Calculando as métricas para verificar desempenho do modelo
#
print('Acurácia: %.3f' % accuracy_score(y_test, y_test_predictions))
print('Precisão: %.3f' % precision_score(y_test, y_test_predictions))
print('Recall: %.3f' % recall_score(y_test, y_test_predictions))
print('F1-Score: %.3f' % f1_score(y_test, y_test_predictions))

In [None]:
#
# Modelo 2
#
model = LogisticRegression(solver='liblinear',class_weight='balanced')
#
# Ajuste do modelo
#
model.fit(X_train, y_train)

# Calculando as previsões
y_test_predictions = model.predict(X_test)

# Calculando a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_test_predictions)
conf_matrix

In [None]:
# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

In [None]:
#
# Métricas
#
print('Acurácia: %.3f' % accuracy_score(y_test, y_test_predictions))
print('Precisão: %.3f' % precision_score(y_test, y_test_predictions))
print('Recall: %.3f' % recall_score(y_test, y_test_predictions))
print('F1-Score: %.3f' % f1_score(y_test, y_test_predictions))
print('Fbeta-Score: %.3f' % fbeta_score(y_test, y_test_predictions,beta=2))
print('ROC AUC: %.3f' % roc_auc_score(y_test, y_test_predictions))

In [None]:
print(classification_report(y_test, y_test_predictions, target_names=None))

In [None]:
#
# 3. Social Network Ads
#
# O conjunto de dados contém informações sobre compras de anúncios em redes
# sociais para 400 usuários e possui as seguintes colunas:
# > User ID: Id do usuário
# >	Gender: Género do usuário
# >	Age: Idadde do usuário
# > EstimatedSalary: Salário estimado do usuário
# > Purchased: Comprou
# A variável de interesse é se o cliente comprou
# ou não comprou um determinado produto (0 - Não, 1 - Sim).
# O conjunto de dados e suas as informações estão disponíveis em https://www.kaggle.com/rakeshrau/social-network-ads.

df = pd.read_csv('/content/Social_Network_Ads.csv')
df.info()
df.head(5)

In [None]:
# Porcentagem de usuários que compraram e não-comparam o anúncio
df['Purchased'].value_counts()/df['Purchased'].count()*100

In [None]:
df['Purchased'].value_counts()

In [None]:
# Agrupando dados para criar X
X = df.drop(columns=['User ID','Purchased', 'Gender'])

# Criando variável y com dados da coluna 'default'
y = df['Purchased']

In [None]:
# Padronizando as variáveis

X = MinMaxScaler().fit_transform(X)

In [None]:
x_treino, x_teste, y_treino,y_teste  = train_test_split(X, y, test_size = 0.25,random_state = 1)

In [None]:
#
# Modelo 1. KNN
#

knn = KNeighborsClassifier()
knn.fit(x_treino, y_treino)

In [None]:
#Calculando a matriz de confusão
y_pred_knn = knn.predict(x_teste)

conf_matrix = confusion_matrix(y_teste, y_pred_knn)
conf_matrix

In [None]:
# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

Da matriz de confusão podemos extrair algumas métricas:

* **VP** (Verdadeiros Positivos): Aqueles que compraram e foram classificados como compradores, $38$;
* **VN** ( Verdadeiros Negativos): Aqueles que não compraram e foram classificados como não compradores, $50$;
* **FP** (Falso Positivos): Aqueles que não compraram e foram classificados como compradores, $8$;
* **FN** (Falso Negativo): Aqueles que compraram e foram classificados como não compradores, $4$.

**Valor preditivo positivo**  $VPP = \frac{VP}{VP+FP}$: Indica qual a probabilidade de uma pessoa classificada como compradora, tenha realmente comprado;

**Valor preditivo negativo**  $VPN=\frac{VN}{VN+FN}$: Indica qual a probabilidade de uma pessoa classificada como não compradora, tenha realmente não comprado;

**Acurácia** $A=\frac{VN+VP}{VP+FN+VN+FP}$: é a média global do acerto do modelo ao classificar as classes, pode ser calculada através da razão;

**Recall** $Recall=\frac{VP}{VP+FN}$: Indica entre todos os compradores, quantos realmente o modelo conseguiu prever como comprador.

**F1-score** $F_1=2\times\frac{VPP\times Recall}{VPP+Recall}$: Indica média harmônica entre o Recall e Precision

In [None]:
#
# Métricas
#
print('Acurácia: %.3f' % accuracy_score(y_teste, y_pred_knn))
print('Precisão: %.3f' % precision_score(y_teste, y_pred_knn))
print('Recall: %.3f' % recall_score(y_teste, y_pred_knn))
print('F1-Score: %.3f' % f1_score(y_teste, y_pred_knn))
print('Fbeta-Score: %.3f' % fbeta_score(y_teste, y_pred_knn,beta=2))
print('ROC AUC: %.3f' % roc_auc_score(y_teste, y_pred_knn))

In [None]:
print(classification_report(y_teste, y_pred_knn, target_names=None))

# Curva ROC (receiver operator characteristic curve)
Para construir uma curva ROC traça-se um diagrama que represente a sensibilidade (Taxa de verdadeiros positivos) em função da proporção de falsos positivos (1- Especificidade) para um conjunto de valores.


**Sensibilidade**$=\frac{VP}{VP+FN}$: A sensibilidade mostra a proporção dos classificados como compradores em relação ao total de compradores.

**Especificidade**$=\frac{VN}{VN+FP}$: A sensibilidade mostra a proporção dos classificados como não compradores em relação ao total de não compradores.


> A AUC é área sob a curva ROC, quando maior a área sob a curva maior a AUC.

> Uma vantagem da curva ROC, é a possibilidade de escolher o ponto de corte que otimiza o desempenho do modelo.

In [None]:
#
# Graficando a curva ROC
#
# Estimando as probabilidades

knn_prob = knn.predict_proba(x_teste)
probs = knn_prob[:, 1]
rfp, rvp,lim = roc_curve(y_teste, probs)

# gráfico da curva roc
plt.plot(rfp, rvp, marker='.', label='KNN',color="red")
plt.plot([0, 1], [0, 1], color='darkblue', linestyle='--')

# axis labels
plt.xlabel('1 - Especificidade')
plt.ylabel('Sensibilidade')
plt.legend()
plt.show()

print('ROC AUC: %.6f' % roc_auc_score(y_teste, y_pred_knn))

In [None]:
#
# Modelo 2. Logistica
#
df = pd.read_csv('/content/Social_Network_Ads.csv')

# Agrupando dados para criar X
X = df.drop(columns=['User ID','Purchased', 'Gender'])

# Criando variável y com dados da coluna 'default'
y = df['Purchased']

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [None]:
logistica = LogisticRegression(random_state = 0)
logistica.fit(X_treino, y_treino)

In [None]:
y_pred_log = logistica.predict(X_teste)
conf_matrix = confusion_matrix(y_teste, y_pred_log)
conf_matrix

In [None]:
# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

In [None]:
print(classification_report(y_teste, y_pred_log_scaled, target_names=None))

In [None]:
# Após dimensionamento

sc = StandardScaler()
X_treino_scaled = sc.fit_transform(X_treino)
X_teste_scaled  = sc.transform(X_teste)

logistica_scaled = LogisticRegression(random_state = 0)
logistica_scaled.fit(X_treino_scaled, y_treino)

In [None]:
y_pred_log_scaled = logistica_scaled.predict(X_teste_scaled)
conf_matrix = confusion_matrix(y_teste, y_pred_log_scaled)
conf_matrix

In [None]:
# ---------------------------------
# Graficando a matriz de confusão
# ---------------------------------
fig, ax = plt.subplots(figsize=(5, 5))
ax.matshow(conf_matrix, cmap=plt.cm.Blues, alpha=0.3)
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        ax.text(x=j, y=i,s=conf_matrix[i, j], va='center', ha='center', size='xx-large')

plt.xlabel('Predição', fontsize=18)
plt.ylabel('Real', fontsize=18)
plt.title('Matriz de confusão', fontsize=18)
plt.show()

In [None]:
print(classification_report(y_teste, y_pred_log_scaled, target_names=None))

In [None]:
#
# Modelo 3. SVM
#

svm = SVC(kernel = 'linear', random_state = 0)
svm.fit(X_treino_scaled, y_treino)


In [None]:
y_pred_svm = svm.predict(X_teste_scaled)
conf_matrix = confusion_matrix(y_teste, y_pred_svm)
conf_matrix

In [None]:
print(classification_report(y_teste, y_pred_svm, target_names=None))

In [None]:
#
# Modelo 4. Neive Bayes
#

NB = GaussianNB()
NB.fit(X_treino_scaled, y_treino)

y_pred_NB = NB.predict(X_teste_scaled)
conf_matrix = confusion_matrix(y_teste, y_pred_NB)
conf_matrix

In [None]:
print(classification_report(y_teste, y_pred_NB, target_names=None))

In [None]:
#
# Modelo 5. XGBoost
#

In [None]:
xgboost = XGBClassifier(eval_metric='mlogloss')

In [None]:
xgboost.fit(X_treino_scaled, y_treino)

y_pred_xgboost = xgboost.predict(X_teste_scaled)

print(classification_report(y_teste, y_pred_xgboost, target_names=None))