# Regressão logística

Determinar se um usuário comprou uma SUV baseado em sua idade e estimativa salarial

Dataset obtido no Kaggle (https://www.kaggle.com/hamzaalijoiyah/users-of-a-social-networks-who-bought-suv)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv('Social_Network_Ads.csv')

In [None]:
dados.head()

In [None]:
sns.scatterplot(x='Age',y='EstimatedSalary',data=dados,hue='Purchased')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.tight_layout()

A coluna ID do usuário não é relevante e será removida

In [None]:
dados = dados.drop('User ID',axis=1)

In [None]:
dados.head()

Informações iniciais da amostra

In [None]:
dados.info()

Verificando a existência de NaNs

In [None]:
dados.isna().sum()

Determinando número de clientes homens ou mulher

In [None]:
sns.countplot(x='Gender',data=dados)

Verificando distribuição das idades

In [None]:
sns.distplot(dados['Age'])

Verificando distribuição da renda

In [None]:
sns.distplot(dados['EstimatedSalary'])

Verificando quantidade de clientes quem compraram ou não SUV

In [None]:
sns.countplot(x='Purchased',data=dados)

A coluna genero (Gender) precisa ser transformada de variável categórica para variável numérica

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()

In [None]:
le.fit(dados['Gender'])

In [None]:
list(le.classes_)

In [None]:
dados['Gender'] = le.transform(dados['Gender'])

In [None]:
dados.head()

Normalizando os dados dos salários

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
sc_X=StandardScaler()

In [None]:
dados[['Age','EstimatedSalary']] = sc_X.fit_transform(dados[['Age','EstimatedSalary']])

In [None]:
dados.head()

Separando as variáveis X e Y

In [None]:
X = dados.drop('Purchased',axis=1).values
Y = dados['Purchased'].values

Separando dados em amostras de treino e teste

In [None]:
from sklearn.model_selection import train_test_split
X_treino,X_teste,Y_treino,Y_teste=train_test_split(X,Y,test_size=0.25,random_state=0)

Aplicando modelo de regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
modelo = LogisticRegression()

In [None]:
modelo.fit(X_treino,Y_treino)

Realizando previsão na amostra de teste

In [None]:
Y_previsto = modelo.predict(X_teste)

Determinando a matriz de confusão para verificar eficácio do modelo

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm=confusion_matrix(Y_teste,Y_previsto)

In [None]:
cm

In [None]:
sns.heatmap(cm,annot=True, fmt="d")

Calculando as métricas do modelo

In [None]:
from sklearn.metrics import classification_report,f1_score,precision_score,average_precision_score,recall_score,accuracy_score

Relatório de classificação

In [None]:
cr = classification_report(Y_teste,Y_previsto,labels=[0,1])
print(cr)

F1-score

In [None]:
f1 = f1_score(Y_teste,Y_previsto)
print("F1 score = {:0.2f}%".format(f1*100))

Precision score

In [None]:
precisao = precision_score(Y_teste,Y_previsto)
print("Precision score = {:0.2f}%".format(precisao*100))

Average precision score

In [None]:
avg_precision = average_precision_score(Y_teste,Y_previsto)
print("Averaged Precision score = {:0.2f}%".format(avg_precision*100))

Recall score

In [None]:
rec = recall_score(Y_teste,Y_previsto)
print("Recall score = {:0.2f}%".format(rec*100))

Accuracy score

In [None]:
acc = accuracy_score(Y_teste,Y_previsto)
print("Accuracy score = {:0.2f}%".format(acc*100))

# Curva ROC

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

In [None]:
roc_score = roc_auc_score(Y_teste, Y_previsto)
print("ROC score = {:0.2f}%".format(roc_score*100))

In [None]:
roc_fpr, roc_tpr, _ = roc_curve(Y_teste, Y_previsto)

In [None]:
plt.plot(roc_fpr, roc_tpr, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

# Curva Precision-Recall

In [None]:
from sklearn.metrics import precision_recall_curve,auc

In [None]:
lr_precision, lr_recall, _ = precision_recall_curve(Y_teste, Y_previsto)
lr_auc = auc(lr_recall, lr_precision)

In [None]:
print("AUC score = {:0.2f}%".format(lr_auc*100))

In [None]:
plt.plot(lr_recall, lr_precision)
plt.xlabel('Recall')
plt.ylabel('Precision')