**D1DAE: Análise Estatística para Ciência de Dados (2021.1)** <br/>
IFSP Campinas

Profs: Ricardo Sovat, Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
sns.set_style("whitegrid")

params = {'legend.fontsize': 'x-large',
          'figure.figsize': (15, 5),
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
plt.rcParams.update(params)

# Regressão Logística

## 1. Importando o Dataset

Dataset fictício criado para determinar se um usuário comprou um dado produto ou não. <br/>
https://www.kaggle.com/rakeshrau/social-network-ads

In [7]:
df = pd.read_csv('../datasets/Social_Network_Ads.csv')

In [8]:
df.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


In [9]:
df.columns = ['ID usuario', 'Genero', 'Idade', 'Salario', 'Comprado']
df.head()

Unnamed: 0,ID usuario,Genero,Idade,Salario,Comprado
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


## 2. Extraindo as variáveis independentes e dependentes
Por questões de visualização, vamos considerar apenas **duas variáveis independentes** (_Idade_ e _Salario_) para o treinamento do regressor logístico.

## 3. Dividindo o dataset em Conjunto de Treinamento e Conjunto de Teste

#### Verificando os tamanhos dos conjuntos de treino e teste

In [10]:
X.shape, y.shape

NameError: name 'X' is not defined

In [None]:
X_train.shape, y_train.shape

In [None]:
X_test.shape, y_test.shape

#### Guardando os índices das amostras para visualização

## 4. Normalizando os dados

**StandardScaler**: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
# descobre os parâmetros da normalização (fit) e já transforma/normaliza o conjunto de treinamento




In [None]:
# equivalente a: np.sqrt(var_)



In [None]:
# transforma/normaliza o conjunto de teste baseado no "normalizador" aprendido a partir do conjunto de treinamento



## 5. Treinando o modelo de Regressão Logística

#### Modelo de Regressão Logística Aprendido

In [None]:
# theta_0


In [None]:
# theta_1, theta_2


Portanto, os parâmetros aprendidos para nosso **modelo de regressão logística**, a partir do conjunto de treinamento utilizado, foi:

$\theta^T = [\theta_0, \theta_1, \theta_2] = [-0.95, 2.07, 1.11]$

<span style="font-size: 20pt">
$
h_\theta(x) = \frac{1}{1 + e^{-\theta^{T}*x}}
$
</span>

## 6. Visualizando o Modelo

## 2D

#### **Decision boundary**

Como duas variáveis dependentes, a _decision boundary_ é um plano vertical:

<span style='font-size: 20pt'>
$\theta_0 + \theta_1 * x_1 + \theta_2 * x_2 = 0$

$\theta_1 * x_1 + \theta_2 * x_2 = -\theta_0$
    
$x_2 = - (\theta_0 + \theta_1 * x_1) / \theta_2$
</span>

In [None]:
theta_0 = classifier.intercept_[0]
theta_1 = classifier.coef_[0, 0]
theta_2 = classifier.coef_[0, 1]

In [None]:
x1_decision_line = np.array([X_train[:,0].min(), X_train[:,0].max()])

In [None]:
x2_decision_line = -(theta_0 + (theta_1 * x1_decision_line)) / theta_2

#### **Visualizando tudo junto**

In [None]:
prob_train = classifier.predict_proba(X_train)[:,1].round(2)

In [None]:
df_train = df.loc[train_indices, ['Idade', 'Salario', 'Comprado']].copy()
df_train

In [None]:
df_train['Idade norm'] = X_train[:,0]
df_train['Salario norm'] = X_train[:,1]
df_train['Prob. Estimada'] = classifier.predict_proba(X_train)[:,1].round(2)

df_train['Comprado'].replace(0, 'Não', inplace=True)
df_train['Comprado'].replace(1, 'Sim', inplace=True)

df_train.head()

In [None]:
import plotly.express as px
import plotly.graph_objects as go

fig = px.scatter(df_train, x='Idade norm', y='Salario norm', color='Comprado', hover_data=['Idade', 'Salario', 'Prob. Estimada'], color_discrete_sequence=px.colors.qualitative.T10)
fig.add_trace(go.Scatter(x=x1_decision_line, y=x2_decision_line, mode='lines', name='Decision Boundary'))

fig.update_layout(title='Conjunto de Treinamento e Decision Boundary',
                  xaxis_title='Idade norm.', yaxis_title='Salario Norm.', width=700, height=600)
fig.update_xaxes(range=[X_train.min() - 0.5, X_train.max() + 0.5])
fig.update_yaxes(range=[X_train.min() - 0.5, X_train.max() + 0.5])

fig.show()

In [None]:
plt.figure(figsize=(8,8))

sns.scatterplot(data=df_train, x='Idade norm', y='Salario norm', hue='Comprado')
sns.lineplot(x=x1_decision_line, y=x2_decision_line, color='lightseagreen')

lim = df_train[['Idade norm', 'Salario norm']].min().min() - 0.5, df_train[['Idade norm', 'Salario norm']].max().max() + 0.5
plt.xlim(lim)
plt.ylim(lim)

## 3D

#### **Modelo de Regressão Logística Aprendido (Sigmoide)**

In [None]:
x_sig = np.arange(X_train[:,0].min() - 0.25, X_train[:,0].max() + 0.25, step=0.1)
y_sig = np.arange(X_train[:,1].min() - 0.25, X_train[:,1].max() + 0.25, step=0.1)
xv, yv = np.meshgrid(x_sig, y_sig)  # combinação dos x's e y's
z_sig = classifier.predict_proba(np.array([xv.ravel(), yv.ravel()]).T)[:,1].reshape(xv.shape)

#### **Plano em 50%**

In [None]:
x1_plane = [X_train[:,0].min(), X_train[:,0].max()]
x2_plane = [X_train[:,1].min(), X_train[:,1].max()]
z_plane = [[0.5, 0.5], [0.5, 0.5]]

#### **Decisiaon boundary**

Como duas variáveis dependentes, a _decision boundary_ é um plano vertical:

<span style='font-size: 20pt'>
$\theta_0 + \theta_1 * x_1 + \theta_2 * x_2 = 0$

$\theta_1 * x_1 + \theta_2 * x_2 = -\theta_0$
    
$x_2 = - (\theta_0 + \theta_1 * x_1) / \theta_2$
</span>

In [None]:
theta_0 = classifier.intercept_[0]
theta_1 = classifier.coef_[0, 0]
theta_2 = classifier.coef_[0, 1]

In [None]:
x1_decision = np.arange(X_train[:,0].min(), X_train[:,0].max(), step=0.1)
z_decision = np.linspace(0, 1.0, x1_decision.size)

In [None]:
X1_decision, Z_decision = np.meshgrid(x1_decision, z_decision)
X2_decision = -(theta_0 + (theta_1 * X1_decision)) / theta_2

#### **Visualizando tudo junto**

In [None]:
# https://stackoverflow.com/a/53116010

import plotly.graph_objects as go

fig = go.Figure(data=[
                    go.Surface(x=X1_decision, y=X2_decision, z=Z_decision, colorscale=[[0, 'paleturquoise'], [1.0, 'paleturquoise']]),
#                     go.Surface(x=x1_plane, y=x2_plane, z=z_plane, colorscale=[[0, 'gray'], [1.0, 'gray']]),
                    go.Scatter3d(x=X_train[:,0], y=X_train[:,1], z=y_train, mode='markers',
                                marker=dict(size=6, color=y_train, colorscale=[[0, '#4C78A8'], [1, '#F58518']], opacity=0.8)),
                    go.Surface(x=x_sig, y=y_sig, z=z_sig),
            ])


fig.update_layout(title='Conjunto de Treinamento e Decision Boundary',
                  scene=dict(xaxis_title='Idade norm.', yaxis_title='Salário Norm.', zaxis_title='Prob. Estimada'), width=700, height=600)
fig.update_xaxes(range=[X_train.min() - 0.5, X_train.max() + 0.5])
fig.update_yaxes(range=[X_train.min() - 0.5, X_train.max() + 0.5])

fig.show()

## 7. Classificação / Predição

In [None]:
classification_df = pd.DataFrame({
    'y_test': y_test,
    'y_pred': y_pred,
    'prob' : y_pred_prob,
    'acertou': y_test == y_pred 
})
classification_df

## 8. Métricas de Avaliação

### 8.1. Matriz de Confusão

<img src='../imgs/confusion_matrix.png' width=250px/>

In [None]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_test, y_pred)
conf_matrix

In [None]:
conf_matrix.ravel()

In [None]:
tn, fp, fn, tp = conf_matrix.ravel()

In [None]:
conf_matrix_df = pd.DataFrame({
    'Pred Label – Negative': [tn, fn],
    'Pred Label – Positive': [fp, tp]
}, index=['True Label – Negative', 'True Label – Positive'])

conf_matrix_df

In [None]:
classifier.classes_

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

disp = ConfusionMatrixDisplay(confusion_matrix=conf_matrix, display_labels=classifier.classes_)
disp.plot()

### 8.2. Precision / Recall

<img src='../imgs/Precisionrecall.svg' width=300/>

_Selected elements_ são amostradas **classificadas** como da _Classe Positiva_. <br/>
_Relevant elements_ são amostradas cuja **classe verdadeira** é a _Classe Positiva_. <br/><br/>

<span style="font-size: 20pt">
$
precision = \frac{TP}{TP + FP}
$
</span>

_Dos itens classificados como positivo, quantos de fato são **verdadeiros positivos**?_ <br/>
_O quão preciso o classificador é ao classificar amostras como **positivas**?_ <br/>
_Ex: O quão preciso o classificador é nos pacientes que ele classificou com cancer?_ <br/><br/>

<span style="font-size: 20pt">
$
recall = sensitivity = true \space positive \space rate = \frac{TP}{FN+TP}
$
</span>

_Quantos **verdadeiros positivos** (proporção) foram classificados corretamente?_ <br/>
_Ex: O quão sensível o classificador é para classificar corretamente os pacientes que estão com cancer?_

In [None]:
precision = tp / (tp + fp)
recall = tp / (fn + tp)

print(f'Precision: {precision}, Recall: {recall}')

In [None]:
# alternativamente
from sklearn.metrics import precision_recall_curve

precision_sk, recall_sk, _ = precision_recall_curve(y_test, y_pred)
print(f'Precision Sklearn: {precision_sk}, Recall Sklearn: {recall_sk}')

In [None]:
# ou ainda
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred, digits=6, target_names=['Não Comprado', 'Comprado']))

### 8.3. Sensitivity / Specificity

<img src='../imgs/Sensitivity_and_specificity.png'/>

<span style="font-size: 20pt">
$
sensitivity = recall = true \space positive \space rate = \frac{TP}{FN+TP}
$
</span>

_Quantos **verdadeiros positivos** (proporção) foram classificados corretamente?_ <br/>
_Ex: O quão sensível o classificador é para classificar corretamente os pacientes que estão com cancer?_ <br/><br/>

<span style="font-size: 20pt">
$
specificity = true \space negative \space rate = \frac{TN}{FN+TN}
$
</span>

_Quantas amostras classificadas como **negativas** são realmente **negativas**?_ <br/>
_Ex: Quantos pacientes saudáveis são identificados como não tendo cancer?_ <br/><br/>

In [None]:
sensitivity = tp / (fn + tp)
specificity = tn / (fn + tn)

print(f'Sensitivity: {sensitivity}, Specificity: {specificity}')

### 8.4. Accuracy

<span style="font-size: 20pt">
$
accuracy = \frac{TP + TN}{TN + FN + FP + TP}
$
</span>

<br/>

_Qual foi a taxa de acerto (geral) da classificação?_

Foca nos **True Positives e True Negatives**. Não leva muito em conta os erros de classificação (FP e FN).

In [None]:
accuracy = (tp + tn) / (tn + fn + fp + tp)

print(f'Accuracy: {accuracy}')

In [None]:
# alternativamente
from sklearn.metrics import accuracy_score

accuracy_sk = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy_sk}')

### 8.5. F1 score (Dice score)

<span style="font-size: 20pt">
$
F1 = 2 * \frac{precision \space * \space recall}{precision \space + \space recall}
$
</span>

In [None]:
f1 = 2 * ((precision * recall) / (precision + recall))

print(f'F1-score: {f1}')

In [None]:
# alternativamente
from sklearn.metrics import f1_score

f1_sk = f1_score(y_test, y_pred)
print(f'F1-score Sklearn: {f1_sk}')

#### Accuracy vs F1-Score
- _Accuracy_ é usada quando as taxas de **Verdadeiros Positivos** e **Verdadeiros Negativos** são mais importantes (taxas de acerto), enquanto _F1-score_ é usado quando as taxas de **Falsos Positivos** e **Falsos Negativos** são _cruciais_;
- _Accuracy_ pode ser usada quando a distribuição de classes das amostras de teste é _similar_, enquanto a _F1-score_ é uma métrica melhor quando há desbalanceamento de classes nas amostras de teste;
- Em problemas de classificação do "mundo real", o desbalanceamento de classes é comum, logo a _F1-score_ tende a ser uma métrica de avaliação mais interessante do que a _Accuracy_.

https://medium.com/analytics-vidhya/accuracy-vs-f1-score-6258237beca2#:~:text=Accuracy%20is%20used%20when%20the,as%20in%20the%20above%20case.

### 8.6. Juntando todas as métricas

In [None]:
scores = pd.DataFrame({
    'Precision': [precision],
    'Recall / Sensitivity': [recall],
    'Specificity': [specificity],
    'Accuracy': [accuracy],
    'F1-score': [f1]
})
scores

## 9. Visualizando a classificação

In [None]:
plt.figure(figsize=(8,8))

sns.scatterplot(x=X_test[:,0], y=X_test[:,1], hue=y_test)
sns.lineplot(x=x1_decision_line, y=x2_decision_line, color='lightseagreen')

lim = X_test.min() - 0.5, X_test.max() + 0.5
plt.xlabel('Idade norm')
plt.ylabel('Salario norm')
plt.xlim(lim)
plt.ylim(lim)

In [None]:
# confrontar com a matriz de confusão