# <font face="Verdana" size=6 color='#6495ED'> IAD-004 APRENDIZAGEM DE MÁQUINA 1
<font face="Verdana" size=3 color='#40E0D0'> Professores Larissa Driemeier e Thiago Martins

<center><img src='https://drive.google.com/uc?export=view&id=1J3dF7v9apzpj27oOsrT8aEagtNIYwq7J' width="600"></center>

Este notebook introdutório é sobre problemas de Regressão logística, baseado na aula [IAD-004](https://alunoweb.net/moodle/pluginfile.php/142785/mod_resource/content/2/ML1_A03_Y2024.pdf), ano 2024.

In [1]:
import operator

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

import sklearn
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
from sklearn.metrics import confusion_matrix

import tensorflow as tf
from tensorflow import keras
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense, Activation

# Regressão Logística

Define-se "razão de chance" de um evento (*odds* ou *odds ratio* em Inglês) binário (ou seja, que pode ou não acontecer) como a razão entre a probabilidade do evento acontecer e a probabilidade do evento não acontecer.
Assim, se $p$ é a probabilidade do evento acontecer,

\begin{equation}
OR(p) = \frac{p}{1-p}
\end{equation}

O modelo logístico pressupõe que o *logaritmo da razão de chance* de um evento binário é resultado de uma combinação linear de variáveis explicativas ou características (independentes). Assim, a hipótese do modelo logistico é:

\begin{equation}
\ln\left( \frac{p}{1-p}\right) = \boldsymbol{\omega}^T \boldsymbol{X} \tag{1}
\end{equation}

onde $\boldsymbol{X} =\left\{x_1, \ldots, x_n\right\}$ é um vetor de características e $\boldsymbol{\omega} =\left\{\omega_1, \ldots, \omega_n\right\}$ é vetor com *pesos* a elas atribuído.

Da equação (1), tira-se:

\begin{equation}
p = \sigma(\boldsymbol{\omega}^T \boldsymbol{X}) = \frac{1}{1+e^{-\boldsymbol{\omega}^T \boldsymbol{X}}} \tag{2}
\end{equation}


A função $h$ definida em (2) é conhecida como *função logística* ou sigmóide.
Nota-se que $1-h(x) = h(-x)$.

## Sigmóide

Uma das funções mais populares é a sigmoide, uma função poderosa principalmente para os problemas de classificação. Basicamente, a função sigmóide retorna um valor entre $1$ e $0$, bastante útil para problemas de classificação binária.

Mas como podemos interpretar um valor retornado por uma função sigmóide?

Suponha que você treinou uma Rede Neural para classificar imagens de Cães e Gatos, problema clássico, onde *cão* é 1 e *gato* é 0. Basicamente, quando seu modelo retorna valores $p \ge 0.5$ significa que a imagem é de um cão, e $ p < 0.5$ significa que a imagem é de um gato.

<center><img src='https://drive.google.com/uc?export=view&id=12lh2rLGm2r_D-DwkQB4ChBGAQP0deT26' width="400"></center>

### Exemplo 01

Suponha que a probabilidade de um cliente adquirir um produto por mala direta é,
$$
p(𝑒𝑣𝑒𝑛𝑡𝑜)=\frac{1}{1+e^{−(-1.143+0.452 x_1+0.029 x_2 − 0.242x_3 )}}
$$
onde $x_1$ é o sexo (1 para feminino e 0 para masculino), $x_2$ é a idade e $x_3$ é o estado civil (1 para solteiro e 0 para casado).

Uma pessoa do sexo feminino, com 40 anos de idade e casada, irá adquirir o produto?

In [None]:
def sigmoid(z):
    # Activation function used to map any real value between 0 and 1
    return 1 / (1 + np.exp(-z))

In [None]:
w = np.array([-1.143,0.452, 0.029, -0.242 ])
x =([1., 1., 40., 0.])
z = np.dot (w,x)
print('Probabilidade de compra = {:.4f}'.format(sigmoid(z)))

### Exemplo 02

Veremos a influência de $\omega_0$ e $\omega_1$ na função sigmoide.

In [None]:
random1=[]
random2=[]
random3=[]
xlist = []
w1=[10, 1,0.1]
for i in range(100):
 x = np.random.uniform(-5,5)
 xlist.append(x)
 logreg1 = 1/(1+np.exp(-(w1[0]*x)))
 logreg2 = 1/(1+np.exp(-(w1[1]*x)))
 logreg3 = 1/(1+np.exp(-(w1[2]*x)))
 random1.append(logreg1)
 random2.append(logreg2)
 random3.append(logreg3)
plt.scatter(xlist, random1, marker='*',s=40, c='skyblue',alpha=0.3,label=r'$\omega_1 = %3.1f$'%(w1[0]))
plt.scatter(xlist, random2, c='steelblue',alpha=0.3,label=r'$\omega_1 = %3.1f$'%(w1[1]))
plt.scatter(xlist, random3, c='navy',marker='d', alpha=0.3,label=r'$\omega_1 = %3.1f$'%(w1[2]))
plt.axhline(y=0.5, label='h(x)=0.5')
plt.ylabel(r'$h(x)=\frac{1}{1+e^{-\omega_1 \, x}}$', fontsize=16)
plt.xlabel(r'$x$',fontsize=16)
plt.legend(fontsize=10)
plt.show()

In [None]:
random1=[]
random2=[]
random3=[]
xlist = []
w0 = [-10, 0, 10]
w1 = [5., 5., 5.]
for i in range(100):
 x = np.random.uniform(-5,5)
 xlist.append(x)
 logreg1 = 1/(1+np.exp(-(w0[0]+w1[0]*x)))
 logreg2 = 1/(1+np.exp(-(w0[1]+w1[1]*x)))
 logreg3 = 1/(1+np.exp(-(w0[2]+w1[2]*x)))
 random1.append(logreg1)
 random2.append(logreg2)
 random3.append(logreg3)
plt.scatter(xlist, random1, marker='*',s=40, c='skyblue',alpha=0.5,label=r'$\omega_0 = %3.1f$'%(w0[0]))
plt.scatter(xlist, random2, c='steelblue',alpha=0.3,label=r'$\omega_0 = %3.1f$'%(w0[1]))
plt.scatter(xlist, random3, c='navy',marker='d', alpha=0.3,label=r'$\omega_0 = %3.1f$'%(w0[2]))
plt.axhline(y=0.5, label='h(x)=0.5')
plt.ylabel(r'$h(x)=\frac{1}{1+e^{-\omega_1 \, x}}$', fontsize=16)
plt.xlabel(r'$x$',fontsize=16)
plt.legend(fontsize=10)
plt.show()

#Regressão Logística binária

Dado um conjunto de dados de entrada  represento pela matriz $\textbf{X}$ de dimensão $m\times n$,
$$
\mathbf{X} = \begin{pmatrix}
x_{11} & x_{12} & \cdots & x_{1n} \\
x_{21} & x_{22} & \cdots & x_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
x_{m1} & x_{m2} & \cdots & x_{mn}
\end{pmatrix} = \begin{pmatrix}
\mathbf{x}^{(1)} \\
\mathbf{x}^{(2)} \\
\vdots \\
\mathbf{x}^{(m)}
\end{pmatrix} = \begin{pmatrix}
x^{(1)}_1 & x^{(1)}_2 & \cdots & x^{(1)}_n \\
x^{(2)}_1 & x^{(2)}_2 & \cdots & x^{(2)}_n \\
\vdots & \vdots & \ddots & \vdots \\
x^{(m)}_1 & x^{(m)}_2 & \cdots & x^{(m)}_n
\end{pmatrix}
$$
$\mathbf{y}$ o vetor de valores de dados observados
$$
\mathbf{y} = \begin{pmatrix}
y^{(1)} \\
y^{(2)} \\
\vdots \\
y^{(m)}
\end{pmatrix}
$$

e $h_{\omega}(\mathbf x^{(i)})$ o modelo logístico, $\boldsymbol{\omega}$ contém os valores dos parâmetros atuais.


### Função erro: Entropia Cruzada
Em vez do erro quadrático médio, usamos a perda de entropia cruzada,
\begin{aligned}
J(\boldsymbol{\omega}, \mathbf{X}, \mathbf{y}) = \frac{1}{m} \sum_i \left[- y^{(i)} \ln (h_{\omega}(\mathbf{x}^{(i)})) - \left(1 - y^{(i)}\right) \ln \left[1 - h_{\omega}(\mathbf{x}^{(i)}]\right] \right]
\end{aligned}

Você pode observar que, como de costume, calculamos a perda média de cada ponto em nosso conjunto de dados. A expressão interna no somatório acima representa a perda em um ponto de dados $(\mathbf{x}^{(i)}, y^{(i)})$,

$$
\begin{aligned}
L(\boldsymbol{\omega}, \textbf{x}^{(i)}, y^{(i)}) = - y^{(i)} \ln \left[h_{\omega}(\textbf{x}^{(i)})\right] - (1 - y^{(i)}) \ln \left[1 - h_{\omega}(\textbf{x}^{(i)}) \right]
\end{aligned}\tag{1}
$$

Dado que, na regressão logística cada $y^{(i)}$ assume os valores $0$ ou $1$ percebe-se que se $y^{(i)}=0$, o primeiro termo da equação (1) é zero. Se $y^{(i)}=1$, o segundo termo da equação (1) é zero. Assim, para cada ponto em nosso conjunto de dados, apenas um termo da perda de entropia cruzada contribui para a perda geral.

Suponha $y^{(i)}=0$ e a previsão do modelo logístico seja $h_{\omega}(\textbf{x}^{(i)}) = 0$ — ié, o modelo previu corretamente a resposta. A perda para este ponto será:
\begin{split}
\begin{aligned}
L(\boldsymbol{\omega}, \textbf{x}^{(i)}, y^{(i)})
&= - y^{(i)} \ln \left[h_{\omega}(\textbf{x}^{(i)})\right] - (1 - y^{(i)}) \ln \left[1 - h_{\omega}(\textbf{x}^{(i)}) \right] \\
&= - 0 - (1 - 0) \ln (1 - 0 ) \\
&= - \ln (1) \\
&= 0
\end{aligned}
\end{split}

Como esperado, a perda de uma previsão correta é $0$. Pode-se verificar também que quanto mais longe a probabilidade prevista estiver do valor verdadeiro, maior será a perda.

Minimizar a perda geral de entropia cruzada requer que o modelo $h_{\omega}(\textbf{x}^{(i)})$ faça as previsões mais precisas que puder. Convenientemente, essa função de perda é convexa, tornando a descida do gradiente uma escolha natural para otimização.




Dados os valores da sigmoide de `z`, definidos pela variável `sig`, onde $z = \boldsymbol{\omega}^T \mathbf{x}$ varia entre $-5$ e $5$,  os gráficos azul e laranja abaixo mostram, respectivamente, a primeira e segunda parcelas da equação (1).

In [None]:
z = np.arange(-5., 5., 0.2)
plt.xticks(np.arange(0, 1.1, step=0.1))
plt.yticks(np.arange(0, 0.7, step=0.5))
sig = sigmoid(z)
plt.plot(sig,-np.log(sig),label = r'$y_i=1$')
plt.plot(sig,-np.log(1-sig), color = 'orange',label = r'$y_i=0$')
plt.xlabel(r'$h_{\omega}(x^{(i)})$')
plt.ylabel(r'Função Perda')
plt.legend()
plt.grid()
plt.show()

## Gradiente da função de perda por entropia cruzada

Para executar o gradiente descendente na perda de entropia cruzada de um modelo, devemos calcular o gradiente da função de perda. Primeiro, calculamos a derivada da função sigmóide, uma vez que a usaremos em nosso cálculo de gradiente.

\begin{split}
\begin{aligned}
\sigma(z) &= \frac{1}{1 + e^{-z}} \\
\sigma'(z) &= \frac{e^{-z}}{(1 + e^{-z})^2} \\
\sigma'(z) &= \frac{1}{1 + e^{-z}} \cdot \left[1 - \frac{1}{1 + e^{-z}} \right] \\
\sigma'(z) &= \sigma(z) \left[1 - \sigma(z)\right]
\end{aligned}
\end{split}

A derivada da função sigmóide pode ser convenientemente expressa em termos da própria função sigmóide.

Define-se $\sigma^{(i)} = h_{\omega}(\textbf{x}^{(i)}) = \sigma({\textbf{x}^{(i)}}^T \boldsymbol{\omega})$. Portanto,

\begin{split}
\begin{aligned}
\nabla_{\omega} \sigma^{(i)}
&= \nabla_{\omega} \sigma(\textbf{x}^{(i)} \cdot \boldsymbol{\omega}) \\
&= \sigma(\textbf{x}^{(i)} \cdot \boldsymbol{\omega}) \left[(1 - \sigma(\textbf{x}^{(i)} \cdot \boldsymbol{\omega})\right]  \nabla_{\omega} (\textbf{x}^{(i)} \cdot \boldsymbol{\omega}) \\
&= \sigma^{(i)} (1 - \sigma^{(i)}) \textbf{x}^{(i)}
\end{aligned}
\end{split}

Agora, derivamos o gradiente da perda de entropia cruzada em relação aos parâmetros do modelo $\boldsymbol\omega$.

$$
\begin{split}
\begin{aligned}
L(\boldsymbol{\omega}, \textbf{X}, \textbf{y})
&= \frac{1}{m} \sum_i \left[- y^{(i)} \ln [h_{\omega}(\textbf{x}^{(i)})] - (1 - y^{(i)}) \ln [1 - h_{\omega}(\textbf{x}^{(i)})] \right] \\
&= \frac{1}{m} \sum_i \left[- y^{(i)} \ln \sigma^{(i)} - (1 - y^{(i)}) \ln (1 - \sigma^{(i)}) \right] \\
\nabla_{\omega} L(\boldsymbol{\omega}, \textbf{X}, \textbf{y})
&= \frac{1}{m} \sum_i \left[
    - \frac{y^{(i)}}{\sigma^{(i)}} \nabla_{\omega} \sigma^{(i)}
    + \frac{1 - y^{(i)}}{1 - \sigma^{(i)}} \nabla_{\omega} \sigma^{(i)} \right] \\
&= - \frac{1}{m} \sum_i \left[
    \frac{y^{(i)}}{\sigma^{(i)}} - \frac{1 - y^{(i)}}{1 - \sigma^{(i)}}
\right] \nabla_{\omega} \sigma^{(i)} \\
&= - \frac{1}{m} \sum_i \left[
    \frac{y^{(i)}}{\sigma^{(i)}} - \frac{1 - y^{(i)}}{1 - \sigma^{(i)}}
\right] \sigma^{(i)} (1 - \sigma^{(i)}) \textbf{x}^{(i)} \\
&= - \frac{1}{m} \sum_i \left(
    y^{(i)} - \sigma^{(i)}
\right) \textbf{x}^{(i)} \\
\end{aligned}
\end{split}\tag{2}
$$

Uma expressão surpreendentemente simples nos permite ajustar um modelo logístico para a perda de entropia cruzada usando gradiente descendente:
$$
\hat{\boldsymbol{\omega}} = \displaystyle\arg \min_{\substack{\boldsymbol{\omega}}}  L(\boldsymbol{\omega}, \textbf{X}, \textbf{y})
$$



## Gradiente descendente em lote

A fórmula geral de atualização para a descida do gradiente é dada por:
$$
\boldsymbol{\omega}^{(t+1)} = \boldsymbol{\omega}^{(t)} - \alpha \nabla_{\omega} L(\boldsymbol{\omega}^{(t)}, \textbf{X}, \textbf{y})\tag{3}
$$
onde $\alpha$ é o hiperparâmetro taxa de aprendizado.

Ao inserir a eq. (2) à fórmula de atualização (3), tem-se o algoritmo de gradiente descendente específico para regressão logística,
$$
\begin{split}
\begin{align}
\boldsymbol{\omega}^{(t+1)} &= \boldsymbol{\omega}^{(t)} - \alpha \left[- \frac{1}{m} \sum\limits_{i=1}^{m} \left(y^{(i)} - \sigma^{(i)}\right) \textbf{x}^{(i)} \right] \\
&= \boldsymbol{\omega}^{(t)} + \alpha \left[\frac{1}{m} \sum\limits_{i=1}^{m} \left(y^{(i)} - \sigma^{(i)}\right) \textbf{x}^{(i)} \right]
\end{align}
\end{split}
$$

### Exemplo: Maçã ou cereja?

<center><img src='https://drive.google.com/uc?export=view&id=1ehoGZZHsj35Gg4bd-yMTDGpC5j_ym86d' width="300"></center>

O exemplo refere-se à distinção entre pequenas maçãs e cerejas utilizando a medição do diâmetro da fruta. Os tamanhos medidos foram:
\begin{equation}
[1.8, 2.6, 3.2, 4.2, 4.4, 4.8, 5.2, 6.2 , 6.9, 8.6]
\end{equation}

E a resposta (1 - maçã, 0 - cereja) é,
\begin{equation}
[0, 0, 1, 0, 1, 1, 1, 1, 1, 1]
\end{equation}


__Atenção__ Esta análise foi feita para ilustrar a resposta e o significado da entropia cruzada. Não se preocupem em entender a bilbioteca, ela será assunto da próxima aula.

In [None]:
from sklearn.metrics import log_loss

#Estabilidade
x = np.array([1.8, 2.6, 3.2, 4.2, 4.4, 4.8, 5.2, 6.2 , 6.9, 8.6])
y = np.array([0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0])

#Essa parte irão aprender na próxima aula
logr = LogisticRegression(solver='lbfgs')
logr.fit(x.reshape(-1, 1), y)

y_pred = logr.predict_proba(x.reshape(-1, 1))[:, 1].ravel()
loss = log_loss(y, y_pred)

print('x = {}'.format(x))
print('y = {}'.format(y))
print('p(y) = {}'.format(np.round(y_pred, 2)))
print('Entropia cruzada = {:.4f}'.format(loss))

In [None]:
print('p = {}'.format(np.round(y_pred, 2)))
gen = -(y*np.log(y_pred)+(1.0-y)*np.log(1-y_pred))
print('log_prob = {}'.format(np.round(gen, 3)))
print('Entropia cruzada = {:.4f}'.format(1/len(y)*np.sum(gen)))

## Métricas

A regra é:
__there is no "one size fits all" policy!__

### Matriz de confusão

*Matriz de confusão* é uma medida de desempenho para o problema de classificação de aprendizado de máquina em que a saída pode ser duas ou mais classes. É uma tabela com 4 combinações diferentes de valores previstos e reais.


|$\downarrow$Prediction/Target $\rightarrow$      | Positivo (1) |Negativo (0)|
|:-----|:----|:------|
|**Positivo (1)** |VP            |FP |
|**Negativo (0)** |FN            |VN |

Onde VP = verdadeiro positivo, FP = falso positivo, FN = falso negativo e VN = verdadeiro negativo. Veja que:
* **Falsos negativos** e **falsos positivos** são exemplos classificados **incorretamente**.
* **Verdadeiros negativos** e **verdadeiros positivos** são exemplos classificados **corretamente**.

A partir dos erros e acertos mostrados na tabela pode-se definir o que é *acurácia* (accuracy, em inglês), *precisão* (*precision*, em inglês) e *revocação* ou *sensibilidade* (*recall*, ou *sensitivity* em inglês).

### Acurácia

Acurácia indica uma performance geral do modelo. Dentre todas as classificações, quantas o modelo classificou corretamente. Sua fórmula é,
$$
A = \frac{VP+VN}{VP+VN+FP+FN}
$$

A acurácia é uma boa indicação geral do desempenho do modelo. Porém, pode haver situações em que ela é enganosa. A principal desvantagem da precisão é que ela __mascara a questão do desequilíbrio de classes__. Por exemplo, se os dados contiverem apenas 10% de instâncias positivas, um classificador que sempre atribua o rótulo negativo alcançaria 90% de precisão, uma vez que preveria corretamente 90% das vezes.

Em suma, embora a sua simplicidade seja apelativa, a razão mais significativa pela qual a acurácia *não é uma boa medida para dados desequilibrados* é que não considera as nuances da classificação. Simplesmente fornece uma visão limitada do verdadeiro desempenho do modelo.

É por isso que métricas complementares — como precisão e recall — são tão benéficas no contexto do monitoramento de modelos.


### Precisão

Precisão é a fração dos resultados, entre os positivos detectados, que de fato são positivos.

A precisão é calculada de acordo com a seguinte equação:
$$
P = \frac{VP}{VP+FP}
$$

Se um modelo classificou um total de 100 amostras como sendo de classe positiva, e 70 delas realmente pertenciam à classe positiva do conjunto de dados (e 30 eram amostras de classe negativa previstas incorretamente como “positivas” pelo classificador), então a precisão é de 70%. Se nosso modelo tem uma precisão de 0,7 significa que, quando prevê a classe 1, está correto em 70% do tempo.

### Revocação ou sensibilidade

Revocação é a fração de positivos detectados dentre todos os positivos.

$$
R = \frac{VP}{VP+FN}
$$

Ou seja, se o conjunto de teste de um conjunto de dados consiste em 100 amostras em sua classe positiva, quantas delas foram identificadas? Se 60 das amostras positivas foram identificadas corretamente, então o recall é de 60%.


### Precisão vs revocação

Precisão é a relação entre a fração de previstos como sendo $y = 1$, que de fato pertencem à classe $y = 1$, em relação ao número total de previstos com pertencendo à classe $y = 1$.

Revocação é a relação entre o número total de previstos como pertencendo à classe $y = 1$, em relação ao número total de elementos que realmente pertencem a essa classe.

O desejado em um problema de classificação binária é ter ambos precisão e revocação altas e iguais a 1, mas isso nem sempre é possível. Porque?

**Porque existe um compromisso entre precisão e revocação.**

Como visto, a saída de uma regressão logística em um problema de classificação binária é uma probabilidade, ié, um valor real entre 0 e 1 para cada caso analisado, que representa a probabilidade do caso pertencer a uma das classes.

Também como já vimos, dado $0<\hat{y}<1$, devemos decidir em qual classe esse caso pertence, ou seja:
* Casos são previstos como sendo da classe $y = 1$, se $\hat{y}\ge limiar$;
*Casos são previstos como sendo da classe $y = 0$, se $\hat{y} < limiar$

Dependendo do valor do limar utilizado teremos resultados diferentes para a precisão e a revocação. Portanto, existe um compromisso entre precisão e revocação que depende do que queremos e em função disso podemos escolher o valor do limiar.

Por exemplo, se optamos por $limiar = 0.7$ teremos uma precisão maior, mas também teremos uma revocação menor. Por outro lado, um $limiar = 0.3$ teremos maior segurança na previsão, ou seja, teremos uma revocação alta, mas
uma precisão baixa.

__Concluindo:__
* Quanto maior o limiar, maior a precisão e menor a revocação;
* Quanto menor o limiar, maior a revocação e menor a precisão.

### Pontuação $F1$ (*$F1$ score*)

Uma métrica melhor, que combina a precisão com a revocação é a pontuação $F1$.  É a média harmônica entre precisão e revocação.

A pontuação $F1$ é definida por:
$$
F1 = \frac{2PR}{P+R}
$$

Observa-se que:
* para a pontuação $F1$ ser alta, tanto a precisão quanto a revocação devem ser altas;
* $F1 =1$ somente se $P$ e $R$ forem ambos iguais a $1$.
* se $P$ ou $R$ for igual a $0$, então, $F1$ é igual a $0$.
* pontuação $F1$ é uma forma de comparar precisão e revocação.

Desse modo, a Pontuação $F1$ é a melhor métrica para problemas de classificação onde o número de exemplos de uma classe é desbalanceado.

O Keras do TensorFlow não possui a métrica pontuação $F1$, mas ela pode ser facilmente calculada  tendo a precisão e a revocação.

### Exemplo: Maçã ou cereja?

<center><img src='https://drive.google.com/uc?export=view&id=1ehoGZZHsj35Gg4bd-yMTDGpC5j_ym86d' width="300"></center>

Supondo que a classidicação real esteja definida em `y_Actual` e `y_Predicted` seja a previsão do modelo.

Mude os valores e verifique como as métricas mudam.


In [None]:
data = {'y_Actual':    [0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
        'y_Predicted': [1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0]
       }

df = pd.DataFrame(data, columns=['y_Actual','y_Predicted'])
df

In [None]:
confusion_matrix = pd.crosstab(df['y_Actual'], df['y_Predicted'], rownames=['Target'], colnames=['Predicted'])
sns.heatmap(confusion_matrix, cmap="YlGnBu" , annot=True);

In [None]:
print('Acurácia : {:0.3f}'.format(metrics.accuracy_score(df['y_Actual'], df['y_Predicted'])))
P = metrics.precision_score(df['y_Actual'], df['y_Predicted'])
print('Precisão : {:0.3f}'.format(P))
R = metrics.recall_score(df['y_Actual'], df['y_Predicted'])
print('Revocação: {:0.3f}'.format(R))
F1 = 2*R*P/(R+P)
print('F1       : {:0.3f}'.format(F1))

### Curva ROC

A Curva Característica de Operação do Receptor (Curva COR), ou, do inglês,  *Receiver Operating Characteristic (ROC)* é uma curva de probabilidade.

Ela é criada traçando a taxa de verdadeiros positivos (revocação) em  função da taxa de falsos positivos para diferentes limites de classificação. Ou seja, número de vezes que o classificador acertou a predição contra o número de vezes que o classificador errou a predição.

A taxa de falsos positivos é dada por,
$$
FPR = \frac{FP}{FP+VN}
$$

A taxa de falsos positivos (FPR) também é conhecida como probabilidade de alarme falso (fall-out or probability of false alarm) e pode ser calculada como o complementar da taxa de verdadeiros negativos (VNR), ié, $(1 — VNR)$. VNR também é conhecida como *especificidade* (*specificity* e inglês).

Para simplificar a curva ROC, foi criada a AUC (*Area Under the Curve*). A AUC resume a curva ROC num único valor, calculando a *área sob a curva*.

Quanto maior o AUC, melhor o modelo está em prever 0s como 0s e 1s como 1s. A pontuação $AUC = 1$ representa o classificador perfeito e $AUC = 0.5$ representa um classificador sem valor.

Um modelo excelente tem AUC próximo de $1$, o que significa que tem uma boa medida de distinção das classes. Um modelo pobre tem AUC próximo de $0$, o que significa que tem a pior medida de separabilidade. Na verdade, significa que está retribuindo o resultado. Ele está prevendo 0s como 1s e 1s como 0s. E quando AUC é 0.5, significa que o modelo não tem valor nenhum, ié, não tem capacidade de separação de classes melhor que a aleatoriedade.

### Exemplo: Maçã ou cereja?

<center><img src='https://drive.google.com/uc?export=view&id=1ehoGZZHsj35Gg4bd-yMTDGpC5j_ym86d' width="300"></center>

Usando o exemplo de maçãs e cerejas, vamos supor que a resposta de nosso modelo tenha sido conforme apresentado na figura abaixo.

<center><img src='https://drive.google.com/uc?export=view&id=1tnPz7PoyD412P7sV0QKAJ3AC-0RaeJTb' width="500"></center>


In [7]:
data = {'y_Actual':    [0,    0,   1,   0,    0,  1,   1,  1],
        'prob_Predicted': [0.01, 0.04, 0.05, 0.2, 0.9, 0.95, 0.97, 0.99 ]
        }


df = pd.DataFrame(data, columns=['y_Actual','prob_Predicted'])

In [None]:
fpr, tpr, thresholds = metrics.roc_curve(df['y_Actual'], df['prob_Predicted'])
auc = metrics.roc_auc_score(df['y_Actual'], df['prob_Predicted'])

plt.plot(fpr, tpr, label='Regressão logística (area = {:0.3f})'.format(auc))
plt.plot([0, 1], [0, 1],'r--', label='FPR = R')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos')
plt.title('Curva ROC')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show();

A linha pontilhada vermelha representa a curva ROC de um classificador puramente aleatório; um bom classificador fica o mais longe possível dessa linha (em direção ao canto superior esquerdo).

#Regressão logística multiclasse

## Regressão logística multinomial

A regressão Softmax (ou regressão logística multinomial) é uma generalização da regressão logística para o caso em que queremos lidar com várias classes. Na regressão logística assumimos que os rótulos eram binários: $y^{(i)} \in \{0,1\}$. A regressão Softmax nos permite lidar com $y^{(i)} \in \{1,\ldots,K\}$ onde $K$ é o número de classes.

Nesse caso, faz-se uma modificação da regressão logística usando a *função softmax* em vez da *função sigmóide*, na função de perda de entropia cruzada.

### Softmax

Dado uma entrada de teste $\mathbf{x}$, queremos que nossa hipótese estime a probabilidade de que $P(y=k | \mathbf{x})$ para cada valor de $k = 1, \cdots, K$. Ou seja, queremos estimar a probabilidade do rótulo de classe assumir cada um dos $K$ diferentes valores possíveis. Assim, nossa hipótese produzirá um vetor K-dimensional (cujos elementos somam 1) dando-nos nossas $K$ probabilidades estimadas. Concretamente, nossa hipótese $h_{\omega}(\mathbf{x})$ assume a forma:

\begin{align}
h_\omega(\mathbf{x}) =
\begin{bmatrix}
P(y = 1 | \mathbf{x}; \boldsymbol\omega) \\
P(y = 2 | \mathbf{x}; \boldsymbol\omega) \\
\vdots \\
P(y = K | \mathbf{x}; \boldsymbol\omega)
\end{bmatrix}
=
\frac{1}{ \sum_{j=1}^{K}{\exp(\boldsymbol\omega^{(j)\top} \mathbf{x}) }}
\begin{bmatrix}
\exp(\boldsymbol\omega^{(1)\top} \mathbf{x} ) \\
\exp(\boldsymbol\omega^{(2)\top} \mathbf{x} ) \\
\vdots \\
\exp(\boldsymbol\omega^{(K)\top} \mathbf{x} ) \\
\end{bmatrix}
\end{align}

Aqui $\boldsymbol\omega^{(1)}, \boldsymbol\omega^{(2)}, \ldots, \boldsymbol\omega^{(K)} \in \Re^{n}$ são os parâmetros do nosso modelo. Observe que o termo $\frac{1}{ \sum_{j=1}^{K}{\exp(\boldsymbol\omega^{(j)\top} \mathbf{x}) } }$ normaliza a distribuição, de modo que soma um.

Por conveniência, também escreveremos $\boldsymbol\omega$ para denotar todos os parâmetros do nosso modelo. Quando você implementa a regressão softmax, geralmente é conveniente representar $\boldsymbol\omega$ como uma matriz n por K obtida pela concatenação de $\boldsymbol\omega^{(1)}, \boldsymbol\omega^{(2)}, \ldots, \boldsymbol\omega^{(K)} $ em colunas, de modo que

$$
\boldsymbol\omega = \left[\begin{array}{cccc}| & | & | & | \\
\boldsymbol\omega^{(1)} & \boldsymbol\omega^{(2)} & \cdots & \boldsymbol\omega^{(K)}\\
| & | & | & |
\end{array}\right].
$$

### Função de Custo

A função de custo utilizada para a regressão softmax é dada por,
\begin{align}
J(\boldsymbol\omega) = - \left[ \sum_{i=1}^{m} \sum_{k=1}^{K}  1\left\{y^{(i)} = k\right\} \log \frac{\exp(\boldsymbol\omega^{(k)\top} \mathbf{x}^{(i)})}{\sum_{j=1}^K \exp(\boldsymbol\omega^{(j)\top} \mathbf{x}^{(i)})}\right]
\end{align}
onde $1\{\cdot\}$ é a *função indicadora*, de modo que $1\{\hbox{uma afirmação verdadeira}\}=1$ e  $1\{\hbox{uma afirmação falsa}\}=0$. Por exemplo, $1\{\hbox{2 + 2 = 4}\}$ é avaliado como 1; enquanto $1\{\hbox{1 + 1 = 5}\}$ é avaliado como 0. Nossa função de custo será:

\begin{align}
J(\boldsymbol\omega) = - \left[ \sum_{i=1}^{m} \sum_{k=1}^{K}  1\left\{y^{(i)} = k\right\} \log \frac{\exp(\boldsymbol\omega^{(k)\top} \mathbf{x}^{(i)})}{\sum_{j=1}^K \exp(\boldsymbol\omega^{(j)\top} \mathbf{x}^{(i)})}\right]
\end{align}

O gradiente utilizado no treinamento de parâmetros é dado por,
\begin{align}
\nabla_{\boldsymbol\omega^{(k)}} J(\boldsymbol\omega) = - \sum_{i=1}^{m}{ \left[ \mathbf{x}^{(i)} \left( 1\{ y^{(i)} = k\}  - P(y^{(i)} = k | \mathbf{x}^{(i)}; \boldsymbol\omega) \right) \right]  }
\end{align}






## Regressão logística com classificadores binários múltiplos

Existem dois métodos comuns para realizar a classificação multiclasse usando o algoritmo de regressão logística de classificação binária: um-vs-todos (one-vs-all) e um-vs-um (one-vs-one).

Em *um-vs-todos*, treinamos $K$ classificadores binários separados para cada classe e executamos todos esses classificadores em qualquer novo exemplo $\mathbf{x}^{(i)}$ que desejamos prever e selecionamos a classe com a pontuação máxima,
\begin{equation}
\hat{y}=\arg \max_{k \in {1,2,\cdots,K}} h_{\omega}^{(k)}\left(\boldsymbol{x}\right)
\end{equation}
onde $ℎ_𝜔^{(k)}$  é um classificador binário projetado para reconhecer objetos da classe $k$ entre todos os objetos das outras classes.

<center><img src='https://drive.google.com/uc?export=view&id=1htbozVBe0_qfizJQdtIr_bk3qELxpNqB' width="800"></center>


Em *um-vs-um*, treinamos $\begin{pmatrix}
K \\ 2\end{pmatrix} = \frac{K (K-1)}{2}$ combinações, ié, uma para cada par possível de classes, e escolhemos a classe com probabilidade máxima quando prevemos para um novo exemplo,
\begin{equation}
\hat{y}=\arg \max_{k \in {1,2,\cdots,K}} \sum_{j=1}^K h_{\omega}^{(kj)}\left(\boldsymbol{x}_{y=k,j}\right)
\end{equation}
onde $ℎ_𝜔^{(k)}$  é um classificador binário projetado para reconhecer objetos da classe $k$ entre todos os objetos das outras classes.

<center><img src='https://drive.google.com/uc?export=view&id=1R8ZLwR-WvaGzv7bFbNNkXx0qJ6n8Zu1K' width="800"></center>


## Pros and Cons

Em geral, essa escolha depende de como seus dados se relacionam com as classes. Se seus dados podem pertencer *exclusivamente* a uma classe, o classificador multinomial como softmax é a escolha certa. O banco de dados de dígitos MNIST é um bom exemplo disso, pois um dígito é 0,1,2,.... ou 9. Um dígito pode ser 0 e 8 ao mesmo tempo.

Quando seus dados podem pertencer a mais de uma classe com diferentes graus de aproximação a cada classe, é melhor treinar um classificador binário para cada classe. Por exemplo, se você estiver classificando a música em gêneros, uma música pode ser principalmente *pop*, mas ter um pouco de *rock light*. Nesses casos, vários classificadores binários funcionarão melhor.

Agora, se você quiser usar vários classificadores binários, você tem a opção OvO e OvA. Nesse caso, OvO costuma funcionar um pouco melhor do que OvA, mas, obviamente, é seriamente limitado pelo número de classes que você tem... Se você tiver apenas algumas classes, então não há problema em usar OvO, mas para muitas classes OvA é a escolha certa.

## Exemplo

Este exercício é apenas para ilustração. Vocês aprenderão a usar as bibliotecas na aula do Prof. Thiago.

O conjunto de dados de dígitos $0-9$ já está incorporado à biblioteca scikit-learn. Os dados de entrada `data` e de saída `target` podem ser carregados com a função:

`load_digits()`

No problema de classificação multivariáveis exemplificado aqui iremos treinar o modelo para distinguir entre dez classes distintas, ié, números de 0 a 9.

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()
# Print to show there are 1797 images (8 by 8 images for a dimensionality of 64)
print('Forma dos dados de entrada', digits.data.shape)
# Print to show there are 1797 labels (integers from 0–9)
print('Forma dos dados de saída  ', digits.target.shape)

In [None]:
plt.figure(figsize=(20,4))
for index, (image, label) in enumerate(zip(digits.data[0:5], digits.target[0:5])):
 plt.subplot(1, 5, index + 1)
 plt.imshow(np.reshape(image, (8,8)), cmap=plt.cm.gray)
 plt.title('Treinamento: %i\n' % label, fontsize = 20)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=0)

In [None]:
logreg2 = LogisticRegression(max_iter = 10000)
logreg2.fit(x_train, y_train)

In [None]:
ex = 4
print('Para a entrada {:2d} o primeira entrada do conjunto de teste:\n'.format(ex))
print('A previsão do modelo é:',logreg2.predict(x_test[ex].reshape(1,-1))[0])
print('O valor correto é     :', y_test[ex])
plt.figure(figsize=(20,4))
plt.imshow(np.reshape(x_test[ex], (8,8)), cmap=plt.cm.gray)
plt.title('Treinamento: %i\n' % y_test[ex], fontsize = 20)

In [None]:
predictions = logreg2.predict(x_test)
confusion_matrix = pd.crosstab(y_test, predictions, rownames=['Target'], colnames=['Predicted'])
sn.heatmap(confusion_matrix, cmap="YlGnBu" , annot=True)

In [None]:
print('Acurácia : {:0.3f}'.format(metrics.accuracy_score(y_test, predictions)))

In [None]:
print(logreg2.predict(x_test[0:10]))
print(y_test[0:10])

### Vantagens e desvantagens da regressão logística

Devido à sua natureza eficiente e direta, não requer alto poder de computação, fácil de implementar, facilmente interpretável, amplamente utilizado por analistas de dados e cientistas. Além disso, não requer dimensionamento de recursos. A regressão logística fornece uma pontuação de probabilidade para observações.

Porém, a regressão logística não é capaz de lidar com um grande número de características/variáveis categóricas. É vulnerável a overfitting. Para resolver o problema não lineares, a regressão logística requer uma transformação de recursos, conforme visto em regressão polinomial. A regressão logística não terá um bom desempenho com variáveis independentes que não estão correlacionadas com a variável de destino e são muito semelhantes ou correlacionadas entre si.

#Logistic Regression from Scratch

Vamos nos basear no algoritmo apresentado no [link](https://developer.ibm.com/articles/implementing-logistic-regression-from-scratch-in-python/) para entender toda a lógica de regressão logística.

Inicialmente, iremos gerar um problema aleatório de classificação binária, com 4 características, e dividir os dados em teste e validação, usando a biblioteca `sklearn`. Particularmente usaremos as funções   `make_classification` e `train_test_split`.

In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X,y = make_classification(n_samples = 200, n_features = 3,n_classes=2,n_redundant = 0)
X_tr,X_te,y_tr,y_te = train_test_split(X,y,test_size=0.1)

In [None]:
fig = plt.figure(figsize=(12, 12))
ax = fig.add_subplot(projection='3d')

ax.scatter(X[:,0], X[:,1], X[:,2], c = y)
plt.show()


__Padronização__

A padronização é o processo de redimensionar os dados em torno da média com um desvio padrão unitário. Isso significa que estamos efetivamente tornando a média do atributo 0 com a distribuição resultante tendo um desvio padrão igual a 1. É uma boa prática padronizar os dados antes de alimentá-los ao algoritmo.

Matematicamente a padronização é dada por,
$$
z=\frac{x-\mu}{\sigma}
$$

In [None]:
def standardize(X_tr):
    for i in range(np.shape(X_tr)[1]):
        X_tr[:,i] = (X_tr[:,i] - np.mean(X_tr[:,i]))/np.std(X_tr[:,i])

A função F1-score é definida abaixo.

In [None]:
def F1_score(y,y_hat):
    tp,tn,fp,fn = 0,0,0,0
    for i in range(len(y)):
        if y[i] == 1 and y_hat[i] == 1:
            tp += 1
        elif y[i] == 1 and y_hat[i] == 0:
            fn += 1
        elif y[i] == 0 and y_hat[i] == 1:
            fp += 1
        elif y[i] == 0 and y_hat[i] == 0:
            tn += 1
    precision = tp/(tp+fp)
    recall = tp/(tp+fn)
    f1_score = 2*precision*recall/(precision+recall)
    return (f1_score,precision,recall)

A classe `MyLogReg` definida abaixo calcula a regressão logística multinomial.

In [None]:
class MyLogReg:
  ####calcula a função sigmoide
    def sigmoid(self,z):
        sig = 1/(1+np.exp(-z))
        return sig

  ###inicializa os pesos em zero e
  ### acrescenta uma coluna nos dados de entrada X (vies)
    def initialize(self,X):
        weights = np.zeros((np.shape(X)[1]+1,1))
        X = np.c_[np.ones((np.shape(X)[0],1)),X]#coloca uma primeira coluna de 1s em X
        return weights,X
  ### funçãod e treinamento
    def fit(self,X,y,alpha=0.001,iter=400):
        weights,X = self.initialize(X)
    ## calcula o custo
        def cost(theta):
            z = np.dot(X,theta)
            cost0 = y.T.dot(np.log(self.sigmoid(z)))
            cost1 = (1-y).T.dot(np.log(1-self.sigmoid(z)))
            cost = -((cost1 + cost0))/len(y)
            return cost
        cost_list = np.zeros(iter)
    ## loop de iterações atualizando os pesos
        for i in range(iter):
            weights = weights - alpha*np.dot(X.T,self.sigmoid(np.dot(X,weights))-np.reshape(y,(len(y),1)))
            cost_list[i] = cost(weights)
        self.weights = weights
        return cost_list
  ## depois de treinados os pesos, faz nova previsão
    def predict(self,X):
        z = np.dot(self.initialize(X)[1],self.weights)
        lis = []
        for i in self.sigmoid(z):
            if i>0.5:
                lis.append(1)
            else:
                lis.append(0)
        return lis

In [None]:
standardize(X_tr)
standardize(X_te)
obj1 = MyLogReg()
model = obj1.fit(X_tr,y_tr)
y_pred = obj1.predict(X_te)
y_train = obj1.predict(X_tr)
#Let's see the f1-score for training and testing data
f1_score_tr = F1_score(y_tr,y_train)[0]
f1_score_te = F1_score(y_te,y_pred)[0]
print('F1 treino:',f1_score_tr)
print('F1 teste :',f1_score_te)

Vamos plotar a curva de aprendizado?

In [None]:
i_iter = np.arange(0,len(np.array(model)))
plt.scatter(i_iter,np.array(model))
plt.title('Curva de aprendizado')
plt.xlabel('Iteracao')
plt.ylabel(r'$J(\omega)$')
plt.show()

Conferindo com a resposta da função `LogisticRegression`da biblioteca `sklearn`.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
model_sk = LogisticRegression().fit(X_tr,y_tr)
y_pred = model_sk.predict(X_te)
print(f1_score(y_te,y_pred))

# Questões para você pensar...
1. Com base no código anterior, modifique o valor limite (veja que atualmente está 0.5) e verifique as modificações na resposta, em termos de matriz de confusão.
2. Mostre a curva ROC.
3. Com base no código anterior, tente implementar a opção de multiclasses `OvR` e compare novamente com os resultados da biblioteca `sklearn`, conforme script abaixo:

```
from sklearn.linear_model import LogisticRegression
from sklearn.multiclass import OneVsRestClassifier
# Dados
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, n_classes=3, random_state=1)
# Modelo
model = LogisticRegression()
# define the ovr strategy
ovr = OneVsRestClassifier(model)
# Fit
ovr.fit(X, y)
# Previsão do modelo
y_pred = ovr.predict(X)
```

