### IMPORTAÇÕES NECESSÁRIAS

In [1]:
import matplotlib.pyplot as plt
import ipywidgets as widgets
import pandas as pd
import numpy as np

from sklearn.datasets import load_breast_cancer
from ipywidgets import interact

%matplotlib widget

### DESCRIÇÃO DO PROBLEMA

Suponha que temos uma relação de pacientes com câncer de mama e precisamos desenvolver um modelo de Aprendizado de Máquina para prever qual a gravidade do câncer destes pacientes. Entre as respostas possíveis, temos que classificar o câncer como **maligno** ou **benigno**.

Dessa forma, o problema não se encaixa como um problema de regressão, mas sim de classificação. Ou seja, queremos prever uma variável qualitativa, como uma categoria (**maligno** ou **benigno**).

Para que os computadores possam "entender" as variáveis qualitativas, é preciso traduzi-las para a linguagem numérica, ex.: benigno = 0; e maligno = 1. Este processo de tradução é chamado de ***encoding*** ou **codificação**.

Veremos mais à frente que estes valores qualitativos podem ser interpretados como a probabilidade de uma determinada amostra pertencer a classe-alvo.

### CARREGAMENTO E VISUALIZAÇÃO DOS DADOS

In [None]:
data = load_breast_cancer(as_frame=True)

print(f"{'-'*80}\nVariáveis independentes: {data['feature_names']} \n{'-'*80}\nVariáveis dependentes: {data['target_names']}")

In [None]:
print(f'{"-"*100} \nX:')
display(data['data'].head(5))

print(f'{"-"*100} \ny:')
display(data['target'][-10:])

Ao analisar a base de dados, observa-se que o valor correspondente à classe **maligno** é 0 e aquele correspondente à classe **benigno** é 1. É comum em um problema de classificação binária (duas classes-alvo) que a classe principal a qual se deseja prever seja representada pelo número 1. Dessa forma, por questões didáticas, decidi trocar os valores entre as classes. Ou seja, agora o valor referente à classe **maligno** (classe principal) será 1 e o da classe **benigno** será 0.

**obs: essa mudança de ordem não altera em nada o processo de desenvolvimento e otimização do modelo de regressão logística.**

In [4]:
X, y = data['data'].values, data['target'].values

y = np.where(y == 0, 1, 0)

In [None]:
fig = plt.figure(figsize=(5,4))

ax0 = fig.add_subplot(1,1,1)

ax0.scatter(X[:,2][y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='benigno')
ax0.scatter(X[:,2][y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='maligno')
ax0.set_xlabel(data['feature_names'][2])
ax0.set_ylabel('Class')
ax0.legend()

fig.tight_layout()
plt.show()

### POR QUE NÃO USAR REGRESSÃO LINEAR?

Uma vez transformadas as classes em valores binários 0/1, podemos treinar um regressor linear para estimar qual a categoria do câncer de um determinado paciente da seguinte forma:

In [None]:
x_ = np.linspace(X[:,2].min(), X[:,2].max(), 10)
y_ = x_ * (1 / 40) - 2 # Linear Regressor

fig = plt.figure(figsize=(5,4))

ax0 = fig.add_subplot(1,1,1)

ax0.scatter(X[:,2][y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
ax0.scatter(X[:,2][y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
ax0.plot(x_, y_, linestyle='--', c='black', label='Regressor Linear')
ax0.set_xlabel(data['feature_names'][2])
ax0.set_ylabel('Class')
ax0.legend()

fig.tight_layout()
plt.show()

Analisando a figura anterior, podemos interpretar os valores preditos pelo regressor linear como uma estimativa de $P(y=1|X)$. Isto é, a probabilidade de uma determinada amostra $X$ pertencer a classe 1 (maligno). Observa-se que os valores estimados pelo regressor linear ultrapassam os limites de probabilidae (0 e 1) e podem variar de $-\infty$ a $+\infty$.

Portanto, é por essas e outras razões que é preferível a utilização de um regressor mais adequado capaz de lidar com valores qualitativos, como o modelo de **Regressão Logística**

### REGRESSÃO LOGÍSTICA

O modelo de Regressão Logística tem esse nome devido à função que serve de hipótese para o modelo: função logística, mais especificamente a função sigmóide.

A imagem da função sigmóide varia entre os valores 0 e 1. Sua equação é descrita da seguinte forma:

$$g(z) = \frac{1}{1 + e^{-z}}$$

Veremos mais à frente que, quando utilizada para modelar um problema de classificação do tipo $P(y=1|X)$, a função precisa ser ajustada e $z$ passa a ser uma abreviação de $w \cdot X + b$ e a versão completa da função é, então:

$$ g_{W, b}(X) = \frac{1}{1 + e^{-(W \cdot X + b)}} $$

onde $g_{W, b}(X) = P(y=1|X)$ é a variável dependente (saída), $X$ são as variáveis independentes (entrada), $W$ e $b$ são parâmetros a serem otimizados.

**OBS: para facilitar, a partir de agora, vamos abreviar $g_{W, b}(X)$ por $\hat{y}$, onde entende-se que $g(.)$ é a resposta calculada pelo modelo ($g(.)=\hat{y}$)**

A forma em "S" da função sigmoide pode ser visualizada na figura a seguir:

In [7]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

In [None]:
z = np.linspace(-10, 10, 100)
g = sigmoid(z)

fig = plt.figure(figsize=(5,4))

ax0 = fig.add_subplot(1,1,1)

ax0.plot(z, g, c='black', label='Sigmoid')
ax0.set_xlabel('$z$')
ax0.set_ylabel('$g(z)$')
ax0.legend()

fig.tight_layout()
plt.show()

Agora vamos tentar implementar a função logística para receber como entrada as variáveis do nosso problema de classificação de câncer de mama e ver como os parâmetros influenciam a função.

In [9]:
# utilizar utils

def standardize(x):
    return (x - x.mean(axis=0)) / x.std(axis=0)

In [10]:
X = standardize(X)

In [None]:
x_ = np.linspace(X[:,2].min(), X[:,2].max(), 1000)

fig = plt.figure(figsize=(5,4))
ax0 = fig.add_subplot(1,1,1)

def update(w, b):

    z = w * x_ + b
    g = sigmoid(z)

    ax0.clear()
    ax0.scatter(X[:,2][y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
    ax0.scatter(X[:,2][y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
    ax0.plot(x_, g, linestyle='--', c='black', label=f'w={round(w, 2)} | b={round(b, 2)}')
    ax0.set_xlabel(data['feature_names'][2])
    ax0.set_ylabel('Class')
    ax0.legend()

interact(update, w=widgets.FloatSlider(value=0, min=-10, max=10), b=widgets.FloatSlider(value=0, min=-10, max=10))

fig.tight_layout()
plt.show()

### OTIMIZAÇÃO DOS PARÂMETROS

Quando desejamos modelar um regressor logístico para um problema de classificação, estimamos uma função logística cujos coeficientes $W$ e $b$ são desconhecidos. Portanto, é necessário estimar os coeficientes de maneira que a curva melhor se ajuste aos dados de treinamento.

Para a otimização dos coeficientes do modelo de Regressão Linear, é utilizado o método dos Mínimos Quadrados para minimizar a diferença entre os dados preditos $\hat{y}$ e reais $y$ da seguinte forma:

$$ MSE = \frac{1}{2m} \sum_{i=0}^{m-1} (\hat{y_{i}} - y_{i})^{2} $$

A utilização da MSE como função custo da Regressão Logística não é indicada e abaixo demonstraremos o porquê:

In [12]:
def mse(y_pred, y):
    return np.mean((y_pred - y)**2, axis=0) / 2

In [None]:
n_grid = 25

w_ = np.linspace(-25, 25, n_grid).reshape(1,-1)
b_ = np.linspace(-25, 25, n_grid).reshape(1,-1)
W_, B_ = np.meshgrid(w_, b_)

x_ = X[:, 2].reshape(-1,1)
z_ = np.dot(x_, W_.reshape(1,-1)) + B_.reshape(1,-1)
y_pred = sigmoid(z_)

mse_ = mse(y_pred, np.tile(y.reshape(-1,1), n_grid**2))
mse_ = mse_.reshape(n_grid, n_grid)

fig = plt.figure(figsize=(5,5))

ax0 = fig.add_subplot(111, projection='3d')
ax0.plot_surface(W_, B_, mse_, cmap='viridis')
ax0.set_xlabel('$W$')
ax0.set_ylabel('$b$')
ax0.set_zlabel('$MSE$')

fig.tight_layout()
plt.show()

Devido ao fato de a função logística (sigmoide) ser não-linear, a função MSE, quando utilizada no contexto da Regressão Logística, assume uma forma não-convexa. Isto é, existem vários pontos da função custo diferentes do mínimo global que também possuem derivadas parciais com relação aos parâmetros iguais a 0. Dessa forma, a otimização dos parâmetros através do metódo Gradiente Descendente é prejudicada, uma vez que quando o gradiente é nulo não há atualização.

Ao invés de utilizar a MSE, é utilizada uma abordagem diferente: da Probabilidade Máxima (*Maximum Likelihood*). A estimativa dos coeficientes de um modelo de Regressão Logística é dada de tal forma a maximizar as probabilidades de classificação em cada classe.

$ \begin{equation}
    \begin{align*}
        \text{Likelihood} = L(y, \hat{y}) & = \prod_{i=0}^{m-1} P(y_{i}=1|X_{i})^{y_{i}} \prod_{i=0}^{m-1} P(y_{i}=0|X_{i})^{1-y_{i}} \\
        & = \prod_{i=0}^{m-1} P(y_{i}=1|X_{i})^{y_{i}} \prod_{i=0}^{m-1} \left[ 1 - P(y_{i}=1|X_{i}) \right]^{1-y_{i}} \\
        & = \prod_{i=0}^{m-1} \hat{y_{i}}^{y_{i}} \prod_{i=0}^{m-1} \left( 1 - \hat{y_{i}} \right)^{1-y_{i}}
    \end{align*}
\end{equation} $

Através do produtório das probabilidades preditas para cada classe, a função *Likelihood* mede o nível de acerto do modelo em uma escala de probabilidade $[0, 1]$. Na prática, a probabilidade predita ($\hat{y}$) nunca será igual a 0 ou 1, de fato, porque a função sigmoid nunca alcança esses valores. Entretanto, quanto mais perto as probabilidades preditas forem das verdadeiras, maior será o valor do *Likelihood*.

In [14]:
def likelihood(y, y_hat):
    return np.prod(y_hat**y * (1 - y_hat)**(1-y), axis=0)

In [None]:
x = X[:,2].reshape(-1,1)
x_ = np.linspace(x.min(), x.max(), 1000)

N = 25

w_max = b_max = 10
w_min = b_min = -w_max

w_ = np.linspace(w_min, w_max, N).reshape(1,-1)
b_ = np.linspace(b_min, b_max, N).reshape(1,-1)
W_, B_ = np.meshgrid(w_, b_)

Z_ = np.dot(x, W_.reshape(1,-1)) + B_.reshape(1,-1)
Y_hat_ = sigmoid(Z_)

L_ = likelihood(np.tile(y.reshape(-1,1), N**2), Y_hat_)
L_ = L_.reshape(N, N)

fig = plt.figure(figsize=(8,4))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d')

ax0.scatter(x[y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
ax0.scatter(x[y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
ax0_line, = ax0.plot(x_, x_, linestyle='--', c='black')
ax0.set_xlabel(data['feature_names'][2])
ax0.set_ylabel('Class')
ax0.set_ylim(-.1, 1.1)
ax0.legend()

ax1.plot_surface(W_, B_, L_, cmap='viridis', zorder=0)
ax1_line, = ax1.plot([], [], [], marker='o', color='orange', zorder=3)
ax1.set_xlabel('$W$')
ax1.set_ylabel('$b$')
ax1.set_zlabel('Likelihood')

def update(w, b):

    z_ = w * x_ + b
    z = w * x + b
    y_hat_ = sigmoid(z_)
    y_hat = sigmoid(z)
    lh = likelihood(y, y_hat.flatten())
    
    ax0_line.set_ydata(y_hat_)
    ax0_line.set_label(f'w:{w} | b:{b}')
    ax0.set_title(f'Likelihood: {lh}')

    ax1_line.set_data([w], [b])
    ax1_line.set_3d_properties(lh)

interact(update, w=widgets.FloatSlider(value=1, min=w_min, max=w_max), b=widgets.FloatSlider(value=0, min=b_min, max=b_max))

fig.tight_layout()
plt.show()

Observando os resultados da função *Likelihood*, tem-se que, devido ao produtório de uma série de valores menores que 1 e maiores que 0, o valor da função é, para a maioria dos coeficientes, próximo de zero e, portanto, métodos que dependem do gradiente para a atualização dos coeficientes não funcionarão.

Para contornar esse problema, a função logarítmica é aplicada à função *Likelihood*: 

$$ \begin{equation*}
    log \left(L(y, \hat{y}) \right) = log\left(\prod_{i=0}^{m-1} \hat{y_{i}}^{y_{i}} \prod_{i=0}^{m-1} \left( 1 - \hat{y_{i}} \right)^{1-y_{i}}\right)
\end{equation*} $$

Aplicando a seguinte propriedade do logarítmo: $log(A \cdot B)=log(A)+log(B)$ e chamando $log(L(y, \hat{y}))$ de $LL(y, \hat{y})$ temos que

$$ \begin{equation*}
    \begin{align*}
        LL(y, \hat{y}) & = \sum_{i=0}^{m-1} log(\hat{y_{i}}^{y_{i}}) + log([1 - \hat{y_{i}}]^{1 - y_{i}}) \\
        & = \sum_{i=0}^{m-1} y_{i} \cdot log(\hat{y_{i}}) + (1 - y_{i}) log([1 - \hat{y_{i}}]) \\
    \end{align*}
\end{equation*} $$

Com isso, temos a expressão para o *log-likelihood*. Sua forma pode ser visualizada na figura abaixo:

In [17]:
def log_likelihood(y, y_hat):
    return np.sum(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat), axis=0)

In [None]:
x = X[:,2].reshape(-1,1)
x_ = np.linspace(x.min(), x.max(), 1000)

N = 25

w_max = b_max = 10
w_min = b_min = -w_max

w_ = np.linspace(w_min, w_max, N).reshape(1,-1)
b_ = np.linspace(b_min, b_max, N).reshape(1,-1)
W_, B_ = np.meshgrid(w_, b_)

Z_ = np.dot(x, W_.reshape(1,-1)) + B_.reshape(1,-1)
Y_hat_ = sigmoid(Z_)

L_ = log_likelihood(np.tile(y.reshape(-1,1), N**2), Y_hat_)
L_ = L_.reshape(N, N)

fig = plt.figure(figsize=(8,4))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d')

ax0.scatter(x[y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
ax0.scatter(x[y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
ax0_line, = ax0.plot(x_, x_, linestyle='--', c='black')
ax0.set_xlabel(data['feature_names'][2])
ax0.set_ylabel('Class')
ax0.set_ylim(-.1, 1.1)
ax0.legend()

ax1.plot_surface(W_, B_, L_, cmap='viridis', zorder=0)
ax1_line, = ax1.plot([], [], [], marker='o', color='orange', zorder=3)
ax1.set_xlabel('$W$')
ax1.set_ylabel('$b$')
ax1.set_zlabel('Likelihood')

def update(w, b):

    z_ = w * x_ + b
    z = w * x + b
    y_hat_ = sigmoid(z_)
    y_hat = sigmoid(z)
    lh = log_likelihood(y, y_hat.flatten())
    
    ax0_line.set_ydata(y_hat_)
    ax0_line.set_label(f'w:{w} | b:{b}')
    ax0.set_title(f'Likelihood: {lh}')

    ax1_line.set_data([w], [b])
    ax1_line.set_3d_properties(lh)

interact(update, w=widgets.FloatSlider(value=1, min=w_min, max=w_max), b=widgets.FloatSlider(value=0, min=b_min, max=b_max))

fig.tight_layout()
plt.show()

Para a otimização dos coeficientes da Regressão linear é comum utilizar métodos de minimização de funções, em detrimento daqueles de maximização. Portanto, na realidade, a função cuja **minimização** significa encontrar os melhores coeficientes (função custo) é o negativo do *log-likelihood*:

$$ -L(y, \hat{y}) = J(y, \hat{y}) = \frac{1}{m} \sum_{i=1}^{m-1} -y_{i} \cdot log(\hat{y_{i}}) -(1 - y_{i}) \cdot log(1 - \hat{y_{i}}) $$

A forma de $J(y, \hat{y})$ pode ser visualizada na figura abaixo:

In [19]:
def log_loss(y, y_hat):
    return -np.mean(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat), axis=0)

In [None]:
x = X[:,2].reshape(-1,1)
x_ = np.linspace(x.min(), x.max(), 1000)

N = 25

w_max = b_max = 10
w_min = b_min = -w_max

w_ = np.linspace(w_min, w_max, N).reshape(1,-1)
b_ = np.linspace(b_min, b_max, N).reshape(1,-1)
W_, B_ = np.meshgrid(w_, b_)

Z_ = np.dot(x, W_.reshape(1,-1)) + B_.reshape(1,-1)
Y_hat_ = sigmoid(Z_)

L_ = log_loss(np.tile(y.reshape(-1,1), N**2), Y_hat_)
L_ = L_.reshape(N, N)

fig = plt.figure(figsize=(8,4))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d')

ax0.scatter(x[y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
ax0.scatter(x[y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
ax0_line, = ax0.plot(x_, x_, linestyle='--', c='black')
ax0.set_xlabel(data['feature_names'][2])
ax0.set_ylabel('Class')
ax0.set_ylim(-.1, 1.1)
ax0.legend()

ax1.plot_surface(W_, B_, L_, cmap='viridis', zorder=0)
ax1_line, = ax1.plot([], [], [], marker='o', color='orange', zorder=3)
ax1.set_xlabel('$W$')
ax1.set_ylabel('$b$')
ax1.set_zlabel('Likelihood')

def update(w, b):

    z_ = w * x_ + b
    z = w * x + b
    y_hat_ = sigmoid(z_)
    y_hat = sigmoid(z)
    lh = log_loss(y, y_hat.flatten())
    
    ax0_line.set_ydata(y_hat_)
    ax0_line.set_label(f'w:{w} | b:{b}')
    ax0.set_title(f'Likelihood: {lh}')

    ax1_line.set_data([w], [b])
    ax1_line.set_3d_properties(lh)

interact(update, w=widgets.FloatSlider(value=1, min=w_min, max=w_max), b=widgets.FloatSlider(value=0, min=b_min, max=b_max))

fig.tight_layout()
plt.show()

Após a obtenção da função custo para a Regressão Logística, podemos observar que a função resultante é agora convexa e suave. Além de os valores estarem adequados, nem muito pequenos, nem muito grandes.

Encontrar os parâmetros que minimizem essa função significa encontrar aqueles que satisfaçam a equação:

$$ \nabla_{w,b} J(y, \hat{y}) = \frac{\partial J}{\partial w}\textbf{i} + \frac{\partial J}{\partial b}\textbf{j} = 0 \Rightarrow \begin{cases}
                \frac{\partial J}{\partial w} = 0 \\ \\
                \frac{\partial J}{\partial b} = 0
            \end{cases} $$

Para isso, então, é necessário calcular as derivadas parciais da função custo com relação aos coeficientes $w$ e $b$.

Primeiro, vamos calcular a derivada com relação a $w$:

$$\begin{align*}
    \frac{\partial J}{\partial w} & = \frac{\partial}{\partial w} \left[\frac{1}{m} \sum_{i=0}^{m-1} - y_{i} \cdot log(\hat{y_{i}}) - (1 - y_{i}) \cdot log(1 - \hat{y_{i}}) \right] \\
    & = \frac{1}{m} \sum_{i=0}^{m-1} - y_{i} \cdot \frac{\partial}{\partial w} log(\hat{y_{i}}) - (1 - y_{i}) \cdot \frac{\partial}{\partial w} log(1 - \hat{y_{i}})
\end{align*}$$

#### (1) Calculando $\frac{\partial}{\partial w} log(\hat{y_{i}})$

$$ \frac{\partial}{\partial w} log(\hat{y_{i}}) = \frac{\partial}{\partial w} log\left(\frac{1}{1 + e^{wx+b}}\right) $$

Para isso, vamos fazer as seguintes substituições de variáveis:

$$ \begin{cases}
    g = log(\frac{1}{1 + e^{wx + b}}) = log(\hat{y}) \\
    k = \frac{1}{1 + e^{wx + b}} = \hat{y} \\
    v = 1 + e^{wx + b} = \hat{y}^{-1} \\
    u = wx + b
\end{cases} $$

Dessa forma, de acordo com a regra da cadeia, temos que $\frac{\partial g}{\partial w} = \frac{\partial g}{\partial k} \cdot \frac{\partial k}{\partial v} \cdot \frac{\partial v}{\partial u} \cdot \frac{\partial u}{\partial w}$.

Resolvendo as derivadas parciais, temos

$$ \begin{cases}
    \frac{\partial g}{\partial k} = \frac{1}{k} = \hat{y}^{-1} \\
    \frac{\partial k}{\partial v} = -v^{-2} = -\hat{y}^{2} \\
    \frac{\partial v}{\partial u} = e^{u} = \hat{y}^{-1} - 1 \\
    \frac{\partial u}{\partial w} = x
\end{cases} $$

Substituindo, temos

$$ \begin{align*}
    \frac{\partial g}{\partial w} & = \frac{\partial g}{\partial k} \cdot \frac{\partial k}{\partial v} \cdot \frac{\partial v}{\partial u} \cdot \frac{\partial u}{\partial w} \\
    & = \hat{y}^{-1} \cdot (-\hat{y}^{2}) \cdot (\hat{y}^{-1} - 1) \cdot x \\
    & = -\hat{y} \cdot (\hat{y}^{-1} - 1) \cdot x \\
    & = (\hat{y} - 1) \cdot x
\end{align*} $$

#### (2) Calculando $\frac{\partial}{\partial w} log(1 - \hat{y_{i}})$

$$ \frac{\partial}{\partial w} log( 1 - \hat{y_{i}}) = \frac{\partial}{\partial w} log\left(1 - \frac{1}{1 + e^{wx+b}}\right) $$

Para isso, vamos fazer as seguintes substituições de variáveis:

$$ \begin{cases}
    g = log\left(1 - \frac{1}{1 + e^{wx+b}}\right) = log(1 - \hat{y}) \\
    k = 1 - \frac{1}{1 + e^{wx + b}} = 1 - \hat{y} \\
    v = 1 + e^{wx + b} = \hat{y}^{-1} \\
    u = wx + b
\end{cases} $$

Dessa forma, de acordo com a regra da cadeia, temos que $\frac{\partial g}{\partial w} = \frac{\partial g}{\partial k} \cdot \frac{\partial k}{\partial v} \cdot \frac{\partial v}{\partial u} \cdot \frac{\partial u}{\partial w}$.'

Resolvendo as derivadas parciais, temos

$$ \begin{cases}
    \frac{\partial g}{\partial k} = \frac{1}{k} = \frac{1}{1 - \hat{y}} \\
    \frac{\partial k}{\partial v} = v^{-2} = \hat{y}^{2} \\
    \frac{\partial v}{\partial u} = e^{u} = \hat{y}^{-1} - 1 \\
    \frac{\partial u}{\partial w} = x
\end{cases} $$

Substituindo, temos

$$ \begin{align*}
    \frac{\partial g}{\partial w} & = \frac{\partial g}{\partial k} \cdot \frac{\partial k}{\partial v} \cdot \frac{\partial v}{\partial u} \cdot \frac{\partial u}{\partial w} \\
    & = \frac{1}{1 - \hat{y}} \cdot \hat{y}^{2} \cdot (\hat{y}^{-1} - 1) \cdot x \\
    & = \frac{\hat{y} \cdot (1 - \hat{y})}{1 - \hat{y}} \cdot x \\
    & = \hat{y} \cdot x
\end{align*} $$

Substituindo os resultados de $\frac{\partial}{\partial w} log(\hat{y_{i}})$ e $\frac{\partial}{\partial w} log(1 - \hat{y_{i}})$ em $\frac{\partial J}{\partial w}$, temos

$$\begin{align*}
    \frac{\partial J}{\partial w} & = \frac{1}{m} \sum_{i=0}^{m-1} - y_{i} \cdot \frac{\partial}{\partial w} log(\hat{y_{i}}) - (1 - y_{i}) \cdot \frac{\partial}{\partial w} log(1 - \hat{y_{i}}) \\
    & = \frac{1}{m} \sum_{i=0}^{m-1} - y_{i} \cdot (\hat{y}_{i} - 1) \cdot x_{i} - (1 - y_{i}) \cdot \hat{y}_{i} \cdot x_{i} \\
    & = \frac{1}{m} \sum_{i=0}^{m-1} [- y_{i} \cdot (\hat{y}_{i} - 1) - (1 - y_{i}) \cdot \hat{y}_{i}] \cdot x_{i} \\
    & = \frac{1}{m} \sum_{i=0}^{m-1} (-y_{i} \hat{y_{i}} + y_{i} - \hat{y}_{i} + y_{i} \hat{y}_{i}) \cdot x_{i} \\
    & = \frac{1}{m} \sum_{i=0}^{m-1} (y_{i} - \hat{y}_{i}) \cdot x_{i}
\end{align*}$$

Fazendo os mesmos passos anteriores para $\frac{\partial J}{\partial b}$ temos ao final:

$$ \begin{cases}
    \frac{\partial J}{\partial w} = (y_{i} - \hat{y}_{i}) \cdot x_{i} \\ \\
    \frac{\partial J}{\partial b} = (y_{i} - \hat{y}_{i})
\end{cases} $$

As equações das derivadas parciais obtidas com relação ao valor predito $\hat{y}$ são idênticas às da Regressão Linear. Entretanto, diferentemente da Regressão Linear, a equação $\nabla_{w,b} J = 0$ não tem solução analítica para os coeficientes $w$ e $b$ devido à não-linearidade da função logística.

Assim, são necessários métodos iterativos para a atualização dos coeficientes. O algoritmo de otimização mais comum é o Gradiente Descente, cujas equações são definidas por:

$$\begin{cases}
    w_{t + 1} = w_{t} - \alpha \cdot \frac{\partial J}{\partial w} \\ \\
    b_{t + 1} = b_{t} - \alpha \cdot \frac{\partial J}{\partial b}
\end{cases}$$

Agora, vamos implementar o código para atualização dos coeficientes

#### TREINAMENTO

In [88]:
class Logistic_Regression:

    def __init__(self):
        self.weights = None
        self.bias = None

    def _sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
    def _forward(self, X):
        z = np.dot(X, self.weights) + self.bias
        return self._sigmoid(z)

    def _compute_loss(self, y_true, y_pred):
        m = len(y_true)
        loss = - (1 / m) * np.sum(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
        return loss

    def _backward(self, X, y_true, y_pred):
        m = len(X)
        dw = (1 / m) * np.dot(X.T, (y_pred - y_true))
        db = (1 / m) * np.sum(y_pred - y_true)
        return dw, db

    def fit(self, X, y, weights=None, bias=None, learning_rate=1e-3, epochs=100, print_rate=10):
        n = X.shape[1]

        if weights == None and bias == None:
            self.weights = np.zeros(n)
            self.bias = 0
        else:
            self.weights = weights
            self.bias = bias

        loss_list = []
        weights_list = []
        bias_list = []

        for epoch in range(epochs):
            y_pred = self._forward(X)
            loss = self._compute_loss(y, y_pred)
            dw, db = self._backward(X, y, y_pred)

            self.weights = self.weights - learning_rate * dw
            self.bias = self.bias - learning_rate * db

            loss_list.append(loss)
            weights_list.append(self.weights)
            bias_list.append(self.bias)

            if epoch % print_rate == 0:
                print(f'Epoch {epoch}: Loss {loss:.4f}')

        history = {'epoch' : np.arange(epochs) + 1, 'loss' : np.asarray(loss_list), 'weights' : np.asarray(weights_list), 'bias' : np.asarray(bias_list)}

        return history

    def predict(self, X, threshold=0.5):
        y_pred = self._forward(X)
        y_pred_class = np.where(y_pred > threshold, 1, 0)
        return y_pred_class

    def predict_proba(self, X):
        y_pred = self._forward(X)
        return y_pred

In [None]:
x = X[:,2].reshape(-1,1)
w, b = np.asarray([-8]), 6

learning_rate = 1
epochs = 31

logreg = Logistic_Regression()

history = logreg.fit(x, y, w, b, learning_rate, epochs)

In [None]:
x_ = np.linspace(x.min(), x.max(), 1000)

N = 25

w_max = b_max = 10
w_min = b_min = -w_max

w_ = np.linspace(w_min, w_max, N).reshape(1,-1)
b_ = np.linspace(b_min, b_max, N).reshape(1,-1)
W_, B_ = np.meshgrid(w_, b_)

Z_ = np.dot(x, W_.reshape(1,-1)) + B_.reshape(1,-1)
Y_hat_ = sigmoid(Z_)

L_ = log_loss(np.tile(y.reshape(-1,1), N**2), Y_hat_)
L_ = L_.reshape(N, N)

fig = plt.figure(figsize=(12,4))

ax0 = fig.add_subplot(131)
ax1 = fig.add_subplot(132)
ax2 = fig.add_subplot(133, projection='3d')

ax0.plot(history['epoch'], history['loss'], c='black', zorder=0)
sct0 = ax0.scatter([],[], ec='black', c='orange', s=40, zorder=1)
ax0.set_xlabel('Epoch')
ax0.set_ylabel('Log-Loss')

ax1.scatter(x[y==0], y[y==0], c='green', ec='black', s=80, marker='o', label='Benigno')
ax1.scatter(x[y==1], y[y==1], c='red', ec='black', s=80, marker='X', label='Maligno')
ax1_line, = ax1.plot(x_, x_, linestyle='--', c='black')
ax1.set_xlabel('$x_{0}$' + f" ({data['feature_names'][2]})")
ax1.set_ylabel('$y$ (Class)')
ax1.set_ylim(-.1, 1.1)
ax1.legend()

ax2.plot_surface(W_, B_, L_, cmap='viridis', zorder=0)
ax2_line, = ax2.plot([], [], [], marker='o', color='orange', zorder=3)
ax2.set_xlabel('$W$')
ax2.set_ylabel('$b$')
ax2.set_zlabel('Likelihood')

def update(epoch):
    iepoch = epoch - 1

    w = history['weights'][iepoch][0]
    b = history['bias'][iepoch]

    z_ = w * x_ + b
    z = w * x + b
    y_hat_ = sigmoid(z_)
    y_hat = sigmoid(z)
    lh = log_loss(y, y_hat.flatten())
    
    sct0.set_offsets([epoch, history['loss'][iepoch]])

    ax1_line.set_ydata(y_hat_)
    ax1_line.set_label(f'w:{w} | b:{b}')
    ax1.set_title(f'Likelihood: {lh}')

    ax2_line.set_data([w], [b])
    ax2_line.set_3d_properties(lh)

interact(update, epoch=widgets.IntSlider(value=1, min=1, max=len(history['epoch'])))

fig.tight_layout()
plt.show()

#### FRONTEIRA DE DECISÃO

Como visto anteriormente, a função logística (sigmoide) é contínua e seus valores variam entre 0 e 1, estabelecendo uma relação de probabilidade entre as variáveis $P(y=1|X)$. Isto é, o modelo de regressão logística não retorna, por si só, a classe a qual uma determinada amostra $X_{i}$ pertence, mas a probabilidade de esta amostra pertencer à classe $y_{i}=1$. É preciso, então, classificar essa probabilidade predita. É comum definir o valor de $0,5$ como a probabilidade limite entre duas classes. Ou seja, amostras com valores de probabilidade predita maiores que $50\%$ são classificadas como $y_{i}=1$ e o contrário $y_{i}=0$.

O valor desse limiar pode mudar para cada problema. Por exemplo, no caso de classificação de um câncer entre benígno e malígno é preferível reduzir o valor do limiar, "facilitando" a classificação de cânceres malígnos. O tratamento de pacientes com cada um desses tipos de câncer deve ser diferente de acordo com à gravidade do problema e, portanto, esta medida, apesar de resultar em mais falsos positivos pode direcionar um tratamento mais eficaz para pacientes com câncer malígno que talvez fossem classificados como benígno. Lembrando que caberá ao médico especialista o diagnóstico final.

Para facilitar o entendimento da fronteira de decisão, vamos utilizar agora duas variáveis independentes para a classificação.

In [None]:
feature0 = 1
feature1 = 2

x0, x1 = X[:,feature0], X[:,feature1]
x = X[:, [feature0, feature1]]

fig = plt.figure(figsize=(10,5))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d')

ax0.scatter(x0[y==0], x1[y==0], c='green', ec='black', s=40, label='Benigno')
ax0.scatter(x0[y==1], x1[y==1], c='red', ec='black', s=40, label='Maligno')
ax0.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax0.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax0.legend()

ax1.scatter(xs=x0[y==0], ys=x1[y==0], zs=y[y==0], c='green', ec='black', s=40, label='Benigno')
ax1.scatter(xs=x0[y==1], ys=x1[y==1], zs=y[y==1], c='red', ec='black', s=40, label='Maligno')
ax1.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax1.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax1.set_zlabel('$y$ (class)')
ax1.legend()

fig.tight_layout()
plt.show()

In [None]:
learning_rate = 1
epochs = 30

logreg = Logistic_Regression()
history = logreg.fit(x, y, learning_rate=learning_rate, epochs=epochs)

w, b = history['weights'][-1], history['bias'][-1]

w, b

De acordo com a função logística

$$ g(z) = \frac{1}{1 + e^{z}} $$

$g(z)$ será maior que $0,5$ quando $z > 0$ e vimos que

$$ z(X) = w \cdot X + b $$

Isto é

$$ z(X) > 0 \leftrightarrow w \cdot X + b > 0 $$

Substituindo os valores de $w$ e $b$ obtidos no treinamento, temos

$$ \begin{align*}
z(X) > 0 & \leftrightarrow w_{0} \cdot x_{0} + w_{1} \cdot x_{1} + b > 0 \\ \\
& \leftrightarrow 0,77 \cdot x_{0} + 2,56 \cdot x_{1} + (-0,66) > 0 \\ \\
& \leftrightarrow x_{1} > -\frac{-0,66 + 0,77 \cdot x_{0}}{2,56}
\end{align*} $$

In [195]:
def boundary_points(X0, w, b):
    w0, w1 = w[0], w[1]
    line = [(-b - w0 * x0) / w1 for x0 in X0]
    return line

def boundary_surface(X0, w, b):
    X0_ = np.asarray([X0, X0])
    X1_ = np.asarray([boundary_points(X0, w, b), boundary_points(X0, w, b)])
    Z_ = np.asarray([[0, 0], [1, 1]])
    return X0_, X1_, Z_

    # [[x0_min, x0_max],    [[boundary_points0, boundary_points0],
    #  [x0_min, x0_max]]     [boundary_points1, boundary_points1]]


In [None]:
b_sfc_X, b_sfc_Y, b_sfc_Z = boundary_surface([x0.min(), x0.max()], w, b)

w0, w1 = w[0], w[1]

n_grid = 50
x0_ = np.linspace(x0.min(), x0.max(), n_grid)
x1_ = np.linspace(x1.min(), x1.max(), n_grid)

X0_, X1_ = np.meshgrid(x0_, x1_)
X_ = np.concatenate([X0_.reshape(-1,1), X1_.reshape(-1,1)], axis=1)

Y_ = logreg.predict_proba(X_)
Y_ = Y_.reshape(n_grid, n_grid)

fig = plt.figure(figsize=(10,5))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d', computed_zorder=False)

cmap = 'Blues'

img = ax0.pcolormesh(x0_, x1_, Y_, cmap=cmap)
ax0.scatter(x[y==0, 0], x[y==0, 1], c='green', ec='black', s=40, label='Benigno')
ax0.scatter(x[y==1, 0], x[y==1, 1], c='red', ec='black', s=40, label='Maligno')
ax0.plot([x0.min(), x0.max()], boundary_points([x0.min(), x0.max()], w, b), linestyle='--', color='yellow')
ax0.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax0.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax0.legend()

sfc = ax1.plot_surface(X0_, X1_, Y_, cmap=cmap)
ax1.plot_surface(b_sfc_X, b_sfc_Y, b_sfc_Z, color='yellow', alpha=0.5)
ax1.scatter(xs=x[y==0, 0], ys=x[y==0, 1], zs=y[y==0], c='green', ec='black', s=40, label='Benigno')
ax1.scatter(xs=x[y==1, 0], ys=x[y==1, 1], zs=y[y==1], c='red', ec='black', s=40, label='Maligno')
ax1.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax1.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax1.set_zlabel('$y$ (class)')
ax1.legend()

# fig.colorbar(img, label='Probabilidade')
fig.colorbar(sfc, label='Probabilidade')

fig.tight_layout()
plt.show()

In [None]:
b_sfc_X, b_sfc_Y, b_sfc_Z = boundary_surface([x0.min(), x0.max()], w, b)

w0, w1 = w[0], w[1]

n_grid = 50
x0_ = np.linspace(x0.min(), x0.max(), n_grid)
x1_ = np.linspace(x1.min(), x1.max(), n_grid)

X0_, X1_ = np.meshgrid(x0_, x1_)
X_ = np.concatenate([X0_.reshape(-1,1), X1_.reshape(-1,1)], axis=1)

Y_ = logreg.predict_proba(X_)
Y_ = Y_.reshape(n_grid, n_grid)

fig = plt.figure(figsize=(10,5))

ax0 = fig.add_subplot(121)
ax1 = fig.add_subplot(122, projection='3d', computed_zorder=False)

cmap = 'Blues'

img = ax0.pcolormesh(x0_, x1_, Y_, cmap=cmap)
ax0.scatter(x[y==0, 0], x[y==0, 1], c='green', ec='black', s=40, label='Benigno')
ax0.scatter(x[y==1, 0], x[y==1, 1], c='red', ec='black', s=40, label='Maligno')
ax0.plot([x0.min(), x0.max()], boundary_points([x0.min(), x0.max()], w, b), linestyle='--', color='yellow')
ax0.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax0.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax0.legend()

sfc = ax1.plot_surface(X0_, X1_, Y_, cmap=cmap)
ax1.plot_surface(b_sfc_X, b_sfc_Y, b_sfc_Z, color='yellow', alpha=0.5)
ax1.scatter(xs=x[y==0, 0], ys=x[y==0, 1], zs=y[y==0], c='green', ec='black', s=40, label='Benigno')
ax1.scatter(xs=x[y==1, 0], ys=x[y==1, 1], zs=y[y==1], c='red', ec='black', s=40, label='Maligno')
ax1.set_xlabel('$x_{0}$ ' + f'({data["feature_names"][feature0]})')
ax1.set_ylabel('$x_{1}$ ' + f'({data["feature_names"][feature1]})')
ax1.set_zlabel('$y$ (class)')
ax1.legend()

# fig.colorbar(img, label='Probabilidade')
fig.colorbar(sfc, label='Probabilidade')

def update(w0, w1, b):


fig.tight_layout()
plt.show()