**TPP - UFF**

**Aprendizado de Máquina e Decisões Dirigidas por Dados**

Docente: Diogo Ferreira de Lima Silva

# Lembrando as Funções da Regressão Logística

A Regressão Logística supõe:

- **Problema de classificação binária**: temos $y_i \in \mathcal{C} =\{0,1\}$

- $\hat{f}(\mathbf{x}_i)= \hat{y}_i \approx y_i=P(y_i=1|\mathbf{x}_i)$

Da segunda suposição, temos que a função que aprenderemos a partir dos dados deve estimar a probabilidade de uma entrada $\mathbf{x}_i$ pertencer à classe 1. Nesse cenário, precisamos que:

$$0<=\hat{y}_i<=1$$


Assim, não podemos seguir com a mesma lógica do Perceptron, onde a classe de um exemplo era obtida a partir do sinal da equação $\mathbf{w}^T \mathbf{x}$. 

Agora, devemos aprender uma função que retorna a probabilidade acima. Para isso, usamos a função sigmoide.

$$\theta(\mathbf{w}^T \mathbf{x}) = \frac{1}{1+ e^{-\mathbf{w}^T \mathbf{x}}}$$

ou, usando $z = \mathbf{w}^T \mathbf(x)$:

$$ \theta(z)=\frac{1}{1 + e^{-z}}$$

## Implementando a Função sigmoide

In [None]:
import numpy as np

sigmoid = lambda z: 1/(1 + np.exp(-z)) # função sigmoid

print ('Sigmoid(-1) = ', sigmoid(-1))
print ('Sigmoid(0) = ', sigmoid(0))
print ('Sigmoid(1) = ', sigmoid(1))
print ('Sigmoid(10) = ', sigmoid(10))

## Visualizando a função sigmoide

In [None]:
# Vamos criar um vetor de 100 pontos linearmente espaçados entre -20 e 20
 
x = np.linspace(-20, 20, 100)  
x


In [None]:
import matplotlib.pyplot as plt

plt.plot(x, sigmoid(x))
plt.xlabel("x")
plt.ylabel("Sigmoid(X)")
  
plt.show()

Seja $z = \theta(\mathbf{w}^T \mathbf{x})$. Temos:

- Se $z\rightarrow\infty$, então $\theta(z) \approx \frac{1}{1+0}=1$

- Se $z\rightarrow - \infty$, então $\theta(z) \approx \frac{1}{1+\infty}=0$

## Função Perda e Função Custo

**Chegamos então a nossa suposição:**

$$\hat{f}(x)=\hat{y}=\theta(\mathbf{w}^T \mathbf{x})$$

Nossa função pode ser entendida como uma função de ativação que será aplicada tal como o esquema a seguir:

![](esquema.png)

fonte da imagem: https://sebastianraschka.com/faq/docs/logisticregr-neuralnet.html

**A nossa tarefa é, então, aprender o vetor de parâmetros $\mathbf{w}$. Em Regressão Logística, fazemos isso minimizando uma função custo específica.** 


### Entendendo a Função Perda

A perda para uma determinada observação $\mathbf{x}_i$ é dada por:

$$ L(\hat{y}_i, y_i) = -[y_i\times\log{\hat{y}_i + (1-y_i)\times\log{(1-\hat{y}_i})}]$$



 Podemos observar que essa função faz sentido analisando os 2 casos a seguir:

- **Caso 1:** $y_i=1$:
$$ L(\hat{y}_i, 1) = -[1 \times \log{\hat{y}_i + (1-1)\times\log{(1-\hat{y}_i})}]$$
Ou seja:
$$ L(\hat{y}_i, 1) = -\log{\hat{y}_i}$$
**Interpretação do caso 1**: Para minimizar a perda, queremos que $\hat{y}_i$ seja o maior possível, assim, próximo de 1.

- **Caso 2:** $y_i=0$:

$$ \mathcal{L}(\hat{y}_i, 0) = -[0 \times \log{\hat{y}_i + (1-0)\times\log{(1-\hat{y}_i})}]$$

Ou seja:

$$ \mathcal{L}(\hat{y}_i, 0) = -\log{(1-\hat{y}_i)}$$

**Interpretação do caso 2**: Para minimizar a perda, queremos que $\hat{y}_i$ seja o menor possível, assim, próximo de 0.

### Entendendo a Função Custo

Por sua vez, a função custo é dada pela média das perdas obtidas com os $n$ exemplos de treinamento. Dessa forma, temos:

$$ J = \frac{1}{n} \sum_{i=1}^n \mathcal{L}(\hat{y}_i, y_i) $$


## Gradiente Descendente

### Aprendendo o vetor $\mathbf{w}$

Para o treinamento, nos deparamos com um conjunto de dados do seguinte tipo:
    
$$\mathcal{D}=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),...,(\mathbf{x}_n,y_n)\}$$



Como visto em aula, podemos denotar o conjunto de treinamento com uma matriz de atributos $\mathbf{X}$ e um vetor de rótulos $\mathbf{y}$.

A ideia do gradiente descendente é atualizar os parâmetros a cada passo do algoritmo conforme for a direção do gradiente da função custo em termos desses parâmetros. 

Temos:

$$w_j = w_j - \alpha \times \frac{\partial J}{\partial w_j}$$ 

- onde $\alpha$ consiste em uma taxa de aprendizagem.


![](gradiente_descendente.png)

Fonte da imagem: 
https://medium.com/data-hackers/gradientes-descendentes-na-pr%C3%A1tica-melhor-jeito-de-entender-740ef4ff6c43


**A ideia é a seguinte:**

- Se a derivada parcial é positiva, estamos "à direita" do mínimo e, assim, devemos reduzir o valor de $w_j$.
- Se a derivada parcial é negativa, estamos "à esquerda" do mínimo e, assim, devemos reduzir o valor de $w_j$.  

### Pergunta: Qual o valor da derivada?

$$dw=\frac{\partial J}{\partial w}$$

Para chegarmos ao valor da derivada parcial do custo em função de cada parâmetro $w$ fazemos um processo similar ao utilizado em **Redes Neurais**. Porém, no caso da Regressão Logística, temos um único neurônio em uma única camada.

**Processo para chegarmos ao custo:**

1. Calculamos o produto interno $$z_i=\mathbf{w}^T\mathbf{x}_i$$
2. Calculamos a função de ativação $$a_i=\theta(z_i)$$
3. Perda individual: $$ L(a_i, y_i) = -[y_i\times\log{a_i + (1-y_i)\times\log{(1-a_i})}]$$
4. Custo total: $$ J = \frac{1}{n} \sum_{i=1}^n \mathcal{L}(a_i, y_i) $$


**Processo para chegarmos às derivadas parciais:**

1. Derivada parcial da perda em função de $a_i$: 
$$da_i = \frac{\partial \mathcal{L}}{\partial a_i} =  -\frac{y_i}{a_i} + \frac{1-y_i}{1-a_i}$$

2. Derivada parcial da perda em função de $z_i$: 
$$dz=\frac{\partial \mathcal{L}}{\partial z_i} = \frac{\partial \mathcal{L}}{\partial a_i} \times \frac{\partial a_i}{\partial z_i} = a_i - y_i$$


2. Derivada parcial da perda em função de $w_i$: 
$$dw=\frac{\partial \mathcal{L}}{\partial w_j} = \frac{\partial \mathcal{L}}{\partial z_i} \times \frac{\partial z_i}{\partial w_j} = x_{ij}\times dz_i $$


4. **Considerando agora o custo total:**
$$ \frac{\partial J}{\partial w_j} = \frac{1}{n} \sum_{i=1}^n \frac{\partial \mathcal{L}}{\partial w_j} = \frac{1}{n} \sum_{i=1}^n x_{ij}\times dz_i$$


### Implementando o Gradiente Descendente

In [None]:
def propagate(w, b, X, Y):
    
    n = X.shape[1]
    
    A = sigmoid(np.dot(w.T,X)+b)
    cost = -1/m * np.sum(Y*np.log(A) + (1-Y)*np.log(1-A))    # compute cost
    
    dw = (1/m)*np.dot(X, (A-Y).T)
    db = (1/m)*np.sum(A-Y)
    
    assert(dw.shape == w.shape)
    assert(db.dtype == float)
    cost = np.squeeze(cost)
    assert(cost.shape == ())
    
    grads = {"dw": dw,
             "db": db}
    
    return grads, cost

In [None]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

X, y = load_iris(return_X_y=True)

clf = LogisticRegression(random_state=0).fit(X, y)
clf.predict(X[:2, :])
clf.predict_proba(X[:2, :])
clf.score(X, y)