[adaptado de [Programa de cursos integrados Aprendizado de máquina](https://www.coursera.org/specializations/machine-learning-introduction) de [Andrew Ng](https://www.coursera.org/instructor/andrewng)  ([Stanford University](http://online.stanford.edu/), [DeepLearning.AI](https://www.deeplearning.ai/) ) ]

In [None]:
# Baixar arquivos adicionais para o laboratório.
!wget https://github.com/fabiobento/dnn-course-2024-1/raw/main/00_course_folder/ml_intro/class_03/Laborat%C3%B3rios/lab_utils_ml_intro_week_3.zip
!unzip -n -q lab_utils_ml_intro_week_3.zip

In [None]:
# Testar se estamos no Google Colab
try:
  import google.colab
  IN_COLAB = True
  from google.colab import output
  output.enable_custom_widget_manager()
except:
  IN_COLAB = False

# Regressão, Perda Logística

Neste laboratório, você irá:
- explorar a razão pela qual a perda de erro quadrático não é apropriada para regressão logística
- explorar a função de perda logística

In [None]:
!pip install ipympl

In [None]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from plt_logistic_loss import  plt_logistic_cost, plt_two_logistic_loss_curves, plt_simple_example
from plt_logistic_loss import soup_bowl, plt_logistic_squared_error
plt.style.use('./deeplearning.mplstyle')

## Erro quadrático para regressão logística?
<img align="left" src="./images/C1_W3_SqErrorVsLogistic.png"     style=" width:400px; padding: 10px; " >Lembre-se de que para a regressão **Linear** usamos a **função de custo do erro quadrático**:
A equação para o custo do erro quadrático com uma variável é:
  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 
 
onde 
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$


Lembre-se de que o custo do erro quadrático tinha a ela propriedade de que seguir a derivada do custo leva ao mínimo.

In [None]:
soup_bowl()

Esta função de custo funcionou bem para regressão linear, é natural considerá-la também para regressão logística. No entanto, como mostra o slide acima, $f_{wb}(x)$ agora tem um componente não linear, a função sigmóide: $f_{w,b}(x^{(i)}) = sigmoid(wx ^{(i)} + b)$. Vamos tentar um custo de erro quadrático no exemplo de um laboratório anterior, agora incluindo o sigmóide.

Aqui estão nossos dados de treinamento:

In [None]:
x_train = np.array([0., 1, 2, 3, 4, 5],dtype=np.longdouble)
y_train = np.array([0,  0, 0, 1, 1, 1],dtype=np.longdouble)
plt_simple_example(x_train, y_train)

Agora, vamos obter um gráfico de superfície do custo usando um *custo de erro quadrático*:
   $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y ^{(i)})^2 $$
 
onde
   $$f_{w,b}(x^{(i)}) = sigmoide(wx^{(i)} + b )$$

In [None]:
plt.close('all')
plt_logistic_squared_error(x_train,y_train)
plt.show()

Embora isso produza um gráfico bastante interessante, a superfície acima não é tão lisa quanto a 'tigela de sopa' da regressão linear!

A regressão logística requer uma função de custo mais adequada à sua natureza não linear. Isso começa com uma função Loss. Isso é descrito abaixo.

## Função de Perda Logística
<img align="left" src="./images/C1_W3_LogisticLoss_a.png"     style=" width:250px; padding: 2px; " >
<img align="left" src="./images/C1_W3_LogisticLoss_b.png"     style=" width:250px; padding: 2px; " >
<img align="left" src="./images/C1_W3_LogisticLoss_c.png"     style=" width:250px; padding: 2px; " > 

A regressão logística usa uma função de perda mais adequada para a tarefa de categorização onde o alvo é 0 ou 1 em vez de qualquer número.

>**Nota de definição:** Neste curso, estas definições são usadas:
**Perda** é uma medida da diferença de um único exemplo em relação ao seu valor alvo, enquanto o
**Custo** é uma medida das perdas no conjunto de treinamento


Segue definição de perda(_loss_): 
* $loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)})$ é o custo de um único ponto de dados, que é:

\begin{equation}
  loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = \begin{cases}
    - \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=1$}\\
    - \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=0$}
  \end{cases}
\end{equation}


*  $f_{\mathbf{w},b}(\mathbf{x}^{(i)})$é a previsão do modelo, enquanto $y^{(i)}$ é o valor alvo.

*  $f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = g(\mathbf{w} \cdot\mathbf{x}^{(i)}+b)$ onde a função $g$ é a função sigmóide.

A característica definidora desta função de perda é o fato de ela usar duas curvas separadas. Um para o caso em que o alvo é zero ou ($y=0$) e outro para quando o alvo é um ($y=1$). Combinadas, essas curvas fornecem o comportamento útil para uma função de perda, ou seja, sendo zero quando a previsão corresponde ao alvo e aumentando rapidamente em valor à medida que a previsão difere do alvo. Considere as curvas abaixo:

In [None]:
plt_two_logistic_loss_curves()

Combinadas, as curvas são semelhantes à curva quadrática da perda de erro quadrática. Observe que o eixo x é $f_{\mathbf{w},b}$ que é a saída de um sigmóide. A saída sigmóide está estritamente entre 0 e 1.

A função de perda acima pode ser reescrita para ser mais fácil de implementar.
    $$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = (-y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)$$
  
Esta é uma equação de aparência um pouco "intimidadora" :-). É menos assustador quando você considera que $y^{(i)}$ pode ter apenas dois valores, 0 e 1. Pode-se então considerar a equação em duas partes:
quando $ y^{(i)} = 0$, o termo da esquerda é eliminado:
$$
\begin{align}
loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), 0) &= (-(0) \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - 0\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) \\
&= -\log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)
\end{align}
$$
e quando $ y^{(i)} = 1$, o termo da direita é eliminado:
$$
\begin{align}
  loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), 1) &=  (-(1) \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - 1\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)\\
  &=  -\log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)
\end{align}
$$
OK, com esta nova função de perda logística, pode ser produzida uma função de custo que incorpore a perda de todos os exemplos. Este será o tema do próximo laboratório. Por enquanto, vamos dar uma olhada na curva de custo versus parâmetros do exemplo simples que consideramos acima:

In [None]:
plt.close('all')
cst = plt_logistic_cost(x_train,y_train)

Esta curva é adequada para descida gradiente! Não possui platôs, mínimos locais ou descontinuidades. Observe que não é uma tigela como no caso do erro quadrático. Tanto o custo quanto o logaritmo do custo são traçados para esclarecer o fato de que a curva, quando o custo é pequeno, tem uma inclinação e continua a diminuir. Lembrete: você pode girar os gráficos acima usando o mouse.

## Parabéns!
Você tem:
  - determinou que uma função de perda de erro quadrática não é adequada para tarefas de classificação
  - desenvolveu e examinou a função de perda logística que **é** adequada para tarefas de classificação.