[adaptado de [Programa de cursos integrados Aprendizado de máquina](https://www.coursera.org/specializations/machine-learning-introduction) de [Andrew Ng](https://www.coursera.org/instructor/andrewng)  ([Stanford University](http://online.stanford.edu/), [DeepLearning.AI](https://www.deeplearning.ai/) ) ]

In [None]:
# Baixar arquivos adicionais para o laboratório.
!wget https://github.com/fabiobento/dnn-course-2024-1/raw/main/00_course_folder/ml_intro/class_03/Laborat%C3%B3rios/lab_utils_ml_intro_week_3.zip
!unzip -n -q lab_utils_ml_intro_week_3.zip

In [None]:
# Testar se estamos no Google Colab
try:
  import google.colab
  IN_COLAB = True
  from google.colab import output
  output.enable_custom_widget_manager()
except:
  IN_COLAB = False

# Regressão Logística

Neste laboratório você vai:
- explorar a função sigmoide (também conhecida como função logística)
- explorar a regressão logística, que usa a função sigmoide

In [None]:
!pip install ipympl

In [None]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from plt_one_addpt_onclick import plt_one_addpt_onclick
from lab_utils_common import draw_vthresh
plt.style.use('./deeplearning.mplstyle')

## Função Sigmoid ou Logística
<img align="left" src="./images/C1_W3_LogisticRegression_left.png"     style=" width:300px; padding: 10px; " >
Conforme visto nas aulas, para uma tarefa de classificação, podemos começar usando nosso modelo de regressão linear, $$f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = \mathbf{w} \cdot \mathbf{x}^{(i)} + b$$, para prever $y$ dado $x$. 
- No entanto, gostaríamos que as previsões do nosso modelo de classificação estivessem entre 0 e 1, já que nossa variável de saída $y$ é 0 ou 1. 
- Isso pode ser feito com o uso de uma "função sigmoide" que mapeia todos os valores de entrada para valores entre 0 e 1. 


Vamos implementar a função sigmoide e ver isso por nós mesmos.

## Fórmula da função sigmoide

A fórmula de uma função sigmoide é a seguinte  

$$g(z) = \frac{1}{1+e^{-z}}\tag{1}$$

No caso da regressão logística, z (a entrada da função sigmoide) é a saída de um modelo de regressão linear. 
- No caso de um único exemplo, $z$ é escalar.
- No caso de vários exemplos, $z$ pode ser um vetor que consiste em $m$ valores, um para cada exemplo. 
- A implementação da função sigmoide deve abranger esses dois formatos de entrada em potencial.
Vamos implementar isso em Python.

NumPy has a function called [`exp()`](https://numpy.org/doc/stable/reference/generated/numpy.exp.html), which offers a convenient way to calculate the exponential ( $e^{z}$) of all elements in the input array (`z`).
 
It also works with a single number as an input, as shown below.

In [None]:
# A entrada é um vetor.
input_array = np.array([1,2,3])
exp_array = np.exp(input_array)

print("Entrada para exp:", input_array)
print("Saída para exp:", exp_array)

# A entrada é um único número
input_val = 1  
exp_val = np.exp(input_val)

print("Entrada para exp:", input_val)
print("Saída para exp:", exp_val)

A função `sigmoid` é implementada em python, conforme mostrado na célula abaixo.

In [None]:
def sigmoid(z):
    """
    Calcular a sigmoide de z

    Args:
        z (ndarray): Um vetor numérica escalar de qualquer tamanho.

    Returns:
        g (ndarray): sigmoid(z), com o mesmo formato que z
         
    """

    g = 1/(1+np.exp(-z))
   
    return g

Vamos ver qual é o resultado dessa função para vários valores de `z`

In [None]:
# Gerar uma matriz de valores uniformemente espaçados entre -10 e 10
z_tmp = np.arange(-10,11)

# Usar a função implementada acima para obter os valores sigmoides
y = sigmoid(z_tmp)

# Código para imprimir os dois vetores um ao lado da outra
np.set_printoptions(precision=3) 
print("Input (z), Output (sigmoid(z))")
print(np.c_[z_tmp, y])

Os valores na coluna da esquerda são `z` e os valores na coluna da direita são `sigmoid(z)`. Como você pode ver, os valores de entrada para a sigmoide variam de -10 a 10 e os valores de saída variam de 0 a 1. 

Agora, vamos tentar plotar essa função usando a biblioteca `matplotlib`.

In [None]:
# plotar z vs sigmoid(z)
fig,ax = plt.subplots(1,1,figsize=(5,3))
ax.plot(z_tmp, y, c="b")

ax.set_title("Função Sigmoid")
ax.set_ylabel('sigmoid(z)')
ax.set_xlabel('z')
draw_vthresh(ax,0)

Como você pode ver, a função sigmoide se aproxima de `0` quando `z` atinge valores negativos grandes e se aproxima de `1` quando `z` atinge valores positivos grandes.


## Regressão Logística
<img align="left" src="./images/C1_W3_LogisticRegression_right.png"     style=" width:300px; padding: 10px; " >  Um modelo de regressão logística aplica o sigmoide ao modelo de regressão linear conhecido, conforme mostrado abaixo:

$$ f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = g(\mathbf{w} \cdot \mathbf{x}^{(i)} + b ) \tag{2} $$ 

  onde

  $$g(z) = \frac{1}{1+e^{-z}}\tag{3}$$


  
Vamos aplicar a regressão logística ao exemplo de dados categóricos da classificação de tumores.  
Primeiro, carregue os exemplos e os valores iniciais dos parâmetros.
  


In [None]:
x_train = np.array([0., 1, 2, 3, 4, 5])
y_train = np.array([0,  0, 0, 1, 1, 1])

w_in = np.zeros((1))
b_in = 0

Tente as seguintes etapas:
- Clique em "Executar regressão logística" para encontrar o melhor modelo de regressão logística para os dados de treinamento fornecidos
    - Observe que o modelo resultante se ajusta muito bem aos dados.
    - Observe que a linha laranja é "$z$" ou $\mathbf{w} \cdot \mathbf{x}^{(i)} + b$ acima. Ela não corresponde à linha em um modelo de regressão linear.
Melhore ainda mais esses resultados aplicando um *limite*. 
- Marque a caixa em "Alternar o limite de 0,5(após regressão)" para mostrar as previsões se um limite for aplicado.
    - Essas previsões parecem boas. As previsões correspondem aos dados
    - Agora, adicione mais pontos de dados na faixa de tamanho de tumor grande (próximo a 10) e execute novamente a regressão logística.
    - Ao contrário do modelo de regressão linear, esse modelo continua a fazer previsões corretas

In [None]:
plt.close('all') 
addpt = plt_one_addpt_onclick( x_train,y_train, w_in, b_in, logistic=True)

## Parabéns!
Você explorou o uso da função sigmoide na regressão logística.