[adaptado de [Programa de cursos integrados Aprendizado de máquina](https://www.coursera.org/specializations/machine-learning-introduction) de [Andrew Ng](https://www.coursera.org/instructor/andrewng)  ([Stanford University](http://online.stanford.edu/), [DeepLearning.AI](https://www.deeplearning.ai/) ) ]

In [None]:
# Baixar arquivos adicionais para o laboratório.
!wget https://github.com/fabiobento/dnn-course-2024-1/raw/main/00_course_folder/ml_intro/class_03/Laborat%C3%B3rios/lab_utils_ml_intro_week_3.zip
!unzip -n -q lab_utils_ml_intro_week_3.zip

In [None]:
# Testar se estamos no Google Colab
try:
  import google.colab
  IN_COLAB = True
  from google.colab import output
  output.enable_custom_widget_manager()
except:
  IN_COLAB = False

# Classificação

Neste laboratório, você comparará regressão e classificação.

In [None]:
!pip install ipympl

In [None]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import dlc, plot_data
from plt_one_addpt_onclick import plt_one_addpt_onclick
plt.style.use('./deeplearning.mplstyle')

## Problemas de Classificação
<img align="left" src="./images/C1_W3_Classification.png"     style=" width:380px; padding: 10px; " >

Os problemas de classificação são coisas como: identificar um e-mail como Spam ou Não Spam ou determinar se um tumor é maligno ou benigno. Em particular, esses são exemplos de classificação *binária* em que há dois resultados possíveis.  Os resultados podem ser descritos em pares de "positivo"/"negativo", como "sim"/"não", "verdadeiro"/"falso" ou "1"/"0". 

Os gráficos dos conjuntos de dados de classificação geralmente usam símbolos para indicar o resultado de um exemplo. Nos gráficos abaixo, "X" é usado para representar os valores positivos, enquanto "O" representa os resultados negativos. 

In [None]:
x_train = np.array([0., 1, 2, 3, 4, 5])
y_train = np.array([0,  0, 0, 1, 1, 1])
X_train2 = np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train2 = np.array([0, 0, 0, 1, 1, 1])

In [None]:
pos = y_train == 1
neg = y_train == 0

fig,ax = plt.subplots(1,2,figsize=(8,3))
#plot 1, variável única
ax[0].scatter(x_train[pos], y_train[pos], marker='x', s=80, c = 'red', label="y=1")
ax[0].scatter(x_train[neg], y_train[neg], marker='o', s=100, label="y=0", facecolors='none', 
              edgecolors=dlc["dlblue"],lw=3)

ax[0].set_ylim(-0.08,1.1)
ax[0].set_ylabel('y', fontsize=12)
ax[0].set_xlabel('x', fontsize=12)
ax[0].set_title('gráfico de uma variável')
ax[0].legend()

#plot 1, 2 variáveis
plot_data(X_train2, y_train2, ax[1])
ax[1].axis([0, 4, 0, 4])
ax[1].set_ylabel('$x_1$', fontsize=12)
ax[1].set_xlabel('$x_0$', fontsize=12)
ax[1].set_title('gráfico de duas variáveis')
ax[1].legend()
plt.tight_layout()
plt.show()


Observe os gráficos acima:
- No gráfico de variável única, os resultados positivos são mostrados como 'X' vermelhos e como y=1. Os resultados negativos são "O" azuis e estão localizados em y=0.
   - Lembre-se de que, no caso da regressão linear, y não estaria limitado a dois valores, mas poderia ser qualquer valor.
- No gráfico de duas variáveis, o eixo y não está disponível.  Os resultados positivos são mostrados como "X" vermelho, enquanto os resultados negativos usam o símbolo "O" azul.
    - Lembre-se de que, no caso de regressão linear com múltiplas variáveis, y não teria se limitado a dois valores e um gráfico semelhante seria tridimensional.

## Abordagem de Regressão Linear
Na semana anterior, você aplicou a regressão linear para criar um modelo de previsão. Vamos tentar essa abordagem aqui usando o exemplo simples que foi descrito na aula. O modelo preverá se um tumor é benigno ou maligno com base no tamanho do tumor.  Tente o seguinte:
- Clique em "Run Linear Regression" (Executar regressão linear) para encontrar o melhor modelo de regressão linear para os dados fornecidos.
    - Observe que o modelo linear resultante **não** corresponde bem aos dados. 
Uma opção para melhorar os resultados é aplicar um *limite*. 
- Marque a caixa em "Toggle 0.5 threshold" para mostrar as previsões se um limite for aplicado.
    - Essas previsões parecem boas, elas correspondem aos dados
- Importante: Agora, adicione mais pontos de dados "malignos" na extrema direita, na faixa de tamanho de tumor grande (próximo a 10), e execute novamente a regressão linear.
    - Agora, o modelo prevê o tumor maior, mas o ponto de dados em x=3 está sendo previsto incorretamente!
- Para limpar/renovar o gráfico, execute novamente a célula que contém o comando plot.

In [None]:
w_in = np.zeros((1))
b_in = 0
plt.close('all') 
addpt = plt_one_addpt_onclick( x_train,y_train, w_in, b_in, logistic=False)

O exemplo acima demonstra que o modelo linear é insuficiente para modelar dados categóricos. O modelo pode ser ampliado conforme descrito no laboratório a seguir.

## Parabéns!
Neste laboratório, você:
- explorou conjuntos de dados categóricos e plotagem
- determinou que a regressão linear era insuficiente para um problema de classificação.