# TP03 - Classificação Portas Lógicas

Bem vindo!
Neste TP você implementará um algoritmo de classificação.

**Instruções:**
- Use a versão Python 3.
- Evite sempre usar usar laços `for` e `while`, fazer contas no formato vetorial é sempre mais rápido.
- Não apague os comentários existentes, mas é claro que você pode adicionar outros comentários!

**Objetivos**
- Implementar perceptron de camada única para classificar "portas lógicas"
- Aplicar o algoritmo de aprendizado do perceptron
- Verificar na prática convergência do perceptron para problemas linearmente separáveis

## O Jupyter notebook

O Jupyter Notebook é um ambiente interativo de programação em uma página web. Nesse notebook você colocará o código entre os comentários `### SEU CÓDIGO COMEÇA AQUI ###` e `### FIM DO CÓDIGO ###`. Após escrever o código, você pode executar a célula com `Shift+Enter` ou no botão "Run" (com símbolo de "play") na barra de comandos acima.

Em alguns trechos será especificado "(≈ X linhas de código)" nos comentários para que você tenha uma ideia sobre o tamanho do código a ser desenvolvido naquele trecho. Lembrando que é só uma estimativa, o seu código pode ficar maior ou menor do que o especificado.

**Alguns atalhos úteis *no código*:**
- `Ctrl+Enter`: executa a célula e mantém o cursor na mesma célula
- `Shift+Enter`: executa a célula e move o cursor para a próxima célula
- `Ctrl+/`: comenta a linha de código
- `Shift+Tab`: quando o cursor estiver em uma função, mostra um HELP da função

**Alguns atalhos úteis *na célula*:**
- Cria nova célula `a`: acima, `b`: abaixo da céula selecionada
- `d` (2x): deleta célula selecionada
- `m`: define célula como texto (Markdown)
- `y`: define célula como código (Python)
- `l`: mostra numeração das linhas na célula de código
- `c`: copiar, `v`: colar, `x`: recortar célula selecionada
- `ctrl+shift+p`: mostra busca para todos comandos de célula

## Escreva o seu RA na variável abaixo
Atribua o número do seu RA, sem os zeros à esquerda, na variável `RA` abaixo.

In [None]:
### SEU CÓDIGO COMEÇA AQUI ### (≈ 1 linha de código)
RA = None
### FIM DO CÓDIGO ###

## Dados linearmente separáveis
O código abaixo gera um conjunto de dados com 100 amostras, $m=100$, de um problema de classificação. Primeiramente, você ajustará, manualmente, uma rede neural que consiga classificar os dados abaixo.

<mark>**Faça:** </mark>
1. Rode o código abaixo e observe que as classes são linearmente separáveis na maioria das realizações (cada vez que o código é rodado, são sorteados novos dados)
1. O modelo classificador será o Perceptron de camada única, dado por: $\hat{y}^{(i)}= \textrm{sign}\left(w_1 x_1^{(i)} + w_2 x_2^{(i)} + b\right)$
1. Ajuste, manualmente, os valores dos pesos $w_1$, $w_2$ e $b$ de modo que o modelo consiga classificar os dados corretamente
1. Faça, no mesmo gráfico mostrado, uma reta representando o limiar de decisão do Perceptron

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# dados de treinamento
m = 100
np.random.seed()
x1_train = np.random.randint(2, size=m)
x2_train = np.random.randint(2, size=m)
np.random.seed(RA*283)
oraculo = (np.logical_and, np.logical_or)[np.random.randint(0,2)]
y_train = oraculo(x1_train, x2_train).astype(int)*2-1
x1_train = x1_train*2-1 + np.random.normal(0, .2, m) # adicionando ruído
x2_train = x2_train*2-1 + np.random.normal(0, .2, m) # adicionando ruído

plt.figure(figsize=(4,3), dpi=100)
plt.plot(x1_train[y_train<0], x2_train[y_train<0], 'o', c='blue')
plt.plot(x1_train[y_train>0], x2_train[y_train>0], 's', c='red')


### SEU CÓDIGO COMEÇA AQUI ### (≈ 3 linhas de código)

# parametros ajustados MANUALMENTE
w1 = None
w2 = None
b = None

### FIM DO CÓDIGO ###

# Calcula reta (limiar de decisão)
x1_plot = np.linspace(-2.0, 2.8, 50)
x2_plot = (-w1/w2)*x1_plot -b/w2

plt.plot(x1_plot, x2_plot, 'k--')
plt.legend(('$y=-1$','$y=+1$'))
plt.xlim((-2, 2.8))
plt.ylim((-2, 2.8))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.show()

**Saída esperada**

<img src="files/TP03_classificador.png">
___

## Perceptron de camada única

<mark>**Faça:**</mark>
Crie agora a classe `perceptron()` que implementará o modelo do Perceptron de camada única, cuja equação é dada por:

$\hat{y}^{(i)}= \textrm{sign}\left(w_1 x_1^{(i)} + w_2 x_2^{(i)} + b\right)$


Lembre-se que $\hat{y}\in\{-1,1\}$. Assim, a saída da função só pode fornecer os valores $-1$ ou $+1$.

A classe deve possuir os seguintes atributos obrigatórios:
  + $w_1$: primeiro valor de peso, escalar, no formato `type(w1)=float`
  + $w_2$: segundo valor de peso, escalar, no formato `type(w2)=float`
  + $b$: valor do parâmetro bias, escalar, no formato `type(b)=float`

Semelhante ao TP anterior, implemente a função `setWeights`, que recebe como parâmetros novos valores de peso para serem ajustados.

Semelhante ao TP anterior, implemente a função `forward`, que calcula a saída $\hat{y}$ estimada para valores de entrada passados como parâmetros.

Ao final, teste a classe e as funções usando os parâmetros $w_1$, $w_2$ e $b$ ajustados manualmente na etapa anterior para todos os $m=100$ dados gerados. Gere um gráfico semelhante ao do exercício anterior, mostrando que o modelo funcionou corretamente. Ao final, calcule e mostre (comando `print`) o erro quadrático médio (*mean squared error*, MSE) do resultado. Espera-se `MSE≈0`.

In [None]:
plt.figure(figsize=(4,3), dpi=100)

### SEU CÓDIGO COMEÇA AQUI ###
class perceptron():
    def __init__(self, ...):
        ...
    
    def setWeights(self, novo_w1, novo_w2, novo_b):
        ...
        
    def forward(self, x1, x2):
        return ...

# instancia a classe
...

# ajusta pesos
...

# calcula saídas
yh = None

### FIM DO CÓDIGO ###

plt.plot(x1_train[y_train<0], x2_train[y_train<0], 'o', c='blue')
plt.plot(x1_train[y_train>0], x2_train[y_train>0], 's', c='red')

plt.plot(x1_train[yh>0],x2_train[yh>0],'rx', ms=10, label="$\hat{y}=+1$")
plt.plot(x1_train[yh<0],x2_train[yh<0],'bx', ms=10, label="$\hat{y}=-1$")

plt.legend()
plt.xlim((-2, 2.8))
plt.ylim((-2, 2.8))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.show()

**Saída esperada**
- Gráfico no plano de entradas $(x_1, x_2)$, mostrando que o modelo classificou corretamente. Você pode usar símbolos diferentes para representar as classes "+1" e "-1". Coloque legenda no gráfico!
- Cálculo do MSE com saída `MSE = 0.0`.
___

## Treinamento do Perceptron de camada única

Para ajustar os parâmetros $w1$, $w2$ e $b$ de forma automática, baseado nos dados de treinamento, a seguinte regra de aprendizado pode ser utilizada:

$w_i^{(k)} = w_i^{(k-1)} + \Delta w_i^{(k-1)},\,\,\,\,\,\,\,$    (1)

$b^{(k)} = b^{(k-1)} + \Delta b^{(k-1)},\,\,\,\,\,\,\,$    (2)

em que $w_i^{(k)}$ representa o $i$-ésimo peso da $k$-ésima iteração do algoritmo de aprendizado, e tem-se:

$\Delta w_i^{(k)}=\eta [y-\hat{y}]x_i^{(k)},\,\,\,\,\,\,\,$    (3)

$\Delta b^{(k)}=\eta [y-\hat{y}],\,\,\,\,\,\,\,$    (4)

sendo $\eta$ o hiperparâmetro que controla a *taxa de aprendizado* do algoritmo.

<mark>**Faça:**</mark>Crie uma função `train(modelo, x1, x2, y, eta, epocas)` que implementa o algoritmo de aprendizado do Perceptron descrito acima.
- Entradas 
  + `modelo`: modelo Perceptron (da classe criada anteriormente)
  + `x1`: vetor com dados de treinamento referente à entrada 1 do modelo
  + `x2`: vetor com dados de treinamento referente à entrada 2 do modelo
  + `y`: vetor com dados de treinamento referente à saída do modelo
  + `eta`: variável que representa a *taxa de aprendizado*
  + `epocas`: *épocas de treinamento*, variável que define o número de vezes que o algoritmo de aprendizado vai passar por cada amostra
- Saída
  + `modelo`: modelo Perceptron treinado

O algoritmo de aprendizado terá as seguintes características:
1. Devem ser usados os mesmos dados de treinamento da primeira parte dessa atividade
1. As funções desenvolvidas anteriormente (`forward` e `setWeights`) devem ser utilizadas
1. A classe deve iniciar os valores dos pesos `w1`, `w2` e `b` de forma aleatória antes do treinamento (garanta que os pesos tenham valores atribuidos ao instanciar a classe)
1. O aprendizado deve ocorrer dentro de um laço `for` que passa por todos os $m$ dados de treinamento por pelo menos uma vez. O número de vezes que o treinamento vai passar por cada dado é definido no parâmetro `epocas`. Exemplo: se numa situação temos $m=10$ e `epocas=3`, então o laço `for` terá 30 iterações ao todo.
1. Dentro do laço, seu código deve fazer o seguinte:
   1. Passo de propagação (*forward step*): calcule a saída da rede $\hat{y}^{(i)}$ para as respectivas entradas $x_1^{(i)}$ e $x_2^{(i)}$
   1. Para o parâmetro $w_1$, calcule $\Delta w_1^{(i-1)}$, conforme equação (3) acima
   1. Para o parâmetro $w_2$, calcule $\Delta w_2^{(i-1)}$, conforme equação (3) acima
   1. Para o parâmetro $b$, calcule $\Delta b^{(i-1)}$, conforme equação (4) acima
   1. Calcule o novo valor $w_1^{(i)}$, baseado em $w_1^{(i-1)}$ e $\Delta w_1^{(i-1)}$, conforme equação (2) acima
   1. Calcule o novo valor $w_2^{(i)}$, baseado em $w_2^{(i-1)}$ e $\Delta w_2^{(i-1)}$, conforme equação (2) acima
   1. Calcule o novo valor $b^{(i)}$, baseado em $b^{(i-1)}$ e $\Delta b^{(i-1)}$, conforme equação (1) acima
   1. faça os passos anteriores para a próxima amostra
1. O laço descrito anteriormente deve percorrer os dados de treinamento de forma aleatória! Os dados não podem sers percorridos na ordem de apresentação dos dados. Para fazer isso, use a função `np.random.permutation`

Após implementar a função de treinamento, use-a para calcular `yh`. Os resultados serão apresentados no plano $(x_1, x_2)$ para os dados de treinamento. Calcule também o MSE na variável `MSE_train`.

In [None]:
### SEU CÓDIGO COMEÇA AQUI ###
    
def train(modelo, x1, x2, y, eta, epocas):
    ...
    
    return modelo

# pesos iniciais (antes do treinamento)
w1_0 = None
w2_0 = None
b_0 = None

# inicia modelo
modelo = None

# treinamento
...

# verifica desempenho nos dados de treinamento
yh = None
MSE_train = None

### FIM DO CÓDIGO ###

print('MSE (treinamento): %.3f'%MSE_train)

plt.plot(x1_train[y_train<0], x2_train[y_train<0], 'o', c='blue')
plt.plot(x1_train[y_train>0], x2_train[y_train>0], 's', c='red')

plt.plot(x1_train[yh>0],x2_train[yh>0],'rx', ms=10, label="$\hat{y}=+1$")
plt.plot(x1_train[yh<0],x2_train[yh<0],'bx', ms=10, label="$\hat{y}=-1$")

x1_plot = np.linspace(-2.0, 2.8, 50)
x2_plot = (-w1_0/w2_0)*x1_plot - b_0/w2_0
x2_plot_treinado = (-modelo.w1/modelo.w2)*x1_plot - modelo.b/modelo.w2

plt.plot(x1_plot, x2_plot, ':k');
plt.plot(x1_plot, x2_plot_treinado, '-k');

plt.legend()
plt.xlim((-2, 2.8))
plt.ylim((-2, 2.8))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.show()

**Saída esperada**:
- gráfico, similar ao da primeira parte desta atividade, mostrando o resultado do modelo nos dados de treinamento.
- MSE nos dados de treinamento
___
Usando o modelo já treinado, calcule os resultados para os dados de teste em `yh_teste`, que estão nas variáveis `x1_test`, `x2_test` e `y_test`. No gráfico, mostre dois limiares de separação: aquele obtido com os pesos iniciais (**antes** do treinamento) e o limiar de serparação obtido pelo o modelo treinado (**após** o treinamento). Calcule também o MSE nos dados de validação e apresente seu valor.

In [None]:
# dados de teste
m_test = 50
x1_test = np.random.randint(2, size=m_test)
x2_test = np.random.randint(2, size=m_test)
y_test = np.logical_and(x1_test, x2_test).astype(int)*2-1
x1_test = x1_test*2-1 + np.random.normal(0, .25, m_test) # adicionando ruído
x2_test = x2_test*2-1 + np.random.normal(0, .25, m_test) # adicionando ruído

### SEU CÓDIGO COMEÇA AQUI ###

# Desempenho nos dados de teste
yh_test = None
MSE_test = None

### FIM DO CÓDIGO ###

print('MSE (teste): %.3f'%MSE_test)

plt.plot(x1_test[y_test<0], x2_test[y_test<0], 'o', c='blue')
plt.plot(x1_test[y_test>0], x2_test[y_test>0], 's', c='red')

plt.plot(x1_test[yh_test>0],x2_test[yh_test>0],'rx', ms=10, label="$\hat{y}=+1$")
plt.plot(x1_test[yh_test<0],x2_test[yh_test<0],'bx', ms=10, label="$\hat{y}=-1$")

x1_plot = np.linspace(-2.0, 2.8, 50)
x2_plot_treinado = (-modelo.w1/modelo.w2)*x1_plot - modelo.b/modelo.w2

plt.plot(x1_plot, x2_plot_treinado, '-k');

plt.legend()
plt.xlim((-2, 2.8))
plt.ylim((-2, 2.8))
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.show()

**Saída esperada**:
- gráfico, similar ao da primeira parte desta atividade, mostrando o resultado do modelo nos dados de teste.
- MSE nos dados de teste
___

## Desafio! (opcional, você não perderá nenhum ponto se deixar de fazer essa parte)

Você pode tentar um novo desafio: utilizar o algoritmo de aprendizado implementado nos dados da Iris. Esses dados podem ser obtidos no site https://archive.ics.uci.edu/ml/datasets/Iris, que contém também uma descrição mais completa do problema.

Implemente o algoritmo de aprendizado fazendo os ajustes necessários. Ao final, mostre o resultado do algoritmo de aprendizado para os **dados de validação**. Não se esqueça de segregar o conjunto de dados em: treinamento (\~80%) e validação (\~20%). Mostre o percentual de acerto nesses dados.

Bom trabalho!

In [None]:
### SEU CÓDIGO COMEÇA AQUI ###

### FIM DO CÓDIGO ###

**Saída esperada**:
índice de acerto nos dados de validação e demais gráficos que achar convenientes.
___