# Implementação e Exercícios - Deep Learning I

Vamos começar implementando algumas funções de ativação e analisar seu comportamento. Para isso, vamos usar uma função auxiliar que permitirá a visualização dessas funções:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#helper function
def plot(func, yaxis=(-1.4, 1.4)):
    plt.ylim(yaxis)
    plt.locator_params(nbins=5)
    plt.xticks(fontsize = 14)
    plt.yticks(fontsize = 14)
    plt.axhline(lw=1, c='black')
    plt.axvline(lw=1, c='black')
    plt.grid(alpha=0.4, ls='-.')
    plt.box(on=None)
    plt.plot(x, func(x), c='r', lw=3)

In [None]:
# vetor contendo dados para plotar as funções
x = np.arange(-5, 5, 0.01)

## Binary Step

$$
f(x) = \left\{
        \begin{array}{lll}
            0 & for & x \leq 0  \\
            1 & for & x > 0
        \end{array}
    \right.
$$

$$
f'(x) = \left\{
        \begin{array}{lll}
            0 & for & x \neq 0  \\
            ? & for & x = 0
        \end{array}
    \right.
$$

In [None]:
binary_step = np.vectorize(lambda x: 1 if x > 0 else 0, otypes=[np.float64])

In [None]:
plot(binary_step, yaxis=(-0.4, 1.4))

## Hyperbolic Tangent, TanH

Essa função normaliza o output de cada neurônio entre [-1,1]. Entretanto, ela sofre do problema conhecido como *vanishing gradient*, ou seja, quase não produz mudanças na predição para valores muito grandes ou muito pequenos de inputs, fazendo com a rede deixe de aprender. 

$$
f(x)={\frac {2}{1+e^{-2x}}}-1
$$

$$
f'(x)=1-f(x)^2
$$

In [None]:
def tanh(x):
    return 2 / (1 + np.exp(-2 * x)) -1

In [None]:
plot(tanh)

## Rectified Linear Units, ReLU
Nesta função, os outputs podem variar de 0 até infinito quando o input é positivo, mas quando o input é 0 ou negativo, a função retorna como output 0 e isso pode atrapalhar no cálculo do *backpropagation*. 

$$
f(x) = \left\{
        \begin{array}{lll}
            0 & for & x \leq 0  \\
            x & for & x > 0
        \end{array}
    \right.
$$

$$
f'(x) = \left\{
        \begin{array}{lll}
            0 & for & x \leq 0  \\
            1 & for & x > 0
        \end{array}
    \right.
$$

In [None]:
relu = np.vectorize(lambda x: x if x > 0 else 0, otypes=[np.float64])

In [None]:
plot(relu, yaxis=(-0.4, 1.4))

## Leaky Rectified Linear Units, Leaky ReLU
A *Leaky ReLU* foi criada para resolver o problema da ReLU, ou seja, permitir que o *backpropagation* execute sem erros.

$$
f(x) = \left\{
        \begin{array}{lll}
            ax & for & x \leq 0  \\
            x & for & x > 0
        \end{array}
    \right.
$$

$$
f'(x) = \left\{
        \begin{array}{lll}
            a & for & x \leq 0  \\
            1 & for & x > 0
        \end{array}
    \right.
$$

In [None]:
leaky_relu = np.vectorize(lambda x: max(0.1 * x, x), otypes=[np.float64])

In [None]:
plot(leaky_relu)

# ToDo 1

A função sigmoid é uma das mais usadas para problemas em geral. Baseado na equação abaixo, implemente uma função que calcule a sigmoid. Use a função plot para plotar os valores usando a variável *x* como input.  

$$
f(x)={\frac {1}{1+e^{-x}}}
$$

$$
f'(x)=f(x)(1-f(x))
$$

In [None]:
# resposta

In [None]:
plot(sigmoid, yaxis=(-0.4, 1.4))

### Perguntas:

1. Essas funções podem ser usadas tanto nas camadas ocultas quanto nas camadas de saída?

2. Como determinar a função a ser usada? 

# Gradiente Descendente
Agora, vamos implementar as funções básicas do algoritmo Gradiente Descendente e testá-las num dataset pequeno. Antes, porém, vamos começar com algumas funções que nos auxiliarão a plotar e visualizar os dados. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

#funcão para visualizar os dados a serem classificados
def plot_points(X, y):
    admitted = X[np.argwhere(y==1)]
    rejected = X[np.argwhere(y==0)]
    plt.scatter([s[0][0] for s in rejected], [s[0][1] for s in rejected], s = 25, color = 'blue', edgecolor = 'k')
    plt.scatter([s[0][0] for s in admitted], [s[0][1] for s in admitted], s = 25, color = 'red', edgecolor = 'k')

# plota a fronteira de decisao que o algoritmo encontrou
def display(m, b, color='g--'):
    plt.xlim(-0.05,1.05)
    plt.ylim(-0.05,1.05)
    x = np.arange(-10, 10, 0.1)
    plt.plot(x, m*x+b, color)

In [None]:
#leitura dos dados
data = pd.read_csv('data.csv', header=None)
X = np.array(data[[0,1]])
y = np.array(data[2])
plot_points(X,y)
plt.show()

# ToDo 2
Implemente as seguintes funções vistas em aula:

- Sigmoid activation function

$$\sigma(x) = \frac{1}{1+e^{-x}}$$

- Output (prediction) formula

$$\hat{y} = \sigma(w_1 x_1 + w_2 x_2 + b)$$

- Error function

$$Error(y, \hat{y}) = - y \log(\hat{y}) - (1-y) \log(1-\hat{y})$$

- The function that updates the weights

$$ w_i \longrightarrow w_i + \alpha (y - \hat{y}) x_i$$

$$ b \longrightarrow b + \alpha (y - \hat{y})$$


In [None]:
# resposta
def sigmoid(x):
    pass

def output_formula(features, weights, bias):
    pass

def error_formula(y, output):
    pass

def update_weights(x, y, weights, bias, learnrate):
    pass

In [None]:
# função auxiliar para treinar a rede neural. Ele itera o gradiente descendente sobre todos os dados para um determinado número
# de épocas. Também plota os dados e a fronteira de decisão encontrada. 
np.random.seed(44)

epochs = 100
learnrate = 0.01

def train(features, targets, epochs, learnrate, graph_lines=False):
    
    errors = []
    n_records, n_features = features.shape
    last_loss = None
    weights = np.random.normal(scale=1 / n_features**.5, size=n_features)
    bias = 0
    for e in range(epochs):
        del_w = np.zeros(weights.shape)
        for x, y in zip(features, targets):
            weights, bias = update_weights(x, y, weights, bias, learnrate)
        
        # imprimindo o erro no conjunto de treino
        out = output_formula(features, weights, bias)
        loss = np.mean(error_formula(targets, out))
        errors.append(loss)
        if e % (epochs / 10) == 0:
            print("\n========== Epoch", e,"==========")
            if last_loss and last_loss < loss:
                print("Train loss: ", loss, "  WARNING - Loss Increasing")
            else:
                print("Train loss: ", loss)
            last_loss = loss
            
            # convertende o output (float) para booleano, visto que é classificação binária
            predictions = out > 0.5
            
            accuracy = np.mean(predictions == targets)
            print("Accuracy: ", accuracy)
        if graph_lines and e % (epochs / 100) == 0:
            display(-weights[0]/weights[1], -bias/weights[1])
            

    # Fronteira de decisão
    plt.title("Solution boundary")
    display(-weights[0]/weights[1], -bias/weights[1], 'black')

    # dados
    plot_points(features, targets)
    plt.show()

    # erro
    plt.title("Error Plot")
    plt.xlabel('Number of epochs')
    plt.ylabel('Error')
    plt.plot(errors)
    plt.show()

Vamos treinar o algoritmo.

Quando executamos a função, obtemos o seguinte:

* 10 atualizações com o valor atual da loss e acurácia
* Um plot com os dados e algumas fronteiras de decisão encontradas. A final está em **preto**. Observe como as linhas vão se aproximando da solução ótima conforme o número de épocas vai passando. 
* Um plot do erro. Observe como o valor reduz a cada época. 

In [None]:
train(X, y, epochs, learnrate, True)

# Usando Scikit-Learn

No dia a dia, é mais prático usar soluções já implementadas e otimizadas, principalmente quando lidamos com datasets grandes. Nesse sentido, a Scikit-Learn se torna uma grande aliada. Para entendermos como ela pode nos auxiliar, vamos ver um caso prático simples e, depois, implementar uma solução para um problema bastante conhecido em Deep Learning

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets
import sklearn.linear_model
from sklearn.neural_network import MLPClassifier

from planar_utils import plot_decision_boundary, sigmoid, load_planar_dataset, load_extra_datasets

Vamos carregar o conjunto de dados no qual trabalharemos. O código abaixo o carregará nas variáveis X e Y

In [None]:
X, Y = load_planar_dataset()
Y = Y[0] #neste dataset Y tem uma dimensao a mais, vamos remove-la
X.shape

Observe que nossa base de dados contém duas características (X1 e X2) e o rótulo (vermelho:0 e roxo:1)

Vamos plotá-lo

In [None]:
%matplotlib inline

In [None]:
plt.scatter(X[0, :], X[1, :], c=Y, s=40, cmap=plt.cm.Spectral)

Observe que este problema é bastante complexo para conseguirmos separar os pontos azuis dos vermelhos com apenas uma linha, como faríamos com um modelo linear simples. Para efeitos de ilustração, vamos tentar empregar uma regressão logística:

In [None]:
clf = sklearn.linear_model.LogisticRegressionCV()
clf.fit(X.T, Y.T)

In [None]:
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Regressão Logística")

LR_predictions = clf.predict(X.T)
print ('Taxa de acerto da Regressão Logística: %f ' % float(np.mean(LR_predictions == Y[0])))

Para casos como este precisamos de modelos mais complexos, com superfícies de decisões não lineares. Como as Redes Neurais podem ser vistas como um conjunto de funções lineares combinadas, elas nos possibilitam obter fronteiras de decisão mais complexas

Vamos treinar o modelo Neural abaixo para vermos se obtemos um resultado melhor

<img src="imagens/simple_nn.png" width="500">

Matematicamente, para um exemplo $x^{(i)}$ temos:

$
z^{[1](i)}=W^{[1]}x^{[1](i)}+b^{[1](i)}\\
a^{[1](i)} = tanh(z^{[1](i)})\\
z^{[2](i)} = W^{[2]}a^{[1](i)}+b^{[2](i)}\\
\hat{y }^{(i)} = a^{[2](i)} = \sigma(z^{[2](i)})\\
\begin{equation}
  y^{(i)}_{predito} ==\left\{
  \begin{array}{@{}ll@{}}
    0, & \text{se}\ a^{[2](i)} > 0.5\\
    1, & \text{caso contrário}
  \end{array}\right.
\end{equation} 
\tag{1}$

Dado os valores preditos, podemos calcular a função de custo por:

$J = - \frac{1}{m} \sum\limits_{i = 0}^{m} \large\left(\small y^{(i)}\log\left(a^{[2] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[2] (i)}\right) \large \right) \small \tag{2}$

O Scikit-learn nos oferece um pacote para trabalharmos com redes Perceptron, para isso definimos a arquitetura da rede como:

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(4, 1), activation='tanh', random_state=42)

In [None]:
clf.fit(X.T, Y.T)

In [None]:
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Rede Neural")

NN_predictions = clf.predict(X.T)
print ('Taxa de acerto da Rede Neural: %f ' % float(np.mean(NN_predictions == Y[0])))

Observe que com este modelo conseguimos construir uma superfície de decisão um pouco "curva" no espaço $R^2$, já que não estamos mais trabalhando com modelos lineares. Com isso aumentamos nossa taxa de acerto

Vamos tentar modelos mais complexos para observarmos esse comportamento

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(10, 8, 4, 2), activation='relu', random_state=42)
clf.fit(X.T, Y.T)
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Rede Neural")

NN_predictions = clf.predict(X.T)
print ('Taxa de acerto da Rede Neural: %f ' % float(np.mean(NN_predictions == Y[0])))

Um hiper parâmetro muito importante a ser configurado em um NN é o learning_rate. Caso ele seja muito baixo, a rede necessitará de muitas interações para convergir (muitas vezes milhões), o que inviabiliza o projeto. Porém, se ele for muito alto pode haver um "salto" do mínimo da função pelo gradiente, impossibilitando a convergência do modelo.

<img src="imagens/sgd.gif">

<img src="imagens/sgd_bad.gif">

Vamos testar no nosso exemplo:

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(4, 4), activation='tanh', random_state=42, learning_rate_init=10.0)
clf.fit(X.T, Y.T)
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Rede Neural")

NN_predictions = clf.predict(X.T)
print ('Taxa de acerto da Rede Neural: %f ' % float(np.mean(NN_predictions == Y[0])))

Observe que mesmo utilizando um modelo mais complexo, a nossa rede não conseguiu convergir para o mínimo de erro

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(4, 4), activation='tanh', random_state=42, learning_rate_init=0.00001)
clf.fit(X.T, Y.T)
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Rede Neural")

NN_predictions = clf.predict(X.T)
print ('Taxa de acerto da Rede Neural: %f ' % float(np.mean(NN_predictions == Y[0])))

O mesmo acontece com uma learning rate muito baixa

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(4, 4), activation='tanh', random_state=42, learning_rate_init=0.001)
clf.fit(X.T, Y.T)
plot_decision_boundary(lambda x: clf.predict(x), X, Y)
plt.title("Rede Neural")

NN_predictions = clf.predict(X.T)
print ('Taxa de acerto da Rede Neural: %f ' % float(np.mean(NN_predictions == Y[0])))

Por fim, uma learning rate adequada resulta em um modelo mais preciso

E para prevermos um valor:

In [None]:
clf.predict([[2.5, 0.75]])

Assim, nosso ponto $(2.5, 0.75)$ é da classe roxo (ou azul)

In [None]:
clf.predict_proba([[2.5, 0.75]])

A probabilidade para a classe vermelha é 0.32 e para a roxa 0.68

# ToDo 3
Agora é hora de usar esse conhecimento que acabamos de obter e aplicá-lo num conjunto de dados real e mais complexo. Vamos usar o dataset [MNIST](https://en.wikipedia.org/wiki/MNIST_database).



In [None]:
import gzip
import pickle
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPClassifier

In [None]:
#como o dataset foi criado em Python 2, é necessário o encoding latin1 para carregá-lo em Python 3
with gzip.open('mnist.pkl.gz', 'rb') as f:
    train_set, valid_set, test_set = pickle.load(f, encoding='latin1')

O dataset é composto de 70k exemplos, divididos em 50k para treino, 10k para validação e 10k para teste. Cada exemplo é uma imagem 28x28 em escala de cinza contendo um dígito. Vamos ver alguns exemplos:

In [None]:
# Plot random examples
examples = np.random.randint(10000, size=8)
n_examples = len(examples)
plt.figure()
for ix_example in range(n_examples):
    tmp = np.reshape(train_set[0][examples[ix_example],:], [28,28])
    ax = plt.subplot(1,n_examples, ix_example + 1)
    ax.set_yticklabels([])
    ax.set_xticklabels([])
    plt.title(str(train_set[1][examples[ix_example]]))
    plt.imshow(tmp, cmap='gray')

Manipulando o conjunto de treino e teste. Aqui, não vamos usar o conjunto de validação:

In [None]:
# Training data
train_X = train_set[0]
train_y = train_set[1]
print('Shape of training set: ' + str(train_X.shape))

# change y [1D] to Y [2D] sparse array coding class
n_examples = len(train_y)
labels = np.unique(train_y)
train_Y = np.zeros((n_examples, len(labels)))
for ix_label in range(len(labels)):
    # Find examples with with a Label = lables(ix_label)
    ix_tmp = np.where(train_y == labels[ix_label])[0]
    train_Y[ix_tmp, ix_label] = 1


# Test data
test_X = test_set[0]
test_y = test_set[1] 
print('Shape of test set: ' + str(test_X.shape))

# change y [1D] to Y [2D] sparse array coding class
n_examples = len(test_y)
labels = np.unique(test_y)
test_Y = np.zeros((n_examples, len(labels)))
for ix_label in range(len(labels)):
    # Find examples with with a Label = lables(ix_label)
    ix_tmp = np.where(test_y == labels[ix_label])[0]
    test_Y[ix_tmp, ix_label] = 1


1. Defina os hiperparâmetros da rede neural e instancie um modelo MLP da scikit learn:
    * número de camadas
    * nós em cada camada
    * função de ativação
    
**Dica**: para definir a quantidade de nós em cada camada pense no formato dos dados de entrada e quantas saídas deverá ter a rede. As camadas ocultas podem ter valores arbitrários

In [None]:
#resposta

2. Treine o modelo
**Dica**: use train_Y ao invés de train_y

In [None]:
# resposta

3. Faça a predição do conjunto de teste

In [None]:
# resposta

4. Imprima o classification report [documentação](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

In [None]:
# resposta