<a href="https://colab.research.google.com/github/WittmannF/udemy-deep-learning/blob/master/section-2/toy_problem_blank.ipynb" target="_parent"> <img src =" https://colab.research.google.com/assets/colab-badge.svg" alt = "Open In Colab"/> </a>

# Sua Primeira Rede Neural

Vamos usar o mesmo exemplo que temos visto no vídeo anterior com o preço de casa com base em sua área:
![input-example](https://user-images.githubusercontent.com/5733246/52136634-a2e8e080-262f-11e9-8f7a-61d79831d83d.png)
Normalmente, quando se trabalha com problemas de aprendizagem de máquina ou profunda aprendizagem, você terá que seguir esses cinco passos:

1. Explorando os dados
   - Importação de dados
   - Compreender os dados

2. Preparar os dados
   - Scaling
   - Transformando
   - One-Hot Encoding
   - Train teste de divisão

3. Desenvolver um modelo básico
4. Verificação das Previsões
5. Melhoria dos Resultados

## 1. Importar os Dados

Vamos criar um conjunto de dados brinquedo na mão, com apenas 20 áreas e 20 preços:

## 2. Preparando os Dados
### Escalando Atributos Numéricos
Otimizadores funcionam melhor quando os dados de entrada estão dentro de uma mesma escala, por exemplo de -1 a 1 ou entre 0 a 1. Isto ajuda a superfície de erro para aproximar mais rápido para o mínimo global. Para melhores resultados, o método chamando [Standardization (Padronização ou Uniformização)](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) é altamente sugerido pois converte a média para zero e o desvio padrão para 1. 
- Para familiarização com Desvio Padrão e Média, recomendo a seguinte leitura: https://medium.com/data-science-br/reproduzindo-uma-distribui%C3%A7%C3%A3o-normal-jogando-cara-ou-coroa-e6d77b490b91

### Divisão dos Dados em Conjuntos de Treinamento e Teste
Além de escalar os dados, é muito importante para dividir o conjunto de dados para treinamento e teste. O conjunto de treinamento vai ser usado para ajustar o modelo (ou fronteira de decisão) e o conjunto de teste vai ser usado para avaliar o seu desempenho em dados não vistos. Se não utilizar um conjunto de teste, há um risco de a rede neural "memorizar" os dados de treinamento, fenômeno conhecido por **overfitting**, ilustrado a seguir:
![underfit](https://i.ytimg.com/vi/dBLZg-RqoLg/maxresdefault.jpg)


Podemos usar a biblioteca de machine learning scikit-learn para a divisão treino/teste:

## 3. Desenvolver um modelo base
Três componentes que você precisa ter ciência:
- Arquitetura: Número de camadas ocultas e neuronios em cada camada
   - https://keras.io/layers/core/
   - https://keras.io/getting-started/sequential-model-guide/
- Otimizadores e Função de Custo
   - https://keras.io/optimizers/
   - https://keras.io/losses/
   - https://keras.io/models/sequential/#compile
   
- Treinar o modelo:
   - https://keras.io/models/sequential/#fit

In [0]:
# 0. Import keras dependencies 
# TODO: Import the sequential model - https://keras.io/getting-started/sequential-model-guide/

# TODO: Import the dense layer - https://keras.io/layers/core/

# TODO: Import the SGD optimizer - https://keras.io/optimizers/

# 1. Define your base model here
# TODO: Assign Sequential to model and create a list with just one Dense layer with one unit and one input
model = None

# 2. Set your optimizer and loss function here
# TODO: Initialize the Stochastic Gradient Descent optimizer

# TODO: Use the model.compile method with the inputs 'optimizer' and 'loss'
model.compile(...)

# 3. Train your model
# TODO: Use the model.fit method with the the training data as input
model.fit(...)

## 4. Verificar Previsões
Agora vamos ver o quão bem a nossa previsão de base está realizando:

In [0]:
def check_predictions(model, X, y):
    y_pred = model.predict(X)
    plt.scatter(X, y, c='b', alpha=0.5, label="Data")
    plt.plot(X, y_pred, c='r', label="Model")
    plt.legend(loc=0)
    plt.show()
    
check_predictions(model, X_train, y_train)

## 5. Melhoria de Resultados
Podemos ver que o modelo não é apropriado. Vamos agora melhorar esses resultados! Aqui estão algumas coisas básicas que vamos tentar:
1. Aumentar o número de épocas
- Épocas é o número de vezes que o algoritmo vê todo o conjunto de dados. 
2. Alterar o otimizador
- Descida gradiente estocástico é muito simple. Há otimizadores mais robustos como Adam
3. Alterar a taxa de aprendizagem (learning rate)
4. Adição de mais camadas

### 5.1 Aumentar o número de épocas

In [0]:
# 0. Import keras dependencies here
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD

# 1. Define your base model here
model = Sequential([
        Dense(units=1, input_shape=(1,))
    ])

# 2. Set your optimizer and loss function here
opt = SGD()
model.compile(optimizer=opt,
             loss='mean_squared_error')


# 3. Train your model
model.fit(X_train, y_train, ...)

In [0]:
check_predictions(model, X_train, y_train)

### 5.2 Trocar de Otimizadores
Ótimo repositório comparando diferentes otimizadores de TensorFlow: https://github.com/Jaewan-Yun/optimizer-visualization
![](https://github.com/Jaewan-Yun/optimizer-visualization/raw/master/figures/movie11.gif)
![](https://github.com/Jaewan-Yun/optimizer-visualization/raw/master/figures/movie9.gif)

Vamos agora tentar outros otimizadores que estão disponíveis a partir da documentação: https://keras.io/optimizers/

In [0]:
# 0. Import keras dependencies here
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

# 1. Define your base model here
model = Sequential([
        Dense(units=1, input_shape=(1,))
    ])

# 2. Set your optimizer loss function here
opt = Adam()
model.compile(optimizer=opt,
             loss='mean_squared_error')


# 3. Train your model
model.fit(X_train, y_train, epochs=20)

In [0]:
check_predictions(model, X_train, y_train)

### 5.3 Alterando o Learning Rate (Taxa de Aprendizagem)
Finalmente vamos aumentar a taxa de aprendizagem. Como um lembrete, valores pequenos requer mais iterações, enquanto grandes valores tornar o modelo a divergir.

In [0]:
# 0. Import keras dependencies here
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

# 1. Define your base model here
model = Sequential([
        Dense(units=1, input_shape=(1,))
    ])

# 2. Set your optimizer and loss function here
opt = Adam(lr=0.1) # Default of adam is 0.001. Check large and small values, use a value slighly lower than a diverging lr
model.compile(optimizer=opt,
             loss='mean_squared_error')


# 3. Train your model
model.fit(X_train, y_train, epochs=20)

In [0]:
check_predictions(model, X_train, y_train)

### 5.4 Adição de Camadas