# REDES NEURAIS II

Nesta seção, vamos melhorar nossa rede neural anterior para o problema de classificação de dígitos do MNIST. Ao mesmo tempo, vamos introduzir a biblioteca de alto nível `tf.contrib.learn` com aplicação de muitas técnicas de definição de hiper-parâmetros.

## Como melhorar o desempenho de uma Rede Neural?

Uma rede neural é uma estrutura complexa descrita através de muito hiper-parâmetros. Todos eles tem impacto no desempenho da rede. Entre os principais, citamos:

* Tipo de Arquitetura
    * E para cada tipo, parâmetros específicos como tamanho dos kernels e striding em redes convolutivas;
* Número de camadas
* Número de neurônios em cada camada
* Parâmetros de Regularização
    * E para cada método, seus parâmetros específicos como taxa de regularização em L1 e L2 e taxa de dropout
* Taxa de aprendizado e evolução da taxa (ex: decaimento exponencial)
* Algoritmo de otimização
* Valores iniciais de pesos

Outras técnicas também podem ter impacto no desempenho da rede, embora não sejam exatamente parâmetros do sistema, como enriquecemento de bases de dados (mesmo de natureza sintética) e uso de ensemble na arquitetura.

É muito importante que o experimentador compreenda bem o domínio do problema, busque configurações de parâmetros usados em situações similares na literatura técnica e ganhe o máximo de experiência prática. 

Muitas dicas adicionais podem ser encontradas nestes links:

* http://cs231n.github.io/neural-networks-3/#baby
* https://arxiv.org/abs/1206.5533
* https://www.quora.com/Machine-Learning-What-are-some-tips-and-tricks-for-training-deep-neural-networks

A seguir, vamos ver várias destas técnicas usadas na prática no problema do MNIST.

### Importando MNIST

In [1]:
import tensorflow as tf
import numpy as np

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


Como vimos antes, o estado-da-arte para esse dataset é 99.79%. Nosso melhor resultado anterior ficou em cerca de 92%.

Nesta seção para acelerarmos o processo de criação e modificação das redes, vamos usar uma biblioteca de alto nível disponibilizada com o tensorflow, a contrib.learn (embora outras muito boas estejam disponíveis, como a Keras).

A API tf.contrib.learn foi criada para facilitar a configuração, treino e avaliação de uma variedade de modelos em Aprendizagem de Máquina. Para criar nosso modelo, vamos seguir estes passos:

1. Ler os dados
2. Construir uma rede neural
3. Treinar o modelo com os dados de treino
4. Avaliar a acurácia do modelo 

### Construindo uma rede neural de várias camadas com tf.contrib.learn

tf.contrib.learn disponibiliza uma variedade de modelos pré-definidos, chamados Estimators, que você pode usar diretamente sobre seus dados. Em nosso caso, vamos usar o estimador DNNClassifier para construir uma rede neural 'profunda':

In [None]:
# Specify that all features have real-value data
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
                                            hidden_units=[10, 20, 10],
                                            n_classes=3,
                                            model_dir="/tmp/iris_model")

tf.contrib.learn disponibiliza uma variedade de modelos pré-definidos, chamados Estimators, que você pode usar diretamente sobre seus dados. Em nosso caso, vamos usar o estimador DNNClassifier para construir uma rede neural 'profunda':

# Specify that all features have real-value data
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

# Build 3 layer DNN with 10, 20, 10 units respectively.
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
                                            hidden_units=[10, 20, 10],
                                            n_classes=3,
                                            model_dir="/tmp/iris_model")
The code above first defines the model's feature columns, which specify the data type for the features in the data set. All the feature data is continuous, so tf.contrib.layers.real_valued_column is the appropriate function to use to construct the feature columns. There are four features in the data set (sepal width, sepal height, petal width, and petal height), so dimensions must be set accordingly to 4 to hold all the data.

Then, the code creates a DNNClassifier model using the following arguments:

feature_columns=feature_columns. The set of feature columns defined above.
hidden_units=[10, 20, 10]. Three hidden layers, containing 10, 20, and 10 neurons, respectively.
n_classes=3. Three target classes, representing the three Iris species.
model_dir=/tmp/iris_model. The directory in which TensorFlow will save checkpoint data during model training. For more on logging and monitoring with TensorFlow, see Logging and Monitoring Basics with tf.contrib.learn.

# Construct a Deep Neural Network Classifier

### References:

https://en.wikipedia.org/wiki/Deep_learning    
http://sebastianruder.com/optimizing-gradient-descent/index.html#batchgradientdescent  
http://yann.lecun.com/exdb/mnist/  
https://www.quora.com/Artificial-Neural-Networks-What-is-the-difference-between-activation-functions  
https://www.tensorflow.org/versions/r0.9/tutorials/mnist/pros/index.html  

Este curso é baseado em material da [Big Data University](https://bigdatauniversity.com/?utm_source=bducopyrightlink&utm_medium=dswb&utm_campaign=bdu). Assim, segue os termos da [licença do MIT](https://bigdatauniversity.com/mit-license/). Aula modificada por Marco Cristo apartir de versão de <a href = "https://linkedin.com/in/luisotsm">Luis Otavio Silveira Martins</a>, <a href = "https://linkedin.com/in/erich-natsubori-sato"> Erich Natsubori Sato </a></h4>. Material adicional de Imanol Schlag (https://ischlag.github.io/2016/06/04/how-to-use-tensorboard/) e Faizan Shaikh (https://www.analyticsvidhya.com/blog/2016/10/tutorial-optimizing-neural-networks-using-keras-with-image-recognition-case-study/).