# MiniProjeto 1 - Multilayer Perceptron - Redes Neurais
## Reconhecimento de Dígitos com MLP
### Grupo: Josenildo Vicente de Araújo (jva@cin.ufpe.br), Lucas Thierry Chaves Muniz (ltcm@cin.ufpe.br), Nicholas Henrique Justino Ferreira (nhjf@cin.ufpe.br), Renato

O seguinte MiniProjeto tem como objetivo praticar os conceitos e teorias aprendidas na disciplina de Redes Neurais a respeito do funcionamento do modelo de rede neural Multilayer Perceptron. De maneira a variar os parâmetros do modelo treinado e observar seus resultados. A rede utilizada em questão, tem como função fazer o reconhecimento de dígitos escritos manualmente por 250 pessoas, entre as quais eram estudantes do Ensino Médio e funcionários do Departamento do Censo dos Estados Unidos. O conjunto desses dígitos está reunido no _dataset_ MNIST, que possuí 60000 imagens para treinamento do modelo da rede neural e 10000 imagens para teste do modelo da rede neural. Cada uma dessas imagens são formadas por 784 _pixels_ (28x28) em uma escala da cor cinza.

Começamos pela importação do pacote da biblioteca da rede MLP (_network_) e da biblioteca da importação do dataset <i>(mnist_loader)</i>. Através da biblioteca <i>mnist_loader</i> importamos o _dataset_ e o divimos em três conjuntos: <i>training_data</i>, <i>validation_data</i> e <i>test_data</i>. O <i>training_data</i> será usado para treinar o nosso modelo de MLP e ajustar seus parâmetros automaticamente, o <i>validation_data</i> não será usado neste momento, mas é um conjunto essencial para descobrir como ajustar os hiper-parâmetros, e, por fim, o <i>test_data</i> será usado para testar o modelo de MLP treinado em dados não vistos para medir a sua performance.

In [1]:
import network, mnist_loader
training_data, validation_data, test_data = mnist_loader.load_data_wrapper()

Para criar o modelo de MLP, invocamos o construtor do biblioteca _network_ (_Network_) informando um vetor que significa a quantidade de neurônios em cada camada da rede.

O método "SGD" da rede, diz respeito ao Gradiente Descendente Estocástico, que é um algoritmo de otimização usado para minimizar o erro da saída dos neurônios nas camadas. O termo Estocástico diz respeito a uma aproximação estocástica da otimização do Gradiente Descendente, pois este algoritmo utiliza _mini batches_ aleátorias do conjunto de treinamento em cada época para acelerar o processo de estimação do Gradiente. Neste método especificamos, respectivamente, o conjunto de treinamento do modelo, o número de épocas, a quantidade dos _mini batches_, a taxa de aprendizagem e o conjunto de teste para que seja possível verificar a acurácia total do modelo a cada época treinada.

No exemplo abaixo, definimos que a rede terá 784 neurônios na primeira camada, a camada de entrada, sendo cada um desses neurônios correspondendo a uma entrada de _pixel_ da imagem, já na segunda camada terá 30 neurônios e a última camada, a camada de saída, possuirá 10 neurônios, um neurônio correspondendo a cada uma das possibilidades do dígito (0 a 9). Assim como, define-se o número de épocas sendo 30, a quantidade de _mini batches_ sendo 10, a taxa de aprendizagem sendo 0.1 e o conjunto de testes definido pelo <i>mnist_loader</i>.

In [2]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 30, 10, 0.1, test_data=test_data)

Epoch 0: 5684 / 10000
Epoch 1: 7098 / 10000
Epoch 2: 7494 / 10000
Epoch 3: 7689 / 10000
Epoch 4: 7799 / 10000
Epoch 5: 7902 / 10000
Epoch 6: 7956 / 10000
Epoch 7: 8006 / 10000
Epoch 8: 8044 / 10000
Epoch 9: 8081 / 10000
Epoch 10: 8101 / 10000
Epoch 11: 8123 / 10000
Epoch 12: 8146 / 10000
Epoch 13: 8171 / 10000
Epoch 14: 8196 / 10000
Epoch 15: 8215 / 10000
Epoch 16: 8231 / 10000
Epoch 17: 8245 / 10000
Epoch 18: 8256 / 10000
Epoch 19: 8282 / 10000
Epoch 20: 8278 / 10000
Epoch 21: 8280 / 10000
Epoch 22: 8298 / 10000
Epoch 23: 8298 / 10000
Epoch 24: 8304 / 10000
Epoch 25: 8316 / 10000
Epoch 26: 8325 / 10000
Epoch 27: 8337 / 10000
Epoch 28: 8335 / 10000
Epoch 29: 8343 / 10000


Como pode-se ver, o modelo com esses hiper-parâmetros obteve uma acurácia total de 83.43% em sua última época. 

A seguir, varia-se o número de épocas de treinamento:

In [3]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 50, 10, 0.1, test_data=test_data)

Epoch 0: 5143 / 10000
Epoch 1: 6940 / 10000
Epoch 2: 7723 / 10000
Epoch 3: 8117 / 10000
Epoch 4: 8397 / 10000
Epoch 5: 8518 / 10000
Epoch 6: 8650 / 10000
Epoch 7: 8721 / 10000
Epoch 8: 8765 / 10000
Epoch 9: 8833 / 10000
Epoch 10: 8878 / 10000
Epoch 11: 8902 / 10000
Epoch 12: 8919 / 10000
Epoch 13: 8937 / 10000
Epoch 14: 8979 / 10000
Epoch 15: 9002 / 10000
Epoch 16: 9028 / 10000
Epoch 17: 9056 / 10000
Epoch 18: 9063 / 10000
Epoch 19: 9077 / 10000
Epoch 20: 9088 / 10000
Epoch 21: 9113 / 10000
Epoch 22: 9128 / 10000
Epoch 23: 9125 / 10000
Epoch 24: 9139 / 10000
Epoch 25: 9147 / 10000
Epoch 26: 9145 / 10000
Epoch 27: 9152 / 10000
Epoch 28: 9168 / 10000
Epoch 29: 9172 / 10000
Epoch 30: 9179 / 10000
Epoch 31: 9195 / 10000
Epoch 32: 9204 / 10000
Epoch 33: 9213 / 10000
Epoch 34: 9212 / 10000
Epoch 35: 9223 / 10000
Epoch 36: 9220 / 10000
Epoch 37: 9233 / 10000
Epoch 38: 9243 / 10000
Epoch 39: 9245 / 10000
Epoch 40: 9242 / 10000
Epoch 41: 9247 / 10000
Epoch 42: 9249 / 10000
Epoch 43: 9253 / 1000

In [4]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 0.1, test_data=test_data)

Epoch 0: 5394 / 10000
Epoch 1: 6820 / 10000
Epoch 2: 7309 / 10000
Epoch 3: 7541 / 10000
Epoch 4: 7699 / 10000
Epoch 5: 7811 / 10000
Epoch 6: 8119 / 10000
Epoch 7: 8636 / 10000
Epoch 8: 8714 / 10000
Epoch 9: 8754 / 10000
Epoch 10: 8811 / 10000
Epoch 11: 8834 / 10000
Epoch 12: 8882 / 10000
Epoch 13: 8900 / 10000
Epoch 14: 8935 / 10000
Epoch 15: 8953 / 10000
Epoch 16: 8969 / 10000
Epoch 17: 9000 / 10000
Epoch 18: 9006 / 10000
Epoch 19: 9024 / 10000
Epoch 20: 9036 / 10000
Epoch 21: 9057 / 10000
Epoch 22: 9070 / 10000
Epoch 23: 9067 / 10000
Epoch 24: 9076 / 10000
Epoch 25: 9088 / 10000
Epoch 26: 9103 / 10000
Epoch 27: 9097 / 10000
Epoch 28: 9114 / 10000
Epoch 29: 9117 / 10000
Epoch 30: 9127 / 10000
Epoch 31: 9125 / 10000
Epoch 32: 9131 / 10000
Epoch 33: 9143 / 10000
Epoch 34: 9144 / 10000
Epoch 35: 9157 / 10000
Epoch 36: 9156 / 10000
Epoch 37: 9173 / 10000
Epoch 38: 9178 / 10000
Epoch 39: 9176 / 10000
Epoch 40: 9186 / 10000
Epoch 41: 9192 / 10000
Epoch 42: 9198 / 10000
Epoch 43: 9202 / 1000

Tem-se o resultado de que um aumento no número de épocas resulta em uma melhora na acurácia total do modelo, visto que quantas mais épocas melhor o modelo ajusta seus parâmetros, que chegou a 93.26% em sua última época.

Agora, varia-se o número da taxa de aprendizagem:

In [5]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 0.5, test_data=test_data)

Epoch 0: 7335 / 10000
Epoch 1: 8806 / 10000
Epoch 2: 9021 / 10000
Epoch 3: 9121 / 10000
Epoch 4: 9166 / 10000
Epoch 5: 9201 / 10000
Epoch 6: 9238 / 10000
Epoch 7: 9236 / 10000
Epoch 8: 9259 / 10000
Epoch 9: 9277 / 10000
Epoch 10: 9292 / 10000
Epoch 11: 9309 / 10000
Epoch 12: 9297 / 10000
Epoch 13: 9343 / 10000
Epoch 14: 9347 / 10000
Epoch 15: 9338 / 10000
Epoch 16: 9359 / 10000
Epoch 17: 9361 / 10000
Epoch 18: 9386 / 10000
Epoch 19: 9377 / 10000
Epoch 20: 9393 / 10000
Epoch 21: 9379 / 10000
Epoch 22: 9402 / 10000
Epoch 23: 9417 / 10000
Epoch 24: 9409 / 10000
Epoch 25: 9417 / 10000
Epoch 26: 9401 / 10000
Epoch 27: 9412 / 10000
Epoch 28: 9415 / 10000
Epoch 29: 9415 / 10000
Epoch 30: 9426 / 10000
Epoch 31: 9428 / 10000
Epoch 32: 9426 / 10000
Epoch 33: 9427 / 10000
Epoch 34: 9432 / 10000
Epoch 35: 9441 / 10000
Epoch 36: 9434 / 10000
Epoch 37: 9433 / 10000
Epoch 38: 9440 / 10000
Epoch 39: 9435 / 10000
Epoch 40: 9454 / 10000
Epoch 41: 9456 / 10000
Epoch 42: 9450 / 10000
Epoch 43: 9467 / 1000

In [7]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 1.5, test_data=test_data)

Epoch 0: 8888 / 10000
Epoch 1: 9111 / 10000
Epoch 2: 9229 / 10000
Epoch 3: 9271 / 10000
Epoch 4: 9357 / 10000
Epoch 5: 9358 / 10000
Epoch 6: 9379 / 10000
Epoch 7: 9373 / 10000
Epoch 8: 9411 / 10000
Epoch 9: 9411 / 10000
Epoch 10: 9431 / 10000
Epoch 11: 9457 / 10000
Epoch 12: 9454 / 10000
Epoch 13: 9473 / 10000
Epoch 14: 9455 / 10000
Epoch 15: 9443 / 10000
Epoch 16: 9420 / 10000
Epoch 17: 9462 / 10000
Epoch 18: 9435 / 10000
Epoch 19: 9432 / 10000
Epoch 20: 9460 / 10000
Epoch 21: 9484 / 10000
Epoch 22: 9462 / 10000
Epoch 23: 9480 / 10000
Epoch 24: 9460 / 10000
Epoch 25: 9488 / 10000
Epoch 26: 9476 / 10000
Epoch 27: 9493 / 10000
Epoch 28: 9477 / 10000
Epoch 29: 9480 / 10000
Epoch 30: 9458 / 10000
Epoch 31: 9485 / 10000
Epoch 32: 9491 / 10000
Epoch 33: 9475 / 10000
Epoch 34: 9495 / 10000
Epoch 35: 9498 / 10000
Epoch 36: 9497 / 10000
Epoch 37: 9500 / 10000
Epoch 38: 9490 / 10000
Epoch 39: 9474 / 10000
Epoch 40: 9492 / 10000
Epoch 41: 9494 / 10000
Epoch 42: 9473 / 10000
Epoch 43: 9478 / 1000

In [6]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data) #training_data, epochs, mini_batch_size, eta, test_data=None

Epoch 0: 8971 / 10000
Epoch 1: 9258 / 10000
Epoch 2: 9324 / 10000
Epoch 3: 9359 / 10000
Epoch 4: 9411 / 10000
Epoch 5: 9438 / 10000
Epoch 6: 9371 / 10000
Epoch 7: 9400 / 10000
Epoch 8: 9459 / 10000
Epoch 9: 9430 / 10000
Epoch 10: 9456 / 10000
Epoch 11: 9473 / 10000
Epoch 12: 9471 / 10000
Epoch 13: 9471 / 10000
Epoch 14: 9475 / 10000
Epoch 15: 9494 / 10000
Epoch 16: 9469 / 10000
Epoch 17: 9498 / 10000
Epoch 18: 9483 / 10000
Epoch 19: 9486 / 10000
Epoch 20: 9495 / 10000
Epoch 21: 9513 / 10000
Epoch 22: 9483 / 10000
Epoch 23: 9517 / 10000
Epoch 24: 9485 / 10000
Epoch 25: 9505 / 10000
Epoch 26: 9499 / 10000
Epoch 27: 9495 / 10000
Epoch 28: 9497 / 10000
Epoch 29: 9497 / 10000
Epoch 30: 9495 / 10000
Epoch 31: 9476 / 10000
Epoch 32: 9511 / 10000
Epoch 33: 9468 / 10000
Epoch 34: 9492 / 10000
Epoch 35: 9518 / 10000
Epoch 36: 9506 / 10000
Epoch 37: 9473 / 10000
Epoch 38: 9518 / 10000
Epoch 39: 9509 / 10000
Epoch 40: 9465 / 10000
Epoch 41: 9502 / 10000
Epoch 42: 9501 / 10000
Epoch 43: 9517 / 1000

Como os resultados demonstram, um aumento na taxa de aprendizagem tende a um aumento na performance do modelo.

Neste momento, varia-se o tamanho da rede para observar o seu comportamento no desempenho do modelo:

In [8]:
net = network.Network([784, 30, 30, 10])
net.SGD(training_data, 30, 1, 3.0, test_data=test_data)

Epoch 0: 4114 / 10000


  return 1.0/(1.0+np.exp(-z))


Epoch 1: 3140 / 10000
Epoch 2: 2561 / 10000
Epoch 3: 2742 / 10000
Epoch 4: 2689 / 10000
Epoch 5: 2016 / 10000
Epoch 6: 2230 / 10000
Epoch 7: 1502 / 10000
Epoch 8: 1970 / 10000
Epoch 9: 1135 / 10000
Epoch 10: 1135 / 10000
Epoch 11: 1758 / 10000
Epoch 12: 1758 / 10000
Epoch 13: 1758 / 10000
Epoch 14: 1758 / 10000
Epoch 15: 1758 / 10000
Epoch 16: 1758 / 10000
Epoch 17: 1758 / 10000
Epoch 18: 1758 / 10000
Epoch 19: 1758 / 10000
Epoch 20: 1758 / 10000
Epoch 21: 1758 / 10000
Epoch 22: 1758 / 10000
Epoch 23: 1758 / 10000
Epoch 24: 1758 / 10000
Epoch 25: 1758 / 10000
Epoch 26: 1758 / 10000
Epoch 27: 1758 / 10000
Epoch 28: 1758 / 10000
Epoch 29: 1758 / 10000
