# MiniProjeto 1 - Multilayer Perceptron - Redes Neurais
## Reconhecimento de Dígitos com MLP
### Grupo: Josenildo Vicente de Araújo (jva@cin.ufpe.br), Lucas Thierry Chaves Muniz (ltcm@cin.ufpe.br), Nicholas Henrique Justino Ferreira (nhjf@cin.ufpe.br), Renato Joaquim Miranda Ferreira (rjmf@cin.ufpe.br)

O seguinte MiniProjeto tem como objetivo praticar os conceitos e teorias aprendidas na disciplina de Redes Neurais a respeito do funcionamento do modelo de rede neural Multilayer Perceptron. De maneira a variar os parâmetros do modelo treinado e observar seus resultados. A rede utilizada em questão, tem como função fazer o reconhecimento de dígitos escritos manualmente por 250 pessoas, entre as quais eram estudantes do Ensino Médio e funcionários do Departamento do Censo dos Estados Unidos. O conjunto desses dígitos está reunido no _dataset_ MNIST, que possuí 60000 imagens para treinamento do modelo da rede neural e 10000 imagens para teste do modelo da rede neural. Cada uma dessas imagens são formadas por 784 _pixels_ (28x28) em uma escala da cor cinza.

Começamos pela importação do pacote das bibliotecas da rede MLP (_network_ e <i>network_tanh</i>) e da biblioteca da importação do dataset <i>(mnist_loader)</i>. Através da biblioteca <i>mnist_loader</i> importamos o _dataset_ e o divimos em três conjuntos: <i>training_data</i>, <i>validation_data</i> e <i>test_data</i>. O <i>training_data</i> será usado para treinar o nosso modelo de MLP e ajustar seus parâmetros automaticamente, o <i>validation_data</i> não será usado neste momento, mas é um conjunto essencial para descobrir como ajustar os hiper-parâmetros, e, por fim, o <i>test_data</i> será usado para testar o modelo de MLP treinado em dados não vistos para medir a sua performance.

In [1]:
import network, network_tanh, mnist_loader
training_data, validation_data, test_data = mnist_loader.load_data_wrapper()

Para criar o modelo de MLP, invocamos o construtor do biblioteca _network_ (_Network_) informando um vetor que significa a quantidade de neurônios em cada camada da rede.

O método "SGD" da rede, diz respeito ao Gradiente Descendente Estocástico, que é um algoritmo de otimização usado para minimizar o erro da saída dos neurônios nas camadas. O termo Estocástico diz respeito a uma aproximação estocástica da otimização do Gradiente Descendente, pois este algoritmo utiliza _mini batches_ aleátorias do conjunto de treinamento em cada época para acelerar o processo de estimação do Gradiente. Neste método especificamos, respectivamente, o conjunto de treinamento do modelo, o número de épocas, a quantidade dos _mini batches_, a taxa de aprendizagem e o conjunto de teste para que seja possível verificar a acurácia total do modelo a cada época treinada.

No exemplo abaixo, definimos que a rede terá 784 neurônios na primeira camada, a camada de entrada, sendo cada um desses neurônios correspondendo a uma entrada de _pixel_ da imagem, já na segunda camada terá 30 neurônios e a última camada, a camada de saída, possuirá 10 neurônios, um neurônio correspondendo a cada uma das possibilidades do dígito (0 a 9). Assim como, define-se o número de épocas sendo 30, a quantidade de _mini batches_ sendo 10, a taxa de aprendizagem sendo 0.1 e o conjunto de testes definido pelo <i>mnist_loader</i>.

In [2]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 30, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.92815534 0.96943231 0.91575818 0.90965092 0.88726919 0.84717608
 0.92371134 0.9304175  0.89958159 0.91206544]
              precision    recall  f1-score   support

           0       0.98      0.93      0.95      1030
           1       0.98      0.97      0.97      1145
           2       0.90      0.92      0.91      1009
           3       0.88      0.91      0.89       974
           4       0.93      0.89      0.91      1029
           5       0.86      0.85      0.85       903
           6       0.94      0.92      0.93       970
           7       0.91      0.93      0.92      1006
           8       0.88      0.90      0.89       956
           9       0.88      0.91      0.90       978

   micro avg       0.91      0.91      0.91     10000
   macro avg       0.91      0.91      0.91     10000
weighted avg       0.91      0.91      0.91     10000

Epoch 29: 9138 / 10000
Accuracy = 91.38%


Como pode-se ver, o modelo com esses hiper-parâmetros obteve uma acurácia total de 91.38% em sua última época. 

A seguir, varia-se o número de épocas de treinamento:

In [4]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 50, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.94549058 0.97192982 0.9294809  0.9156746  0.92284569 0.8920135
 0.94093264 0.9334638  0.90426639 0.92401216]
              precision    recall  f1-score   support

           0       0.97      0.95      0.96      1009
           1       0.98      0.97      0.97      1140
           2       0.92      0.93      0.92      1021
           3       0.91      0.92      0.91      1008
           4       0.94      0.92      0.93       998
           5       0.89      0.89      0.89       889
           6       0.95      0.94      0.94       965
           7       0.93      0.93      0.93      1022
           8       0.89      0.90      0.90       961
           9       0.90      0.92      0.91       987

   micro avg       0.93      0.93      0.93     10000
   macro avg       0.93      0.93      0.93     10000
weighted avg       0.93      0.93      0.93     10000

Epoch 49: 9291 / 10000
Accuracy = 92.91%


In [5]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.94373149 0.97548161 0.946      0.91202346 0.934      0.9342723
 0.93469388 0.94146341 0.92331288 0.9331307 ]
              precision    recall  f1-score   support

           0       0.98      0.94      0.96      1013
           1       0.98      0.98      0.98      1142
           2       0.92      0.95      0.93      1000
           3       0.92      0.91      0.92      1023
           4       0.95      0.93      0.94      1000
           5       0.89      0.93      0.91       852
           6       0.96      0.93      0.95       980
           7       0.94      0.94      0.94      1025
           8       0.93      0.92      0.93       978
           9       0.91      0.93      0.92       987

   micro avg       0.94      0.94      0.94     10000
   macro avg       0.94      0.94      0.94     10000
weighted avg       0.94      0.94      0.94     10000

Epoch 99: 9384 / 10000
Accuracy = 93.84%


Tem-se o resultado de que um aumento no número de épocas resulta em uma melhora na acurácia total do modelo, visto que quantas mais épocas melhor o modelo ajusta seus parâmetros, que chegou a 93.84% em sua última época.

Agora, varia-se o número da taxa de aprendizagem a partir do melhor modelo obtido anteriormente:

In [6]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 0.5, test_data=test_data)


Accuracy for each class
[0.95381526 0.97565217 0.9495549  0.91626564 0.95291709 0.91743119
 0.93948718 0.95481336 0.92960663 0.93473896]
              precision    recall  f1-score   support

           0       0.97      0.95      0.96       996
           1       0.99      0.98      0.98      1150
           2       0.93      0.95      0.94      1011
           3       0.94      0.92      0.93      1039
           4       0.95      0.95      0.95       977
           5       0.90      0.92      0.91       872
           6       0.96      0.94      0.95       975
           7       0.95      0.95      0.95      1018
           8       0.92      0.93      0.93       966
           9       0.92      0.93      0.93       996

   micro avg       0.94      0.94      0.94     10000
   macro avg       0.94      0.94      0.94     10000
weighted avg       0.94      0.94      0.94     10000

Epoch 99: 9432 / 10000
Accuracy = 94.32%


In [7]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 1.5, test_data=test_data)


Accuracy for each class
[0.94586614 0.97643979 0.94810379 0.92673267 0.95291709 0.9512761
 0.94536082 0.93853659 0.91809909 0.93419741]
              precision    recall  f1-score   support

           0       0.98      0.95      0.96      1016
           1       0.99      0.98      0.98      1146
           2       0.92      0.95      0.93      1002
           3       0.93      0.93      0.93      1010
           4       0.95      0.95      0.95       977
           5       0.92      0.95      0.94       862
           6       0.96      0.95      0.95       970
           7       0.94      0.94      0.94      1025
           8       0.93      0.92      0.93       989
           9       0.93      0.93      0.93      1003

   micro avg       0.94      0.94      0.94     10000
   macro avg       0.94      0.94      0.94     10000
weighted avg       0.94      0.94      0.94     10000

Epoch 99: 9441 / 10000
Accuracy = 94.41%


In [8]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.95441031 0.96802074 0.93034351 0.92732558 0.95005097 0.95652174
 0.95850622 0.95112414 0.92719919 0.94427245]
              precision    recall  f1-score   support

           0       0.98      0.95      0.97      1009
           1       0.99      0.97      0.98      1157
           2       0.94      0.93      0.94      1048
           3       0.95      0.93      0.94      1032
           4       0.95      0.95      0.95       981
           5       0.89      0.96      0.92       828
           6       0.96      0.96      0.96       964
           7       0.95      0.95      0.95      1023
           8       0.94      0.93      0.93       989
           9       0.91      0.94      0.93       969

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 99: 9468 / 10000
Accuracy = 94.68%


Como os resultados demonstram, um aumento na taxa de aprendizagem tende a um aumento bem lento na performance do modelo.

Altera-se o número de <i>mini_batches</i> para o último modelo:

In [14]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 5, 3.0, test_data=test_data)


Accuracy for each class
[0.95540139 0.97465035 0.9399428  0.93039216 0.95257316 0.95606936
 0.9565667  0.96222664 0.94786236 0.94747475]
              precision    recall  f1-score   support

           0       0.98      0.96      0.97      1009
           1       0.98      0.97      0.98      1144
           2       0.96      0.94      0.95      1049
           3       0.94      0.93      0.93      1020
           4       0.96      0.95      0.96       991
           5       0.93      0.96      0.94       865
           6       0.97      0.96      0.96       967
           7       0.94      0.96      0.95      1006
           8       0.93      0.95      0.94       959
           9       0.93      0.95      0.94       990

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 99: 9525 / 10000
Accuracy = 95.25%


In [9]:
net = network.Network([784, 30, 10])
net.SGD(training_data, 100, 15, 3.0, test_data=test_data)


Accuracy for each class
[0.95535714 0.98495575 0.95134062 0.91968658 0.94521912 0.92696629
 0.94938017 0.95387635 0.93106996 0.95310907]
              precision    recall  f1-score   support

           0       0.98      0.96      0.97      1008
           1       0.98      0.98      0.98      1130
           2       0.93      0.95      0.94      1007
           3       0.93      0.92      0.92      1021
           4       0.97      0.95      0.96      1004
           5       0.92      0.93      0.93       890
           6       0.96      0.95      0.95       968
           7       0.95      0.95      0.95      1019
           8       0.93      0.93      0.93       972
           9       0.93      0.95      0.94       981

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 99: 9478 / 10000
Accuracy = 94.78%


Os dois últimos resultados demonstram que uma diminuição e um aumento no número de <i>mini_batches</i> resultam em uma melhora significativa e uma melhora não tão significativa, respectivamente. Portanto, os experimentos posteriores usarão o valor 10 para o número de <i>mini_batches</i>.

Neste momento, varia-se o tamanho da rede para observar o seu comportamento no desempenho do modelo:

In [10]:
net = network.Network([784, 30, 30, 10])
net.SGD(training_data, 30, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.96450304 0.9920142  0.96770938 0.91753555 0.94305694 0.94431555
 0.95247934 0.95467695 0.93930041 0.94205794]
              precision    recall  f1-score   support

           0       0.97      0.96      0.97       986
           1       0.99      0.99      0.99      1127
           2       0.93      0.97      0.95       991
           3       0.96      0.92      0.94      1055
           4       0.96      0.94      0.95      1001
           5       0.91      0.94      0.93       862
           6       0.96      0.95      0.96       968
           7       0.96      0.95      0.96      1037
           8       0.94      0.94      0.94       972
           9       0.93      0.94      0.94      1001

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 29: 9522 / 10000
Accuracy = 95.22%


In [11]:
net = network.Network([784, 30, 30, 30, 10])
net.SGD(training_data, 30, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.98249228 0.97977133 0.94975845 0.94265594 0.97175732 0.94501718
 0.94070352 0.94757282 0.93456033 0.93501455]
              precision    recall  f1-score   support

           0       0.97      0.98      0.98       971
           1       0.98      0.98      0.98      1137
           2       0.95      0.95      0.95      1035
           3       0.93      0.94      0.94       994
           4       0.95      0.97      0.96       956
           5       0.92      0.95      0.93       873
           6       0.98      0.94      0.96       995
           7       0.95      0.95      0.95      1030
           8       0.94      0.93      0.94       978
           9       0.96      0.94      0.95      1031

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 29: 9532 / 10000
Accuracy = 95.32%


Um aumento no tamanho da rede provocou uma melhora considerável no desempenho da rede. Porém, em algumas execuções da rede com essa arquitetura ocorreram problemas de _overflow_ no cálculo das expressões matemáticas da função de ativação.

Variando o número de épocas nos modelos com tamanhos de redes diferentes:

In [12]:
net = network.Network([784, 30, 30, 10])
net.SGD(training_data, 50, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.9638191  0.97142857 0.95882353 0.91361502 0.96185567 0.94616266
 0.96033403 0.95588235 0.95238095 0.94194194]
              precision    recall  f1-score   support

           0       0.98      0.96      0.97       995
           1       0.99      0.97      0.98      1155
           2       0.95      0.96      0.95      1020
           3       0.96      0.91      0.94      1065
           4       0.95      0.96      0.96       970
           5       0.93      0.95      0.94       873
           6       0.96      0.96      0.96       958
           7       0.95      0.96      0.95      1020
           8       0.92      0.95      0.94       945
           9       0.93      0.94      0.94       999

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 49: 9527 / 10000
Accuracy = 95.27%


In [15]:
net = network.Network([784, 30, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.96859169 0.97977133 0.95938104 0.91690274 0.96346555 0.95774648
 0.9494324  0.96571988 0.95025907 0.93516699]
              precision    recall  f1-score   support

           0       0.98      0.97      0.97       987
           1       0.98      0.98      0.98      1137
           2       0.96      0.96      0.96      1034
           3       0.96      0.92      0.94      1059
           4       0.94      0.96      0.95       958
           5       0.91      0.96      0.94       852
           6       0.96      0.95      0.95       969
           7       0.96      0.97      0.96      1021
           8       0.94      0.95      0.95       965
           9       0.94      0.94      0.94      1018

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 99: 9547 / 10000
Accuracy = 95.47%


In [17]:
net = network.Network([784, 30, 30, 30, 10])
net.SGD(training_data, 50, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.9694501  0.97453907 0.96177062 0.88230009 0.95081967 0.93122886
 0.97952586 0.96237624 0.93298969 0.94105894]
              precision    recall  f1-score   support

           0       0.97      0.97      0.97       982
           1       0.98      0.97      0.98      1139
           2       0.93      0.96      0.94       994
           3       0.97      0.88      0.93      1113
           4       0.95      0.95      0.95       976
           5       0.93      0.93      0.93       887
           6       0.95      0.98      0.96       928
           7       0.95      0.96      0.95      1010
           8       0.93      0.93      0.93       970
           9       0.93      0.94      0.94      1001

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 49: 9482 / 10000
Accuracy = 94.82%


In [16]:
net = network.Network([784, 30, 30, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.96270161 0.9840708  0.95800781 0.93731636 0.94773869 0.96091954
 0.96354167 0.94359465 0.90971541 0.96182397]
              precision    recall  f1-score   support

           0       0.97      0.96      0.97       992
           1       0.98      0.98      0.98      1130
           2       0.95      0.96      0.95      1024
           3       0.95      0.94      0.94      1021
           4       0.96      0.95      0.95       995
           5       0.94      0.96      0.95       870
           6       0.97      0.96      0.96       960
           7       0.96      0.94      0.95      1046
           8       0.95      0.91      0.93      1019
           9       0.90      0.96      0.93       943

   micro avg       0.95      0.95      0.95     10000
   macro avg       0.95      0.95      0.95     10000
weighted avg       0.95      0.95      0.95     10000

Epoch 99: 9530 / 10000
Accuracy = 95.30%


No caso onde a rede possui 2 camadas intermediárias de 30 neurônios, houve uma melhora consecutiva na acurácia total. Entretanto, no caso onde a rede possui 3 camadas intermediárias de 30 neurônios, houve uma pequena piora a medida o número de épocas aumentou. 

#### tanh

Neste momento, altera-se o modelo da rede para atuar com a função de ativação _tanh_. Realizam-se os mesmos experimentos variando os mesmos hiper-parâmetros de anteriormente:

In [10]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 30, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.96304118 0.96177778 0.77633851 0.94251497 0.85446009 0.73804574
 0.92640693 0.93312757 0.76663543 0.8994709 ]
              precision    recall  f1-score   support

           0       0.93      0.96      0.95       947
           1       0.95      0.96      0.96      1125
           2       0.87      0.78      0.82      1158
           3       0.78      0.94      0.85       835
           4       0.93      0.85      0.89      1065
           5       0.80      0.74      0.77       962
           6       0.89      0.93      0.91       924
           7       0.88      0.93      0.91       972
           8       0.84      0.77      0.80      1067
           9       0.84      0.90      0.87       945

   micro avg       0.87      0.87      0.87     10000
   macro avg       0.87      0.88      0.87     10000
weighted avg       0.87      0.87      0.87     10000

Epoch 29: 8731 / 10000
Accuracy = 87.31%


In [11]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 50, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.97005988 0.9734748  0.93195876 0.93516484 0.91033755 0.68896926
 0.69062027 0.92113246 0.925      0.84003742]
              precision    recall  f1-score   support

           0       0.83      0.97      0.89       835
           1       0.97      0.97      0.97      1131
           2       0.88      0.93      0.90       970
           3       0.84      0.94      0.89       910
           4       0.88      0.91      0.89       948
           5       0.85      0.69      0.76      1106
           6       0.95      0.69      0.80      1322
           7       0.89      0.92      0.90       989
           8       0.68      0.93      0.79       720
           9       0.89      0.84      0.86      1069

   micro avg       0.87      0.87      0.87     10000
   macro avg       0.87      0.88      0.87     10000
weighted avg       0.88      0.87      0.87     10000

Epoch 49: 8679 / 10000
Accuracy = 86.79%


In [12]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 100, 10, 0.1, test_data=test_data)


Accuracy for each class
[0.84315503 0.97799296 0.93442623 0.95105673 0.75635767 0.71727273
 0.82954545 0.89581305 0.91078067 0.98227474]
              precision    recall  f1-score   support

           0       0.95      0.84      0.89      1103
           1       0.98      0.98      0.98      1136
           2       0.88      0.93      0.91       976
           3       0.85      0.95      0.90       899
           4       0.94      0.76      0.84      1219
           5       0.88      0.72      0.79      1100
           6       0.91      0.83      0.87      1056
           7       0.89      0.90      0.90      1027
           8       0.75      0.91      0.83       807
           9       0.66      0.98      0.79       677

   micro avg       0.87      0.87      0.87     10000
   macro avg       0.87      0.88      0.87     10000
weighted avg       0.88      0.87      0.87     10000

Epoch 99: 8715 / 10000
Accuracy = 87.15%


Os resultados mostram que um aumento no número de épocas não resultou em uma melhora generalizada significativa nas métricas analisadas.

Variando-se a taxa de aprendizagem:

In [13]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 100, 10, 0.5, test_data=test_data)


Accuracy for each class
[0.97435897 0.97192982 0.68867083 0.50816024 0.35846154 0.936
 0.77777778 0.84579439 0.4732906  0.98461538]
              precision    recall  f1-score   support

           0       0.19      0.97      0.32       195
           1       0.98      0.97      0.97      1140
           2       0.75      0.69      0.72      1121
           3       0.68      0.51      0.58      1348
           4       0.95      0.36      0.52      2600
           5       0.13      0.94      0.23       125
           6       0.01      0.78      0.01         9
           7       0.88      0.85      0.86      1070
           8       0.91      0.47      0.62      1872
           9       0.51      0.98      0.67       520

   micro avg       0.61      0.61      0.61     10000
   macro avg       0.60      0.75      0.55     10000
weighted avg       0.83      0.61      0.66     10000

Epoch 99: 6114 / 10000
Accuracy = 61.14%


In [7]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 100, 10, 1.5, test_data=test_data)


Accuracy for each class
[0.74798712 0.91721854 0.91707317 0.79240807 0.74818402 0.32014891
 0.92077088 0.93495935 0.62077922 0.125     ]
              precision    recall  f1-score   support

           0       0.95      0.75      0.84      1242
           1       0.98      0.92      0.95      1208
           2       0.55      0.92      0.68       615
           3       0.66      0.79      0.72       843
           4       0.94      0.75      0.83      1239
           5       0.77      0.32      0.45      2149
           6       0.90      0.92      0.91       934
           7       0.89      0.93      0.91       984
           8       0.49      0.62      0.55       770
           9       0.00      0.12      0.00        16

   micro avg       0.71      0.71      0.71     10000
   macro avg       0.71      0.70      0.69     10000
weighted avg       0.82      0.71      0.74     10000

Epoch 99: 7144 / 10000
Accuracy = 71.44%


In [8]:
net = network_tanh.NetworkTanh([784, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.098   nan   nan   nan   nan   nan   nan   nan   nan   nan]
              precision    recall  f1-score   support

           0       1.00      0.10      0.18     10000
           1       0.00      0.00      0.00         0
           2       0.00      0.00      0.00         0
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       1.00      0.10      0.18     10000

Epoch 99: 980 / 10000
Accuracy = 9.80%


A variação da taxa de aprendizagem de 0.5 para 1.5 causou uma melhora notável nas métricas calculadas. Mas, quando variou a taxa de aprendizagem de 1.5 para 3.0 ocorreu uma piora extremamente grande.

Variando-se o número de épocas e aumentando a rede com 2 camadas intermediárias de 30 neurônios:

In [13]:
net = network_tanh.NetworkTanh([784, 30, 30, 10])
net.SGD(training_data, 30, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.09829488 0.         0.                nan        nan        nan
        nan        nan 0.                nan]
              precision    recall  f1-score   support

           0       1.00      0.10      0.18      9970
           1       0.00      0.00      0.00         7
           2       0.00      0.00      0.00        22
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         1
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       1.00      0.10      0.18     10000

Epoch 29: 980 / 10000
Accuracy = 9.80%


In [20]:
net = network_tanh.NetworkTanh([784, 30, 30, 10])
net.SGD(training_data, 50, 10, 3.0, test_data=test_data)


Accuracy for each class
[       nan 0.22299444        nan 0.05714286 0.11483059        nan
        nan        nan        nan        nan]
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       0.99      0.22      0.36      5036
           2       0.00      0.00      0.00         0
           3       0.00      0.06      0.00        35
           4       0.58      0.11      0.19      4929
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.17      0.17      0.17     10000
   macro avg       0.16      0.04      0.06     10000
weighted avg       0.78      0.17      0.28     10000

Epoch 49: 1691 / 10000
Accuracy = 16.91%


In [18]:
net = network_tanh.NetworkTanh([784, 30, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.098   nan   nan   nan   nan   nan   nan   nan   nan   nan]
              precision    recall  f1-score   support

           0       1.00      0.10      0.18     10000
           1       0.00      0.00      0.00         0
           2       0.00      0.00      0.00         0
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       1.00      0.10      0.18     10000

Epoch 99: 980 / 10000
Accuracy = 9.80%


O melhor resultado obtido foi quando teve-se o número de épocas igual a 50, porém, foi um resultado péssimo.

Variando-se o número de épocas para a rede com três camadas intermediárias com 30 neurônios:

In [24]:
net = network_tanh.NetworkTanh([784, 30, 30, 30, 10])
net.SGD(training_data, 30, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.00458716        nan 0.10233081        nan        nan        nan
        nan        nan        nan        nan]
              precision    recall  f1-score   support

           0       0.00      0.00      0.00       218
           1       0.00      0.00      0.00         0
           2       0.97      0.10      0.19      9782
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       0.95      0.10      0.18     10000

Epoch 29: 1002 / 10000
Accuracy = 10.02%


In [21]:
net = network_tanh.NetworkTanh([784, 30, 30, 30, 10])
net.SGD(training_data, 50, 10, 3.0, test_data=test_data)


Accuracy for each class
[   nan    nan 0.1032    nan    nan    nan    nan    nan    nan    nan]
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       0.00      0.00      0.00         0
           2       1.00      0.10      0.19     10000
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       1.00      0.10      0.19     10000

Epoch 49: 1032 / 10000
Accuracy = 10.32%


In [19]:
net = network_tanh.NetworkTanh([784, 30, 30, 30, 10])
net.SGD(training_data, 100, 10, 3.0, test_data=test_data)


Accuracy for each class
[0.098   nan   nan   nan   nan   nan   nan   nan   nan   nan]
              precision    recall  f1-score   support

           0       1.00      0.10      0.18     10000
           1       0.00      0.00      0.00         0
           2       0.00      0.00      0.00         0
           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.00      0.00      0.00         0
           6       0.00      0.00      0.00         0
           7       0.00      0.00      0.00         0
           8       0.00      0.00      0.00         0
           9       0.00      0.00      0.00         0

   micro avg       0.10      0.10      0.10     10000
   macro avg       0.10      0.01      0.02     10000
weighted avg       1.00      0.10      0.18     10000

Epoch 99: 980 / 10000
Accuracy = 9.80%


Novamente, obteve-se o melhor resultado para o modelo que executou por 50 épocas, porém com valores ruins de suas métricas.

Como conclusão, percebe-se que dentre todas os modelos de MLP treinados, o modelo que possuía camadas de neurônios divididas em 784, 30, 30 e 10, assim como 100 épocas de treinamento, 10 <i>mini_batches</i>, taxa de aprendizado igual a 3 e a função sigmóide como função de ativação, foi o que obteve os melhores resultados.