## Prova Inteligencia Computacional - 2022
## Fabiano Dicheti

## _________________________________________________________________

## Exercício 1) Escolha uma base de dados rotulada (com apenas variáveis numéricas, por exemplo, a base de dados IRIS) e faça o que se pede:

Importar as bibiliotecas:

In [32]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

### a) Dividir aleatoriamente a base de dados, deixando 70% dos dados no conjunto de treinamento e os 30% restantes no conjunto de teste.

Para dividir aleatoriamente a base de dados IRIS em conjuntos de treinamento e teste, pode de usar a função train_test_split do módulo sklearn.model_selection.

In [33]:
# Carregar a base de dados IRIS
iris_dataset = load_iris()
X = iris_dataset['data']
y = iris_dataset['target']

# Dividir a base de dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Aqui, X e y são os dados de entrada e alvos, respectivamente. X_train e y_train são os dados de treinamento e X_test e y_test são os dados de teste. O argumento test_size especifica a porcentagem de dados que serão incluídos no conjunto de teste.

Neste caso, estamos usando 30% dos dados para o conjunto de teste e, portanto, 70% dos dados para o conjunto de treinamento. 

O argumento random_state garante que os dados são divididos da mesma maneira cada vez que o código é executado.

É importante notar que essa divisão aleatória dos dados em conjuntos de treinamento e teste, permite avaliar o desempenho do modelo em dados que ele não viu durante o treinamento, o que é essencial para garantir que o modelo não está apenas "memorizando" os dados de treinamento.

### b) Normalizar os dados (usar média e desvio padrão dos dados de treinamento).

Para normalizar os dados, pode-se usar a classe StandardScaler do módulo sklearn.preprocessing. Essa classe transforma os dados de modo que a média seja zero e o desvio padrão seja 1. 

Isso é útil para alguns algoritmos de aprendizado de máquina, pois pode ajudar a melhorar o desempenho e acelerar o treinamento.

In [34]:
# Criar um objeto StandardScaler
scaler = StandardScaler()

# Ajustando o scaler com os dados de treinamento
scaler.fit(X_train)

# Transformando os dados de treinamento e teste usando o scaler ajustado
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)


Aqui, X_train e X_test são os dados de entrada de treinamento e teste, respectivamente. X_train_scaled e X_test_scaled são os dados normalizados de treinamento e teste, respectivamente.

É importante notar que, quando se está trabalhando com conjuntos de dados que foram divididos em conjuntos de treinamento e teste, é importante ajustar o scaler com os dados de treinamento e, em seguida, usá-lo para transformar tanto os dados de treinamento quanto os dados de teste.

Isso garante que o scaler não "veja" os dados de teste durante o ajuste, o que poderia levar a resultados enganosos.

### c) Obter um modelo de classificação por meio de uma Rede Neural de Múltiplas Camadas – MLP, identificando os hiperpâmetros utilizados no treinamento da rede.

Para obter um modelo de classificação por meio de uma Rede Neural de Múltiplas Camadas (MLP), pode-se usar a classe MLPClassifier do módulo sklearn.neural_network.

In [35]:
# Crindo o modelo
mlp = MLPClassifier(hidden_layer_sizes=(10,), max_iter=1000, alpha=1e-4,
                    solver='sgd', verbose=10, random_state=42,
                    learning_rate_init=.1)

# Treinando o modelo
mlp.fit(X_train_scaled, y_train)

Iteration 1, loss = 1.37323752
Iteration 2, loss = 1.19920884
Iteration 3, loss = 1.01563886
Iteration 4, loss = 0.85312679
Iteration 5, loss = 0.72054455
Iteration 6, loss = 0.61235139
Iteration 7, loss = 0.52656180
Iteration 8, loss = 0.45868941
Iteration 9, loss = 0.40369211
Iteration 10, loss = 0.36166158
Iteration 11, loss = 0.33022449
Iteration 12, loss = 0.30657729
Iteration 13, loss = 0.28790698
Iteration 14, loss = 0.27216485
Iteration 15, loss = 0.25787624
Iteration 16, loss = 0.24447849
Iteration 17, loss = 0.23173122
Iteration 18, loss = 0.21945535
Iteration 19, loss = 0.20762005
Iteration 20, loss = 0.19624955
Iteration 21, loss = 0.18529727
Iteration 22, loss = 0.17480907
Iteration 23, loss = 0.16480602
Iteration 24, loss = 0.15534221
Iteration 25, loss = 0.14651788
Iteration 26, loss = 0.13841387
Iteration 27, loss = 0.13107354
Iteration 28, loss = 0.12449969
Iteration 29, loss = 0.11869145
Iteration 30, loss = 0.11356781
Iteration 31, loss = 0.10906278
Iteration 32, los

Aqui, X_train_scaled e y_train são os dados de entrada e alvos de treinamento normalizados, respectivamente.

 - O argumento hidden_layer_sizes especifica o tamanho da camada escondida da MLP. O argumento max_iter especifica o número máximo de iterações do treinamento. 
 - O argumento alpha especifica o valor de regularização. 
 - O argumento solver especifica o algoritmo de otimização a ser usado.
 - O argumento verbose controla a quantidade de saída gerada durante o treinamento.
 - O argumento random_state controla a aleatoriedade do treinamento.
 - O argumento learning_rate_init especifica a taxa de aprendizado inicial.

Esses são alguns dos hiperparâmetros que se pode ajustar para controlar o comportamento do modelo de MLP. Existem muitos outros hiperparâmetros disponíveis, como o número de camadas escondidas, o tamanho das camadas escondidas, o tipo de função de ativação e assim por diante. É importante experimentar diferentes valores para esses hiperparâmetros e encontrar os valores que dão os melhores resultados para o seu conjunto de dados específico.

### d) Escolher uma métrica para avaliação do modelo obtido em b) no conjunto de teste, apresentando e discutindo o resultado.

In [36]:
# Fazendo as predicoes
y_pred = mlp.predict(X_test_scaled)

In [37]:
# Imprimindo a matriz de confusao
print('Matriz de Confusao')
confusion_matrix(y_pred, y_test)

Matriz de Confusao


array([[19,  0,  0],
       [ 0, 13,  0],
       [ 0,  0, 13]])

In [38]:
# Acuracia da predicao
accuracy = accuracy_score(y_test, y_pred)
print("Accuracia:", accuracy)

Accuracia: 1.0


Uma acurácia de 100% significa que todas as previsões feitas pelo modelo de Rede Neural de Múltiplas Camadas (MLP) foram corretas. Isso pode parecer excelente à primeira vista, mas é importante lembrar que uma acurácia de 100% nem sempre é um sinal de que o modelo está funcionando bem.

Em alguns casos, uma acurácia de 100% pode ser um sinal de que o modelo está tendo um "desempenho perfeito", ou seja, que está realmente aprendendo as características do conjunto de dados e fazendo previsões precisas. No entanto, é importante lembrar que os modelos de aprendizado de máquina nem sempre são capazes de atingir esse nível de desempenho, e é mais comum que os modelos tenham uma acurácia um pouco menor.

Em outros casos, uma acurácia de 100% pode ser um sinal de que o modelo está "memorizando" os dados de treinamento, o que significa que ele está apenas reproduzindo os rótulos dos exemplos de treinamento sem realmente aprender as características subjacentes do conjunto de dados.

## Exercício 2) Escolha uma base de dados rotulada (de imagens, por exemplo, MNIST) e faça o que se pede:

Importar as bibliotecas

In [1]:
import tensorflow as tf
from tensorflow import keras

2022-12-22 19:12:42.262617: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-12-22 19:12:42.335574: I tensorflow/core/util/port.cc:104] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.


### a) Dividir a base de dados em conjuntos de treinamento e teste e normalizar.

 - 1 - Carregar a base de dados Fashion MNIST e divida-a em conjuntos de treinamento e teste.
 - 2 - Pré-processamento dos dados:
 - 3 - Normalizar os pixels da imagem para que estejam entre 0 e 1.
 - 4 Transforar os rótulos em vetores de categoria.

In [2]:
# Download da base de dados Fashion MNIST
(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

# Normalizando as imagens
x_train = x_train / 255.0
x_test = x_test / 255.0

y_train = keras.utils.to_categorical(y_train, num_classes=10)
y_test = keras.utils.to_categorical(y_test, num_classes=10)

### b) Obter um modelo de classificação por meio de uma Rede Neural Convolucional - CNN, identificando os hiperpâmetros utilizados no treinamento da rede.

###                                                               NOTA IMPORTANTE:

####                      nao separar a arquitetura, a compilacao e o treinamento em celulas diferentes!!!
####                      caso isso ocorra nao roda na GPU e trava tudo.
####                      outra coisa importante: mesmo depois do treinamento a memoria da GPU fica presa (tem que reiniciar o kernel manualmente para usar para outras coisas)

Os hiperparâmetros são configurações que podem ser ajustadas em um modelo de aprendizado de máquina para melhorar o desempenho. 

 - (3, 3): é o tamanho do kernel (filtro) da camada de convulsão.
O kernel é aplicado a cada janela de pixels da imagem de entrada e produz uma saída que é uma combinação desses pixels. Quanto maior o kernel, mais informação é capturada, mas também haverá mais parâmetros para o modelo aprender e o tempo de treinamento pode aumentar.

 - 32: é o número de filtros na camada de convulsão. Cada filtro é treinado para detectar uma característica específica na imagem. 
 Quanto maior o número de filtros, mais características podem ser detectadas, mas também haverá mais parâmetros para o modelo aprender e o tempo de treinamento pode aumentar.
 
 - (2, 2): Este é o tamanho da janela de pooling na camada de pooling.
 A camada de pooling é usada para reduzir a dimensão da imagem de entrada e também para suavizar as características detectadas pela camada de convulsão. O pooling é realizado aplicando uma operação (como a máxima ou a média) em uma janela de pixels e produzindo uma saída que é uma combinação desses pixels. Quanto maior o tamanho da janela de pooling, mais informação é perdida, mas também haverá menos parâmetros para o modelo aprender e o tempo de treinamento pode diminuir.

 - 'adam': otimizador usado para treinar o modelo.
 O otimizador controla o processo de aprendizado do modelo, atualizando os pesos das conexões entre as camadas de acordo com o gradiente da função de perda. O Adam é um otimizador popular que funciona bem em muitos problemas e é uma opção comum para modelos de redes neurais. Existem muitos outros otimizadores disponíveis, como o Stochastic Gradient Descent (SGD) e o Adagrad.
 
 - 'categorical_crossentropy': é a função de perda usada para medir o erro do modelo durante o treinamento.
 A função de perda é usada para minimizar o erro entre as previsões do modelo e os rótulos verdadeiros. A categorical_crossentropy é usada quando os rótulos são vetores de categoria (como os gerados pelo to_categorical neste exemplo).
 
 - 'accuracy': Este é o métrico usado para avaliar o desempenho do modelo durante o treinamento e durante a avaliação.
 A acurácia é a proporção de previsões corretas do modelo em relação ao total de previsões. 
 
 - 50: número de épocas usado para treinar o modelo. Uma época é uma iteração completa através do conjunto de treinamento.


 - 'relu': A função ReLU (Rectified Linear Unit) é uma das funções de ativação mais populares e é comumente usada em camadas ftotalmente conectadas e em camadas de convulsão.
 A função ReLU é definida como relu(x) = max(0, x). Isso significa que todos os valores negativos são substituídos por 0 e todos os valores positivos são mantidos inalterados.
 
 - 'softmax': A função softmax é usada como função de ativação na camada de saída quando o modelo está sendo treinado para classificação em múltiplas classes.
 A função softmax é definida como softmax(x) = e^x / sum(e^x), onde sum(e^x) é a soma de todos os elementos de e^x. A saída da função softmax é uma distribuição de probabilidade sobre as classes, ou seja, cada elemento representa a probabilidade de que a entrada pertença a uma determinada classe.

In [3]:
# Definindo a arquitetura da CNN
model = keras.Sequential()
model.add(keras.layers.Conv2D(32, (3,3), activation='relu', input_shape=(28, 28, 1)))
model.add(keras.layers.MaxPooling2D((2,2)))
model.add(keras.layers.Conv2D(64, (3,3), activation='relu'))
model.add(keras.layers.MaxPooling2D((2,2)))
model.add(keras.layers.Conv2D(64, (3,3), activation='relu')) ##
model.add(keras.layers.MaxPooling2D((2, 2))) ##
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(128, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))
model.summary()


# Compilando o modelo
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])


# Treinando o modelo
model.fit(x_train, y_train, epochs=50)

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d (Conv2D)             (None, 26, 26, 32)        320       
                                                                 
 max_pooling2d (MaxPooling2D  (None, 13, 13, 32)       0         
 )                                                               
                                                                 
 conv2d_1 (Conv2D)           (None, 11, 11, 64)        18496     
                                                                 
 max_pooling2d_1 (MaxPooling  (None, 5, 5, 64)         0         
 2D)                                                             
                                                                 
 conv2d_2 (Conv2D)           (None, 3, 3, 64)          36928     
                                                                 
 max_pooling2d_2 (MaxPooling  (None, 1, 1, 64)         0

2022-12-22 19:12:48.833517: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:981] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2022-12-22 19:12:48.836803: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:981] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2022-12-22 19:12:48.836944: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:981] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2022-12-22 19:12:48.837960: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX_VNNI FMA
To enable them in other operations, rebuil

Epoch 1/50


2022-12-22 19:12:50.310721: I tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:428] Loaded cuDNN version 8100
2022-12-22 19:12:51.189932: I tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:630] TensorFloat-32 will be used for the matrix multiplication. This will only be logged once.
2022-12-22 19:12:51.191439: I tensorflow/compiler/xla/service/service.cc:173] XLA service 0x7f0110f6bdd0 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2022-12-22 19:12:51.191454: I tensorflow/compiler/xla/service/service.cc:181]   StreamExecutor device (0): NVIDIA GeForce RTX 3070 Ti Laptop GPU, Compute Capability 8.6
2022-12-22 19:12:51.194524: I tensorflow/compiler/mlir/tensorflow/utils/dump_mlir_util.cc:268] disabling MLIR crash reproducer, set env var `MLIR_CRASH_REPRODUCER_DIRECTORY` to enable.
2022-12-22 19:12:51.207364: W tensorflow/compiler/xla/service/gpu/nvptx_helper.cc:56] Can't find libdevice directory ${CUDA_DIR}/nvvm/libdevice. This ma

Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7f05633afdf0>

### c) Escolher uma métrica para avaliação do modelo obtido em b) no conjunto de teste, apresentando e discutindo o resultado.

Uma métrica comum para avaliar o desempenho de um modelo de classificação é a acurácia, que mede a porcentagem de previsões corretas do modelo. Pode-se calcular a acurácia do seu modelo no conjunto de teste da seguinte maneira:

In [4]:
# Avaliando o modelo no conjunto de teste
test_loss, test_acc = model.evaluate(x_test, y_test)
print('Acuracia do teste:', test_acc)

Acuracia do teste: 0.890999972820282


A acurácia é uma métrica comum para avaliar o desempenho de um modelo de classificação e é definida como a porcentagem de previsões corretas do modelo. Portanto, uma acurácia de 89% significa que o modelo conseguiu prever corretamente 89% das classes das imagens do conjunto de teste.

É importante lembrar que a acurácia por si só pode não ser uma medida suficientemente boa do desempenho do modelo, pois ela não leva em consideração o desbalanceamento de classes. Por exemplo, se o conjunto de dados tiver 90% de imagens de uma classe e 10% de imagens de outra classe, um modelo que sempre preveja a classe mais prevalente terá uma acurácia de 90%, mas isso não significa que o modelo esteja realmente aprendendo a distinguir as duas classes. Nesses casos, é importante avaliar o modelo usando outras métricas, como a matriz de confusão abaixo, que mostra que na diagonal principal os volumes de acertos realmente apontam para um bom desempenho do modelo.

In [28]:
from sklearn.metrics import confusion_matrix
y_pred = model.predict(x_test)
y_pred = np.argmax(y_pred, axis=1)

y_test = np.argmax(y_test, axis=-1)

print('Matriz de Confusao')

confusion_matrix(y_test, y_pred)

Matriz de Confusao


array([[854,   1,  29,  21,   6,   1,  82,   0,   6,   0],
       [  5, 973,   3,  12,   3,   0,   2,   0,   2,   0],
       [ 22,   1, 830,   6,  85,   1,  52,   0,   3,   0],
       [ 21,   8,  23, 896,  25,   1,  19,   0,   5,   2],
       [  6,   1,  49,  33, 859,   0,  49,   0,   3,   0],
       [  1,   0,   0,   0,   0, 982,   1,   7,   0,   9],
       [126,   0,  78,  31, 119,   1, 633,   0,  12,   0],
       [  0,   0,   0,   0,   0,  21,   0, 953,   2,  24],
       [  8,   0,   4,   2,   3,   5,   6,   2, 970,   0],
       [  1,   0,   0,   0,   0,   7,   1,  31,   0, 960]])

### d) Reduzir as entradas (imagens) por Encoder, identificando os hiperpâmetros utilizados no treinamento da rede.

Um encoder é uma parte de uma rede neural que é usada para codificar os dados de entrada em uma representação de menor dimensionalidade, geralmente com o objetivo de reduzir a complexidade dos dados ou para facilitar a generalização do modelo.


1 - Definir a arquitetura do encoder. Isso inclui escolher o número de camadas, o número de filtros em cada camada, o tamanho dos filtros e a função de ativação a ser usada. 

2 - Compilar o encoder. Escolher uma função de perda, um otimizador e uma métrica para avaliar o desempenho do encoder.

3 - Treinar o encoder. Fornecer os conjuntos de treinamento e validação ao encoder e especificar o número de épocas e o tamanho do lote. 

4 - Usar o encoder para codificar as imagens de entrada. Isso pode ser feito usando o método predict do encoder e passando as imagens como entrada, resultando em uma representação codificada de menor dimensionalidade das imagens.

### e) Obter um modelo de classificação por meio de uma Rede Neural de Múltiplas Camadas – MLP, identificando os hiperpâmetros utilizados no treinamento da rede.

1 - Definir a arquitetura da sua MLP. Isso inclui escolher o número de camadas, o número de neurônios em cada camada e a função de ativação a ser usada. 

2 - Conectar a saída do encoder à entrada da sua MLP. Isso pode ser feito usando o método add da classe Sequential do TensorFlow e passando a saída.

In [29]:
# Refazer para nao travar a memoria da GPU
import tensorflow as tf
from tensorflow import keras

(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

x_train = x_train / 255.0
x_test = x_test / 255.0

y_train = keras.utils.to_categorical(y_train, num_classes=10)
y_test = keras.utils.to_categorical(y_test, num_classes=10)

x_train = x_train.reshape(-1, 28, 28, 1)
x_test = x_test.reshape(-1, 28, 28, 1)


# Arquitetura do Encoder
encoder_input = keras.Input(shape=(28, 28, 1))
x = keras.layers.Conv2D(32, (3, 3), activation='relu')(encoder_input)
x = keras.layers.MaxPooling2D((2, 2))(x)
x = keras.layers.Conv2D(64, (3, 3), activation='relu')(x)
x = keras.layers.MaxPooling2D((2, 2))(x)
encoder_output = keras.layers.Flatten()(x)

encoder = keras.Model(encoder_input, encoder_output)

# Arquitetura do MLP
mlp_input = keras.Input(shape=(encoder.output_shape[1],))
x = keras.layers.Dense(64, activation='relu')(mlp_input)
x = keras.layers.Dense(32, activation='relu')(x)
mlp_output = keras.layers.Dense(10, activation='softmax')(x)

mlp = keras.Model(mlp_input, mlp_output)

# Juntando o Encoder e o MLP
model = keras.Model(encoder_input, mlp(encoder_output))

# Compilando
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Treinando
model.fit(x_train, y_train, epochs=50)


Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7f0424a37520>

### f) Utilizar a mesma métrica de c) para avaliação do modelo obtido em e) no conjunto de teste, apresentando e discutindo o resultado, comparando-o ao obtido em c).

In [30]:
test_loss, test_acc = model.evaluate(x_test, y_test)
print('Acuracia do teste:', test_acc)

Acuracia do teste: 0.9077000021934509


A acuracia de 90%, praticamente igual ao resultado observado na rede neural convolucional.
Comparando a matriz de confusao das duas tecnicas, pode-se observar que ambas apresentaram valores baixos apenas para a setima coluna, sendo:
63% para a CNN
74% para o MLP + Encoder


In [31]:
from sklearn.metrics import confusion_matrix
y_pred = model.predict(x_test)
y_pred = np.argmax(y_pred, axis=1)

y_test = np.argmax(y_test, axis=-1)

print('Matriz de Confusao')

confusion_matrix(y_test, y_pred)

Matriz de Confusao


array([[843,   1,  25,  10,   7,   1, 110,   0,   3,   0],
       [  0, 984,   2,   7,   3,   0,   2,   0,   2,   0],
       [ 19,   0, 850,  10,  64,   2,  55,   0,   0,   0],
       [ 21,   8,   7, 891,  36,   2,  33,   0,   2,   0],
       [  2,   0,  35,  21, 886,   0,  54,   0,   1,   1],
       [  0,   0,   0,   0,   0, 981,   0,  13,   0,   6],
       [ 88,   1,  67,  27,  64,   1, 745,   0,   7,   0],
       [  0,   1,   0,   0,   0,  14,   0, 959,   0,  26],
       [  6,   0,   5,   3,   4,   2,   2,   2, 975,   1],
       [  0,   0,   1,   0,   0,   6,   0,  30,   0, 963]])