In [1]:
from tensorflow import keras
import tensorflow as tf
print(tf.__version__)

2.9.2


In [2]:
from tensorflow.keras import layers

In [3]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split

## Aquisição e visualização da base de dados

Este é problema de classificação que consiste em definir a qualidade de um carro com base nas características. 

Existem 4 classes (ruim, médio, bom e muito bom) e 6 atributos (se foi muito comprado, manutencao recente, número de portas, número de pessoas, tamanho do bagageiro e segurança)

In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data

In [5]:
car = pd.read_csv('car.data', header=None)

In [6]:
car.columns = ['compras','manutencao','numero_de_portas','numero_de_pessoas','tamanho_bagageiro','seguranca','qualidade']

In [7]:
car.head()

Unnamed: 0,compras,manutencao,numero_de_portas,numero_de_pessoas,tamanho_bagageiro,seguranca,qualidade
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


## Pré-processamento da base de dados

In [8]:
car['qualidade'].replace({'unacc':0, 'acc':1, 'good':2, 'vgood':3}, inplace=True)

In [9]:
X = car.iloc[:,:-1]
Y = car.iloc[:,-1]

In [10]:
X = pd.get_dummies(X)

In [11]:
## Usando a técnica SMOTE para resolver o problema de dados desbalanceados
from imblearn.over_sampling import SMOTE

In [None]:
strategy = {0:1250, 1:1250, 2:1250, 3:1250}
oversample = SMOTE(sampling_strategy=strategy)
X, Y = oversample.fit_resample(X, Y)

In [13]:
X[X > 1] = 1

## Separação da base em conjuntos de treino e teste 

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=93)

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

## Definição dos dados marcados e métricas de performance

Vamos fazer o ajuste para One-Hot dos dados das classes. Temos 4 classes (0,1,2 e 3)

In [16]:
from tensorflow.keras.utils import to_categorical

In [17]:
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

In [18]:
print(y_train.shape)
print(y_test.shape)

(4000, 4)
(1000, 4)


A métrica de performance que será usada é a acurácia

## Escolha e construção da arquitetura profunda

Foi usada a arquitetura de redes MultiLayer Perceptron. 

Para o primeiro experimento, foi usada apenas 1 camada escondida com 13 neurônios. A função de ativação foi a função sigmóide.


Para o segundo experimento, foram usadas duas camadas escondidas (uma com 15 neurônios e outra com 9 neurônios). A função de ativação nas duas camadas foi a função relu. 

Para o terceiro experimento, foram usadas três camadas escondidas (com 16, 12 e 8 neurônios respectivamente). A função de ativação nas três camadas foi a função relu. 

O número de neurônios nas camadas de entradas dos três experimentos foi de 21, já que este é o número de atributos do problema. Já o número de neurônios nas camadas de saída foi de 4, já que este é o número de classes do problema.

## Execução dos experimentos

### Experimento 1

In [19]:
mod = keras.Sequential(name="MLP_1")
mod.add(keras.Input(shape=(21,))) 
mod.add(layers.Dense(13, activation="sigmoid"))
mod.add(layers.Dense(4, activation="softmax"))

In [20]:
mod.summary()

Model: "MLP_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 13)                286       
                                                                 
 dense_1 (Dense)             (None, 4)                 56        
                                                                 
Total params: 342
Trainable params: 342
Non-trainable params: 0
_________________________________________________________________


In [21]:
mod.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

In [22]:
# Primeira execução
mod.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfaa26dc0>

In [23]:
_, accuracy = mod.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 76.70


In [24]:
# Segunda execução
mod.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cf7fa9ee0>

In [25]:
_, accuracy = mod.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 89.10


In [26]:
# Terceira execução
mod.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cf7fdbf70>

In [27]:
_, accuracy = mod.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 90.60


Média da acurácia nas três execuções: 85,46%

Desvio padrão da acurácia nas três execuções: 7,63

### Experimento 2

In [28]:
mod2 = keras.Sequential(name="MLP_2")
mod2.add(keras.Input(shape=(21,))) 
mod2.add(layers.Dense(15, activation="relu"))
mod2.add(layers.Dense(9, activation="relu"))
mod2.add(layers.Dense(4, activation="softmax"))

In [29]:
mod2.summary()

Model: "MLP_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 15)                330       
                                                                 
 dense_3 (Dense)             (None, 9)                 144       
                                                                 
 dense_4 (Dense)             (None, 4)                 40        
                                                                 
Total params: 514
Trainable params: 514
Non-trainable params: 0
_________________________________________________________________


In [30]:
mod2.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

In [31]:
# Primeira execução
mod2.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa956550>

In [32]:
_, accuracy = mod2.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 97.70


In [33]:
# Segunda execução
mod2.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa893d60>

In [34]:
_, accuracy = mod2.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 98.50


In [35]:
# Terceira execução
mod2.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa87bf70>

In [36]:
_, accuracy = mod2.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 98.80


Média da acurácia nas três execuções: 98,33%

Desvio padrão da acurácia nas três execuções: 0,57

### Experimento 3

In [37]:
mod3 = keras.Sequential(name="FirstDeepModel")
mod3.add(keras.Input(shape=(21,))) 
mod3.add(layers.Dense(16, activation="relu"))
mod3.add(layers.Dense(12, activation="relu"))
mod3.add(layers.Dense(8, activation="relu"))
mod3.add(layers.Dense(4, activation="softmax"))

In [38]:
mod3.summary()

Model: "FirstDeepModel"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_5 (Dense)             (None, 16)                352       
                                                                 
 dense_6 (Dense)             (None, 12)                204       
                                                                 
 dense_7 (Dense)             (None, 8)                 104       
                                                                 
 dense_8 (Dense)             (None, 4)                 36        
                                                                 
Total params: 696
Trainable params: 696
Non-trainable params: 0
_________________________________________________________________


In [39]:
mod3.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

In [40]:
# Primeira execução
mod3.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa864a00>

In [41]:
_, accuracy = mod3.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 97.50


In [42]:
# Segunda execução
mod3.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa748d30>

In [43]:
_, accuracy = mod3.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 99.50


In [44]:
# Terceira execução
mod3.fit(X_train, y_train, epochs=10, batch_size=8, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f8cfa780c70>

In [45]:
_, accuracy = mod3.evaluate(X_test, y_test, batch_size=8)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 99.70


Média da acurácia nas três execuções: 98,9%

Desvio padrão da acurácia nas três execuções: 1,21

## Avaliação dos resultados

Avaliando os resultados da acurácia nos três experimentos, pode-se perceber que o experimento que teve a média de acurácia mais alta foi o que teve a arquitetura de rede mais complexa com três camadas de neurônios, embora seja importante citar que a média de acurácia na predição para os três experimentos foi maior que 85%.

O tempo de treino e de predição não variou nos 3 experimentos, com um tempo de 1 segundo e 2 milissegundos por época em cada execução de treino e 1 milissegundo por cada execução na predição.

Quanto ao número de parâmetros treináveis, o primeiro experimento teve uma rede com 342 parâmetros treináveis (286 da camada escondida e 56 da camada final). O segundo experimento teve 514 parâmetros treináveis (330 da primeira camada escondida, 144 da segunda camada escondida e 40 da camada de saída). Por fim, o terceiro experimento teve uma rede com 696 parâmetros treináveis (352 na primeira camada escondida, 204 na segunda camada escondida, 104 na terceira camada escondida e 36 na camada de saída).