Universidade Federal do Ceará

Disciplina: Aprendizagem de Máquina

Programa de Pós-Graduação em Ciências da Computação

Aluno: Alessandro Macêdo de Araújo

# Questão 1
Considere o conjunto de dados disponível em **concrete.csv**, organizado em 9 colunas, sendo as 8 primeiras colunas os atributos e a última coluna a saída. Os 8 atributos referem-se à caracterização de diferentes tipos de concreto para construção civil. A saída é a resistência à compressão do concreto (em megapascals, MPa). Maiores detalhes sobre os dados podem ser conferidos em https://www.openml.org/d/4353.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

Importação dos dados

In [2]:
dados_concrete = np.genfromtxt('./Dados/concrete.csv', delimiter = ',', skip_header = 0)
dados_concrete

array([[540.  ,   0.  ,   0.  , ..., 676.  ,  28.  ,  79.99],
       [540.  ,   0.  ,   0.  , ..., 676.  ,  28.  ,  61.89],
       [332.5 , 142.5 ,   0.  , ..., 594.  , 270.  ,  40.27],
       ...,
       [148.5 , 139.4 , 108.6 , ..., 780.  ,  28.  ,  23.7 ],
       [159.1 , 186.7 ,   0.  , ..., 788.9 ,  28.  ,  32.77],
       [260.9 , 100.5 ,  78.3 , ..., 761.5 ,  28.  ,  32.4 ]])

In [3]:
X = dados_concrete[:, 0:-1]
y = dados_concrete[:, [-1]]
print("Matriz de variáveis x:")
print(X, end = '\n\n')
print("Vetor da variável y:")
print(y)

Matriz de variáveis x:
[[ 540.     0.     0.  ... 1040.   676.    28. ]
 [ 540.     0.     0.  ... 1055.   676.    28. ]
 [ 332.5  142.5    0.  ...  932.   594.   270. ]
 ...
 [ 148.5  139.4  108.6 ...  892.4  780.    28. ]
 [ 159.1  186.7    0.  ...  989.6  788.9   28. ]
 [ 260.9  100.5   78.3 ...  864.5  761.5   28. ]]

Vetor da variável y:
[[79.99]
 [61.89]
 [40.27]
 ...
 [23.7 ]
 [32.77]
 [32.4 ]]


## a)
Considere um modelo de regressão não linear baseado em redes neurais artificiais. Separe os dados aleatoriamente em treino, validação e teste (por exemplo, 60%, 20% e 20%). Nesse cenário, treine e avalie o modelo abaixo:
- **MLP (multilayer perceptron)**: 1 camada oculta e treinamento em minibatch via gradiente descendente estocástico com termo de momentum. Utilize o conjunto de validação para ajustar os hiperparâmetros.

Informações iniciais

In [4]:
n = X.shape[0] # tamanho da amostra original
D = X.shape[1] # número de dimensões de entrada
K = y.shape[1] # número de dimensões de saída
n_treino = round(0.6*n) # tamanho da amostra de treino
n_validacao = round(0.2*n) # tamanho da amostra de validação
n_teste = n - n_treino - n_validacao # tamanho da amostra de teste

Funções básicas

In [5]:
def norm_min_max(X, X_treino): # normalização min-max dos dados
  X_treino_min = X_treino.min(axis=0) # valor mínimo de cada atributo/coluna
  X_treino_max = X_treino.max(axis=0) # valor máximo de cada atributo/coluna
  X = (X - X_treino_min) / (X_treino_max - X_treino_min) # normalizando os valores das variáveis x na mesma escala dos dados de treino
  return X

def desnorm_min_max(Y_treino_original, Y_pred_norm): # desnormalização min-max dos dados
  Y_treino_min = Y_treino_original.min(axis=0) # valor mínimo de treino das variáveis y
  Y_treino_max = Y_treino_original.max(axis=0) # valor máximo de treino das variáveis y
  Y_pred = Y_pred_norm * (Y_treino_max - Y_treino_min) + Y_treino_min # desnormalizando os valores das variáveis y para a escala original
  return Y_pred

def norm_escore_z(X, X_treino): # normalização escore-z dos dados
  X_treino_med = X_treino.mean(axis=0) # valor médio de cada atributo/coluna
  X_treino_dp = X_treino.std(axis=0) # desvio padrão de cada atributo/coluna
  X = (X - X_treino_med) / X_treino_dp # normalizando os valores das variáveis x na mesma escala dos dados de treino
  return X

def desnorm_escore_z(Y_treino_original, Y_pred_norm): # desnormalização escore-z dos dados
  Y_treino_med = Y_treino_original.mean(axis=0) # valor médio de treino das variáveis y
  Y_treino_dp = Y_treino_original.std(axis=0) # desvio padrão de treino das variáveis y
  Y_pred = Y_pred_norm * Y_treino_dp + Y_treino_med # desnormalizando os valores das variáveis y para a escala original
  return Y_pred

def identidade(z): # função identidade
  return z

def deriv_identidade(z): # derivada da função identidade
  derivada = np.ones(z.shape[0])
  return derivada

def sigmoide(z): # função sigmóide
  result = 1/(1 + np.exp(-(z)))
  return result

def deriv_sigmoide(z): # derivada da função sigmóide
  s = sigmoide(z)
  derivada = s*(1-s)
  return derivada

tanh = np.tanh

def deriv_tanh(z): # derivada da função tangente hiperbólica
  derivada = 1 - np.tanh(z)**2
  return derivada

def ReLU(z): # função Rectified Linear Unit (ReLU)
  result = np.maximum(0, z)
  return result 

def deriv_ReLU(z): # derivada da função Rectified Linear Unit (ReLU)
  return 1 * (z > 0) # transforma False ou True em 0 ou 1

def softmax(z): # função softmax (eixo da soma modificado para ser utilizada em conjunto com a função map() e retornar mesmo resultado)
  exps = np.exp(z - np.max(z)) # subtrair do valor máximo não altera o valor da função e ajuda a evitar overflow
  result = exps/(np.sum(exps, axis=0))
  return result

def softmax_2(z): # função softmax (ATENÇÃO: a quantidade de classes deve ser a quantidade de colunas de "z", caso contrário o somatório deve ser no outro eixo)
  exps = np.exp(z - np.max(z)) # subtrair do valor máximo não altera o valor da função e ajuda a evitar overflow
  result = exps/(np.sum(exps, axis=1)).reshape(exps.shape[0], 1)
  return result

def deriv_softmax(z): # derivada da função softmax
  s = softmax(z)
  derivada = s*(1-s)
  return derivada

Rede MLP (multilayer perceptron) com 1 camada oculta

Funções

In [6]:
def MLP_1co_direto(X, Y, W, M, f_ativ_oculta, f_ativ_saida, f_custo): # sentido direto da rede MLP com 1 camada oculta
  U = X @ W
  Zi = np.array(list(map(globals()[f_ativ_oculta], U))) # matriz de saída da camada oculta com a função de ativação
  Z = np.c_[np.ones(Zi.shape[0]), Zi] # inserindo o termo de viés
  R = Z @ M
  Y_pred = np.array(list(map(globals()[f_ativ_saida], R))) # vetor de saída com a função de ativação
  erro = Y - Y_pred
  if f_custo == 'MSE':
    custo = (1/(2*Y.shape[0])) * (erro**2).sum() # computando o erro quadrático médio
  if f_custo == 'entropia':
    custo = (-1/Y.shape[0]) * (Y * np.log(Y_pred)).sum() # computando a entropia cruzada
  return Z, Y_pred, erro, custo

def MLP_treino(X_treino, Y_treino, X_validacao, Y_validacao, f_ativ_oculta, f_ativ_saida, f_custo, alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg, validacao = True): # treinamento da rede MLP
  # Inicialização dos parâmetros
  D = X_treino.shape[1] # número de dimensões de entrada (atributos)
  if f_ativ_oculta == 'ReLU':
    W = np.sqrt(2/(D+1)) * np.random.normal(size = (D, n_neuronios)) # inicialização da matriz de parâmetros da camada de entrada => camada oculta
    W = np.r_[0.01*np.ones((1, n_neuronios)), W] # inicialização do viés de cada neurônio = 0.01
  else:
    W = np.sqrt(1/(D+1)) * np.random.normal(size = (D, n_neuronios)) # inicialização da matriz de parâmetros da camada de entrada => camada oculta
    W = np.r_[np.zeros((1, n_neuronios)), W] # inicialização do viés de cada neurônio = 0
  W_ant = W # matriz W da iteração anterior, para termo de momentum
  
  K = Y_treino.shape[1] # número de dimensões de saída
  if f_ativ_saida == 'ReLU':
    M = np.sqrt(2/(n_neuronios + 1)) * np.random.normal(size = (n_neuronios, K)) # inicialização da matriz de parâmetros da camada oculta => camada de saída
    M = np.r_[0.01*np.ones((1, K)), M] # inicialização do viés de cada neurônio = 0.01
  else:
    M = np.sqrt(1/(n_neuronios + 1)) * np.random.normal(size = (n_neuronios, K)) # inicialização da matriz de parâmetros da camada oculta => camada de saída
    M = np.r_[np.zeros((1, K)), M] # inicialização do viés de cada neurônio = 0
  M_ant = M # matriz M da iteração anterior, para termo de momentum

  # Etapa de treinamento e validação
  custo_treino_it = [] # histórico dos valores da função custo de treino em cada iteração (mini-batch), geralmente utilizado com muitos dados devido ao custo de execução do algoritmo
  custo_validacao_ep = [] # histórico dos valores da função custo de validação em cada época
  custo_validacao_min = np.inf # inicializando o custo mínimo de validação como infinito (para escolher melhor modelo durante o treinamento/validação)
  n_iteracoes = int(np.ceil(X_treino.shape[0] / B)) # número de iterações (mini-batches) por época
  for epoca in range(n_epocas):
    I_treino = np.random.permutation(X_treino.shape[0]) # permutação dos índices das observações de treinamento
    X_treino_ep = X_treino[I_treino] # embaralhamento dos padrões de treinamento
    Y_treino_ep = Y_treino[I_treino] # embaralhamento dos dados de saída de treinamento
    alfa = alfa_0 / (1 + epoca) # decaimento exponencial da taxa de aprendizagem
    
    for t in range(n_iteracoes):
      X_t = X_treino_ep[(t*B):((t+1)*B),] # selecionando apenas os padrões do mini-batch
      X_t = np.c_[np.ones(X_t.shape[0]), X_t] # inserindo o termo de viés
      Y_t = Y_treino_ep[(t*B):((t+1)*B),] # selecionando apenas as saídas dos padrões do mini-batch
      
      MLP_dir_treino = MLP_1co_direto(X_t, Y_t, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de treinamento da iteração
      erro = MLP_dir_treino[2]
      custo_treino_it.append(MLP_dir_treino[3]) # custo de treino da iteração (mini-batch)

      Z_t = MLP_dir_treino[0]
      R = Z_t @ M
      dY = -erro # gradiente local da camada de saída (para os casos específicos tratados aqui)
      M_aux = M # matriz de parâmetros auxiliar (para manter a matriz de parâmetros da iteração anterior)
      M_reg = M # matriz dos parâmetros a serem regularizados
      M_reg[0,:] = np.zeros((1, K)) # removendo o termo de viés da regularização
      M += -(alfa/B) * (Z_t.T @ dY + termo_reg * M_reg) + momentum * (M - M_ant) # atualização dos parâmetros da camada oculta => camada de saída
      M_ant = M_aux # atualizando a matriz de parâmetros da iteração anterior

      U = X_t @ W
      dU = np.array(list(map(globals()['deriv_' + f_ativ_oculta], U))) # derivada da função de ativação da camada oculta
      dZ = dU * (dY @ M[1:,].T) # gradiente local da camada oculta
      W_aux = W # matriz de parâmetros auxiliar (para manter a matriz de parâmetros da iteração anterior)
      W_reg = W # matriz dos parâmetros a serem regularizados (não se remove o termo de viés da camada oculta da regularização porque não se tem uma saída desejada)
      W += -(alfa/B) * (X_t.T @ dZ + termo_reg * W_reg) + momentum * (W - W_ant) # atualização dos parâmetros da camada de entrada => camada oculta
      W_ant = W_aux # atualizando a matriz de parâmetros da iteração anterior

    if validacao == True:
      MLP_validacao = MLP_1co_direto(X_validacao, Y_validacao, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de validação
      custo_validacao = MLP_validacao[3] # custo médio de validação da época
      custo_validacao_ep.append(custo_validacao)

      if custo_validacao < custo_validacao_min:
        custo_validacao_min = custo_validacao
        W_melhor = W # atualizando matriz de parâmetros associados ao melhor modelo durante o treinamento/validação
        M_melhor = M # atualizando matriz de parâmetros associados ao melhor modelo durante o treinamento/validação
    
    else:
      W_melhor = W
      M_melhor = M
  return W_melhor, M_melhor, custo_treino_it, custo_validacao_ep

Busca pelos hiperparâmetros ótimos

In [None]:
# Divisão das amostras e normalização dos dados
I = np.random.permutation(n) # permutação dos índices das observações
(X_treino, X_validacao, X_teste) = (X[I][:n_treino,], X[I][n_treino:(n_treino + n_validacao),], X[I][(n - n_teste):,])
(y_treino_original, y_validacao_original, y_teste_original) = (y[I][:n_treino,], y[I][n_treino:(n_treino + n_validacao),], y[I][(n - n_teste):,])

(X_treino, y_treino) = (norm_min_max(X_treino, X_treino), norm_min_max(y_treino_original, y_treino_original))
(X_validacao, y_validacao) = (norm_min_max(X_validacao, X_treino), norm_min_max(y_validacao_original, y_treino_original))
(X_teste, y_teste) = (norm_min_max(X_teste, X_treino), norm_min_max(y_teste_original, y_treino_original))

X_validacao = np.c_[np.ones(n_validacao), X_validacao] # inserindo o termo de viés
X_teste = np.c_[np.ones(n_teste), X_teste] # inserindo o termo de viés

# Busca pelos hiperparâmetros ótimos
n_iteracoes_hp = 1000 # número de iterações na busca pelos hiperparâmetros ótimos
f_ativ_oculta = 'tanh'
f_ativ_saida = 'identidade'
f_custo = 'MSE'

custo_hp_min = np.inf # inicializando o custo mínimo de validação como infinito (para escolher melhor combinação de hiperparâmetros)
for i in range(n_iteracoes_hp):
  # Hiperparâmetros
  alfa_0 = 10**np.random.uniform(-5, -1) # taxa de aprendizagem inicial
  n_epocas = np.random.randint(50, 200) # número de épocas
  momentum = np.random.uniform(0.5, 1) # termo de momentum
  n_neuronios = np.random.randint(5, 100) # número de neurônios
  B = np.random.randint(10, 100) # quantidade de padrões utilizados por mini-batch durante o treinamento
  termo_reg = np.random.uniform(0.01, 0.1) # termo de regularização

  # Etapa de treinamento e validação
  rede_MLP = MLP_treino(X_treino, y_treino, X_validacao, y_validacao, f_ativ_oculta, f_ativ_saida, f_custo, alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg, validacao = True)
  (W_hp, M_hp) = (rede_MLP[0], rede_MLP[1]) # matrizes de parâmetros associados ao melhor modelo para a combinação de hiperparâmetros da iteração atual

  MLP_validacao = MLP_1co_direto(X_validacao, y_validacao, W_hp, M_hp, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de validação
  custo_validacao = MLP_validacao[3] # custo de validação do melhor modelo (normalizado)

  if custo_validacao < custo_hp_min:
    custo_hp_min = custo_validacao
    (W_melhor, M_melhor) = (W_hp, M_hp) # atualizando matrizes de parâmetros associados ao melhor modelo durante o treinamento/validação
    (alfa_0_melhor, n_epocas_melhor, momentum_melhor, n_neuronios_melhor, B_melhor, termo_reg_melhor) = (alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg) # atualizando melhor combinação de hiperparâmetros
    (custo_treino_it_melhor, custo_validacao_ep_melhor) = (rede_MLP[2], rede_MLP[3])

plt.plot(custo_treino_it_melhor) # curva de aprendizagem de treino para a melhor combinação de hiperparâmetros (normalizado)
plt.xlabel("Iteração")
plt.ylabel("MSE")
plt.title("Treinamento via SGD com momentum");

print("Hiperparâmetros do melhor modelo:")
print("taxa de aprendizagem inicial: %.3f, número de épocas: %d, termo de momentum: %.2f, número de neurônios: %d, tamanho do mini-batch: %d e termo de regularização: %.2f" % 
      (alfa_0_melhor, n_epocas_melhor, momentum_melhor, n_neuronios_melhor, B_melhor, termo_reg_melhor), end = '\n\n')

# Etapa de teste (Generalização)
MLP_teste = MLP_1co_direto(X_teste, y_teste, W_melhor, M_melhor, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
custo_teste = MLP_teste[3] # custo de teste (normalizado)
print("MSE de teste (normalizado): %.4f" % custo_teste, end = '\n\n')

Plotando a curva de aprendizagem de validação

In [None]:
plt.plot(custo_validacao_ep_melhor) # curva de aprendizagem de validação para a melhor combinação de hiperparâmetros (normalizado)
plt.xlabel("Época")
plt.ylabel("MSE")
plt.title("Validação");

Retreinamento com os dados de treino e validação

In [None]:
# Hiperparâmetros
f_ativ_oculta = 'tanh' # já que será utilizada uma rede MLP com apenas 1 camada oculta
f_ativ_saida = 'identidade' # já que se trata de um problema de regressão
f_custo = 'MSE' # já que se trata de um problema de regressão
alfa_0 = alfa_0_melhor # taxa de aprendizagem inicial
n_epocas = n_epocas_melhor # número de épocas
momentum = momentum_melhor # termo de momentum
n_neuronios = n_neuronios_melhor # número de neurônios
B = B_melhor # quantidade de padrões utilizados por mini-batch durante o treinamento
termo_reg = termo_reg_melhor # termo de regularização

# Etapa de treinamento
X_retreino = np.r_[X_treino, X_validacao[:, 1:]] # juntando dados de treino e validação
y_retreino = np.r_[y_treino, y_validacao] # juntando dados de treino e validação

rede_MLP = MLP_treino(X_retreino, y_retreino, None, None, f_ativ_oculta, f_ativ_saida, f_custo, alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg, validacao = False)
(W, M) = (rede_MLP[0], rede_MLP[1]) # matrizes de parâmetros da rede MLP retreinada

plt.plot(rede_MLP[2]) # curva de aprendizagem de treino (normalizado)
plt.xlabel("Iteração")
plt.ylabel("MSE")
plt.title("Treinamento via SGD com momentum");

# Etapa de teste (Generalização)
MLP_teste = MLP_1co_direto(X_teste, y_teste, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
custo_teste = MLP_teste[3] # custo de teste (normalizado)
print("MSE de teste (normalizado): %.4f" % custo_teste)

## b)
Apresente as curvas da função custo nos conjuntos de treinamento e validação ao longo das épocas. Reporte também para os conjuntos de treino, validação e teste as métricas abaixo:
- **RMSE (root mean squared error)**
- **MAE (mean absolute error)**
- **MRE (mean relative error)**

Curvas da função custo apresentadas no item a)

In [None]:
def metricas_desnorm(y_original, y_pred_norm): # cálculo das métricas com base nos valores de y desnormalizados
  y_pred = desnorm_min_max(y_treino_original, y_pred_norm)
  erro = y_original - y_pred
  RMSE = np.sqrt(np.mean(erro**2)) # computando a raiz do erro quadrático médio
  MAE = np.mean(np.abs(erro)) # computando o erro absoluto médio
  MRE = np.mean(np.abs(erro/y_original)) # computando o erro relativo médio
  return y_pred, erro, RMSE, MAE, MRE

In [None]:
X_treino_2 = np.c_[np.ones(n_treino), X_treino] # inserindo o termo de viés
direto_treino = MLP_1co_direto(X_treino_2, y_treino, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de treino
y_pred_treino = direto_treino[1] # valores preditos de treino
metricas_treino = metricas_desnorm(y_treino_original, y_pred_treino) # métricas de treino

direto_validacao = MLP_1co_direto(X_validacao, y_validacao, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de validação
y_pred_validacao = direto_validacao[1] # valores preditos de validação
metricas_validacao = metricas_desnorm(y_validacao_original, y_pred_validacao) # métricas de validação

direto_teste = MLP_1co_direto(X_teste, y_teste, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
y_pred_teste = direto_teste[1] # valores preditos de teste
metricas_teste = metricas_desnorm(y_teste_original, y_pred_teste) # métricas de teste

print("RMSE de treino, validação e teste: %.4f, %.4f e %.4f" % (metricas_treino[2], metricas_validacao[2], metricas_teste[2]))
print("MAE de treino, validação e teste: %.4f, %.4f e %.4f" % (metricas_treino[3], metricas_validacao[3], metricas_teste[3]))
print("MRE de treino, validação e teste: %.2f%%, %.2f%% e %.2f%%" % (100*metricas_treino[4], 100*metricas_validacao[4], 100*metricas_teste[4]))

# Questão 2
Considere o conjunto de dados disponível em **vowel.csv**, organizado em 11 colunas, sendo as 10 primeiras colunas os atributos e a última coluna a saída. Os 10 atributos referem-se à caracterização de amostras da fala de britânicos. A saída é o fonema de vogal correspondente, dentre as 11 possibilidades. Maiores detalhes sobre os dados podem ser conferidos em https://www.openml.org/d/307.

Importação dos dados

In [None]:
dados_vowel = np.genfromtxt('./vowel.csv', delimiter = ',', skip_header = 0)
np.set_printoptions()
dados_vowel

In [None]:
X = dados_vowel[:, 0:-1]
y = dados_vowel[:, [-1]]
print("Matriz de variáveis x:")
print(X, end = '\n\n')
print("Vetor da variável y (primeiros elementos):")
print(y[:10])

*One hot encoding* como representação da classe/rótulo

In [None]:
n_classes = len(np.unique(y)) # número de classes
Y = np.zeros((y.shape[0], n_classes)) # inicializando a matriz Y com zeros
for c in range(n_classes):
  Y[:, [c]] = 1 * (y == c) # substituindo 0 por 1 na posição relacionada à classe de cada padrão
print(Y)

## a)
Considere um modelo de classificação não linear baseado em redes neurais artificiais. Separe os dados aleatoriamente em treino, validação e teste (por exemplo, 60%, 20% e 20%). Nesse cenário, treine e avalie o modelo abaixo:
- **MLP (multilayer perceptron)**: 1 camada oculta e treinamento em minibatch via gradiente descendente estocástico com termo de momentum. Utilize o conjunto de validação para ajustar os hiperparâmetros.

Informações iniciais

In [None]:
n = X.shape[0] # tamanho da amostra original
D = X.shape[1] # número de dimensões de entrada (atributos)
K = Y.shape[1] # número de dimensões de saída (classes)
n_treino = round(0.6*n) # tamanho da amostra de treino
n_validacao = round(0.2*n) # tamanho da amostra de validação
n_teste = n - n_treino - n_validacao # tamanho da amostra de teste

Busca pelos hiperparâmetros ótimos

In [None]:
# Divisão das amostras e normalização dos dados
I = np.random.permutation(n) # permutação dos índices das observações
(X_treino, X_validacao, X_teste) = (X[I][:n_treino,], X[I][n_treino:(n_treino + n_validacao),], X[I][(n - n_teste):,])
(Y_treino, Y_validacao, Y_teste) = (Y[I][:n_treino,], Y[I][n_treino:(n_treino + n_validacao),], Y[I][(n - n_teste):,])

X_treino = norm_min_max(X_treino, X_treino)
X_validacao = norm_min_max(X_validacao, X_treino)
X_teste = norm_min_max(X_teste, X_treino)

X_validacao = np.c_[np.ones(n_validacao), X_validacao] # inserindo o termo de viés
X_teste = np.c_[np.ones(n_teste), X_teste] # inserindo o termo de viés

# Busca pelos hiperparâmetros ótimos
n_iteracoes_hp = 1000 # número de iterações na busca pelos hiperparâmetros ótimos
f_ativ_oculta = 'ReLU'
f_ativ_saida = 'softmax'
f_custo = 'entropia'

custo_hp_min = np.inf # inicializando o custo mínimo de validação como infinito (para escolher melhor combinação de hiperparâmetros)
for i in range(n_iteracoes_hp):
  # Hiperparâmetros
  alfa_0 = 10**np.random.uniform(-5, -1) # taxa de aprendizagem inicial
  n_epocas = np.random.randint(200, 500) # número de épocas
  momentum = np.random.uniform(0.5, 1) # termo de momentum
  n_neuronios = np.random.randint(11, 200) # número de neurônios
  B = np.random.randint(10, 100) # quantidade de padrões utilizados por mini-batch durante o treinamento
  termo_reg = np.random.uniform(0.01, 0.1) # termo de regularização

  # Etapa de treinamento e validação
  rede_MLP = MLP_treino(X_treino, Y_treino, X_validacao, Y_validacao, f_ativ_oculta, f_ativ_saida, f_custo, alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg, validacao = True)
  (W_hp, M_hp) = (rede_MLP[0], rede_MLP[1]) # matrizes de parâmetros associados ao melhor modelo para a combinação de hiperparâmetros da iteração atual

  MLP_validacao = MLP_1co_direto(X_validacao, Y_validacao, W_hp, M_hp, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de validação
  custo_validacao = MLP_validacao[3] # custo de validação do melhor modelo

  if custo_validacao < custo_hp_min:
    custo_hp_min = custo_validacao
    (W_melhor, M_melhor) = (W_hp, M_hp) # atualizando matrizes de parâmetros associados ao melhor modelo durante o treinamento/validação
    (alfa_0_melhor, n_epocas_melhor, momentum_melhor, n_neuronios_melhor, B_melhor, termo_reg_melhor) = (alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg) # atualizando melhor combinação de hiperparâmetros
    (custo_treino_it_melhor, custo_validacao_ep_melhor) = (rede_MLP[2], rede_MLP[3])

plt.plot(custo_treino_it_melhor) # curva de aprendizagem de treino para a melhor combinação de hiperparâmetros
plt.xlabel("Iteração")
plt.ylabel("Entropia cruzada")
plt.title("Treinamento via SGD com momentum");

print("Hiperparâmetros do melhor modelo:")
print("taxa de aprendizagem inicial: %.3f, número de épocas: %d, termo de momentum: %.2f, número de neurônios: %d, tamanho do mini-batch: %d e termo de regularização: %.2f" % 
      (alfa_0_melhor, n_epocas_melhor, momentum_melhor, n_neuronios_melhor, B_melhor, termo_reg_melhor), end = '\n\n')

# Etapa de teste (Generalização)
MLP_teste = MLP_1co_direto(X_teste, Y_teste, W_melhor, M_melhor, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
custo_teste = MLP_teste[3] # entropia cruzada de teste
print("Entropia cruzada de teste: %.4f" % custo_teste)

Plotando a curva de aprendizagem de validação

In [None]:
plt.plot(custo_validacao_ep_melhor) # curva de aprendizagem de validação para a melhor combinação de hiperparâmetros
plt.xlabel("Época")
plt.ylabel("Entropia cruzada")
plt.title("Validação");

Retreinamento com os dados de treino e validação

In [None]:
# Hiperparâmetros
f_ativ_oculta = 'ReLU' # já que se trata de um problema de classificação
f_ativ_saida = 'softmax' # já que se trata de um problema multiclasse
f_custo = 'entropia' # já que se trata de um problema de classificação
alfa_0 = alfa_0_melhor # taxa de aprendizagem inicial
n_epocas = n_epocas_melhor # número de épocas
momentum = momentum_melhor # termo de momentum
n_neuronios = n_neuronios_melhor # número de neurônios
B = B_melhor # quantidade de padrões utilizados por mini-batch durante o treinamento
termo_reg = termo_reg_melhor # termo de regularização

# Etapa de treinamento
X_retreino = np.r_[X_treino, X_validacao[:, 1:]] # juntando dados de treino e validação
Y_retreino = np.r_[Y_treino, Y_validacao] # juntando dados de treino e validação

rede_MLP = MLP_treino(X_retreino, Y_retreino, None, None, f_ativ_oculta, f_ativ_saida, f_custo, alfa_0, n_epocas, momentum, n_neuronios, B, termo_reg, validacao = False)
(W, M) = (rede_MLP[0], rede_MLP[1]) # matrizes de parâmetros da rede MLP retreinada

plt.plot(rede_MLP[2]) # curva de aprendizagem de treino
plt.xlabel("Iteração")
plt.ylabel("Entropia cruzada")
plt.title("Treinamento via SGD com momentum");

# Etapa de teste (Generalização)
MLP_teste = MLP_1co_direto(X_teste, Y_teste, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
custo_teste = MLP_teste[3] # custo de teste
print("Entropia cruzada de teste (normalizado): %.4f" % custo_teste)

## b)
Apresente as curvas da função custo nos conjuntos de treinamento e validação ao longo das épocas. Reporte também a acurácia obtida para os conjuntos de treino, validação e teste.

Curvas da função custo apresentadas no item a)

In [None]:
def acertos(Y, Y_pred): # retorna o número e a taxa de acertos (acurácia) gerais de classificação
  n = Y.shape[0] # quantidade de padrões
  n_acertos = 0
  for i in range(n):
    classe_pred = np.argmax(Y_pred[i,:])
    if Y[i, classe_pred] == 1:
      n_acertos += 1
  p_acertos = n_acertos/n
  return n_acertos, p_acertos

In [None]:
X_treino_2 = np.c_[np.ones(n_treino), X_treino] # inserindo o termo de viés
direto_treino = MLP_1co_direto(X_treino_2, Y_treino, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de treino
Y_pred_treino = direto_treino[1] # valores preditos de treino
acertos_treino = acertos(Y_treino, Y_pred_treino) # acertos de treino
acertos_classe_treino = acertos_classe(Y_treino, Y_pred_treino) # acertos de treino por classe

direto_validacao = MLP_1co_direto(X_validacao, Y_validacao, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de validação
Y_pred_validacao = direto_validacao[1] # valores preditos de validação
acertos_validacao = acertos(Y_validacao, Y_pred_validacao) # acertos de validação
acertos_classe_validacao = acertos_classe(Y_validacao, Y_pred_validacao) # acertos de validação por classe

direto_teste = MLP_1co_direto(X_teste, Y_teste, W, M, f_ativ_oculta, f_ativ_saida, f_custo) # sentido direto da rede MLP aplicado aos dados de teste
Y_pred_teste = direto_teste[1] # valores preditos de teste
acertos_teste = acertos(Y_teste, Y_pred_teste) # acertos de teste
acertos_classe_teste = acertos_classe(Y_teste, Y_pred_teste) # acertos de teste por classe

print("Acurácia de treino, validação e teste: %.2f%%, %.2f%% e %.2f%%" % (100*acertos_treino[1], 100*acertos_validacao[1], 100*acertos_teste[1]))