In [1]:
import numpy as np
import pandas as pd

In [2]:
# Constantes: número máximo de iterações, erro mínimo e taxa de aprendizado
MAX_ITER = 5000
MIN_ERROR = 0.01
LEARNING_RATE = 0.1

In [3]:
# Função que lê a matriz de entrada de dados, decide número de neurônios de entrada, saída e camada oculta.
def read_data(csv_file_path):
    data = pd.read_csv(csv_file_path)
    data = data.values
    # Número de entradas, ignora a última coluna (que apresenta as classes)
    n_inputs = data.shape[1] - 1
    # Número de saídas, depende do número de classes únicas na última coluna
    n_outputs = len(np.unique(data[:, -1]))
    # Número de neurônios na camada oculta é a média geométrica entre o número de entradas e saídas
    # Valor é arredondado
    n_hidden = int(np.round(np.sqrt(n_inputs * n_outputs)))
    return data, (n_inputs, n_hidden, n_outputs)

# Função que inicializa os pesos da camada de forma aleatória
# Parâmetros utilizados são o número de neurônios da camada anterior e da camada atual
def initialize_weights(n_inputs, n_outputs):
    # Pesos são inicializados de forma ALEATÓRIA
    # Nenhum valor desses gerados aleatoriamente pode ser 0
    # Por isso é adicionada uma constante 0.01
    weight = np.random.rand(n_outputs, n_inputs) + 0.01
    return weight

# Função que calcula o valor 'net' de cada neurônio de uma determinada camada
# Parâmetros utilizados são os pesos da camada e os valores de entrada
def calculate_neurons_net(weights, inputs):
    # Multiplica-se os pesos pela entrada
    # O resultado é a soma ponderada dos valores de entrada
    # O resultado é a entrada para a função de ativação
    net = np.dot(weights, inputs)
    return net

# Função que aplica a função de ativação aos valores 'net' de cada neurônio de uma camada
# Parâmetros são os valores 'net' e a funlção de ativação utilizada
def apply_transfer_function(net_values, transfer_function):
    # Função de ativação é aplicada a cada valor 'net'
    # O resultado é o valor de saída de cada neurônio
    outputs = transfer_function(net_values)
    return outputs

# Os valores calculados na função anterior se tornam os inputs utilizados para o cálculo na última camada

# Função que calcula o erro de saída de cada neurônio
# Parâmetros são os valores de saída e os valores esperados
# É necessário utilizar a derivada da função de ativação para o cálculo do erro
def calculate_output_error(outputs, expected_outputs, transfer_function_derivative):
    # O erro é calculado subtraindo-se os valores de saída dos valores esperados
    # O resultado é multiplicado pela derivada da função de ativação
    # O resultado é o erro de saída de cada neurônio
    error = (expected_outputs - outputs) * transfer_function_derivative(outputs)
    return error

# Função que propaga o erro para a camada anterior
def propagate_error(weights, error, transfer_function_derivative):
    # O erro é multiplicado pelos pesos
    # O resultado é multiplicado pela derivada da função de ativação
    # O resultado é o erro propagado para a camada anterior
    error = np.dot(weights.T, error) * transfer_function_derivative(error)
    return error

# A função anterior é aplicada na ordem inversa da rede, começando pela última camada e depois
# sendo aplicada na camada oculta.

# Função que ajusta os pesos com base no erro calculado, taxa de aprendizado e valores da função de ativação
# Precisa dos valores de saída da camada anterior
def adjust_weights(weights, error, last_layer_output):
    # O erro é multiplicado pela taxa de aprendizado
    # O resultado é multiplicado pelo valor de saída de cada neurônio
    # O resultado é o ajuste dos pesos
    adjustment = LEARNING_RATE * np.vstack(error) * last_layer_output
    # Os pesos são ajustados
    weights += adjustment
    return weights

# Essa função também é aplicada na ordem inversa da rede

Exemplo de aplicação das funções elaboradas

In [4]:
# Função de ativação tangente hiperbólica
def tanh(x):
    return np.tanh(x)

# Função de derivada da função de ativação tangente hiperbólica
def tanh_derivative(x):
    return (1 / np.cosh(x)) ** 2

# Carregando o arquivo "treinamento.csv"
data, number_of_neurons = read_data('treinamento.csv')
# Pesos da camada oculta
hidden_layer_weights = initialize_weights(number_of_neurons[0], number_of_neurons[1])
# Pesos da camada de saída
output_layer_weights = initialize_weights(number_of_neurons[1], number_of_neurons[2])

# Manipulando data para que as classes sejam apresentadas de forma alternada
# Separando valores por classe
data_by_class = {}
for row in data:
    if row[-1] not in data_by_class:
        data_by_class[row[-1]] = np.array([row])
    data_by_class[row[-1]] = np.append(data_by_class[row[-1]], [row], axis=0)
# Classes
classes = list(data_by_class.keys())
# Número de classes
n_classes = len(classes)
# Começa com a primeira classe, depois a segunda, até chegar a última e depois retorna para a primeira
# Isso é feito para que a rede aprenda a classificar as classes de forma alternada
for itr in range(MAX_ITER):
    class_index = itr % n_classes
    # Classe atual
    current_class = classes[class_index]
    # Qual linha da classe atual será escolhida
    row_index = itr // n_classes
    # Linha atual, com exceção da última coluna, apresenta os inputs
    try:
        input_from_data = data_by_class[current_class][row_index][:-1]
    except IndexError:
        # Caso não existir, uma das classes foi esgotada. Para evitar
        # desbalanceamento, o treinamento é finalizado.
        break


    # Calculo de 'net' para a camada oculta
    hidden_layer_net = calculate_neurons_net(hidden_layer_weights, input_from_data)
    # Aplicação da função de ativação f(x) = x
    hidden_layer_outputs = apply_transfer_function(hidden_layer_net, tanh)
    
    # Calculo de 'net' para a camada de saída
    output_layer_net = calculate_neurons_net(output_layer_weights, hidden_layer_outputs)
    # Aplicação da função de ativação f(x) = x
    output_layer_outputs = apply_transfer_function(output_layer_net, tanh)

    # Cálculo do erro de saída
    # Os valores esperados são -1 para todas as classes, exceto a atual que será 1
    expected_outputs = np.array([-1] * n_classes)
    expected_outputs[class_index] = 1
    output_layer_error = calculate_output_error(output_layer_outputs, expected_outputs, tanh_derivative)
    # Cálculo do erro da camada oculta
    hidden_layer_error = propagate_error(output_layer_weights, output_layer_error, tanh_derivative)

    # Ajuste de pesos da camada de saída
    output_layer_weights = adjust_weights(output_layer_weights, output_layer_error, hidden_layer_outputs)
    # Ajuste de pesos da camada oculta
    hidden_layer_weights = adjust_weights(hidden_layer_weights, hidden_layer_error, input_from_data)

    # Erro total é dado pela soma dos quadrados dos erros de saída divido por 2
    total_error = np.sum(output_layer_error ** 2) / 2
    print(total_error)
    
    # Se o erro total for menor que o erro mínimo, a rede é considerada treinada
    if total_error < MIN_ERROR:
        print("Chegou ao fim pois convergiu dentro do erro mínimo: ", total_error)
        break

if total_error >= MIN_ERROR:
    print("Chegou ao fim pois atingiu o número máximo de iterações: ", MAX_ITER)
    print("Erro total final: ", total_error)


1.4688636418889134
0.3689630085862306
0.4000739835590875
1.550861477177638
0.36834672489281634
0.4412188930413208
0.5812720858190745
1.767489224906561
0.42961409501091835
2.7544502517971914
0.5999108277122689
0.7004488239107345
1.0018298291130128
1.4302850048725364
0.5511255722507363
1.8697154052066332
1.2679457852856497
0.7282784477950708
0.4532741939140372
0.661133584933711
1.695575622548724
1.3763158747680548
1.2204601287333265
1.3105875999322978
0.5226426896093761
1.417848954478449
1.9525184242256661
0.4370090240858179
0.4883344472872548
0.480313086095551
1.3099312959398037
1.6751093855279788
0.8651516359496457
0.665432016409439
0.7758215327706481
0.46145326604586423
0.5246621437795024
0.5079105090731731
0.5215964779365155
0.5548106014236509
0.8974621393114
0.5360949225060752
1.2254537560113332
1.4143748543047008
0.7652923840920242
0.4832263365078729
1.0596246345702474
0.4869863345274926
0.5764905599945522
0.9092174859172264
0.596776164247783
1.2692194559624563
1.2819818930210962
0

Exemplo apresentado na aula 17

In [5]:
# Dois neurônios na primeira camada
# Quatro neurônios na segunda camada
# Três neurônios na terceira camada
# Pesos da camada oculta
# Taxa de aprendizado igual a 1
LEARNING_RATE = 1

hidden_layer_weights = np.array([
    [1.1, -1.4],
    [3.6, -4.1],
    [2.1, 2.5],
    [0.9, -1.0]])
# Pesos da camada de saída
output_layer_weights = np.array([
    [1.2, 1.6, 4.3, 3.2]
])
# Entrada é 0, 1
input_from_data = np.array([0, 1])
# Calculo de 'net' para a camada oculta
hidden_layer_net = calculate_neurons_net(hidden_layer_weights, input_from_data)
print("Net da camada oculta: ", hidden_layer_net)
# Aplicação da função de ativação f(x) = x
hidden_layer_outputs = apply_transfer_function(hidden_layer_net, lambda x: x)
print("Saída da camada oculta: ", hidden_layer_outputs)
# Calculo de 'net' para a camada de saída
output_layer_net = calculate_neurons_net(output_layer_weights, hidden_layer_outputs)
print("Net da camada de saída: ", output_layer_net)
# Aplicação da função de ativação f(x) = x
output_layer_outputs = apply_transfer_function(output_layer_net, lambda x: x)
print("Saída da camada de saída: ", output_layer_outputs)

# Cálculo do erro de saída
output_layer_error = calculate_output_error(output_layer_outputs, np.array([1]), lambda x: 1)
print("Erro de saída: ", output_layer_error)
# Cálculo do erro da camada oculta
hidden_layer_error = propagate_error(output_layer_weights, output_layer_error, lambda x: 1)
print("Erro da camada oculta: ", hidden_layer_error)

# Ajuste de pesos da camada de saída
output_layer_weights = adjust_weights(output_layer_weights, output_layer_error, hidden_layer_outputs)
print("Novos pesos da camada de saída: ", output_layer_weights)
# Ajuste de pesos da camada oculta
hidden_layer_weights = adjust_weights(hidden_layer_weights, hidden_layer_error, input_from_data)
print("Novos pesos da camada oculta: ", hidden_layer_weights)


Net da camada oculta:  [-1.4 -4.1  2.5 -1. ]
Saída da camada oculta:  [-1.4 -4.1  2.5 -1. ]
Net da camada de saída:  [-0.69]
Saída da camada de saída:  [-0.69]
Erro de saída:  [1.69]
Erro da camada oculta:  [2.028 2.704 7.267 5.408]
Novos pesos da camada de saída:  [[-1.166 -5.329  8.525  1.51 ]]
Novos pesos da camada oculta:  [[ 1.1    0.628]
 [ 3.6   -1.396]
 [ 2.1    9.767]
 [ 0.9    4.408]]


Resultados bem próximos.