Este projeto foi concebido no âmbito da disciplina de Inteligência Artificial, com o objetivo de aprofundar o entendimento acerca do funcionamento do Perceptron e do Multi Layer Perceptron - dois componentes essenciais no domínio das redes neurais.

Neste projeto, são abordados a implementação do Perceptron para compreender seu funcionamento, englobando inclusive a inclusão do viés, para tratar de **problemas logicamente separáveis.** Adicionalmente, temos a aplicação do Multi Layer Perceptron, configurado com uma **única camada oculta**, demonstrando sua capacidade de solucionar o desafio apresentado pelo **operador lógico XOR.**

<div style="text-align: right;">Colaboradores:</div>
<div style="text-align: right;">Anderson Carlos da Silva Morais</div>
<div style="text-align: right;">Anderson Matheus Melo da Silva</div>

# Perceptron
O Perceptron é um dos blocos fundamentais na área de redes neurais artificiais. Ele é um modelo simples de neurônio artificial que recebe entradas ponderadas, aplica uma função de ativação e produz uma saída binária (0 ou 1)

In [1]:
# Biblioteca matemática
import numpy as np


# Função de ativação Step Function
def Step(x):
    if x >= 0:
        return 1
    else:
        return 0

In [2]:
def train_perceptron(X, Y, taxa_apren, iteracoes, peso_ini=0.1, vies=1):
    # Pré-configuração
    linhas = X.shape[0]  # Quantidade de linhas
    colunas = X.shape[1]  # Quantidade de colunas
    np.random.seed(42)  # Definindo a seed dos números aleatórios

    # Para um uso futuro com métricas
    rede = []  # valores da rede
    y_preds = []  # valores das predições
    erros = []  # valores dos erros

    # Pesos
    if peso_ini == 0.1:
        # O tamanho é igual das colunas para podermos realizar multiplicação de matrizes
        pesos = np.full(colunas, peso_ini)  # Cria o array de pesos com o valor peso_ini
        peso_vies = 0.1  # peso do vies definido como o peso_ini

    else:
        # O tamanho é igual das colunas para podermos realizar multiplicação de matrizes
        pesos = np.random.uniform(
            size=colunas
        )  # Cria o array de pesos com o valor aleatório
        peso_vies = np.random.uniform()  # peso do vies definido como aleatório

    # Treinamento do perceptron
    for _ in range(iteracoes):
        for i in range(linhas):  # percorrea quantidade de linhas
            # rede
            soma_rede = np.dot(X[i], pesos) + (vies * peso_vies)
            rede.append(soma_rede)

            # activation
            y_pred = Step(soma_rede)
            y_preds.append(y_pred)

            # erro
            erro = Y[i] - y_pred
            erros.append(erro)

            # novos pesos
            for k in range(colunas):  # percorre a quantidade de colunas
                pesos[k] = pesos[k] + taxa_apren * erro * X[i, k]

            peso_vies = peso_vies + taxa_apren * erro * vies

    return pesos, vies, peso_vies


# Função para realizar predições de valores
def predict(entrada, pesos, vies, peso_vies):
    predict = np.dot(entrada, pesos) + vies * peso_vies
    return Step(predict)

In [3]:
# Entrada
X = np.array([[20, 10], [80, 60], [-20, 10], [20, 10]])
Y = np.array([0, 1, 1, 0])

# treinando o perceptron para achar os valores treinados
pesos_train, vies_train, peso_vies_train = train_perceptron(X, Y, 0.1, 5)

# fazendo um predict para valores aleatórios
teste = predict([0, 10], pesos_train, vies_train, peso_vies_train)

# printando na tela
print(teste)

1


In [4]:
# Testando valores diferentes
teste = predict([50, 30], pesos_train, vies_train, peso_vies_train)

print(teste)

0


# OPERADORES LÓGICOS
## AND

In [5]:
# Entrada
X = np.array([[1, 1], [1, 0], [0, 1], [0, 0]])
Y = np.array([1, 0, 0, 0])

# treinando o perceptron para achar os valores treinados
pesos_train, vies_train, peso_vies_train = train_perceptron(X, Y, 0.1, 5)

In [6]:
# Testando valores diferentes
teste = predict([1, 1], pesos_train, vies_train, peso_vies_train)

print(teste)

1


## OR

In [7]:
# Entrada
X = np.array([[1, 1], [1, 0], [0, 1], [0, 0]])
Y = np.array([1, 1, 1, 0])

# treinando o perceptron para achar os valores treinados
pesos_train, vies_train, peso_vies_train = train_perceptron(X, Y, 0.1, 5)

In [8]:
# Testando valores diferentes
teste = predict([1, 0], pesos_train, vies_train, peso_vies_train)

print(teste)

1


## XOR

In [9]:
# Entrada
X = np.array([[1, 1], [1, 0], [0, 1], [0, 0]])
Y = np.array([0, 1, 1, 0])

# treinando o perceptron para achar os valores treinados
pesos_train, vies_train, peso_vies_train = train_perceptron(X, Y, 0.1, 5)

In [10]:
# Testando valores diferentes
teste = predict([0, 0], pesos_train, vies_train, peso_vies_train)

print(teste)

0


Não resolveu, partimos para uma rede MLP

# MULTI LAYER PERCEPTRON(MLP)
O MLP é uma extensão do conceito de Perceptron. Ele consiste em várias camadas de neurônios, incluindo uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. Cada neurônio em uma camada está conectado a todos os neurônios na camada seguinte. O MLP é capaz de lidar com problemas mais complexos, uma vez que pode aprender representações hierárquicas de dados através das camadas ocultas.

As camadas ocultas do MLP usam funções de ativação não-lineares, como a função sigmoide, ReLU (Rectified Linear Unit) ou suas variantes, para introduzir não-linearidades nas transformações dos dados. Isso permite que o MLP capture relações complexas entre as entradas e as saídas, tornando-o um modelo poderoso para tarefas de aprendizado supervisionado, como classificação e regressão.

In [11]:
import numpy as np


# Funcao de ativacao sigmoidal
def sigmoide(x):
    return 1 / (1 + np.exp(-x))


# Derivada da funcao sigmoidal
def derivada_sigmoide(x):
    return x * (1 - x)

In [12]:
def train_mlp(
    X,
    Y,
    neuronios=2,
    taxa_aprendizado=0.1,
    iteracoes=2,
    peso_ini=True,
    vies=1,
    error=True,
):
    # Pré-configuração
    X_size = X.shape[1]  # Quantidade de linhas
    Y_size = Y.shape[1]  # Quantidade de colunas
    np.random.seed(42)  # Definindo a seed dos números aleatórios

    # Ordem neuronio: OBS: foi a única forma que eu consegui racionacionar o funcionamento
    # Entrada -> Oculta -> Saida
    # Entrada -> (característica em comum)
    # Oculta -> (característica em comum)
    # Peso_Entrada -> Peso_Oculta

    # Pesos
    if peso_ini:
        peso_entrada = np.full((X_size, neuronios), 0.1)
        peso_oculta = np.full((neuronios, Y_size), 0.1)
    else:
        # Passo 0: inicializa os pesos
        peso_entrada = np.random.uniform(size=(X_size, neuronios))
        # os pesos da entrada será uma matriz de linhas iguais as colunas da entrada e com colunas iguais as quantidades de neuronios
        peso_oculta = np.random.uniform(size=(neuronios, Y_size))
        # os pesos da oculta será uma matriz com as linhas na quantidade de neuronios e colunas igual ao tamanho da saida
        # Basicamente associando matriz de pesos dimensionalmente coerentes para multiplicá-las

    # Treinamento do perceptron
    for _ in range(iteracoes):
        erro_tot = 0  # Variável de controle para observar o erro
        for i in range(len(X)):  # percorrea quantidade de linhas de características
            # Trabalhando elemento a elemento da matriz
            # Passo 1: Vetores de entrada
            x_entrada = X[i]
            y_saida = Y[i]

            # Feedforward
            # Entrada -> Oculta -> Saida
            #      y_Entrada   y_Saida

            # rede Entrada
            # Passo 2 e 3:
            sum_entrada = np.dot(x_entrada, peso_entrada)
            y_entrada = sigmoide(sum_entrada)

            # rede Oculta
            # passo 4 e 5:
            sum_oculta = np.dot(y_entrada, peso_oculta)
            y_oculta = sigmoide(sum_oculta)

            # erro
            erro = y_saida - y_oculta  # erro: (dk - Ok)
            erro_tot += np.mean(np.square(erro))  # MSE

            # Backpropagation
            # Saida -> Oculta -> Entrada
            # Ajustes em:
            #  y_oculta -> y_Entrada

            # Camada saida
            # passo 6:
            delta_oculta = erro * derivada_sigmoide(
                y_oculta
            )  # Derivada: y_oculta * (1 - y_oculta)
            ajuste_oculta = taxa_aprendizado * np.outer(
                y_entrada, delta_oculta
            )  # outer:[ndarray] Returns the outer product of two vectors. out[i, j] = y_entrada[i] * delta_oculta[j]

            # Camada_Entrada
            # passo 7:
            erro_entrada = (
                delta_oculta @ peso_oculta.T
            )  # Multiplicação de matrizes, resultando em uma matriz
            delta_entrada = erro_entrada * derivada_sigmoide(
                y_entrada
            )  # Derivada: y_entrada * (1 - y_entrada)
            ajuste_entrada = taxa_aprendizado * np.outer(
                x_entrada, delta_entrada
            )  # outer:[ndarray] Returns the outer product of two vectors. out[i, j] = x_entrada[i] * delta_entrada[j]

            # novos pesos
            # passo 8 e 9:
            peso_entrada += ajuste_entrada
            peso_oculta += ajuste_oculta

        # Passo 10:
        erro_medio = erro_tot / len(X)

        if error:
            print(f"Iteracao {_+1}, Erro Médio: {erro_medio:.6f}")

    return peso_entrada, peso_oculta

In [13]:
# Função para realizar predições de valores
def predict_XOR(X, peso_entrada, peso_oculta):
    for i in range(len(X)):
        # Feedforward

        entrada_oculta = np.dot(X[i], peso_entrada)
        y_entrada = sigmoide(entrada_oculta)

        sum_oculta = np.dot(y_entrada, peso_oculta)
        y_pred = sigmoide(sum_oculta)
    return y_pred

In [48]:
# Dados de entrada e saida para o problema do XOR
X = np.array([[1, 0], [1, 1], [0, 0], [0, 1]])
Y = np.array([[1], [0], [0], [1]])

# Treinamento
peso_entrada, peso_oculta = train_mlp(
    X, Y, taxa_aprendizado=0.3, neuronios=2, iteracoes=30000, peso_ini=False, error=True
)

Iteracao 1, Erro Médio: 0.256037
Iteracao 2, Erro Médio: 0.255808
Iteracao 3, Erro Médio: 0.255606
Iteracao 4, Erro Médio: 0.255427
Iteracao 5, Erro Médio: 0.255269
Iteracao 6, Erro Médio: 0.255129
Iteracao 7, Erro Médio: 0.255006
Iteracao 8, Erro Médio: 0.254897
Iteracao 9, Erro Médio: 0.254801
Iteracao 10, Erro Médio: 0.254716
Iteracao 11, Erro Médio: 0.254641
Iteracao 12, Erro Médio: 0.254575
Iteracao 13, Erro Médio: 0.254517
Iteracao 14, Erro Médio: 0.254466
Iteracao 15, Erro Médio: 0.254420
Iteracao 16, Erro Médio: 0.254380
Iteracao 17, Erro Médio: 0.254345
Iteracao 18, Erro Médio: 0.254314
Iteracao 19, Erro Médio: 0.254286
Iteracao 20, Erro Médio: 0.254262
Iteracao 21, Erro Médio: 0.254240
Iteracao 22, Erro Médio: 0.254221
Iteracao 23, Erro Médio: 0.254204
Iteracao 24, Erro Médio: 0.254189
Iteracao 25, Erro Médio: 0.254176
Iteracao 26, Erro Médio: 0.254164
Iteracao 27, Erro Médio: 0.254154
Iteracao 28, Erro Médio: 0.254144
Iteracao 29, Erro Médio: 0.254136
Iteracao 30, Erro Médio

In [49]:
# Testando valores pro problema do XOR
res = predict_XOR([[0, 0]], peso_entrada, peso_oculta)
print(f"exato:{res} aproximado:{np.round(res)}")

exato:[0.0352327] aproximado:[0.]


In [50]:
res = predict_XOR([[0, 1]], peso_entrada, peso_oculta)
print(f"exato:{res} aproximado:{np.round(res)}")

exato:[0.93108513] aproximado:[1.]


In [51]:
res = predict_XOR([[1, 0]], peso_entrada, peso_oculta)
print(f"exato:{res} aproximado:{np.round(res)}")

exato:[0.9266209] aproximado:[1.]


In [52]:
res = predict_XOR([[1, 1]], peso_entrada, peso_oculta)
print(f"exato:{res} aproximado:{np.round(res)}")

exato:[0.09443881] aproximado:[0.]
