# Projeto 1 introdução a redes neurais

------------------------------------------------------------------------------------------------------------

## Objetivo: 

Implementar uma rede MLP, em python, sem usar pacotes prontos (e.g., Pytorch, Tensorflow, etc.)
Com a rede implementada, desenvolver dois modelos: um para classificação e um para regressão.
Avaliar os hiperparâmetros dos modelos variando o número de camadas, número de neurônio e taxas (eta e momentum).

## Importanto as bibliotecas necessárias

In [1]:
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

## Funções de ativação 

A função linear retorna o próprio x

In [2]:
def linear(x): 
    return x 

A função degrau acima retorna 1 se x > 0 ou 0 caso contrário

In [3]:
def degrau(x): 
    return np.where(x >= 0, 1, 0) 

A função sigmoid logística retorna 
$$
f(x) = \frac{1}{1 + \exp(-x)}


In [4]:
def sigmoid(x): 
    return 1 / (1 + np.exp(-x)) 

A função tangente hiperbólica retorna a tangente hiperbólica do x

In [5]:
def tanh(x):
    return np.tanh(x)

A função relu retorna o máximo entre o X e 0

In [6]:
def relu(x): 
    return np.maximum(0, x)

A função softmax converte a saída padrão em uma distribuição de probabilidade, da forma: 
$$
f(y) = \frac{\exp(y)}{\sum_{k} \exp(y_k)}

In [7]:
def softmax(x): 
    exp = np.exp(x - np.max(x))
    return exp / np.sum(exp, axis=-1, keepdims=True)

## Retropropagação

A retropropagação surgiu para resolver o problema de como atualizar os neurônios das camadas ocultas em redes neurais. Em redes profundas, esses neurônios não têm erros diretamente observáveis como na camada de saída. O objetivo da retropropagação é calcular esses erros e ajustar os pesos das camadas ocultas utilizando o método de gradiente descendente, permitindo que redes com múltiplas camadas aprendam de forma eficiente. As contas da retropropagação envolvem o cálculo do gradiente da função de erro em relação aos pesos, ajustando-os de forma iterativa para minimizar a diferença entre as saídas desejadas e as reais. Esses cálculos incluem a atualização dos pesos na camada de saída, com base no erro direto, e nas camadas ocultas, com base nos erros propagados pela rede, até a camada de entrada. O processo é feito usando o gradiente local, o qual depende da função de ativação de cada neurônio, garantindo que o erro seja distribuído corretamente entre as camadas da rede.

A fórmula para a atualização dos pesos de um neurônio, é dada por:
$$
\Delta w_{kj} = \eta \cdot \delta_k \cdot x_j


Onde: 
- $\eta$ é a taxa de aprendizado.
- $\delta_k$ é o gradiente local do neurônio $k$.
- $x_j$ é a saída do neurônio anterior $j$ (entrada para o neurônio $k$).

Para k sendo um neurônio de saída: 
...

------------------------------------------------------------------------------------------------------------------------------------------

A fórmula de erro quadrático médio ou MSE, é dada por: 

$$
E(n) = \frac{1}{2} \sum_{k} \left( d_k(n) - y_k(n) \right)^2

Onde: 
- $E(n)$ é a função de erro na época $n$.
- $d_k(n)$ é o valor desejado para o neurônio $k$ na época $n$.
- $y_k(n)$ é o valor atual da saída do neurônio $k$ na época $n$.
- A soma é realizada sobre todos os neurônios $k$ da camada de saída.

---------------------------------------------------------------------------------------------------------------

In [8]:
#def retropropagação(X, y, pesos, bias, aprendizado): 
    #Feedforward: as entradas se propagam pela rede, camada a camada, da entrada até a saída