# **Redes neurais artificiais**

## **História**
  - 💡 Primeiras ideias surgiram em 1943, proposta por McCulloch & Pitts (MCP)
  - 💡 Primeiro neurônio artificial (*perceptron*) surgiu em 1958 por Frank Rosenblatt
  - 💡 O **backpropagation** (técnica de treinamento das redes neurais) foi introduzido em 1974 por Paul Werbos
  - 💡 Em 1980, o "**neocogitron**" foi apresentado, precursor das modernas redes neurais convolucionais.
  - 💡 E em 1986, as Redes Neurais Recorrentes (RNNs) foram propostas.

Grande parte dos fundamentos da inteligência artificial que vemos hoje tem raízes em pesquisas desenvolvidas décadas atrás. No entanto, naquela época, a combinação de dados limitados e capacidade computacional restringia a experimentação em larga escala e a adoção comercial da IA.

## **Redes Neurais Artificiais vs. Cérebros Humanos**

- 🧠 **Cérebros:** Bilhões de neurônios interconectados.
- 👌 **Função:** Perceber e reagir ao mundo.
- 📔 **ANNs:** Imitam sistemas neurais biológicos.
- 💪 **Capacidade:** Aprendem eficientemente de dados experimentais.

Em nossa biologia, os neurônios são células especializadas que transmitem informações por meio de impulsos elétricos. No contexto das redes neurais artificiais, **essa transmissão é replicada através de cálculos matemáticos**. O perceptron é uma representação desse neurônio no ambiente digital. A unidade fundamental de um modelo de rede neural é o neurônio, e, similarmente, a unidade fundamental de um modelo de rede neural artificial é o perceptron.

![img](https://d2f0ora2gkri0g.cloudfront.net/dd/db/dddb807b-a15b-457d-a21a-8a9e6f029a3e.png)


## **Principal matemática do perceptron** (Algebra linear)

📉 Álgebra linear é um ramo da matemática que estuda vetores, espaços vetoriais e transformações lineares entre esses espaços, como rotações e escalonamentos.

### Produto escalar (dot product)

$$
A = \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} \
B = \begin{bmatrix} 5 \\ 6 \\ 7 \\ 8 \end{bmatrix} \
$$

$$
A \cdot B = \sum_{i=1}^{4} A_i \times B_i \
$$

$$
A \cdot B = 1 \times 5 + 2 \times 6 + 3 \times 7 + 4 \times 8 = 70
$$

### Transposição de matriz

![texto do link](https://2.bp.blogspot.com/-8LzbJv0zB3A/WAzRQbxP5eI/AAAAAAAAHYU/MEqPV8JxtLMCSGSQ-0UKZSYlUN3jALZaQCLcB/w589-h258/Java%2BProgram%2Bto%2BTranspose%2Ba%2BMatrix%2B.png)


### Produto escalar em matriz (dot product)

![texto do link](https://www.mathsisfun.com/algebra/images/matrix-multiply-a.svg)



In [2]:
A = [1, 2, 3, 4]
B = [5, 6, 7, 8]

produto_escalar = 0
for i in range(len(A)):
    produto_escalar += A[i] * B[i]

print(produto_escalar)

70


## **Bias**

O bias oferece flexibilidade adicional ao modelo, garantindo que mesmo quando todas as entradas são nulas, ainda possa haver uma saída devido à sua influência.

O valor o bias tambem pode ser ajustado durante o treinamento, fazendo com que o modelo aprenda melhor. O bias oferece um grau adicional de liberdade ao modelo, permitindo que a função aprendida se ajuste melhor aos dados. Sem um termo de bias, a função estaria restrita a passar pela origem (no caso de modelos lineares, por exemplo),

In [None]:
A = [1, 2, 3, 4]
B = [0, 0, 0, 0]

bias = 0.5

produto_escalar = 0
for i in range(len(A)):
    produto_escalar += A[i] * B[i]

print("Produto escalar:", produto_escalar)
print("Produto escalar + bias:", produto_escalar + bias)

## **Equação que representa o neurônio artificial**

$$
y = \sum_{i=1}^{N} x_i w_i + b \
$$

## **Implementação do Neurônio artificial**

In [None]:
import tensorflow as tf

# Entradas
X = tf.constant([1.,2.,3.])

# Valor esperado de saida
P = tf.Variable(42.)

# Pesos e bias
W = tf.Variable([6.,12.,7.])
b = tf.Variable(9.)

# Executa o calculo
y = tf.reduce_sum(X * W) + b

#Calculo do erro
error = abs(P - y) / P
"Y", y.numpy(), "P", P.numpy(), "Error:", error.numpy()

## **Deep Learning** (ou redes com varias camadas)

![texto do link](https://media.geeksforgeeks.org/wp-content/cdn-uploads/20230602113310/Neural-Networks-Architecture.png)

## Equação que representa o neuronio que pode processar varias entradas ao mesmo tempo
$$
y = \sum_{i=1}^{N} x_i w_i^T + b \
$$

In [None]:
tf.random.set_seed(42)

class Dense:
    def __init__(self, inputs, neurons, activation=None) -> None:
        self.activation = activation
        self.w = tf.Variable(tf.random.normal((neurons,inputs)))
        self.b = tf.Variable(tf.random.normal((1, neurons)))

    def forward(self, x):
        z = tf.matmul(x, tf.transpose(self.w)) + self.b
        if self.activation:
            return self.activation(z)
        return z

## **Funções de ativações**

### Linearmente separaveis

Existem vários tipos de relações entre variáveis em um conjunto de dados. Uma dessas relações é a linearidade. Por exemplo, considere um cenário em que você colete dados sobre o tempo de serviço e os salários dos funcionários de uma empresa. Se você observar que o salário aumenta de forma constante com o tempo de serviço — digamos, um aumento de 500 reais no salário para cada ano adicional na empresa — isso é um exemplo de uma relação linear entre as duas variáveis.

Neste caso, o salário pode ser previsto como uma combinação linear do tempo de serviço, seguindo uma fórmula como:

$$
Salario = 500 * \text{Anos na empresa} + \text{Salario inicial}
$$

Se gerarmos um gráfico para função, podemos observar que é uma linha reta.

In [3]:
import matplotlib.pyplot as plt
import numpy as np

# Definindo a função
def salary_calc(year):
    return 500 * year + 1000

# Gerando dados para o gráfico
years = np.linspace(0, 10, 100)  # Gera 100 pontos de 0 a 10 anos
salaries = salary_calc(years)  # Calcula os salários correspondentes

# Criando o gráfico
plt.figure(figsize=(10, 6))
plt.plot(years, salaries, label='Salário em função dos anos')
plt.xlabel('Anos na Empresa')
plt.ylabel('Salário (R$)')
plt.title('Relação entre Anos na Empresa e Salário')
plt.grid(True)
plt.legend()
plt.show()


ModuleNotFoundError: No module named 'matplotlib'

No entanto, a realidade é frequentemente mais complexa e os relacionamentos entre as variáveis podem não ser lineares. Além disso, muitos problemas complexos, como reconhecimento de imagens e linguagem natural, são inerentemente não-lineares. Uma rede neural composta apenas por transformações lineares é incapaz de aprender essas relações não-lineares, não importa quantas camadas você adicione.

⛳ O perceptron é uma equação linear:

$$
y = x * w + b
$$

### **Exemplos de funções de ativações**

![texto do link](https://ambrapaliaidata.blob.core.windows.net/ai-storage/articles/Untitled_design_13.png)

In [None]:
import numpy as np

# Função ReLU
def relu(x):
    return np.maximum(0, x)

# Função Sigmoid
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Testando as funções
x_values = np.array([-2, -1, 0, 1, 2])

print("ReLU de x_values:", relu(x_values))
print("Sigmoid de x_values:", sigmoid(x_values))

### Não linearmente separaveis

**Tabela verdade operador XOR**

| Input A | Input B | Output |
|---------|---------|--------|
|    0    |    0    |    0   |
|    0    |    1    |    1   |
|    1    |    0    |    1   |
|    1    |    1    |    0   |

In [None]:
import matplotlib.pyplot as plt

# Coordenadas para os pontos
x_coords = [0, 0, 1, 1]
y_coords = [0, 1, 0, 1]

# Rótulos para os pontos (outputs da porta XOR)
labels = [0, 1, 1, 0]

# Cores para os pontos (azul para 0 e vermelho para 1)
colors = ['blue' if label == 0 else 'red' for label in labels]

# Criando o gráfico
plt.figure(figsize=(5, 5))
plt.scatter(x_coords, y_coords, c=colors)

# Adicionando rótulos aos pontos
for i, (x, y) in enumerate(zip(x_coords, y_coords)):
    plt.text(x + 0.05, y, str(labels[i]))

# Configurando os eixos
plt.xlim(-0.5, 1.5)
plt.ylim(-0.5, 1.5)
plt.xlabel('Input A')
plt.ylabel('Input B')
plt.title('XOR Problem')

# Mostrando o gráfico
plt.grid(True)
plt.show()


In [None]:
# Dados de entrada e saída (XOR)
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=np.float32)
y = np.array([[0], [1], [1], [0]], dtype=np.float32)

# Criando a rede neural com função de ativação
layer1 = Dense(inputs=2, neurons=7, activation=tf.nn.relu)
layer2 = Dense(7, 3, activation=tf.nn.relu)
layer3 = Dense(3, 1)

# Criando a rede neural com função de ativação
# layer1 = Dense(2, 7)
# layer2 = Dense(7, 3)
# layer3 = Dense(3, 1)

learning_rate = 0.1
epochs = 150
loss_fn = tf.losses.MeanSquaredError()

# Treinamento
for epoch in range(epochs):
    with tf.GradientTape() as tape:
        tape.watch([layer1.w, layer1.b, layer2.w, layer2.b])
        output1 = layer1.forward(X)
        output2 = layer2.forward(output1)
        output3 = layer3.forward(output2)
        loss = loss_fn(y, output3)

    if tf.math.is_nan(loss):
      print("Loss is NaN. Stopping training.")
      break

    gradients = tape.gradient(loss, [layer1.w, layer1.b, layer2.w, layer2.b, layer3.w, layer3.b])

    # Atualizar pesos e bias
    layer1.w.assign_sub(learning_rate * gradients[0])
    layer1.b.assign_sub(learning_rate * gradients[1])
    layer2.w.assign_sub(learning_rate * gradients[2])
    layer2.b.assign_sub(learning_rate * gradients[3])
    layer3.w.assign_sub(learning_rate * gradients[4])
    layer3.b.assign_sub(learning_rate * gradients[5])

    if epoch % 50 == 0:
        print(f"Epoch {epoch}, Loss: {loss.numpy()}")

# Fazer previsões
output1 = layer1.forward(X)
output2 = layer2.forward(output1)
output3 = layer3.forward(output2)

print("Previsões:")
print(np.round(output3.numpy()))

In [None]:
import torch

input_tensor = torch.tensor([-3.0, -0.5, 0.0, 0.5, 1.0], requires_grad=True)
output_tensor = torch.relu(input_tensor)

print(output_tensor)

c = output_tensor.sum()
c.backward()

input_tensor.grad

## **Aprendizado da rede neural**


### Calculo diferencial

In [None]:
tempo = 11.75

def calcula_distancia(tempo):
  return tempo**2

distancia = calcula_distancia(tempo)
print("Distancia percorrida:",distancia)

def calcula_distancia_derivada(tempo):
  return 2 * tempo

velocidade = calcula_distancia_derivada(tempo)
print("Velocidade instantanea:",velocidade)

### Calculo a descida do gradiente

🏎 Para atingir uma distancia de 12.354, qual é o tempo que eu preciso?

### Gradiente

🧑 "Um gradiente mede o quanto a saída de uma função muda se você alterar um pouco as entradas." - Lex Fridman (MIT)


↘ O Gradiente da função de custo �(�(�))J(f(x)) indica tanto a direção quanto a "força" ou magnitude do ajuste que deve ser feito nos parâmetros (pesos e vieses) para minimizar a função de custo.

In [None]:
# Valor alvo
distancia_alvo = 12.256

# Valor inicial de tempo
tempo = 9.658  # Você pode começar com qualquer valor

# Taxa de aprendizado (paço)
learning_rate = 0.001

# Número de iterações
n_iteracoes = 100

def calc_erro(valor_atual, valor_alvo):
  return (valor_atual - valor_alvo)**2

def calc_erro_derivado(valor_atual, valor_alvo):
  return 2 * (valor_atual - valor_alvo)

valores_erro = []
valores_x = []
for i in range(n_iteracoes):
    # Calcula o valor atual da função
    try:
        distancia_percorrida = calcula_distancia(tempo)
    except OverflowError:
        break

    # Calcula o erro atual
    erro = calc_erro(distancia_percorrida, distancia_alvo)
    valores_erro.append(erro)

    # Inicia o backpropagation
    # Calcula o gradiente (derivada) da função no ponto atual
    grad_x = calcula_distancia_derivada(tempo)
    grad_y = calc_erro_derivado(distancia_percorrida, distancia_alvo)

    # Obtem a direção e a força do ajuste
    direcao_ajuste_e_forca = grad_x * grad_y

    # Atualiza o valor de tempo usando gradiente descendente
    tempo = tempo - learning_rate * direcao_ajuste_e_forca
    valores_x.append(distancia_percorrida)

    print(f"Iteração {i+1}: Erro = {erro} ,Direcao ajuste e força = {direcao_ajuste_e_forca}")

# Valor final de x
print(f"Valor final de Tempo = {tempo}")


In [None]:
calcula_distancia_derivada(calcula_distancia(3.500898000504678))

In [None]:
import matplotlib.pyplot as plt

# Criar o gráfico
plt.figure()
plt.subplot(1, 2, 1)
plt.title('Erro ao longo das iterações')
plt.xlabel('Iterações')
plt.ylabel('Erro')
plt.plot(valores_erro)

plt.subplot(1, 2, 2)
plt.title('Valor de Tempo ao longo das iterações')
plt.xlabel('Iterações')
plt.ylabel('Tempo')
plt.plot(valores_x)

plt.tight_layout()
plt.show()

### Exemplo descida do gradiente

![texto do link](https://duchesnay.github.io/pystatsml/_images/learning_rate_choice.png)

### Descida do gradiente com perceptron

![texto do link](https://test.basel.in/wp-content/uploads/2019/09/GRADIENT-DECENT.jpg)


### Exemplo da descida do gradiente com TensorFlow

## **Exemplo prático**

### Carregando o dataset MNIST

![texto do link](https://miro.medium.com/v2/resize:fit:720/format:webp/1*VOP5sC-T2EWm8RmBNGpCUg.png)

In [None]:
import tensorflow as tf
import numpy as np

# Carregando o dataset MNIST
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0  # Normalizando os dados
x_train = x_train.reshape(-1, 28*28)  # Achatando as imagens
x_test = x_test.reshape(-1, 28*28)
y_train = tf.keras.utils.to_categorical(y_train, 10)  # Convertendo para one-hot encoding
y_test = tf.keras.utils.to_categorical(y_test, 10)

x_train = np.array(x_train, dtype=np.float32)
x_test = np.array(x_test, dtype=np.float32)
y_train = np.array(y_train, dtype=np.float32)
y_test = np.array(y_test, dtype=np.float32)

In [None]:
import matplotlib.pyplot as plt

# Visualizando as primeiras 10 imagens
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.imshow(x_test[i].reshape(28, 28), cmap='gray')  # Nota o uso de reshape aqui
    plt.title(f"Label: {np.argmax(y_test[i])}")
    plt.axis('off')

plt.show()


### Executando o treino

In [None]:
tf.random.set_seed(42)

class Dense:
    def __init__(self, inputs, neurons, activation=None):
        self.activation = activation
        self.w = tf.Variable(tf.random.normal((neurons, inputs), dtype=tf.float32))
        self.b = tf.Variable(tf.random.normal((1, neurons), dtype=tf.float32))

    def forward(self, x):
        z = tf.matmul(x, tf.transpose(self.w)) + self.b
        if self.activation:
            return self.activation(z)
        return z

# Parâmetros
learning_rate = 1
epochs = 3500
loss_fn = tf.losses.CategoricalCrossentropy(from_logits=True)

# Construindo a rede neural
layer1 = Dense(inputs=28*28, neurons=128, activation=tf.nn.relu)
layer2 = Dense(128, 64, activation=tf.nn.relu)
layer3 = Dense(64, 10, activation=tf.nn.softmax)

# Treinamento
for epoch in range(epochs+1):
    with tf.GradientTape() as tape:
        tape.watch([layer1.w, layer1.b, layer2.w, layer2.b, layer3.w, layer3.b])
        output1 = layer1.forward(x_train)
        output2 = layer2.forward(output1)
        output3 = layer3.forward(output2)
        loss = loss_fn(y_train, output3)

    gradients = tape.gradient(loss, [layer1.w, layer1.b, layer2.w, layer2.b, layer3.w, layer3.b])

    layer1.w.assign_sub(learning_rate * gradients[0])
    layer1.b.assign_sub(learning_rate * gradients[1])
    layer2.w.assign_sub(learning_rate * gradients[2])
    layer2.b.assign_sub(learning_rate * gradients[3])
    layer3.w.assign_sub(learning_rate * gradients[4])
    layer3.b.assign_sub(learning_rate * gradients[5])

    if epoch % 100 == 0:
        print(f"Epoch {epoch}, Loss: {loss.numpy()}")

# Avaliação
output1 = layer1.forward(x_test)
output2 = layer2.forward(output1)
output3 = layer3.forward(output2)
predictions = np.argmax(output3.numpy(), axis=1)
true_labels = np.argmax(y_test, axis=1)
accuracy = np.sum(predictions == true_labels) / len(true_labels) * 100
print(f"Acurácia: {accuracy}%")


### Executando uma previsão

In [None]:
plt.subplot(2, 5, i+1)
plt.imshow(x_test[102].reshape(28, 28), cmap='gray')
plt.title(f"Label: {np.argmax(y_test[29])}")
plt.axis('off')
plt.show()

In [None]:
input_data = np.expand_dims(x_test[32], axis=0)
output1 = layer1.forward(input_data)
output2 = layer2.forward(output1)
output3 = layer3.forward(output2)
predictions = np.argmax(output3.numpy(), axis=1)
predictions[0]

In [None]:
import tensorflow as tf
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Configuração de semente para reprodutibilidade
tf.random.set_seed(42)

# Carregar o dataset
digits = datasets.load_digits()
X = digits.data
y = digits.target

# Normalização
scaler = StandardScaler()
X = scaler.fit_transform(X)

# One-hot encoding dos rótulos
encoder = OneHotEncoder(sparse=False)
y = encoder.fit_transform(y.reshape(-1, 1))

# Dividir em treinamento e teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Converte para floa32
x_train = np.array(x_train, dtype=np.float32)
x_test = np.array(x_test, dtype=np.float32)
y_train = np.array(y_train, dtype=np.float32)
y_test = np.array(y_test, dtype=np.float32)

class Dense:
    def __init__(self, inputs, neurons, activation=None):
        self.activation = activation
        self.w = tf.Variable(tf.random.normal((neurons, inputs), dtype=tf.float32))
        self.b = tf.Variable(tf.random.normal((1, neurons), dtype=tf.float32))

    def forward(self, x):
        z = tf.matmul(x, tf.transpose(self.w)) + self.b
        if self.activation:
            return self.activation(z)
        return z

# Parâmetros
learning_rate = 0.01
epochs = 1200
loss_fn = tf.losses.CategoricalCrossentropy(from_logits=True)

# Construindo a rede neural
layer1 = Dense(inputs=64, neurons=128, activation=tf.nn.relu)  # 64 features no dataset digits
layer2 = Dense(128, 64, activation=tf.nn.relu)
layer3 = Dense(64, 10, activation=None)  # 10 classes no dataset digits

# Treinamento
for epoch in range(epochs + 1):
    with tf.GradientTape() as tape:
        tape.watch([layer1.w, layer1.b, layer2.w, layer2.b, layer3.w, layer3.b])
        output1 = layer1.forward(x_train)
        output2 = layer2.forward(output1)
        output3 = layer3.forward(output2)
        loss = loss_fn(y_train, output3)

    gradients = tape.gradient(loss, [layer1.w, layer1.b, layer2.w, layer2.b, layer3.w, layer3.b])

    layer1.w.assign_sub(learning_rate * gradients[0])
    layer1.b.assign_sub(learning_rate * gradients[1])
    layer2.w.assign_sub(learning_rate * gradients[2])
    layer2.b.assign_sub(learning_rate * gradients[3])
    layer3.w.assign_sub(learning_rate * gradients[4])
    layer3.b.assign_sub(learning_rate * gradients[5])

    if epoch % 100 == 0:
        print(f"Epoch {epoch}, Loss: {loss.numpy()}")

# Avaliação
output1 = layer1.forward(x_test)
output2 = layer2.forward(output1)
output3 = layer3.forward(output2)
predictions = np.argmax(output3.numpy(), axis=1)
true_labels = np.argmax(y_test, axis=1)
accuracy = np.sum(predictions == true_labels) / len(true_labels) * 100
print(f"Acurácia: {accuracy}%")


# Implementando um RNN

- https://jmyao17.github.io/Machine_Learning/Sequence/RNN-1.html
- https://www.youtube.com/watch?v=SEnXr6v2ifU&ab_channel=AlexanderAmini
- https://www.youtube.com/watch?v=6niqTuYFZLQ&ab_channel=StanfordUniversitySchoolofEngineering
- https://www.youtube.com/watch?v=ySEx_Bqxvvo&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&index=2&ab_channel=AlexanderAmini



In [None]:
import tensorflow as tf

# Configuração de semente para reprodutibilidade
tf.random.set_seed(42)

class RNN:
    def __init__(self, input_dim, output_dim, hidden_dim, activation=tf.math.tanh):
        self.hidden_dim = hidden_dim
        self.activation = activation

        # Peso e bias (inicializados aleatoriamente)
        self.W_aa = tf.Variable(tf.random.normal((hidden_dim, hidden_dim)))
        self.W_ax = tf.Variable(tf.random.normal((hidden_dim, input_dim)))
        self.W_ya = tf.Variable(tf.random.normal((output_dim, hidden_dim)))
        self.b_a = tf.Variable(tf.random.normal((hidden_dim, 1)))
        self.b_y = tf.Variable(tf.random.normal((output_dim, 1)))

    @tf.function(reduce_retracing=True)
    def step(self, a_prev, x_t):
        a_next = self.activation(tf.linalg.matmul(self.W_aa, a_prev) + tf.linalg.matmul(self.W_ax, x_t) + self.b_a)
        return a_next

    @tf.function
    def forward(self, x):
        a_prev = tf.zeros((self.hidden_dim, 1))
        states = tf.scan(self.step, elems=x, initializer=a_prev)
        a_last = states[-1]
        return tf.linalg.matmul(self.W_ya, a_last) + self.b_y

input_dim = 1
output_dim = 2
hidden_dim = 5
learning_rate = 0.01
epochs = 100

# Inicializando a RNN e o otimizador
rnn = RNN(input_dim, output_dim, hidden_dim)
optimizer = tf.optimizers.Adam(learning_rate)

# Dados de exemplo (substitua por seus próprios dados)
x = tf.random.normal((10, 1, 1))  # 10 timesteps, dimensão de entrada 1
y_true = tf.constant([[1.0], [0.0]])  # Valor verdadeiro (substitua pelo seu valor verdadeiro)

# Loop de treinamento
for epoch in range(epochs):
    with tf.GradientTape() as tape:
        y_pred = rnn.forward(x)
        loss = tf.reduce_mean(tf.square(y_true - y_pred))  # Mean Squared Error

    grads = tape.gradient(loss, [rnn.W_aa, rnn.W_ax, rnn.W_ya, rnn.b_a, rnn.b_y])
    optimizer.apply_gradients(zip(grads, [rnn.W_aa, rnn.W_ax, rnn.W_ya, rnn.b_a, rnn.b_y]))

    if epoch % 10 == 0:
        print(f"Epoch {epoch}, Loss: {loss}")

In [None]:
import torch

# Inicializar a e b como tensores com requires_grad=True
a = torch.tensor([[1.2, 2.5], [3.2, 4.5], [3.5, 2.5]], requires_grad=True)
b = torch.tensor([[5.2, 2.3], [3.5, 6.5], [8.5, 6.5]])

# Definir a taxa de aprendizado
lr = 0.01

# Simular várias etapas de treinamento
for step in range(100):
    # Calcule a perda
    c = (a - b)**2

    # Realize backpropagation para calcular os gradientes
    loss = c.sum()
    loss.backward()

    # Atualize os parâmetros
    with torch.no_grad():  # Desativar a gravação de operações para a atualização
        a -= lr * a.grad

    # Zerar os gradientes acumulados
    a.grad.zero_()

    # Imprimir a perda a cada 10 etapas
    if step % 10 == 0:
        print(f"Step {step}, Loss {loss.item()}")
