## üìÖ Dia 2 ‚Äì Introdu√ß√£o ao PyTorch + MNIST

### üéØ Objetivo:
Aprender a usar PyTorch para construir uma rede neural simples com base no dataset MNIST.

### üìö Teoria:

#### üß± Componentes do PyTorch
- **`torch.nn.Module`**: classe base para modelos.
- **`nn.Linear`**: camadas densas.
- **`F.relu`, `F.softmax`, etc.**: fun√ß√µes de ativa√ß√£o.
- **`loss_fn`**: fun√ß√£o de perda (ex: `CrossEntropyLoss`).
- **`optimizer`**: atualiza√ß√£o dos pesos (ex: `SGD`, `Adam`).

#### üì¶ Dataset MNIST
- Imagens 28x28 pixels em tons de cinza.
- D√≠gitos de 0 a 9.
- Conjunto cl√°ssico para classifica√ß√£o.

#### ‚öôÔ∏è Otimizadores
- **SGD (Stochastic Gradient Descent)**: simples e direto.
- **Adam**: adaptativo, geralmente mais r√°pido e eficaz.

#### üìâ Fun√ß√µes de perda e m√©tricas
- **Loss**: `sparse_categorical_crossentropy` (para classifica√ß√µes inteiras).
- **M√©tricas**: `accuracy`.

### üõ† Pr√°tica:
- Criar um modelo para MNIST com 1 camada oculta
- Treinar e avaliar com accuracy, loss
- Plotar gr√°fico de acur√°cia e perda por √©poca
- Modificar o modelo:
- Mais camadas
- Fun√ß√£o de ativa√ß√£o diferente
- Alterar epochs, batch_size


# Pytorch
Uma biblioteca de ML para Deep Learning.

Tensores: vari√°veis indexadas(arrays) multidimensionais usadas como base para todas as opera√ß√µes avan√ßadas.

5 tipos de tensores:
- HalfTensor: 16-bit float
- FloatTensor: 32-bit float
- DoubleTensor: 64-bit float
- IntTensor: 32-bit int
- LongTensor: 64-bit int

0D: um √∫nico valor real -> esc = torch.tensor(7)

1D: vetor -> notas = torch.tensor([8.5, 9.0, 7.0])

2D: matriz -> matriz = torch.tensor([[1, 2], [3, 4]]) ou t = torch.rand(2, 3) # Cria um tensor 2x3 com n√∫meros aleat√≥rios entre 0 e 1

3D: Imagens -> imagemPretoBraco = torch.rand(1, 28, 28) # 1 canal (preto e branco), 28x28 pixels
            -> imaemRGB = torch.rand(32, 3, 224, 224)  # 32 imagens, RGB, 224x224

OBS: o padr√£o √© FloatTensor, e para alterar utiliza-se torch.set_default_tensor_type(t)

Refer√™ncia: 
- https://www.insightlab.ufc.br/tutorial-pytorch-um-guia-rapido-para-voce-entender-agora-os-fundamentos-do-pytorch/

##  Importando as bibliotecas b√°sicas

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

###  Definir o conjunto de dados
Nesse caso ser√° utilizado o mesmo exemplo pr√°tico do dia anterior (XOR)

In [3]:
# Dados de entrada (XOR)
entradas = torch.tensor([[0, 0],
                         [0, 1],
                         [1, 0],
                         [1, 1]], dtype=torch.float32)

# Sa√≠das desejadas
saidas = torch.tensor([[0], [1], [1], [0]], dtype=torch.float32)

### Criando o modelo: subclasse de nn.Module
√â a classe base de todos os modelos de redes neurais em PyTorch. Sempre que criado uma rede neural personalizada, √© necess√°rio herdar essa classe.

In [4]:
class RedeXOR(nn.Module): #herdando o nn.Module
    def __init__(self):
        super(RedeXOR, self).__init__()
        self.oculta = nn.Linear(2, 2)   # Camada oculta com 2 neur√¥nios
        self.saida = nn.Linear(2, 1)    # Camada de sa√≠da

    def forward(self, x):
        x = torch.tanh(self.oculta(x))  # Ativa√ß√£o tanh na oculta
        x = torch.sigmoid(self.saida(x))  # Sigmoid na sa√≠da
        return x

### Instanciando o Modelo

In [5]:
modelo = RedeXOR()

### Definindo a Fun√ß√£o de Perda e Otimizador
Componentes respons√°veis por atualizar os pesos da rede, ajudando a minimizar a fun√ß√£o de perda.

### Otimizadores mais utilizados:
- **SGD (Stochastic Gradient Descent):** O mais simples, atualiza pesos usando uma fra√ß√£o aleat√≥ria dos dados.
- **RMSprop:** Ajusta o tamanho do passo com base na m√©dia dos gradientes anteriores. Muito bom para RNNs.
- **Momentum:** Acelera o SGD acumulando velocidade (como uma bola rolando ladeira abaixo).
- **Adam:** O mais usado atualmente, combina vantagens do SGD com Momentos e adapta a taxa de aprendizado automaticamente.

In [6]:
criterio = nn.MSELoss()  # Fun√ß√£o de perda: erro quadr√°tico m√©dio
otimizador = optim.SGD(modelo.parameters(), lr=0.1)  # Gradiente descendente

### Treinamento

In [7]:
for epoca in range(10000):
    saidas_preditas = modelo(entradas) # Forward
    perda = criterio(saidas_preditas, saidas) # Calcula erro

    otimizador.zero_grad() # Zera gradientes anteriores
    perda.backward() # Backpropagation: calcula novos gradientes
    otimizador.step() # Atualiza os pesos

### Resultado

In [8]:
print("Sa√≠das ap√≥s o treinamento:")
print(modelo(entradas).detach())

Sa√≠das ap√≥s o treinamento:
tensor([[0.0308],
        [0.9603],
        [0.9609],
        [0.0272]])
