# Deep Learning Fundamentals: Perceptron Multicamadas (MLP) do Zero

## 1. Introdução
Superando as limitações dos classificadores baseados em distância (como o KNN demonstrado anteriormente), este projeto implementa uma **Rede Neural Artificial (ANN)** totalmente conectada para classificar o dataset CIFAR-10.

### Destaques Técnicos da Implementação
Ao invés de utilizar frameworks como PyTorch ou TensorFlow, esta implementação constrói a arquitetura "from scratch" usando apenas NumPy. Isso demonstra domínio sobre:
* **Backpropagation:** Cálculo manual de gradientes matriciais.
* **Otimização Avançada:** Implementação de um otimizador customizado ("Almost Adam") com **Cosine Annealing** para o Learning Rate.
* **Regularização:** Weight Decay (L2) e Inicialização de He (Kaiming).

## 2. Engenharia de Features e Pré-processamento
Para garantir a estabilidade numérica e a convergência do Gradiente Descendente, aplicamos o seguinte pipeline:

1.  **Normalização (Min-Max Scaling):** Reescalonamento dos pixels $[0, 255] \rightarrow [0, 1]$.
2.  **Centralização (Mean Subtraction):** Subtração da imagem média do dataset para centrar os dados em zero.
3.  **One-Hot Encoding:** Transformação dos labels categóricos em vetores binários para o cálculo da perda (Cross-Entropy).

In [39]:
# Bibliotecas
import numpy as np
import random
import matplotlib.pylab as plt

# Funções de carregamento da base de dados CIFAR-10
def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

def ler_cifar(path, batch):
# ##################################    
# ler_cifar importa as imagens da base de dados CIFAR 10 
# Argumentos:
# path -- caminho que leva ao diretório da base de dados
# batch -- A base de dados contém 50 mil imagens divididas em 5 minibatches (lotes),
# este argumento é um escalar e define quantos minibatches serão importados. 
## Retorna: 
# X -- Uma matriz de tamanho (N, M) onde N é o número de imagens e M o tamanho da imagem vetorizada
# Y -- Um vetor 1D de tamanho (N, 1) que contém a classificação correta para cada imagem
# ##################################    

    X = np.empty((0,3072))
    Y = np.empty((1,0),dtype=int)
    if batch == 1:
        
        file = path + "\\data_batch_" + str(batch)
        
        dictionary = unpickle(file)
        X = dictionary[b'data']
        Y = np.asarray(dictionary[b'labels'])
            
    else:
            for i in range(1,batch+1):
                 file = path + "\\data_batch_" + str(i)        
                 dictionary = unpickle(file)
                 X = np.vstack([X,dictionary[b'data']])
                 temp = np.asarray(dictionary[b'labels'])
                 Y = np.append(Y,temp)
                
                 
    X = np.float32(X)   
    return X, Y

def cortar_dados(X,Y):

    training_indice = random.sample(range(len(X)),k=round(0.8*len(X)))
    training_indice = sorted(np.asarray(training_indice))
    
    test_indice = np.setdiff1d(range(len(X)), training_indice)
    
    
    Xapp = X[training_indice,:]
    Yapp = Y[training_indice]
    Yapp = np.reshape(Yapp, (len(Yapp), 1) )
    Xtest = X[test_indice,:]
    Ytest = Y[test_indice]
    
    return Xapp,Yapp,Xtest,Ytest    

def minibatch (X,Y,N):

    X = X[:N]    
    Y = Y[:N]
    
    return X,Y

def unflatten_image(img_flat):
    img_R = img_flat[0:1024].reshape((32, 32))
    img_G = img_flat[1024:2048].reshape((32, 32))
    img_B = img_flat[2048:3072].reshape((32, 32))
    img = np.dstack((img_R, img_G, img_B))
    return img   

In [40]:
# Carregamento de um minibatch e inspeção das dimensões dos dados
path = r"C:\Users\caiqu\Desktop\Data Science\AI Classification Problem\cifar-10-batches-py"  #
batch = 5
X, Y = ler_cifar(path, batch)
M = 500
X, Y = minibatch(X, Y, M)
Xapp, Yapp, Xtest, Ytest = cortar_dados(X, Y)
print('Train shape, Train labels, Test shape, Test labels:', Xapp.shape, Yapp.shape, Xtest.shape, Ytest.shape)

  dict = pickle.load(fo, encoding='bytes')


Train shape, Train labels, Test shape, Test labels: (400, 3072) (400, 1) (100, 3072) (100,)


## 3. Arquitetura da Rede Neural

A classe `ANN` foi desenhada para ser modular. Abaixo detalho as escolhas arquiteturais:

### 3.1 Funções de Ativação e Estabilidade
* **Hidden Layers:** Utilizamos `ReLU6` ($\min(\max(0, x), 6)$). Diferente da ReLU padrão, a ReLU6 impede que as ativações cresçam indefinidamente, ajudando na estabilidade numérica em precisão mista ou fixa.
* **Output Layer:** Função `Softmax` para converter os *logits* em uma distribuição de probabilidade.

### 3.2 Otimização: "Almost Adam" & Scheduler
Implementamos uma variação do otimizador **Adam** (Adaptive Moment Estimation).
* **Momentum:** Utiliza médias móveis dos gradientes (1º momento) e dos gradientes ao quadrado (2º momento) para acelerar a convergência.
* **Cosine Annealing:** O Learning Rate não é estático; ele decai seguindo uma curva cosseno. Isso permite grandes saltos no início (exploração) e ajustes finos no final (exploração de mínimos locais).

$$\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})\left(1 + \cos\left(\frac{T_{cur}}{T_{max}}\pi\right)\right)$$

In [41]:
import numpy as np
import matplotlib.pyplot as plt
from typing import List, Tuple, Dict
import pickle # Para salvar o arquivo
import copy   # Para copiar os pesos sem referência

class NeuralNetwork:
    def __init__(self, layers_dims: List[int], lambda_reg: float = 0.0, keep_prob: float = 1.0):
        """
        Args:
            layers_dims: Lista de neurônios [input, hidden..., output]
            lambda_reg: Regularização L2 (Weight Decay)
            keep_prob: Probabilidade de manter neurônio ativo (Dropout). 1.0 = Sem Dropout.
        """
        self.layers_dims = layers_dims
        self.lambda_reg = lambda_reg
        self.keep_prob = keep_prob
        self.parameters = {}
        self.L = len(layers_dims) - 1
        self.history = {'cost': [], 'train_acc': [], 'test_acc': []}
        
        # Adam params
        self.beta1, self.beta2, self.epsilon = 0.9, 0.999, 1e-8

    def _initialize_parameters(self):
        np.random.seed(42)
        for l in range(1, len(self.layers_dims)):
            # He Initialization
            self.parameters[f"W{l}"] = np.random.randn(self.layers_dims[l], self.layers_dims[l-1]) * np.sqrt(2 / self.layers_dims[l-1])
            self.parameters[f"b{l}"] = np.zeros((self.layers_dims[l], 1))
            # Adam Cache
            self.parameters[f"v_dW{l}"] = np.zeros((self.layers_dims[l], self.layers_dims[l-1]))
            self.parameters[f"s_dW{l}"] = np.zeros((self.layers_dims[l], self.layers_dims[l-1]))
            self.parameters[f"v_db{l}"] = np.zeros((self.layers_dims[l], 1))
            self.parameters[f"s_db{l}"] = np.zeros((self.layers_dims[l], 1))

    @staticmethod
    def relu(Z): return np.maximum(0, Z) # Usei max simples para velocidade, pode usar ReLU6 se preferir

    @staticmethod
    def softmax(Z):
        e_Z = np.exp(Z - np.max(Z, axis=0, keepdims=True))
        return e_Z / np.sum(e_Z, axis=0, keepdims=True)

    def _augment_batch(self, X):
        """
        Data Augmentation simples: Flip Horizontal aleatório.
        Assume X na forma (Features, Exemplos).
        Para CIFAR (3072 features), precisamos reconstruir a imagem 32x32x3 para flipar corretamente.
        """
        # Se não for imagem 32x32x3 achatada, retorna sem alterar (segurança)
        if X.shape[0] != 3072: return X 
        
        X_aug = X.copy()
        n_samples = X.shape[1]
        
        # Decide aleatoriamente quais exemplos flipar (50% de chance)
        flip_indices = np.random.rand(n_samples) > 0.5
        
        if np.sum(flip_indices) > 0:
            # Reshape para (3, 32, 32, N_flip) -> Formato CIFAR (Channels, H, W)
            # Nota: O reshape depende de como os dados foram carregados (C-order ou F-order).
            # Assumindo padrão CIFAR (R-G-B flatten):
            images = X_aug[:, flip_indices].reshape(3, 32, 32, -1, order='C')
            
            # Flip no eixo da largura (axis 2)
            images = np.flip(images, axis=2)
            
            # Flatten de volta
            X_aug[:, flip_indices] = images.reshape(3072, -1, order='C')
            
        return X_aug

    def forward_propagation(self, X, training=True):
        cache = {'A0': X}
        A = X
        
        for l in range(1, self.L):
            Z = np.dot(self.parameters[f"W{l}"], A) + self.parameters[f"b{l}"]
            A = self.relu(Z)
            
            # DROPOUT (Apenas no treino e nas camadas ocultas)
            if training and self.keep_prob < 1.0:
                D = np.random.rand(*A.shape) < self.keep_prob
                A = (A * D) / self.keep_prob # Inverted Dropout
                cache[f"D{l}"] = D
            
            cache[f"Z{l}"] = Z
            cache[f"A{l}"] = A
            
        # Saída (sem dropout)
        Z = np.dot(self.parameters[f"W{self.L}"], A) + self.parameters[f"b{self.L}"]
        AL = self.softmax(Z)
        
        cache[f"Z{self.L}"] = Z
        cache[f"A{self.L}"] = AL
        return AL, cache

    def compute_cost(self, AL, Y):
        m = Y.shape[1]
        cost = -np.mean(Y * np.log(AL + 1e-8)) * Y.shape[0] # Soma classes, média exemplos
        
        # L2 Regularization
        if self.lambda_reg > 0:
            l2_sum = sum(np.sum(np.square(self.parameters[f"W{l}"])) for l in range(1, self.L+1))
            cost += (self.lambda_reg / (2 * m)) * l2_sum
            
        return cost

    def backward_propagation(self, AL, Y, cache):
        grads = {}
        m = Y.shape[1]
        dZ = AL - Y # Derivada Softmax+CrossEntropy
        
        for l in range(self.L, 0, -1):
            A_prev = cache[f"A{l-1}"]
            W = self.parameters[f"W{l}"]
            
            grads[f"dW{l}"] = (1/m) * np.dot(dZ, A_prev.T) + (self.lambda_reg/m) * W
            grads[f"db{l}"] = (1/m) * np.sum(dZ, axis=1, keepdims=True)
            
            if l > 1:
                dA_prev = np.dot(W.T, dZ)
                
                # APLICA MÁSCARA DO DROPOUT NO BACKPROP
                if self.keep_prob < 1.0 and f"D{l-1}" in cache:
                    dA_prev = (dA_prev * cache[f"D{l-1}"]) / self.keep_prob
                
                dZ = dA_prev * (cache[f"Z{l-1}"] > 0) # ReLU derivative

        return grads

    def update_parameters(self, grads, lr, t):
        for l in range(1, self.L + 1):
            # Adam Update
            self.parameters[f"v_dW{l}"] = self.beta1 * self.parameters[f"v_dW{l}"] + (1-self.beta1)*grads[f"dW{l}"]
            self.parameters[f"v_db{l}"] = self.beta1 * self.parameters[f"v_db{l}"] + (1-self.beta1)*grads[f"db{l}"]
            self.parameters[f"s_dW{l}"] = self.beta2 * self.parameters[f"s_dW{l}"] + (1-self.beta2)*(grads[f"dW{l}"]**2)
            self.parameters[f"s_db{l}"] = self.beta2 * self.parameters[f"s_db{l}"] + (1-self.beta2)*(grads[f"db{l}"]**2)
            
            # Bias correction (opcional, mas bom para estabilidade inicial)
            v_corr_dW = self.parameters[f"v_dW{l}"] / (1 - self.beta1**t)
            s_corr_dW = self.parameters[f"s_dW{l}"] / (1 - self.beta2**t)
            v_corr_db = self.parameters[f"v_db{l}"] / (1 - self.beta1**t)
            s_corr_db = self.parameters[f"s_db{l}"] / (1 - self.beta2**t)

            self.parameters[f"W{l}"] -= lr * (v_corr_dW / (np.sqrt(s_corr_dW) + self.epsilon))
            self.parameters[f"b{l}"] -= lr * (v_corr_db / (np.sqrt(s_corr_db) + self.epsilon))

    def fit(self, X_train, Y_train, X_test, Y_test, epochs=100, lr=0.001, batch_size=256):
        # Transposições (se necessário)
        if X_train.shape[0] != self.layers_dims[0]: X_train = X_train.T
        if X_test.shape[0] != self.layers_dims[0]: X_test = X_test.T
        if Y_train.shape[0] != self.layers_dims[-1]: Y_train = Y_train.T
        if Y_test.shape[0] != self.layers_dims[-1]: Y_test = Y_test.T
        
        self._initialize_parameters()
        m = X_train.shape[1]
        
        # Variáveis para Checkpoint
        best_acc = 0.0
        best_parameters = {}
        
        print(f"Treinando: {m} exemplos, {epochs} épocas. Dropout: {self.keep_prob}")
        
        for i in range(1, epochs + 1):
            # ... (Lógica do Mini-batch e Augmentation continua igual) ...
            permutation = np.random.permutation(m)
            X_shuffled = X_train[:, permutation]
            Y_shuffled = Y_train[:, permutation]
            
            for j in range(0, m, batch_size):
                begin, end = j, min(j + batch_size, m)
                X_batch = X_shuffled[:, begin:end]
                Y_batch = Y_shuffled[:, begin:end]
                X_batch = self._augment_batch(X_batch)
                
                AL, cache = self.forward_propagation(X_batch, training=True)
                grads = self.backward_propagation(AL, Y_batch, cache)
                self.update_parameters(grads, lr, i)
            
            # Avaliação e Checkpoint
            if i % 10 == 0 or i == epochs:
                train_acc = self.evaluate(X_train, Y_train)
                test_acc = self.evaluate(X_test, Y_test)
                
                self.history['train_acc'].append(train_acc)
                self.history['test_acc'].append(test_acc)
                
                # --- LÓGICA DE SALVAR O MELHOR MODELO ---
                if test_acc > best_acc:
                    best_acc = test_acc
                    # Deep copy é crucial aqui! Se usar =, ele atualiza por referência
                    best_parameters = copy.deepcopy(self.parameters)
                    print(f"Época {i} - *Novo Melhor Modelo*: {best_acc:.2f}%")
                else:
                    print(f"Época {i} - Train: {train_acc:.1f}% - Test: {test_acc:.1f}%")

        # Ao final do treino, restauramos os melhores pesos na classe
        print(f"\nTreinamento finalizado. Restaurando melhores pesos com Acurácia: {best_acc:.2f}%")
        self.parameters = best_parameters

    def save_model(self, filename="best_model_cifar10.pkl"):
        """Salva os parâmetros aprendidos e a arquitetura em um arquivo."""
        model_data = {
            "parameters": self.parameters,
            "layers_dims": self.layers_dims,
            "history": self.history
        }
        with open(filename, "wb") as f:
            pickle.dump(model_data, f)
        print(f"Modelo salvo com sucesso em {filename}")

    @classmethod
    def load_model(cls, filename):
        """Carrega um modelo salvo e retorna uma instância da classe."""
        with open(filename, "rb") as f:
            model_data = pickle.load(f)
        
        # Cria uma nova instância com a arquitetura salva
        # Nota: lambda_reg e keep_prob não são salvos aqui, assumimos padrão para inferência
        instance = cls(layers_dims=model_data["layers_dims"])
        instance.parameters = model_data["parameters"]
        instance.history = model_data["history"]
        instance.L = len(model_data["layers_dims"]) - 1
        
        print(f"Modelo carregado. Arquitetura: {instance.layers_dims}")
        return instance
    def evaluate(self, X, Y):
        AL, _ = self.forward_propagation(X, training=False)
        predictions = np.argmax(AL, axis=0)
        labels = np.argmax(Y, axis=0)
        return np.mean(predictions == labels) * 100

## Data Pipeline (CIFAR-10)

O script inclui funções auxiliares para lidar com o formato específico do conjunto de dados CIFAR-10:
- One-Hot Encoding: A função hot_encoder converte rótulos de classe (como 3) em vetores (como $[0,0,0,1,0,0,0,0,0,0]$), o que é necessário para calcular a perda de Entropia Cruzada (Cross-Entropy loss).
- Normalização: Em pre_process_data, os valores dos pixels (0–255) são divididos por 255 para escaloná-los entre 0 e 1. A função também realiza a subtração da média, o que centraliza os dados em torno de zero, ajudando a rede neural a convergir mais rapidamente.

In [42]:
def hot_encoder(Y):
 # Changes the input Y with size (N,1) to a 2D matrix with size (N,C)
 # where N is the number of data and C the number of different classes
 # C = 10.  
    C = 10 ;  
    out = np.zeros((len(Y),C))
    
    for i in range(len(Y)):
           
        out[i,Y[i]] = 1
        
    return out
 
def pre_process_data(train_x, train_y, test_x, test_y):
    # Normalize
    train_x = train_x / 255.
    test_x = test_x / 255.
    
    # Subtract the mean image from data.
    train_x -= np.mean(train_x,axis=0)
    test_x -= np.mean(test_x,axis=0)
    
    # Transform Data from size (N,1) to (N,C) where N is the number of data 
    # and C the number of different classes
    train_y = hot_encoder(train_y)
    test_y = hot_encoder(test_y)
 
    return train_x, train_y, test_x, test_y

def plot_history(self):
        """
        Plota a evolução do custo e a comparação de acurácia (Treino vs Teste).
        Ideal para visualizar Overfitting vs Generalização.
        """
        # Cria uma figura com 2 subplots lado a lado
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
        
        # Gráfico 1: Evolução da Acurácia
        # Se houver dados suficientes, plota.
        if len(self.history['train_acc']) > 0:
            ax1.plot(self.history['train_acc'], label='Treino (Com Augmentation)', color='blue', linewidth=2)
            ax1.plot(self.history['test_acc'], label='Teste (Validação)', color='orange', linewidth=2, linestyle='--')
            
            ax1.set_title('Análise de Overfitting: Acurácia')
            ax1.set_xlabel('Épocas')
            ax1.set_ylabel('Acurácia (%)')
            ax1.legend()
            ax1.grid(True, alpha=0.3)
            
            # Destaca o valor final
            final_train = self.history['train_acc'][-1]
            final_test = self.history['test_acc'][-1]
            ax1.annotate(f'{final_train:.1f}%', xy=(len(self.history['train_acc'])-1, final_train), textcoords="offset points", xytext=(0,10), ha='center')
            ax1.annotate(f'{final_test:.1f}%', xy=(len(self.history['test_acc'])-1, final_test), textcoords="offset points", xytext=(0,10), ha='center')

        # Gráfico 2: Evolução do Custo (Loss)
        if len(self.history['cost']) > 0:
            ax2.plot(self.history['cost'], label='Custo de Teste', color='red')
            ax2.set_title('Estabilidade do Treinamento: Custo')
            ax2.set_xlabel('Checkpoints')
            ax2.set_ylabel('Loss (Cross-Entropy)')
            ax2.legend()
            ax2.grid(True, alpha=0.3)

        plt.tight_layout()
        plt.show()

# Pre-processamento dos dados para remover a média e normalizar

train_x, train_y, test_x, test_y = pre_process_data(Xapp, Yapp, Xtest, Ytest)

train_x =  train_x.astype(np.float64)
test_x =  test_x.astype(np.float64)

# definir base de dados de treino e teste

X = [train_x,test_x]
Y = [train_y,test_y]

## Treinando a rede neural

In [43]:

# layers_dims = [3072, 512, 128, 10] # Exemplo de arquitetura
# Reduza o tamanho da rede se continuar overfitting (ex: de 512 para 256)

model = NeuralNetwork(
    layers_dims=[3072, 256, 128, 10], 
    lambda_reg=0.1,    # Aumentei a regularização L2
    keep_prob=0.6      # Dropout agressivo: desliga 40% dos neurônios no treino
)

# batch_size maior ajuda a estabilizar o gradiente com augmentation
model.fit(train_x, train_y, test_x, test_y, epochs=500, lr=0.0005, batch_size=512)


Treinando: 400 exemplos, 500 épocas. Dropout: 0.6
Época 10 - *Novo Melhor Modelo*: 30.00%
Época 20 - *Novo Melhor Modelo*: 38.00%
Época 30 - Train: 70.2% - Test: 38.0%
Época 40 - Train: 78.2% - Test: 36.0%
Época 50 - Train: 80.2% - Test: 37.0%
Época 60 - Train: 88.2% - Test: 34.0%
Época 70 - Train: 91.2% - Test: 34.0%
Época 80 - Train: 94.8% - Test: 36.0%
Época 90 - Train: 96.5% - Test: 37.0%
Época 100 - Train: 98.0% - Test: 35.0%
Época 110 - *Novo Melhor Modelo*: 39.00%
Época 120 - Train: 99.0% - Test: 39.0%
Época 130 - Train: 99.5% - Test: 39.0%
Época 140 - Train: 99.5% - Test: 36.0%
Época 150 - Train: 100.0% - Test: 36.0%
Época 160 - Train: 100.0% - Test: 37.0%
Época 170 - Train: 100.0% - Test: 37.0%
Época 180 - Train: 100.0% - Test: 35.0%
Época 190 - Train: 100.0% - Test: 35.0%
Época 200 - Train: 100.0% - Test: 34.0%
Época 210 - Train: 100.0% - Test: 37.0%
Época 220 - Train: 100.0% - Test: 37.0%
Época 230 - Train: 100.0% - Test: 34.0%
Época 240 - Train: 100.0% - Test: 37.0%
Época 2

## 4. Otimização e Regularização: Combatendo o Overfitting

Durante os experimentos iniciais com a Rede Neural, observamos um fenômeno crítico: a acurácia de treino atingia rapidamente **100%**, enquanto a acurácia de teste estagnava em torno de **30-35%**. Isso caracteriza um **Overfitting Severo**, onde o modelo com milhões de parâmetros "memoriza" o ruído dos dados de treino, mas falha em generalizar.

Para solucionar isso e demonstrar técnicas avançadas de Deep Learning "from scratch", implementamos:

1.  **Inverted Dropout:** Durante o treino, neurônios aleatórios são "desligados" com probabilidade $1 - p$ (implementado na classe `NeuralNetwork` com `keep_prob=0.6`). Isso força a rede a aprender representações distribuídas e redundantes, impedindo que neurônios específicos se tornem excessivamente dependentes de features locais.
    
2.  **Data Augmentation (On-the-fly):** Implementamos uma função `_augment_batch` que aplica espelhamento horizontal (Horizontal Flip) aleatório nas imagens durante cada passo do gradiente. Isso efetivamente dobra o tamanho do dataset e ensina ao modelo que um "carro virado para a esquerda" ainda é um carro (invariância).

3.  **L2 Regularization (Weight Decay):** Penalização dos pesos grandes na função de custo para reduzir a complexidade do modelo.

### Resultado da Otimização
Com essas alterações, esperamos reduzir a diferença entre as curvas de treino e teste (Generalization Gap), trocando um pouco da acurácia de treino por uma performance real mais robusta no teste.

In [None]:
# 1. O modelo já contém os melhores pesos encontrados durante o treino
print("Salvando o melhor modelo encontrado...")
model.save_model("meu_modelo_cifar10.pkl")

# Avalia nos dados de teste
acc = modelo_carregado.evaluate(test_x.T, test_y.T)
print(f"Acurácia do modelo carregado: {acc:.2f}%")

Salvando o melhor modelo encontrado...
Modelo salvo com sucesso em meu_modelo_cifar10.pkl

Verificando carregamento...
Modelo carregado. Arquitetura: [3072, 256, 128, 10]
Acurácia do modelo carregado: 40.00%


## 5. Resultados e Comparação: KNN vs ANN

### Performance
O modelo de Rede Neural (MLP) atingiu uma acurácia ligeiramente superior ao KNN nos dados de teste. Entretanto o modelo ainda sofre bastante com overfitting, sempre atingindo 100% de acuracia com os dados de apredizado.

| Modelo | Acurácia (Teste) | Complexidade de Inferência |
| :--- | :--- | :--- |
| KNN (K=7) | ~29% | $O(N \cdot D)$ (Lento/Custoso) |
| **ANN (MLP)** | **~38%+** | **$O(1)$ (Rápido/Paramétrico)** |




## 6. Conclusão Final e Próximos Passos

### Análise de Resultados
Utilizando a totalidade do dataset CIFAR-10 (50.000 imagens) e técnicas de regularização (Dropout, L2), atingimos uma acurácia de **38%**. Embora este resultado seja superior ao baseline (KNN: ~29%), ele expõe as limitações intrínsecas das Redes Neurais Totalmente Conectadas (MLPs) para dados visuais:
1.  **Perda de Informação Espacial:** Ao "achatar" a imagem 32x32 em um vetor de 3072, destruímos a correlação espacial entre pixels vizinhos.
2.  **Ineficiência de Parâmetros:** Para tentar recuperar essa informação, a rede exige milhões de parâmetros, tornando a otimização de hiperparâmetros (Learning Rate, arquitetura, decaimento) uma tarefa de altíssima complexidade computacional e retornos decrescentes.

### Decisão Estratégica: Transfer Learning
Na indústria, a eficiência do desenvolvimento é crucial. Insistir na micro-otimização de uma MLP para classificação de imagens complexas não é a melhor alocação de recursos.

A abordagem padrão de mercado (SOTA - State of the Art) para este problema é a utilização de **Redes Neurais Convolucionais (CNNs)**, que possuem *indutivo bias* para invariância espacial (translação, rotação).

**Próximo Projeto:**
Para superar a barreira dos 38% e atingir níveis de performance de produção (>90%), o próximo passo lógico não é refinar este modelo, mas sim adotar **Transfer Learning**. Utilizaremos uma arquitetura **ResNet-18** (pré-treinada na ImageNet), aproveitando a extração de features robustas já aprendidas para focar apenas no *fine-tuning* para as classes do CIFAR-10.