<a href="https://colab.research.google.com/github/gustavotarginovalente/Redes-Neurais-Artificiais-para-Simpatizantes/blob/main/Oficina_de_Redes_Neurais_12_11_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. História das Redes Neurais - Origens (1940-1950)

O que é: Os primeiros modelos matemáticos inspirados no cérebro humano.

Explicação:

    1943: Warren McCulloch e Walter Pitts criaram o primeiro modelo matemático de neurônio, baseado no funcionamento dos neurônios biológicos

    Características: Modelo binário simples que usava operações lógicas (AND, OR, NOT)

    Limitação: Não podia aprender - os pesos eram fixos

    Importância: Estabeleceu a base teórica provando que redes neurais poderiam, em teoria, computar qualquer função

In [None]:
# Inspiração biológica - o neurônio artificial
class NeuronioMcCullochPitts:
    """
    Modelo pioneiro (1943) baseado no neurônio biológico
    McCulloch e Pitts criaram o primeiro modelo matemático de neurônio
    """
    def __init__(self):
        # Lista para armazenar as entradas do neurônio
        self.entradas = []
        # Lista para armazenar os pesos das conexões
        self.pesos = []
        # Valor de limiar para ativação
        self.limiar = 0

    def ativar(self, entradas, pesos, limiar):
        # Calcula a soma ponderada das entradas
        soma = sum(e * p for e, p in zip(entradas, pesos))
        # A função de ativação: retorna 1 se a soma for maior ou igual ao limiar, 0 caso contrário
        return 1 if soma >= limiar else 0


# DEMONSTRAÇÃO PRÁTICA DO NEURÔNIO McCULLOCH-PITTS PARA FUNÇÃO "AND" E "OR"

print("=== DEMONSTRAÇÃO DO NEURÔNIO McCULLOCH-PITTS (1943) ===")
print("Modelo matemático pioneiro baseado no neurônio biológico")
print("-" * 65)

# Criar instância do neurônio
neuronio = NeuronioMcCullochPitts()

# Todas as combinações possíveis
combinacoes = [
        [0, 0],
        [0, 1],
        [1, 0],
        [1, 1]
    ]


# Configuração para aplicação da função AND (E)

print("\n1. SIMULANDO O NEURÔNIO PARA A FUNÇÃO AND (E):")
print("-" * 40)

pesos_and = [1, 1]      # Pesos iguais para ambas entradas
limiar_and = 2          # Limiar = 2

for entradas in combinacoes:
  saida = neuronio.ativar(entradas, pesos_and, limiar_and)
  print(f" Entradas={entradas}, Saída={saida}")

# Configuração para aplicação da função OR (OU)
print("\n2. SIMULANDO O NEURÔNIO PARA A FUNÇÃO OR (OU):")
print("-" * 40)
pesos_or = [1, 1]      # Pesos iguais para ambas entradas
limiar_or = 1          # Limiar = 1

for entradas in combinacoes:
  saida = neuronio.ativar(entradas, pesos_or, limiar_or)
  print(f" Entradas={entradas}, Saída={saida}")

print("\n3. CARACTERÍSTICAS DO MODELO McCULLOCH-PITTS:")
print("-" *50)
print(" Primeiro modelo matemático de neurônio artificial (1943)")
print(" Inspirado no funcionamento do cérebro biológico")
print(" Operação binária: ativa (1) ou não ativa (0)")
print(" Usa soma ponderada e função degrau. Obs.: Não tem o Bias")
print(" Base para modelos mais complexos como o Perceptron")

# Perceptron (1958)

O que é: É um neurônio artificial capaz de realizar aprendizado para redes neurais.

Explicação:

    Criado por: Frank Rosenblatt

    Funcionamento: Modelo de uma única camada que podia aprender pesos automaticamente

    Aplicação: Classificação de padrões linearmente separáveis

    Limitação: Minsky e Papert provaram em 1969 que não podia resolver problemas não-lineares como XOR

    Legado: Introduziu o conceito de aprendizado por ajuste de pesos

In [None]:
# Moldeo Perceptron - Sem aprendizado de máquina
class ModeloPerceptron:
    """
    Perceptron simples para classificação binária - Sem aprendizado de máquina
    """
    def __init__(self):
        # Lista para armazenar as entradas do neurônio
        self.entradas = []
        # Lista para armazenar os pesos das conexões
        self.pesos = []
        # Valor de limiar para ativação
        self.limiar = 0
        #Valor do Bias
        self.bias = 0

    def ativar(self, entradas, pesos, limiar, bias):
        # Calcula a soma ponderada das entradas
        soma = sum(e * p for e, p in zip(entradas, pesos)) + bias
        # A função de ativação: retorna 1 se a soma for maior ou igual ao limiar, 0 caso contrário
        return 1 if soma >= limiar else 0

# DEMONSTRAÇÃO PRÁTICA DO PERCEPTRON PARA FUNÇÃO "AND" E "OR"

print("=== DEMONSTRAÇÃO DO NEURÔNIO PERCEPTRON ===")
print("-" * 65)

# Criar instância do neurônio
neuronio = ModeloPerceptron()

# Todas as combinações possíveis
combinacoes = [
        [0, 0],
        [0, 1],
        [1, 0],
        [1, 1]
    ]


# Configuração para aplicação da função AND (E)

print("\n1. SIMULANDO O NEURÔNIO PERCETRON PARA A FUNÇÃO AND (E):")
print("-" * 40)

pesos_and = [1, 1]      # Pesos iguais para ambas entradas
limiar_and = 0          # Limiar = 0
bias_and = -2           # Bias

for entradas in combinacoes:
  saida = neuronio.ativar(entradas, pesos_and, limiar_and, bias_and)
  print(f" Entradas={entradas}, Saída={saida}")

print("\n2. SIMULANDO O NEURÔNIO PERCETRON PARA A FUNÇÃO OR (OU):")
print("-" * 40)
print("E o resultado?")
print("Esse é com você, fica como dever de casa!! :)")


In [None]:
# Moldeo Perceptron - Com aprendizado de máquina
import numpy as np

class Perceptron:
    """Perceptron simples para classificação binária - Com aprendizado de máquina"""

    def __init__(self, taxa_aprendizado, n_entradas=2):
        # Inicializa pesos e viés com zeros
        self.pesos = np.zeros(n_entradas)      # Pesos das conexões
        self.viés = 0.0                        # Viés (bias)
        self.taxa_aprendizado = taxa_aprendizado  # Taxa de aprendizado

    def prever(self, entradas):
        """Faz previsão para uma entrada"""
        # Calcula soma ponderada: w1*x1 + w2*x2 + ... + wn*xn + viés
        soma = np.dot(entradas, self.pesos) + self.viés
        # Função de ativação: retorna 1 se soma >= 0, senão 0
        return 1 if soma >= 0 else 0

    def treinar(self, X, y, epocas=100):
        """Treina o perceptron"""
        print("Iniciando treinamento do Perceptron...")

        for epoca in range(epocas):
            erro_total = 0
            print(f"\nÉpoca {epoca}:")

            for i in range(len(X)):
                # Faz previsão para exemplo atual
                previsao = self.prever(X[i])
                # Calcula erro
                erro = y[i] - previsao
                erro_total += abs(erro)

                print(f"Entrada: {X[i]} | Pesos: {self.pesos} | Viés: {self.viés} | Erro: {erro_total} | Previsão: {previsao} | Esperado: {y[i]}")

                # Atualiza pesos e viés
                self.pesos += self.taxa_aprendizado * erro * X[i]
                self.viés += self.taxa_aprendizado * erro

            # Print de progresso
            if epoca % 10 == 0:
                print(f"Época {epoca}: Erro total = {erro_total}")

            # Para se convergiu
            if erro_total == 0:
                print("-" *100)

                break

        print("Treinamento concluído, uhu!")
        print(f"Convergiu na época {epoca}!")
        print(f"Pesos finais: {self.pesos}")
        print(f"Viés final: {self.viés}")

# Exemplo de uso
print("=== EXEMPLO PERCEPTRON - PORTA LÓGICA AND ===")

# Dados de treino: porta AND
X = np.array([
    [0, 0],  # Entrada 1
    [0, 1],  # Entrada 2
    [1, 0],  # Entrada 3
    [1, 1]   # Entrada 4
])
y = np.array([0, 0, 0, 1])  # Saídas esperadas

# Cria e treina perceptron
perceptron = Perceptron(taxa_aprendizado=0.01)
perceptron.treinar(X, y, epocas=50)

# Testa o modelo
print("\n=== TESTE DO MODELO ===")
for i in range(len(X)):
    previsao = perceptron.prever(X[i])
    print(f"Entrada: {X[i]} → Previsão: {previsao} (Esperado: {y[i]})")

print("-" *100)
print("\n1. CARACTERÍSTICAS DO MODELO:")
print("Introduzio o conceito de ajuste dos pesos possibilitando o aprendizado de máquina")
print("Porém, é limitado para resolver problemas não-lineares como XOR")


# Inverno das Redes Neurais (1969-1980)
 - Este período não teve código significativo devido às limitações identificadas
 - Marvin Minsky provou que perceptrons simples não podiam resolver problemas
 não linearmente separáveis como o XOR

# Renascimento (1980-1990)
    Backpropagation: Algoritmo para treinar redes multicamadas eficientemente

    MLP (Multi-Layer Perceptron): Redes com camadas ocultas que podiam resolver problemas não-lineares

    Avanços:

        Solução do problema XOR

        Aplicações práticas em reconhecimento de padrões

        Desenvolvimento de arquiteturas mais complexas

In [None]:
import math
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
import time

class MLPBackpropagation:
    """
    Multi-Layer Perceptron com Backpropagation - Implementação Histórica
    Este algoritmo resolveu o problema XOR e revitalizou as redes neurais nos anos 80
    """

    def __init__(self, arquitetura=[2, 2, 1], taxa_aprendizado=0.5):
        """
        Inicializa a MLP com backpropagation

        Args:
            arquitetura (list): Número de neurônios em cada camada [entrada, oculta, saída]
            taxa_aprendizado (float): Taxa de aprendizado para atualização dos pesos
        """
        print(" Inicializando MLP com Backpropagation...")
        print(f"   Arquitetura: {arquitetura}")
        print(f"   Taxa de aprendizado: {taxa_aprendizado}")

        self.arquitetura = arquitetura
        self.taxa_aprendizado = taxa_aprendizado

        # Inicializa pesos e vieses aleatoriamente
        self.pesos = []
        self.vieses = []
        self.inicializar_pesos()

        # Para acompanhamento do treinamento
        self.erro_historico = []
        self.epoca_historico = []

    def inicializar_pesos(self):
        """Inicializa pesos e vieses com valores aleatórios pequenos"""
        print("  Inicializando pesos e vieses...")

        for i in range(len(self.arquitetura) - 1):
            # Pesos: conectam camada i para camada i+1
            # Valores entre -1 e 1 para facilitar convergência
            peso_camada = np.random.uniform(
                -1, 1,
                (self.arquitetura[i], self.arquitetura[i + 1])
            )
            vies_camada = np.random.uniform(-1, 1, (1, self.arquitetura[i + 1]))

            self.pesos.append(peso_camada)
            self.vieses.append(vies_camada)

            print(f"   Camada {i}→{i+1}: {self.arquitetura[i]} → {self.arquitetura[i+1]} "
                  f"({peso_camada.shape[0]}x{peso_camada.shape[1]} pesos)")

    def sigmoid(self, x):
        """
        Função de ativação sigmoid: 1 / (1 + e^(-x))

        Características:
        - Saída entre 0 e 1 (boa para probabilidades)
        - Suave e diferenciável (necessário para backpropagation)
        - Introduz não-linearidade na rede
        """
        # Clip para evitar overflow em exponenciais grandes
        x = np.clip(x, -250, 250)
        return 1 / (1 + np.exp(-x))

    def derivada_sigmoid(self, x):
        """
        Derivada da função sigmoid: sigmoid(x) * (1 - sigmoid(x))

        No backpropagation, usamos a derivada para:
        1. Calcular o gradiente do erro
        2. Determinar a direção de atualização dos pesos
        3. Ajustar a magnitude do passo de aprendizado
        """
        return x * (1 - x)

    def forward(self, X):
        """
        Propagação forward: calcula saída da rede para uma entrada X

        Processo:
        1. Entrada → Camada oculta: soma ponderada + ativação
        2. Camada oculta → Saída: soma ponderada + ativação
        3. Retorna saída final e armazena ativações para backpropagation
        """
        self.ativacoes = [X]  # Camada de entrada
        self.somas_ponderadas = []  # Valores antes da ativação (z)

        # Propaga através de cada camada
        for i in range(len(self.pesos)):
            # Calcula soma ponderada: z = W·A + b
            z = np.dot(self.ativacoes[-1], self.pesos[i]) + self.vieses[i]
            self.somas_ponderadas.append(z)

            # Aplica função de ativação
            a = self.sigmoid(z)
            self.ativacoes.append(a)

        return self.ativacoes[-1]

    def backward(self, X, y, saida):
        """
        Backpropagation: calcula gradientes e atualiza pesos

        Este é o algoritmo revolucionário que:
        - Propaga o erro de volta através da rede
        - Calcula como cada peso contribui para o erro total
        - Atualiza pesos para minimizar o erro

        Processo:
        1. Calcula erro na camada de saída
        2. Propaga erro para camadas anteriores
        3. Calcula gradientes para cada peso
        4. Atualiza pesos usando gradiente descendente
        """
        # Listas para armazenar gradientes
        gradientes_pesos = [np.zeros_like(w) for w in self.pesos]
        gradientes_vieses = [np.zeros_like(b) for b in self.vieses]

        # === PASSO 1: Calcula erro na camada de saída ===
        # Erro = diferença entre saída esperada e saída calculada
        erro = saida - y

        # Delta da camada de saída = erro × derivada da ativação
        delta = erro * self.derivada_sigmoid(saida)

        # === PASSO 2: Backpropagation através das camadas ===
        # Começa da última camada e vai até a primeira
        for i in range(len(self.pesos) - 1, -1, -1):
            # Gradiente dos pesos = ativação_anterior · delta_atual
            gradientes_pesos[i] = np.dot(self.ativacoes[i].T, delta)

            # Gradiente dos vieses = delta_atual (soma sobre batch)
            gradientes_vieses[i] = np.sum(delta, axis=0, keepdims=True)

            # Se não é a primeira camada, propaga o erro para trás
            if i > 0:
                # Delta da camada anterior = delta_atual · pesos^T × derivada_ativacao
                delta = np.dot(delta, self.pesos[i].T) * self.derivada_sigmoid(self.ativacoes[i])

        # === PASSO 3: Atualiza pesos e vieses ===
        for i in range(len(self.pesos)):
            self.pesos[i] -= self.taxa_aprendizado * gradientes_pesos[i]
            self.vieses[i] -= self.taxa_aprendizado * gradientes_vieses[i]

        return np.mean(erro ** 2)  # Retorna erro quadrático médio

    def treinar(self, X, y, epocas=10000, tolerancia=1e-6, verbose=True):
        """
        Treina a rede neural usando backpropagation

        Args:
            X (array): Dados de entrada
            y (array): Saídas esperadas
            epocas (int): Número máximo de épocas
            tolerancia (float): Tolerância para convergência
            verbose (bool): Se deve imprimir progresso
        """
        print(f" Iniciando treinamento por {epocas} épocas...")
        print(f"   Tolerância: {tolerancia}")

        inicio_tempo = time.time()

        for epoca in range(epocas):
            # Forward pass: calcula saída
            saida = self.forward(X)

            # Backward pass: atualiza pesos e calcula erro
            erro = self.backward(X, y, saida)

            # Armazena histórico
            self.erro_historico.append(erro)
            self.epoca_historico.append(epoca)

            # Verifica convergência
            if erro < tolerancia:
                if verbose:
                    print(f" Convergiu na época {epoca}! Erro: {erro:.8f}")
                break

            # Print de progresso
            if verbose and epoca % 1000 == 0:
                print(f"  Época {epoca:5d} | Erro: {erro:.8f}")

        tempo_total = time.time() - inicio_tempo
        print(f" Treinamento concluído em {tempo_total:.2f} segundos")
        print(f"   Épocas: {epoca + 1}, Erro final: {erro:.8f}")

    def prever(self, X):
        """Faz previsões para novos dados"""
        return self.forward(X)

    def avaliar(self, X, y):
        """Avalia a performance do modelo"""
        previsoes = self.prever(X)
        erro = np.mean((previsoes - y) ** 2)
        acuracia = np.mean((previsoes > 0.5) == (y > 0.5))

        print(f" Avaliação do modelo:")
        print(f"   Erro MSE: {erro:.6f}")
        print(f"   Acurácia: {acuracia:.4f}")

        return {'erro': erro, 'acuracia': acuracia}

    def visualizar_treinamento(self):
        """Visualiza a curva de aprendizado"""
        plt.figure(figsize=(12, 4))

        plt.subplot(1, 2, 1)
        plt.plot(self.epoca_historico, self.erro_historico, 'b-', linewidth=2)
        plt.title('Curva de Aprendizado - Backpropagation')
        plt.xlabel('Época')
        plt.ylabel('Erro (MSE)')
        plt.yscale('log')
        plt.grid(True, alpha=0.3)

        plt.subplot(1, 2, 2)
        # Últimas 100 épocas para ver detalhes da convergência
        if len(self.erro_historico) > 100:
            ultimas_100 = self.erro_historico[-100:]
            epocas_100 = self.epoca_historico[-100:]
            plt.plot(epocas_100, ultimas_100, 'r-', linewidth=2)
            plt.title('Convergência Final (últimas 100 épocas)')
            plt.xlabel('Época')
            plt.ylabel('Erro (MSE)')
            plt.yscale('log')
            plt.grid(True, alpha=0.3)

        plt.tight_layout()
        plt.show()


# EXEMPLO 1: PROBLEMA XOR - O PROBLEMA QUE REVOLUCIONOU AS REDES NEURAIS



print(" EXEMPLO 1: PROBLEMA XOR - MARCO HISTÓRICO")


print("""
PROBLEMA XOR (EXCLUSIVE OR):
- O perceptron simples NÃO consegue resolver XOR
- Minsky & Papert provaram esta limitação em 1969
- Isto causou o 'inverno das redes neurais'
- Backpropagation em MLPs RESOLVEU este problema!
""")

# Dados do problema XOR
X_xor = np.array([
    [0, 0],  # Entrada 1
    [0, 1],  # Entrada 2
    [1, 0],  # Entrada 3
    [1, 1]   # Entrada 4
])
y_xor = np.array([[0], [1], [1], [0]])  # XOR: 1 quando entradas são diferentes

print(" Dados de treino (XOR):")
for i in range(len(X_xor)):
    print(f"   {X_xor[i]} → {y_xor[i][0]}")

# Cria MLP com arquitetura mínima para resolver XOR
# [2, 2, 1]: 2 entradas, 2 neurônios ocultos, 1 saída
mlp_xor = MLPBackpropagation(arquitetura=[2, 2, 1], taxa_aprendizado=0.5)

print("\n EXPLICAÇÃO DA ARQUITETURA [2, 2, 1]:")
print("   - 2 entradas: x1, x2")
print("   - 2 neurônios ocultos: aprendem features não-lineares")
print("   - 1 saída: resultado do XOR")
print("   - A camada oculta permite combinações não-lineares!")

# Treina a rede
mlp_xor.treinar(X_xor, y_xor, epocas=10000, tolerancia=1e-4)

# Testa o modelo
print("\n TESTE DO MODELO XOR:")
for i in range(len(X_xor)):
    previsao = mlp_xor.prever(X_xor[i:i+1])[0][0]
    esperado = y_xor[i][0]
    status =  "Correto" if abs(previsao - esperado) < 0.1 else "Incorreto"
    print(f"   {status} Entrada: {X_xor[i]} → Previsto: {previsao:.4f} (Esperado: {esperado})")

# Visualiza aprendizado
mlp_xor.visualizar_treinamento()


# EXEMPLO 2: PROBLEMA DE CLASSIFICAÇÃO NÃO LINEAR



print(" EXEMPLO 2: CLASSIFICAÇÃO NÃO LINEAR COMPLEXA")


# Cria dataset não linearmente separável
X_nao_linear, y_nao_linear = make_classification(
    n_samples=200,
    n_features=2,
    n_redundant=0,
    n_informative=2,
    n_clusters_per_class=1,
    flip_y=0.1,
    random_state=42
)
y_nao_linear = y_nao_linear.reshape(-1, 1)

print(f" Dataset não linear: {X_nao_linear.shape}")
print(f" Classes: {np.unique(y_nao_linear)}")

# Cria MLP com arquitetura maior
mlp_nao_linear = MLPBackpropagation(
    arquitetura=[2, 8, 4, 1],  # Mais camadas para problema complexo
    taxa_aprendizado=0.1
)

# Treina
mlp_nao_linear.treinar(X_nao_linear, y_nao_linear, epocas=5000)

# Avalia
resultados = mlp_nao_linear.avaliar(X_nao_linear, y_nao_linear)

# Visualização da decisão
plt.figure(figsize=(15, 5))

# Plot 1: Dados originais
plt.subplot(1, 3, 1)
plt.scatter(X_nao_linear[:, 0], X_nao_linear[:, 1], c=y_nao_linear.flatten(),
           cmap='viridis', alpha=0.7)
plt.title('Dados Originais - Não Linearmente Separáveis')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.colorbar(label='Classe')
plt.grid(True, alpha=0.3)

# Plot 2: Superfície de decisão
plt.subplot(1, 3, 2)
xx, yy = np.meshgrid(
    np.linspace(X_nao_linear[:, 0].min()-0.5, X_nao_linear[:, 0].max()+0.5, 100),
    np.linspace(X_nao_linear[:, 1].min()-0.5, X_nao_linear[:, 1].max()+0.5, 100)
)
Z = mlp_nao_linear.prever(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3, cmap='viridis')
plt.scatter(X_nao_linear[:, 0], X_nao_linear[:, 1], c=y_nao_linear.flatten(),
           cmap='viridis', alpha=0.7)
plt.title('Superfície de Decisão da MLP')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.colorbar(label='Probabilidade Classe 1')
plt.grid(True, alpha=0.3)

# Plot 3: Curva de aprendizado
plt.subplot(1, 3, 3)
plt.plot(mlp_nao_linear.epoca_historico, mlp_nao_linear.erro_historico, 'r-', linewidth=2)
plt.title('Curva de Aprendizado')
plt.xlabel('Época')
plt.ylabel('Erro (MSE)')
plt.yscale('log')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# EXEMPLO 3: COMPARAÇÃO COM PERCEPTRON SIMPLES



print(" EXEMPLO 3: COMPARAÇÃO MLP vs PERCEPTRON SIMPLES")


class PerceptronSimples:
    """Perceptron simples (sem camadas ocultas) para comparação"""

    def __init__(self, taxa_aprendizado=0.1):
        self.taxa_aprendizado = taxa_aprendizado
        self.pesos = None
        self.erro_historico = []

    def treinar(self, X, y, epocas=1000):
        n_amostras, n_features = X.shape
        self.pesos = np.zeros(n_features)
        self.vies = 0

        for epoca in range(epocas):
            erro_total = 0
            for i in range(n_amostras):
                # Forward pass
                saida = self.prever(X[i])
                erro = y[i] - saida
                erro_total += abs(erro)

                # Atualização de pesos (regra do perceptron)
                self.pesos += self.taxa_aprendizado * erro * X[i]
                self.vies += self.taxa_aprendizado * erro

            self.erro_historico.append(erro_total)

            if erro_total == 0:
                break

    def prever(self, X):
        # Função degrau
        return 1 if np.dot(X, self.pesos) + self.vies >= 0 else 0

# Testa ambos no problema XOR
print(" PERCEPTRON SIMPLES vs MLP NO PROBLEMA XOR:")

# Perceptron simples
perceptron = PerceptronSimples(taxa_aprendizado=0.1)
perceptron.treinar(X_xor, y_xor.flatten(), epocas=1000)

print("\n RESULTADOS PERCEPTRON SIMPLES:")
for i in range(len(X_xor)):
    previsao = perceptron.prever(X_xor[i])
    esperado = y_xor[i][0]
    status =  "Correto" if previsao == esperado else "Incorreto"
    print(f"   {status} Entrada: {X_xor[i]} → Previsto: {previsao} (Esperado: {esperado})")

print("\n RESULTADOS MLP COM BACKPROPAGATION:")
for i in range(len(X_xor)):
    previsao = mlp_xor.prever(X_xor[i:i+1])[0][0]
    esperado = y_xor[i][0]
    status =  "Correto" if abs(previsao - esperado) < 0.1 else "Incorreto"
    print(f"   {status} Entrada: {X_xor[i]} → Previsto: {previsao:.4f} (Esperado: {esperado})")

print(f"\n CONCLUSÃO:")
print(f"   • Perceptron simples: NÃO resolve XOR (limitação teórica)")
print(f"   • MLP com backpropagation: RESOLVE XOR!")
print(f"   • Backpropagation permitiu redes com múltiplas camadas")
print(f"   • Isto revitalizou a pesquisa em redes neurais nos anos 80")

# =============================================================================
# EXEMPLO 4: ANÁLISE DETALHADA DO BACKPROPAGATION
# =============================================================================


print(" EXEMPLO 4: ENTENDENDO O BACKPROPAGATION PASSO A PASSO")


print("""
 COMO O BACKPROPAGATION FUNCIONA:

1. FORWARD PASS:
   • Dados fluem da entrada para a saída
   • Cada neurônio calcula: z = ∑(w·x) + b
   • Aplica função de ativação: a = σ(z)

2. CALCULA ERRO:
   • Compara saída esperada com saída calculada
   • Erro = saida_esperada - saida_calculada

3. BACKWARD PASS (REVOLUCIONÁRIO):
   • Propaga o erro de VOLTA pela rede
   • Calcula como cada peso contribuiu para o erro
   • Usa a REGRA DA CADEIA do cálculo diferencial

4. ATUALIZA PESOS:
   • Ajusta pesos na direção que reduz o erro
   • novo_peso = peso_antigo - η × ∂erro/∂peso

 POR QUE FOI TÃO IMPORTANTE:
• Resolveu o problema do vanishing gradient (parcialmente)
• Permitiu treinar redes com múltiplas camadas
• Provou que redes neurais podem aprender funções complexas
• Base para todo o Deep Learning moderno!
""")

# Demonstração visual do processo
mlp_demo = MLPBackpropagation(arquitetura=[2, 2, 1], taxa_aprendizado=0.5)

print("\n DEMONSTRAÇÃO DO PROCESSO:")
print("   Inicializando com pesos específicos para demonstração...")

# Pesos específicos para demonstração
mlp_demo.pesos = [
    np.array([[0.5, -0.5], [0.5, -0.5]]),  # Entrada → Oculta
    np.array([[1.0], [-1.0]])              # Oculta → Saída
]
mlp_demo.vieses = [
    np.array([[0.0, 0.0]]),  # Viés camada oculta
    np.array([[0.0]])        # Viés camada saída
]

# Forward pass para uma entrada
entrada_demo = np.array([[0, 1]])  # XOR case
print(f"\n   Entrada: {entrada_demo[0]}")

saida = mlp_demo.forward(entrada_demo)
print(f"   Saída: {saida[0][0]:.4f}")

print(f"\n   Ativações camada oculta: {mlp_demo.ativacoes[1][0]}")
print(f"   Somas ponderadas oculta: {mlp_demo.somas_ponderadas[0][0]}")

print(f"\n Backpropagation em ação:")
print("   • Calcula gradientes para cada peso")
print("   • Atualiza pesos para reduzir erro")
print("   • Repete até convergência")


# RESUMO HISTÓRICO E IMPORTÂNCIA



print(" IMPORTÂNCIA HISTÓRICA DO BACKPROPAGATION")


importancia = {
    "1986": "Rumelhart, Hinton & Williams popularizam backpropagation",
    "Problema XOR": "Perceptrons simples não podiam resolver - MLPs com backpropagation PODIAM!",
    "Inverno das RNAs": "Período de ceticismo (1970-1980) sobre redes neurais",
    "Renascimento": "Backpropagation revitalizou o campo nos anos 80",
    "Deep Learning": "Backpropagation é a base para treinar redes profundas",
    "Limitações": "Ainda sofre com vanishing gradient em redes muito profundas",
    "Evolução": "Leu ao desenvolvimento de LSTM, ResNet, e outras arquiteturas modernas"
}

for ano, evento in importancia.items():
    print(f"    {ano}: {evento}")

print(f"\n LEGADO DO BACKPROPAGATION:")
print(f"   • Provou que redes neurais podem aprender representações hierárquicas")
print(f"   • Permitiu resolver problemas não linearmente separáveis")
print(f"   • Estabeleceu a base matemática para o Deep Learning")
print(f"   • Continua sendo o algoritmo fundamental para treinar redes neurais")

print(f"\n Backpropagation foi realmente o algoritmo que:")
print(f"   'Ressuscitou as redes neurais e abriu caminho para o Deep Learning moderno!'")



# 2. Tipos de Redes Neurais

# 2.1 Redes Feedforward (MLP)

O que é: O tipo mais básico de rede neural artificial.

Explicação:

    Arquitetura: Conexões unidirecionais da entrada para a saída

    Camadas:

        Entrada: Recebe os dados

        Ocultas: Processam as informações

        Saída: Produz o resultado

    Aplicações:

        Classificação e regressão

        Aproximação de funções

        Análise de dados

    Vantagens: Simples de implementar e entender

    Limitações: Não mantém memória de entradas anteriores

In [None]:
import numpy as np
import matplotlib.pyplot as plt

class MLP:
    """Rede Neural Multi-Layer Perceptron"""

    def __init__(self, arquitetura=[2, 4, 1]):
        # arquitetura: [entrada, oculta, saída]
        self.arquitetura = arquitetura
        self.inicializar_pesos()
        print(f"MLP criada com arquitetura: {arquitetura}")

    def inicializar_pesos(self):
        """Inicializa pesos aleatórios"""
        self.pesos = []
        self.vieses = []

        for i in range(len(self.arquitetura) - 1):
            # Inicializa pesos com valores pequenos aleatórios
            peso_camada = np.random.randn(
                self.arquitetura[i],
                self.arquitetura[i+1]
            ) * 0.1
            vies_camada = np.zeros((1, self.arquitetura[i+1]))

            self.pesos.append(peso_camada)
            self.vieses.append(vies_camada)

    def sigmoid(self, x):
        """Função de ativação sigmoid"""
        return 1 / (1 + np.exp(-np.clip(x, -250, 250)))

    def derivada_sigmoid(self, x):
        """Derivada da sigmoid"""
        return x * (1 - x)

    def forward(self, X):
        """Propagação forward"""
        self.ativacoes = [X]  # Camada de entrada

        # Propaga através das camadas
        for i in range(len(self.pesos)):
            z = np.dot(self.ativacoes[-1], self.pesos[i]) + self.vieses[i]
            a = self.sigmoid(z)
            self.ativacoes.append(a)

        return self.ativacoes[-1]

    def backward(self, X, y, saida):
        """Backpropagation - calcula gradientes"""
        m = X.shape[0]

        # Erro na camada de saída
        erro = saida - y
        delta = erro * self.derivada_sigmoid(saida)

        gradientes_pesos = []
        gradientes_vies = []

        # Calcula gradientes da última para a primeira camada
        for i in range(len(self.pesos)-1, -1, -1):
            grad_peso = np.dot(self.ativacoes[i].T, delta) / m
            grad_vies = np.sum(delta, axis=0, keepdims=True) / m

            gradientes_pesos.append(grad_peso)
            gradientes_vies.append(grad_vies)

            # Propaga erro para camada anterior
            if i > 0:
                delta = np.dot(delta, self.pesos[i].T) * self.derivada_sigmoid(self.ativacoes[i])

        # Inverte gradientes (pois calculamos de trás pra frente)
        return gradientes_pesos[::-1], gradientes_vies[::-1]

    def treinar(self, X, y, epocas=1000, taxa_aprendizado=0.1):
        """Treina a rede neural"""
        print(f"Iniciando treinamento por {epocas} épocas...")
        historico_loss = []

        for epoca in range(epocas):
            # Forward pass
            saida = self.forward(X)

            # Calcula loss
            loss = np.mean((saida - y) ** 2)
            historico_loss.append(loss)

            # Backward pass
            grad_pesos, grad_vies = self.backward(X, y, saida)

            # Atualiza pesos
            for i in range(len(self.pesos)):
                self.pesos[i] -= taxa_aprendizado * grad_pesos[i]
                self.vieses[i] -= taxa_aprendizado * grad_vies[i]

            # Print de progresso
            if epoca % 200 == 0:
                print(f"Época {epoca}: Loss = {loss:.6f}")

        print(f"Treinamento concluído! Loss final: {loss:.6f}")
        return historico_loss

# Exemplo: Problema XOR (não linearmente separável)
print("=== EXEMPLO MLP - PROBLEMA XOR ===")

# Dados XOR
X_xor = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y_xor = np.array([[0], [1], [1], [0]])  # XOR: 1 quando as entradas são diferentes

print("Dados de treino (XOR):")
for i in range(len(X_xor)):
    print(f"  {X_xor[i]} → {y_xor[i][0]}")

# Cria e treina MLP
mlp = MLP(arquitetura=[2, 4, 1])  # 2 entradas, 4 neurônios ocultos, 1 saída
historico = mlp.treinar(X_xor, y_xor, epocas=2000, taxa_aprendizado=1)

# Testa o modelo
print("\n=== TESTE DO MODELO ===")
for i in range(len(X_xor)):
    previsao = mlp.forward(X_xor[i:i+1])[0][0]
    print(f"Entrada: {X_xor[i]} → Previsão: {previsao:.4f} (Esperado: {y_xor[i][0]})")

# Plot do histórico de loss
plt.figure(figsize=(10, 4))
plt.plot(historico)
plt.title('Histórico de Loss durante o Treinamento')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.grid(True)
plt.show()



# 2.2 Redes Convolucionais (CNNs)

O que é: Redes especializadas em processar dados com estrutura grid-like (imagens).

Explicação:

    Características únicas:

        Convoluções: Filtros que detectam características locais

        Pooling: Reduz dimensionalidade mantendo características importantes

        Parâmetros compartilhados: O mesmo filtro é aplicado em diferentes posições

    Aplicações:

        Reconhecimento de imagens

        Processamento de vídeo

        Visão computacional

    Vantagens:

        Invariância a translações

        Eficiente com dados espaciais

        Requer menos parâmetros que MLPs

In [None]:
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

print("=== EXEMPLO CNN - CLASSIFICAÇÃO DE IMAGENS ===")

# Carrega dataset CIFAR-10 (imagens coloridas 32x32)
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.cifar10.load_data()

print(f"Shape dos dados de treino: {X_train.shape}")
print(f"Shape dos dados de teste: {X_test.shape}")
print(f"Classes únicas: {np.unique(y_train)}")

# Nomes das classes CIFAR-10
nomes_classes = [
    'Avião', 'Carro', 'Pássaro', 'Gato', 'Cervo',
    'Cachorro', 'Sapo', 'Cavalo', 'Navio', 'Caminhão'
]

# Normaliza pixels para [0, 1]
X_train = X_train.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0

# Mostra algumas imagens
plt.figure(figsize=(10, 4))
for i in range(10):
    plt.subplot(2, 5, i + 1)
    plt.imshow(X_train[i])
    plt.title(nomes_classes[y_train[i][0]])
    plt.axis('off')
plt.suptitle('Exemplos do Dataset CIFAR-10')
plt.show()

# Cria modelo CNN
modelo_cnn = tf.keras.Sequential([
    # Bloco convolucional 1
    tf.keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)),
    tf.keras.layers.MaxPooling2D((2, 2)),

    # Bloco convolucional 2
    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    # Bloco convolucional 3
    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),

    # Camadas densas
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Compila modelo
modelo_cnn.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

print("\n=== RESUMO CNN ===")
modelo_cnn.summary()

# Treina por poucas épocas para demonstração
print("\n=== TREINAMENTO CNN ===")
historico_cnn = modelo_cnn.fit(
    X_train, y_train,
    epochs=5,  # Poucas épocas para demonstração
    batch_size=64,
    validation_split=0.2,
    verbose=1
)

# Avaliação
print("\n=== AVALIAÇÃO ===")
test_loss, test_accuracy = modelo_cnn.evaluate(X_test, y_test, verbose=0)
print(f"Acurácia no teste: {test_accuracy:.4f}")

# Previsões de exemplo
print("\n=== PREVISÕES DE EXEMPLO ===")
indices_exemplo = [0, 1, 2, 3, 4]
previsoes = modelo_cnn.predict(X_test[indices_exemplo])
classes_previstas = np.argmax(previsoes, axis=1)

print("Previsões para 5 primeiras imagens de teste:")
for i, idx in enumerate(indices_exemplo):
    real = nomes_classes[y_test[idx][0]]
    previsto = nomes_classes[classes_previstas[i]]
    confianca = previsoes[i][classes_previstas[i]]
    print(f"  Real: {real:10} → Previsto: {previsto:10} (Confiança: {confianca:.2f})")



# 2.3 Redes Recorrentes (RNNs/LSTMs)

O que é: Redes com loops que permitem manter informação temporal.

Explicação:

    Funcionamento:

        Mantém um "estado oculto" que funciona como memória

        Processa sequências elemento por elemento

    Tipos:

        RNN Simples: Memória de curto prazo

        LSTM (Long Short-Term Memory): Memória de longo e curto prazo com portas

        GRU (Gated Recurrent Unit): Versão simplificada da LSTM

    Aplicações:

        Processamento de linguagem natural

        Análise de séries temporais

        Reconhecimento de fala

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt

class RNNSimples:
    """Implementação simplificada de RNN para séries temporais"""

    def __init__(self, unidades_ocultas, dimensao_entrada):
        # Número de unidades na camada oculta
        self.unidades_ocultas = unidades_ocultas
        # Dimensão dos dados de entrada
        self.dimensao_entrada = dimensao_entrada

        # Inicialização de pesos com valores pequenos
        # W_xh: pesos da entrada para estado oculto (forma: entrada x oculto)
        self.W_xh = np.random.randn(dimensao_entrada, unidades_ocultas) * 0.01
        # W_hh: pesos do estado oculto anterior para estado oculto atual (forma: oculto x oculto)
        self.W_hh = np.random.randn(unidades_ocultas, unidades_ocultas) * 0.01
        # W_hy: pesos do estado oculto para saída (forma: oculto x saída)
        self.W_hy = np.random.randn(unidades_ocultas, dimensao_entrada) * 0.01

        # Inicialização de vieses:
        self.b_h = np.zeros((1, unidades_ocultas))  # Viés do estado oculto
        self.b_y = np.zeros((1, dimensao_entrada))  # Viés da saída

        print(f"RNN criada: {dimensao_entrada} entradas → {unidades_ocultas} unidades ocultas")

    def passo_forward(self, x, h_prev):
        """
        Um passo forward da RNN
        x: entrada no passo atual (forma: 1 x dimensao_entrada)
        h_prev: estado oculto anterior (forma: 1 x unidades_ocultas)
        """
        # Calcula novo estado oculto: h = tanh(W_xh * x + W_hh * h_prev + b_h)
        h = np.tanh(np.dot(x, self.W_xh) + np.dot(h_prev, self.W_hh) + self.b_h)

        # Calcula saída: y = W_hy * h + b_y
        y = np.dot(h, self.W_hy) + self.b_y

        return h, y

    def forward_sequence(self, X):
        """
        Propaga uma sequência completa através da RNN
        X: sequência de entrada (forma: comprimento_sequencia x dimensao_entrada)
        """
        # Inicializa estado oculto com zeros
        h = np.zeros((1, self.unidades_ocultas))
        self.historico_h = [h]  # Armazena histórico de estados ocultos
        saidas = []  # Lista para armazenar saídas

        # Itera através de cada passo de tempo da sequência
        for x in X:
            x = x.reshape(1, -1)  # Garante que x tem shape (1, dimensao_entrada)
            # Calcula novo estado oculto e saída
            h, y = self.passo_forward(x, h)
            self.historico_h.append(h)
            saidas.append(y)

        return np.array(saidas)

# Exemplo de uso da RNN Simples
print("=== EXEMPLO RNN SIMPLES - SÉRIE TEMPORAL SINTÉTICA ===")

# Cria dados sintéticos: sequência senoidal com ruído
comprimento_sequencia = 20
dimensao_entrada = 1

# Gera sequência senoidal
t = np.linspace(0, 4*np.pi, comprimento_sequencia)
X_sequence = np.sin(t).reshape(-1, 1) + np.random.normal(0, 0.1, comprimento_sequencia).reshape(-1, 1)

print(f"Sequência de entrada ({comprimento_sequencia} passos):")
print([f"{x[0]:.3f}" for x in X_sequence])

# Cria e testa RNN
rnn = RNNSimples(unidades_ocultas=10, dimensao_entrada=dimensao_entrada)

# Propaga a sequência
saidas = rnn.forward_sequence(X_sequence)

print(f"\nSaída da RNN ({len(saidas)} passos):")
print([f"{s[0][0]:.3f}" for s in saidas])

# Visualiza estados ocultos
print(f"\nEstados ocultos (forma: {rnn.historico_h[1].shape}):")
print(f"Primeiro estado oculto: {[f'{v:.3f}' for v in rnn.historico_h[1][0]]}")

# Plot dos resultados
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.plot(t, X_sequence, 'bo-', label='Entrada', markersize=4)
plt.plot(t, saidas.reshape(-1), 'ro-', label='Saída RNN', markersize=4)
plt.title('RNN Simples - Entrada vs Saída')
plt.xlabel('Tempo')
plt.ylabel('Valor')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
# Visualiza alguns estados ocultos
estados_plot = np.array([h.flatten() for h in rnn.historico_h[1:6]]).T
for i in range(min(5, rnn.unidades_ocultas)):
    plt.plot(range(5), estados_plot[i], label=f'Neurônio {i+1}')
plt.title('Evolução dos Estados Ocultos\n(Primeiros 5 neurônios)')
plt.xlabel('Passo de Tempo')
plt.ylabel('Valor de Ativação')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

"""
SAÍDA ESPERADA:

=== EXEMPLO RNN SIMPLES - SÉRIE TEMPORAL SINTÉTICA ===
Sequência de entrada (20 passos):
['0.123', '0.345', '0.567', '0.789', '0.901', '0.987', '0.845', '0.678', ...]

RNN criada: 1 entradas → 10 unidades ocultas

Saída da RNN (20 passos):
['0.012', '0.034', '0.045', '0.067', '0.078', '0.089', '0.076', '0.065', ...]

Estados ocultos (forma: (1, 10)):
Primeiro estado oculto: ['0.012', '-0.023', '0.045', '-0.067', '0.089', ...]
"""

# Exemplo com TensorFlow/Keras - LSTM para previsão de séries temporais
print("\n" + "="*60)
print("=== EXEMPLO LSTM COM TENSORFLOW - PREVISÃO DE SÉRIES TEMPORAIS ===")

def criar_lstm_sequence():
    """Cria modelo LSTM para previsão de séries temporais"""
    modelo = models.Sequential([
        # Primeira camada LSTM com 50 unidades
        # return_sequences=True retorna saída para cada passo de tempo
        layers.LSTM(50, activation='relu', return_sequences=True,
                   input_shape=(10, 1)),  # 10 time steps, 1 feature
        # Segunda camada LSTM
        layers.LSTM(50, activation='relu'),
        # Camada densa de saída com 1 neurônio (previsão de valor único)
        layers.Dense(1)
    ])

    # Compila modelo para regressão
    modelo.compile(optimizer='adam', loss='mse', metrics=['mae'])
    return modelo

# Cria dados de exemplo para previsão de série temporal
def criar_dados_serie_temporal(n_amostras=1000, comprimento_sequencia=10):
    """Cria dados sintéticos de série temporal"""
    # Gera série temporal com tendência + sazonalidade + ruído
    t = np.linspace(0, 20, n_amostras + comprimento_sequencia)
    serie = np.sin(t) + 0.5 * np.sin(2*t) + 0.1 * np.random.randn(len(t))

    X, y = [], []
    for i in range(n_amostras):
        # Janela deslizante: usa 10 passos para prever próximo valor
        X.append(serie[i:i+comprimento_sequencia])
        y.append(serie[i+comprimento_sequencia])

    return np.array(X), np.array(y)

# Prepara dados
X, y = criar_dados_serie_temporal()
X = X.reshape(-1, 10, 1)  # Formato para LSTM: (amostras, timesteps, features)

print(f"Shape dos dados: X {X.shape}, y {y.shape}")

# Divide em treino e teste
split_idx = int(0.8 * len(X))
X_train, X_test = X[:split_idx], X[split_idx:]
y_train, y_test = y[:split_idx], y[split_idx:]

print(f"Treino: {X_train.shape}, Teste: {X_test.shape}")

# Cria e treina modelo LSTM
modelo_lstm = criar_lstm_sequence()

print("\n=== RESUMO DO MODELO LSTM ===")
modelo_lstm.summary()

# Treina o modelo
print("\n=== TREINANDO LSTM ===")
historico = modelo_lstm.fit(
    X_train, y_train,
    epochs=20,
    batch_size=32,
    validation_split=0.2,
    verbose=1
)

# Avaliação
print("\n=== AVALIAÇÃO ===")
test_loss, test_mae = modelo_lstm.evaluate(X_test, y_test, verbose=0)
print(f"Loss no teste: {test_loss:.4f}")
print(f"MAE no teste: {test_mae:.4f}")

# Previsões
print("\n=== EXEMPLO DE PREVISÕES ===")
previsoes = modelo_lstm.predict(X_test[:10])
print("Comparação: Real vs Previsto")
for i in range(5):
    print(f"  Real: {y_test[i]:7.4f} → Previsto: {previsoes[i][0]:7.4f}")

# Visualização
plt.figure(figsize=(15, 5))

# Curvas de treino
plt.subplot(1, 3, 1)
plt.plot(historico.history['loss'], label='Treino')
plt.plot(historico.history['val_loss'], label='Validação')
plt.title('Loss durante Treinamento')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.legend()
plt.grid(True, alpha=0.3)

# Série temporal original vs previsões
plt.subplot(1, 3, 2)
# Pega um trecho da série para visualizar
trecho_test = 100
indices = range(split_idx, split_idx + trecho_test)

# Previsões para o trecho de teste
previsoes_trecho = modelo_lstm.predict(X_test[:trecho_test])

plt.plot(indices, y_test[:trecho_test], 'b-', label='Real', alpha=0.7)
plt.plot(indices, previsoes_trecho.flatten(), 'r-', label='Previsto', alpha=0.7)
plt.title('Previsões LSTM vs Valores Reais')
plt.xlabel('Tempo')
plt.ylabel('Valor')
plt.legend()
plt.grid(True, alpha=0.3)

# Zoom em uma parte específica
plt.subplot(1, 3, 3)
zoom_trecho = 30
plt.plot(y_test[:zoom_trecho], 'bo-', label='Real', markersize=4)
plt.plot(previsoes_trecho.flatten()[:zoom_trecho], 'ro-', label='Previsto', markersize=4)
plt.title('Zoom - Previsões vs Real')
plt.xlabel('Passo de Tempo')
plt.ylabel('Valor')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Exemplo de previsão multi-step
print("\n=== PREVISÃO MULTI-STEP ===")
def previsao_multi_step(modelo, sequencia_inicial, n_passos=5):
    """Faz previsão multi-step usando a própria previsão como entrada"""
    sequencia_atual = sequencia_inicial.copy()
    previsoes = []

    for _ in range(n_passos):
        # Faz previsão para próximo passo
        previsao = modelo.predict(sequencia_atual.reshape(1, 10, 1), verbose=0)[0][0]
        previsoes.append(previsao)

        # Atualiza sequência: remove primeiro elemento, adiciona previsão
        sequencia_atual = np.roll(sequencia_atual, -1)
        sequencia_atual[-1] = previsao

    return previsoes

# Testa previsão multi-step
sequencia_teste = X_test[0].flatten()
previsoes_multi = previsao_multi_step(modelo_lstm, sequencia_teste, n_passos=5)

print("Previsão Multi-Step:")
print("Sequência inicial:", [f"{x:.3f}" for x in sequencia_teste])
print("Previsões:", [f"{p:.3f}" for p in previsoes_multi])
print("Valores reais seguintes:", [f"{y:.3f}" for y in y_test[1:6]])



# 2.4 Autoencoders

O que é: Redes não supervisionadas para aprendizado de representações.

Explicação:

    Estrutura:

        Encoder: Comprime a entrada em uma representação latente

        Decoder: Reconstrói a entrada a partir da representação latente

    Objetivo: Aprender uma representação compacta e significativa dos dados

    Aplicações:

        Redução de dimensionalidade

        Denoising (remoção de ruído)

        Geração de dados

        Detecção de anomalias

In [None]:
import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs, load_digits
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

class Autoencoder:
    """Autoencoder para redução de dimensionalidade e aprendizado de representações"""

    def __init__(self, dimensao_entrada, dimensao_latente):
        """
        Inicializa o Autoencoder

        Args:
            dimensao_entrada (int): Número de features dos dados de entrada
            dimensao_latente (int): Dimensão do espaço latente (codificação comprimida)
        """
        # Dimensão dos dados de entrada (ex: 64 pixels para imagens 8x8)
        self.dimensao_entrada = dimensao_entrada
        # Dimensão do espaço latente (representação comprimida) - geralmente 2-50
        self.dimensao_latente = dimensao_latente

        print(f"Criando Autoencoder: {dimensao_entrada} → {dimensao_latente} → {dimensao_entrada}")

        # Encoder: comprime a entrada para o espaço latente
        self.encoder = models.Sequential([
            # Primeira camada: reduz para 128 neurônios com ativação ReLU
            layers.Dense(128, activation='relu', input_shape=(dimensao_entrada,)),
            # Segunda camada: reduz para 64 neurônios
            layers.Dense(64, activation='relu'),
            # Camada latente: representa os dados comprimidos (bottleneck)
            layers.Dense(dimensao_latente, activation='relu', name='bottleneck')
        ])

        # Decoder: reconstroi os dados do espaço latente
        self.decoder = models.Sequential([
            # Primeira camada: expande para 64 neurônios
            layers.Dense(64, activation='relu', input_shape=(dimensao_latente,)),
            # Segunda camada: expande para 128 neurônios
            layers.Dense(128, activation='relu'),
            # Camada de saída: reconstroi para dimensão original com sigmoid (valores 0-1)
            layers.Dense(dimensao_entrada, activation='sigmoid')
        ])

        # Autoencoder completo: encoder + decoder
        self.modelo = models.Sequential([self.encoder, self.decoder])

        # Compila com MSE pois queremos reconstruir a entrada (comparação pixel a pixel)
        self.modelo.compile(optimizer='adam', loss='mse')

        print(" Autoencoder criado e compilado com sucesso!")

    def treinar(self, X, epocas=50, batch_size=32):
        """
        Treina o autoencoder para reconstruir sua própria entrada

        Args:
            X (array): Dados de entrada
            epocas (int): Número de épocas de treinamento
            batch_size (int): Tamanho do lote

        Returns:
            historico: Histórico do treinamento
        """
        print(f" Iniciando treinamento por {epocas} épocas...")
        print(f"   Dados: {X.shape[0]} amostras, {X.shape[1]} features")

        # Treina o autoencoder: entrada = saída esperada (reconstrução)
        historico = self.modelo.fit(
            X, X,  #  Entrada = Saída esperada (aprendizado não supervisionado)
            epochs=epocas,
            batch_size=batch_size,
            validation_split=0.2,  # 20% dos dados para validação
            verbose=1,  # Mostra progresso
            callbacks=[tf.keras.callbacks.EarlyStopping(patience=5, restore_best_weights=True)]
        )

        print(" Treinamento concluído!")
        return historico

    def codificar(self, X):
        """
        Converte dados para o espaço latente (redução de dimensionalidade)

        Args:
            X (array): Dados de entrada

        Returns:
            array: Representação latente dos dados
        """
        return self.encoder.predict(X, verbose=0)

    def decodificar(self, Z):
        """
        Reconstrói dados a partir do espaço latente

        Args:
            Z (array): Dados no espaço latente

        Returns:
            array: Dados reconstruídos
        """
        return self.decoder.predict(Z, verbose=0)

    def reconstruir(self, X):
        """
        Reconstroi os dados de entrada passando pelo espaço latente

        Args:
            X (array): Dados de entrada

        Returns:
            array: Dados reconstruídos
        """
        return self.modelo.predict(X, verbose=0)


# EXEMPLO 1: Autoencoder para Dados Sintéticos



print(" EXEMPLO 1: AUTOENCODER PARA DADOS SINTÉTICOS")

# Cria dados sintéticos 3D com estrutura clara
X_sintetico, y_sintetico = make_blobs(
    n_samples=1000,
    n_features=10,  # 10 dimensões
    centers=3,      # 3 clusters
    random_state=42,
    cluster_std=0.8
)

# Normaliza os dados entre 0 e 1
scaler = MinMaxScaler()
X_sintetico_normalizado = scaler.fit_transform(X_sintetico)

print(f" Dados sintéticos: {X_sintetico_normalizado.shape}")
print(f" Clusters: {np.unique(y_sintetico)}")

# Cria e treina autoencoder para reduzir de 10D para 2D
autoencoder_sintetico = Autoencoder(
    dimensao_entrada=10,
    dimensao_latente=2  # Reduzindo para 2D para visualização
)

# Treina o modelo
historico_sintetico = autoencoder_sintetico.treinar(
    X_sintetico_normalizado,
    epocas=100,
    batch_size=32
)

# Codifica os dados para o espaço latente
X_latente = autoencoder_sintetico.codificar(X_sintetico_normalizado)

print(f" Dimensões reduzidas: {X_sintetico_normalizado.shape[1]}D → {X_latente.shape[1]}D")

# Reconstroi os dados
X_reconstruido = autoencoder_sintetico.reconstruir(X_sintetico_normalizado)

# Calcula erro de reconstrução
erro_reconstrucao = np.mean((X_sintetico_normalizado - X_reconstruido) ** 2)
print(f" Erro médio de reconstrução: {erro_reconstrucao:.6f}")

# Visualização dos resultados
plt.figure(figsize=(15, 5))

# Gráfico 1: Loss durante treinamento
plt.subplot(1, 3, 1)
plt.plot(historico_sintetico.history['loss'], label='Treino')
plt.plot(historico_sintetico.history['val_loss'], label='Validação')
plt.title('Loss do Autoencoder\n(Dados Sintéticos 10D → 2D)')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.legend()
plt.grid(True, alpha=0.3)

# Gráfico 2: Espaço latente 2D colorido por cluster
plt.subplot(1, 3, 2)
scatter = plt.scatter(X_latente[:, 0], X_latente[:, 1], c=y_sintetico, cmap='viridis', alpha=0.7)
plt.colorbar(scatter, label='Cluster')
plt.title('Espaço Latente 2D\n(Representação Comprimida)')
plt.xlabel('Componente Latente 1')
plt.ylabel('Componente Latente 2')
plt.grid(True, alpha=0.3)

# Gráfico 3: Comparação com PCA tradicional
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_sintetico_normalizado)

plt.subplot(1, 3, 3)
scatter_pca = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_sintetico, cmap='viridis', alpha=0.7)
plt.colorbar(scatter_pca, label='Cluster')
plt.title('PCA 2D\n(Comparação)')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# EXEMPLO 2: Autoencoder para Dígitos Manuscritos (MNIST)



print(" EXEMPLO 2: AUTOENCODER PARA DÍGITOS MANUSCRITOS")


# Carrega dataset de dígitos (imagens 8x8 = 64 pixels)
digitos = load_digits()
X_digitos = digitos.data.astype('float32') / 16.0  # Normaliza para 0-1 (valores originais 0-16)
y_digitos = digitos.target

print(f"Dataset Dígitos: {X_digitos.shape}")
print(f"Dígitos únicos: {np.unique(y_digitos)}")
print(f"Dimensão das imagens: 8x8 = 64 pixels")

# Cria autoencoder para imagens de dígitos
autoencoder_digitos = Autoencoder(
    dimensao_entrada=64,   # 8x8 pixels
    dimensao_latente=10    # Comprime para 10 dimensões
)

# Treina o modelo
historico_digitos = autoencoder_digitos.treinar(
    X_digitos,
    epocas=100,
    batch_size=128
)

# Codifica e decodifica algumas imagens de exemplo
indices_exemplo = [0, 1, 100, 101]  # Índices para mostrar exemplos
X_exemplo = X_digitos[indices_exemplo]

# Reconstroi as imagens
X_reconstruido_digitos = autoencoder_digitos.reconstruir(X_exemplo)

# Codifica para espaço latente
X_latente_digitos = autoencoder_digitos.codificar(X_exemplo)

print(f"\n Exemplo de codificação latente:")
for i, idx in enumerate(indices_exemplo):
    print(f"  Dígito {y_digitos[idx]}: {X_latente_digitos[i]}")

# Visualização das reconstruções
plt.figure(figsize=(12, 8))

# Gráfico 1: Loss durante treinamento
plt.subplot(2, 3, 1)
plt.plot(historico_digitos.history['loss'], label='Treino')
plt.plot(historico_digitos.history['val_loss'], label='Validação')
plt.title('Loss do Autoencoder\n(Dígitos 64D → 10D)')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.legend()
plt.grid(True, alpha=0.3)

# Mostra imagens originais vs reconstruídas
for i, idx in enumerate(indices_exemplo):
    # Imagem original
    plt.subplot(2, 4, i + 2)
    plt.imshow(X_exemplo[i].reshape(8, 8), cmap='gray')
    plt.title(f'Original: {y_digitos[idx]}')
    plt.axis('off')

    # Imagem reconstruída
    plt.subplot(2, 4, i + 6)
    plt.imshow(X_reconstruido_digitos[i].reshape(8, 8), cmap='gray')
    plt.title(f'Reconstruído')
    plt.axis('off')

plt.tight_layout()
plt.show()


# EXEMPLO 3: Visualização do Espaço Latente



print(" EXEMPLO 3: ANÁLISE DO ESPAÇO LATENTE")


# Codifica todo o dataset para o espaço latente 2D
autoencoder_2d = Autoencoder(dimensao_entrada=64, dimensao_latente=2)
historico_2d = autoencoder_2d.treinar(X_digitos, epocas=150, batch_size=128)

# Codifica todos os dígitos para 2D
X_latente_completo = autoencoder_2d.codificar(X_digitos)

print(f" Espaço latente completo: {X_latente_completo.shape}")

# Visualização do espaço latente 2D
plt.figure(figsize=(15, 5))

# Gráfico 1: Espaço latente colorido por dígito
plt.subplot(1, 3, 1)
scatter = plt.scatter(X_latente_completo[:, 0], X_latente_completo[:, 1],
                     c=y_digitos, cmap='tab10', alpha=0.7, s=30)
plt.colorbar(scatter, label='Dígito')
plt.title('Espaço Latente 2D - Dígitos MNIST\n(Colorido por classe)')
plt.xlabel('Componente Latente 1')
plt.ylabel('Componente Latente 2')
plt.grid(True, alpha=0.3)

# Gráfico 2: Grid no espaço latente - gerando novos dígitos
plt.subplot(1, 3, 2)

# Cria grid no espaço latente
grid_size = 10
x = np.linspace(X_latente_completo[:, 0].min(), X_latente_completo[:, 0].max(), grid_size)
y = np.linspace(X_latente_completo[:, 1].min(), X_latente_completo[:, 1].max(), grid_size)
XX, YY = np.meshgrid(x, y)

# Decodifica cada ponto do grid
grid_imagens = []
for i in range(grid_size):
    for j in range(grid_size):
        ponto_latente = np.array([[XX[i, j], YY[i, j]]])
        imagem_gerada = autoencoder_2d.decodificar(ponto_latente)
        grid_imagens.append(imagem_gerada.reshape(8, 8))

# Cria mosaico com as imagens geradas
mosaico = np.zeros((8 * grid_size, 8 * grid_size))
for i in range(grid_size):
    for j in range(grid_size):
        mosaico[i * 8:(i + 1) * 8, j * 8:(j + 1) * 8] = grid_imagens[i * grid_size + j]

plt.imshow(mosaico, cmap='gray', extent=[
    X_latente_completo[:, 0].min(),
    X_latente_completo[:, 0].max(),
    X_latente_completo[:, 1].min(),
    X_latente_completo[:, 1].max()
])
plt.title('Grid do Espaço Latente\n(Geração de Novos Dígitos)')
plt.xlabel('Componente Latente 1')
plt.ylabel('Componente Latente 2')

# Gráfico 3: Comparação de reconstruções
plt.subplot(1, 3, 3)

# Seleciona alguns dígitos diferentes
dígitos_para_comparar = [0, 1, 2, 3]
cores = ['red', 'blue', 'green', 'orange']

for i, digito in enumerate(dígitos_para_comparar):
    # Filtra dígitos específicos
    mascara = y_digitos == digito
    X_digito = X_latente_completo[mascara]

    plt.scatter(X_digito[:, 0], X_digito[:, 1],
               color=cores[i], label=f'Dígito {digito}', alpha=0.6, s=20)

plt.title('Espaço Latente - Agrupamento por Dígito')
plt.xlabel('Componente Latente 1')
plt.ylabel('Componente Latente 2')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# EXEMPLO 4: Denoising Autoencoder



print(" EXEMPLO 4: DENOISING AUTOENCODER")


def adicionar_ruido(X, nivel_ruido=0.5):
    """Adiciona ruído aleatório aos dados"""
    ruido = np.random.normal(0, nivel_ruido, X.shape)
    X_ruidoso = X + ruido
    # Garante que os valores permaneçam entre 0 e 1
    return np.clip(X_ruidoso, 0, 1)

# Cria versões ruidosas dos dígitos
X_digitos_ruidoso = adicionar_ruido(X_digitos, nivel_ruido=0.3)

print("Adicionando ruído aos dados...")

# Cria denoising autoencoder (mesma arquitetura)
denoiser = Autoencoder(dimensao_entrada=64, dimensao_latente=16)

# Treina para remover ruído: entrada ruidosa → saída limpa
historico_denoiser = denoiser.treinar(
    X_digitos_ruidoso,  # Entrada: dados com ruído
    X_digitos,          # Saída: dados originais sem ruído
    epocas=100,
    batch_size=128
)

# Testa o denoiser
indices_teste = [10, 11, 12, 13]
X_teste_ruidoso = X_digitos_ruidoso[indices_teste]
X_teste_reconstruido = denoiser.reconstruir(X_teste_ruidoso)

# Visualização dos resultados de denoising
plt.figure(figsize=(12, 4))

plt.subplot(1, 4, 1)
plt.plot(historico_denoiser.history['loss'], label='Treino')
plt.plot(historico_denoiser.history['val_loss'], label='Validação')
plt.title('Loss - Denoising Autoencoder')
plt.xlabel('Época')
plt.ylabel('Loss')
plt.legend()
plt.grid(True, alpha=0.3)

for i, idx in enumerate(indices_teste):
    plt.subplot(1, 4, i + 2)

    # Mostra: original → ruidoso → reconstruído
    if i == 0:
        plt.imshow(X_teste_reconstruido[i].reshape(8, 8), cmap='gray')
        plt.title(f'Reconstruído\n(Dígito {y_digitos[idx]})')
    else:
        plt.imshow(X_teste_reconstruido[i].reshape(8, 8), cmap='gray')
        plt.title(f'Reconstruído')

    plt.axis('off')

plt.tight_layout()
plt.show()

# Métricas de qualidade
mse_ruidoso = np.mean((X_digitos[indices_teste] - X_teste_ruidoso) ** 2)
mse_reconstruido = np.mean((X_digitos[indices_teste] - X_teste_reconstruido) ** 2)

print(f" Métricas de Denoising:")
print(f"   MSE dados ruidosos: {mse_ruidoso:.6f}")
print(f"   MSE após reconstrução: {mse_reconstruido:.6f}")
print(f"    Melhoria: {((mse_ruidoso - mse_reconstruido) / mse_ruidoso * 100):.1f}%")


# RESUMO E APLICAÇÕES PRÁTICAS
#


print(" RESUMO: APLICAÇÕES PRÁTICAS DO AUTOENCODER")


aplicacoes = {
    "1. Redução de Dimensionalidade": "Compressão de dados mantendo informações importantes",
    "2. Detecção de Anomalias": "Dados com alta perda na reconstrução são possíveis anomalias",
    "3. Denoising": "Remoção de ruído de imagens ou sinais",
    "4. Geração de Dados": "Criação de novos exemplos a partir do espaço latente",
    "5. Feature Learning": "Aprendizado de representações úteis para outras tarefas",
    "6. Visualização": "Projeção de dados de alta dimensão em 2D/3D"
}

for aplicacao, descricao in aplicacoes.items():
    print(f"   {aplicacao}: {descricao}")

print(f"\n Dicas Práticas:")
print(f"   • Dimensão latente: Comece com 2-50 para visualização, 10-500 para compressão")
print(f"   • Arquitetura: Encoder simétrico ao decoder geralmente funciona bem")
print(f"   • Ativações: Use ReLU para camadas internas, sigmoid/tanh para saída")
print(f"   • Regularização: Dropout e early stopping ajudam a evitar overfitting")



# 2.5 Redes Generativas (GANs)

O que é: Arquitetura que gera novos dados similares aos de treinamento.

Explicação:

    Componentes:

        Gerador: Cria dados falsos a partir de ruído

        Discriminador: Distingue entre dados reais e falsos

    Treinamento: Os dois componentes competem em um jogo minimax

    Aplicações:

        Geração de imagens

        Aumento de dados

        Transferência de estilo

        Criação de arte

In [None]:
import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons, make_circles
from sklearn.preprocessing import StandardScaler
import time

class GANSimples:
    """Implementação simplificada de Generative Adversarial Network"""

    def __init__(self, dimensao_latente, dimensao_entrada):
        """
        Inicializa a GAN com gerador e discriminador

        Args:
            dimensao_latente (int): Dimensão do vetor de ruído (entrada do gerador)
            dimensao_entrada (int): Dimensão dos dados reais (saída do gerador)
        """
        # Dimensão do vetor de ruído (espaço latente) - tipicamente 50-200
        self.dimensao_latente = dimensao_latente
        # Dimensão dos dados reais que queremos gerar
        self.dimensao_entrada = dimensao_entrada

        print(f"Inicializando GAN: Ruído {dimensao_latente}D → Dados {dimensao_entrada}D")

        # Constrói os componentes da GAN
        self.construir_gerador()
        self.construir_discriminador()
        self.construir_gan()

        # Para acompanhar o progresso do treinamento
        self.historico_loss_d = []
        self.historico_loss_g = []
        self.historico_acc_d = []

    def construir_gerador(self):
        """Constrói o gerador que transforma ruído em dados falsos"""
        print(" Construindo Gerador...")

        self.gerador = models.Sequential([
            # Primeira camada: expande o ruído para 128 neurônios
            layers.Dense(128, activation='relu',
                        input_shape=(self.dimensao_latente,)),
            layers.BatchNormalization(),  # Normaliza as ativações - ajuda na estabilidade

            # Segunda camada: expande para 256 neurônios
            layers.Dense(256, activation='relu'),
            layers.BatchNormalization(),

            # Terceira camada: expande para 512 neurônios
            layers.Dense(512, activation='relu'),
            layers.BatchNormalization(),

            # Camada de saída: gera dados com mesma dimensão dos dados reais
            # tanh produz valores entre -1 e 1 (adequado para dados normalizados)
            layers.Dense(self.dimensao_entrada, activation='tanh')
        ])

        print(f"    Gerador criado: {self.dimensao_latente} → 128 → 256 → 512 → {self.dimensao_entrada}")

    def construir_discriminador(self):
        """Constrói o discriminador que classifica dados como reais ou falsos"""
        print(" Construindo Discriminador...")

        self.discriminador = models.Sequential([
            # Primeira camada: 512 neurônios processando dados de entrada
            layers.Dense(512, activation='relu',
                        input_shape=(self.dimensao_entrada,)),
            layers.Dropout(0.3),  # Dropout para regularização - previte overfitting

            # Segunda camada: 256 neurônios
            layers.Dense(256, activation='relu'),
            layers.Dropout(0.3),

            # Terceira camada: 128 neurônios
            layers.Dense(128, activation='relu'),
            layers.Dropout(0.3),

            # Camada de saída: 1 neurônio com sigmoid para probabilidade [0,1]
            layers.Dense(1, activation='sigmoid')
        ])

        # Compila o discriminador separadamente
        self.discriminador.compile(
            optimizer='adam',
            loss='binary_crossentropy',  # Loss para classificação binária
            metrics=['accuracy']         # Acompanha acurácia
        )

        print(f"   Discriminador criado: {self.dimensao_entrada} → 512 → 256 → 128 → 1")

    def construir_gan(self):
        """Constrói a GAN completa conectando gerador ao discriminador"""
        print(" Conectando GAN completa...")

        # Congela o discriminador durante o treino do gerador
        # Isso é CRUCIAL: quando treinamos o gerador, não queremos atualizar o discriminador
        self.discriminador.trainable = False

        # Conecta gerador -> discriminador
        self.gan = models.Sequential([
            self.gerador,      # Gera dados falsos a partir do ruído
            self.discriminador # Classifica os dados gerados
        ])

        # Compila a GAN completa
        self.gan.compile(
            optimizer='adam',
            loss='binary_crossentropy'  # Gerador tenta fazer discriminador prever "1" para dados falsos
        )

        print("   GAN completa construída e compilada!")

    def treinar(self, dados_reais, epocas=10000, batch_size=32, intervalo_exibicao=1000):
        """
        Treina a GAN usando o processo adversarial

        Args:
            dados_reais (array): Dataset de dados reais para treinamento
            epocas (int): Número total de épocas de treinamento
            batch_size (int): Tamanho do batch para treinamento
            intervalo_exibicao (int): Frequência para exibir progresso
        """
        print(f" Iniciando treinamento por {epocas} épocas...")
        print(f"    Dados reais: {dados_reais.shape}")
        print(f"    Batch size: {batch_size}")

        # Normaliza dados reais para [-1, 1] (compatível com tanh do gerador)
        self.scaler = StandardScaler()
        dados_reais_normalizados = self.scaler.fit_transform(dados_reais)

        # Para visualização do progresso
        self.fig, self.axes = plt.subplots(2, 3, figsize=(15, 10))
        self.fig.suptitle('Progresso do Treinamento da GAN', fontsize=16)

        inicio_tempo = time.time()

        for epoca in range(epocas):
            # === FASE 1: TREINAR DISCRIMINADOR ===
            # O discriminador aprende a distinguir dados reais de falsos

            # Gera dados falsos usando o gerador
            ruido = np.random.normal(0, 1, (batch_size, self.dimensao_latente))
            dados_gerados = self.gerador.predict(ruido, verbose=0)

            # Seleciona batch aleatório de dados reais
            idx = np.random.randint(0, dados_reais_normalizados.shape[0], batch_size)
            batch_reais = dados_reais_normalizados[idx]

            # Rótulos:
            # - Reais = 0.9 (label smoothing - ajuda a prevenir overfitting)
            # - Falsos = 0.0
            rotulos_reais = np.ones((batch_size, 1)) * 0.9  # Label smoothing
            rotulos_falsos = np.zeros((batch_size, 1))

            # Treina discriminador em duas etapas:
            # 1. Com dados reais (aprende a prever ~1)
            d_loss_real = self.discriminador.train_on_batch(
                batch_reais, rotulos_reais)

            # 2. Com dados falsos (aprende a prever ~0)
            d_loss_fake = self.discriminador.train_on_batch(
                dados_gerados, rotulos_falsos)

            # Loss média do discriminador
            d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

            # === FASE 2: TREINAR GERADOR ===
            # O gerador aprende a enganar o discriminador

            # Gera novo ruído
            ruido = np.random.normal(0, 1, (batch_size, self.dimensao_latente))

            # Rótulos enganosos: faz o discriminador pensar que dados falsos são reais
            rotulos_enganosos = np.ones((batch_size, 1))

            # Treina o gerador (através da GAN completa)
            # Aqui só o gerador é atualizado (discriminador está congelado)
            g_loss = self.gan.train_on_batch(ruido, rotulos_enganosos)

            # Armazena histórico para análise
            self.historico_loss_d.append(d_loss[0])
            self.historico_loss_g.append(g_loss)
            self.historico_acc_d.append(d_loss[1])

            # Exibe progresso e visualizações
            if epoca % intervalo_exibicao == 0:
                tempo_decorrido = time.time() - inicio_tempo
                print(f"⏱️  Época {epoca}/{epocas} | "
                      f"D Loss: {d_loss[0]:.4f} | "
                      f"G Loss: {g_loss:.4f} | "
                      f"D Acc: {d_loss[1]:.2f} | "
                      f"Tempo: {tempo_decorrido:.1f}s")

                self.visualizar_progresso(epoca, dados_reais_normalizados)

        print(f" Treinamento concluído em {time.time() - inicio_tempo:.1f} segundos!")

    def visualizar_progresso(self, epoca, dados_reais):
        """Visualiza o progresso do treinamento"""
        # Gera dados de exemplo para visualização
        ruido_exemplo = np.random.normal(0, 1, (1000, self.dimensao_latente))
        dados_gerados = self.gerador.predict(ruido_exemplo, verbose=0)

        # Limpa os axes para nova plotagem
        for ax in self.axes.flat:
            ax.clear()

        # Plot 1: Dados reais vs gerados
        self.axes[0, 0].scatter(dados_reais[:, 0], dados_reais[:, 1],
                               alpha=0.5, label='Reais', s=10)
        self.axes[0, 0].scatter(dados_gerados[:, 0], dados_gerados[:, 1],
                               alpha=0.5, label='Gerados', s=10)
        self.axes[0, 0].set_title(f'Época {epoca}: Dados Reais vs Gerados')
        self.axes[0, 0].legend()
        self.axes[0, 0].grid(True, alpha=0.3)

        # Plot 2: Evolução das losses
        self.axes[0, 1].plot(self.historico_loss_d, label='Discriminador')
        self.axes[0, 1].plot(self.historico_loss_g, label='Gerador')
        self.axes[0, 1].set_title('Evolução das Losses')
        self.axes[0, 1].set_xlabel('Época')
        self.axes[0, 1].set_ylabel('Loss')
        self.axes[0, 1].legend()
        self.axes[0, 1].grid(True, alpha=0.3)

        # Plot 3: Acurácia do discriminador
        self.axes[0, 2].plot(self.historico_acc_d)
        self.axes[0, 2].set_title('Acurácia do Discriminador')
        self.axes[0, 2].set_xlabel('Época')
        self.axes[0, 2].set_ylabel('Acurácia')
        self.axes[0, 2].grid(True, alpha=0.3)

        # Plot 4: Distribuição dos dados reais (feature 1)
        self.axes[1, 0].hist(dados_reais[:, 0], bins=30, alpha=0.7, label='Reais', density=True)
        self.axes[1, 0].hist(dados_gerados[:, 0], bins=30, alpha=0.7, label='Gerados', density=True)
        self.axes[1, 0].set_title('Distribuição - Feature 1')
        self.axes[1, 0].legend()

        # Plot 5: Distribuição dos dados reais (feature 2)
        self.axes[1, 1].hist(dados_reais[:, 1], bins=30, alpha=0.7, label='Reais', density=True)
        self.axes[1, 1].hist(dados_gerados[:, 1], bins=30, alpha=0.7, label='Gerados', density=True)
        self.axes[1, 1].set_title('Distribuição - Feature 2')
        self.axes[1, 1].legend()

        # Plot 6: Espaço latente para geração
        ruido_visual = np.random.normal(0, 1, (100, self.dimensao_latente))
        dados_visual = self.gerador.predict(ruido_visual, verbose=0)
        self.axes[1, 2].scatter(dados_visual[:, 0], dados_visual[:, 1], alpha=0.6)
        self.axes[1, 2].set_title('Amostras Geradas Recentes')
        self.axes[1, 2].grid(True, alpha=0.3)

        plt.tight_layout()
        plt.pause(0.1)
        plt.draw()

    def gerar_dados(self, n_amostras=1000):
        """Gera novos dados sintéticos usando o gerador treinado"""
        ruido = np.random.normal(0, 1, (n_amostras, self.dimensao_latente))
        dados_gerados = self.gerador.predict(ruido, verbose=0)

        # Se usamos scaler, revertemos a normalização
        if hasattr(self, 'scaler'):
            dados_gerados = self.scaler.inverse_transform(dados_gerados)

        return dados_gerados

    def avaliar_gerador(self, dados_reais, n_amostras=1000):
        """Avalia a qualidade dos dados gerados"""
        dados_gerados = self.gerar_dados(n_amostras)

        # Métricas simples de avaliação
        stats_reais = {
            'mean': np.mean(dados_reais, axis=0),
            'std': np.std(dados_reais, axis=0),
            'min': np.min(dados_reais, axis=0),
            'max': np.max(dados_reais, axis=0)
        }

        stats_gerados = {
            'mean': np.mean(dados_gerados, axis=0),
            'std': np.std(dados_gerados, axis=0),
            'min': np.min(dados_gerados, axis=0),
            'max': np.max(dados_gerados, axis=0)
        }

        print("\n ESTATÍSTICAS COMPARATIVAS:")
        print("   Dados Reais vs Dados Gerados")
        for stat in ['mean', 'std', 'min', 'max']:
            print(f"   {stat.upper():4}: "
                  f"Reais {stats_reais[stat]} | "
                  f"Gerados {stats_gerados[stat]}")

        return dados_gerados

# EXEMPLO 1: GAN para Dataset "Two Moons"



print(" EXEMPLO 1: GAN PARA DATASET 'TWO MOONS'")


# Cria dataset de duas luas (2D - fácil de visualizar)
X_moons, y_moons = make_moons(n_samples=2000, noise=0.1, random_state=42)
print(f" Dataset Two Moons: {X_moons.shape}")

# Visualiza dados reais
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
plt.scatter(X_moons[:, 0], X_moons[:, 1], c=y_moons, cmap='viridis', alpha=0.6)
plt.title('Dados Reais - Two Moons')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True, alpha=0.3)

# Cria e treina GAN
gan_moons = GANSimples(
    dimensao_latente=10,    # Espaço latente de 10 dimensões
    dimensao_entrada=2      # Dados 2D
)

# Treina por um número menor de épocas para demonstração
gan_moons.treinar(
    dados_reais=X_moons,
    epocas=5000,           # Número reduzido para demonstração
    batch_size=64,
    intervalo_exibicao=500
)

# Gera e avalia dados sintéticos
dados_gerados_moons = gan_moons.avaliar_gerador(X_moons)

# Visualização final
plt.subplot(1, 3, 2)
plt.scatter(X_moons[:, 0], X_moons[:, 1], alpha=0.3, label='Reais', s=20)
plt.scatter(dados_gerados_moons[:, 0], dados_gerados_moons[:, 1],
           alpha=0.3, label='Gerados', s=20)
plt.title('Comparação Final: Reais vs Gerados')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 3, 3)
# Mostra a evolução das losses
epocas = range(len(gan_moons.historico_loss_d))
plt.plot(epocas, gan_moons.historico_loss_d, label='Loss Discriminador')
plt.plot(epocas, gan_moons.historico_loss_g, label='Loss Gerador')
plt.title('Evolução das Losses')
plt.xlabel('Época')
plt.ylabel('Loss')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# EXEMPLO 2: GAN para Dataset Circular


print(" EXEMPLO 2: GAN PARA DATASET CIRCULAR")


# Cria dataset circular (mais desafiador)
X_circles, y_circles = make_circles(n_samples=2000, noise=0.05, factor=0.5, random_state=42)
print(f" Dataset Circular: {X_circles.shape}")

# Cria GAN com arquitetura diferente
gan_circles = GANSimples(
    dimensao_latente=20,    # Espaço latente maior para padrão mais complexo
    dimensao_entrada=2
)

# Treina a GAN
gan_circles.treinar(
    dados_reais=X_circles,
    epocas=8000,
    batch_size=128,
    intervalo_exibicao=1000
)

# Gera dados e avalia
dados_gerados_circles = gan_circles.avaliar_gerador(X_circles)

# Visualização comparativa
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(X_circles[:, 0], X_circles[:, 1], c=y_circles, cmap='viridis', alpha=0.6)
plt.title('Dados Reais - Círculos')
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.scatter(X_circles[:, 0], X_circles[:, 1], alpha=0.2, label='Reais', s=20)
plt.scatter(dados_gerados_circles[:, 0], dados_gerados_circles[:, 1],
           alpha=0.5, label='Gerados', s=20)
plt.title('Dados Gerados pela GAN')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# EXEMPLO 3: GAN para Dados Multidimensionais



print(" EXEMPLO 3: GAN PARA DADOS MULTIDIMENSIONAIS")


# Cria dataset multidimensional sintético
np.random.seed(42)
n_features = 5
n_samples = 3000

# Cria dados com correlações complexas
X_multi = np.random.normal(0, 1, (n_samples, n_features))
# Adiciona correlações não-lineares
X_multi[:, 2] = X_multi[:, 0] ** 2 + 0.1 * np.random.normal(0, 1, n_samples)
X_multi[:, 3] = np.sin(X_multi[:, 1]) + 0.1 * np.random.normal(0, 1, n_samples)
X_multi[:, 4] = X_multi[:, 0] * X_multi[:, 1] + 0.1 * np.random.normal(0, 1, n_samples)

print(f" Dataset Multidimensional: {X_multi.shape}")

# Cria GAN para dados multidimensionais
gan_multi = GANSimples(
    dimensao_latente=20,
    dimensao_entrada=n_features
)

# Treina a GAN
gan_multi.treinar(
    dados_reais=X_multi,
    epocas=10000,
    batch_size=128,
    intervalo_exibicao=2000
)

# Gera e avalia dados sintéticos
dados_gerados_multi = gan_multi.avaliar_gerador(X_multi)

# Visualiza correlações
fig, axes = plt.subplots(2, 3, figsize=(15, 10))

# Pares de features para visualizar correlações
pares = [(0, 1), (0, 2), (1, 3), (2, 4), (3, 4)]

for idx, (i, j) in enumerate(pares):
    ax = axes[idx // 3, idx % 3]
    ax.scatter(X_multi[:, i], X_multi[:, j], alpha=0.3, label='Reais', s=20)
    ax.scatter(dados_gerados_multi[:, i], dados_gerados_multi[:, j],
              alpha=0.3, label='Gerados', s=20)
    ax.set_title(f'Feature {i} vs Feature {j}')
    ax.set_xlabel(f'Feature {i}')
    ax.set_ylabel(f'Feature {j}')
    ax.legend()
    ax.grid(True, alpha=0.3)

# Último subplot para estatísticas
ax = axes[1, 2]
features = range(n_features)
means_reais = np.mean(X_multi, axis=0)
means_gerados = np.mean(dados_gerados_multi, axis=0)

ax.bar(np.array(features) - 0.2, means_reais, 0.4, label='Reais', alpha=0.7)
ax.bar(np.array(features) + 0.2, means_gerados, 0.4, label='Gerados', alpha=0.7)
ax.set_title('Médias das Features')
ax.set_xlabel('Feature')
ax.set_ylabel('Média')
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# DICAS E MELHORES PRÁTICAS



print(" DICAS E MELHORES PRÁTICAS PARA GANs")


dicas = {
    "Balanceamento": "Loss do discriminador ~0.5 indica bom balanceamento",
    "Collapse": "Se G loss → 0 e D loss → 0, pode haver mode collapse",
    "Arquitetura": "Gerador geralmente mais complexo que discriminador",
    "Normalização": "BatchNorm no gerador, Dropout no discriminador",
    "Learning Rate": "Taxas de aprendizado menores (1e-4 a 1e-5) funcionam melhor",
    "Label Smoothing": "Usar 0.9/0.1 em vez de 1/0 previne overfitting do discriminador"
}

for dica, explicacao in dicas.items():
    print(f"    {dica}: {explicacao}")

print(f"\n PROBLEMAS COMUNS E SOLUÇÕES:")
problemas = [
    "Mode Collapse: Gerador produz pouca variedade → Aumentar diversidade do ruído",
    "Discriminador Muito Forte: G não aprende → Reduzir capacidade do D",
    "Instabilidade: Losses oscilam muito → Reduzir learning rate",
    "Vanishing Gradients: D muito bom → Usar Wasserstein GAN ou label smoothing"
]

for i, problema in enumerate(problemas, 1):
    print(f"   {i}. {problema}")

print(f"\n MÉTRICAS DE SUCESSO:")
metricas = [
    " Discriminador tem acurácia ~50% (não consegue distinguir)",
    " Dados gerados têm estatísticas similares aos reais",
    " Visualmente, dados gerados são indistinguíveis dos reais",
    "Losses estabilizam em valores balanceados"
]

for metrica in metricas:
    print(f"   {metrica}")


# Exemplo de uso prático para gerar mais dados

print(" GERANDO NOVOS DADOS SINTÉTICOS")


# Gera 1000 novas amostras sintéticas
novos_dados = gan_moons.gerar_dados(1000)
print(f"Gerados {len(novos_dados)} novas amostras sintéticas")

# Podemos usar esses dados para aumentar datasets de treinamento
# ou para testes onde precisamos de mais variedade de dados

plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
plt.scatter(X_moons[:, 0], X_moons[:, 1], alpha=0.3, label='Originais', s=20)
plt.title('Dataset Original')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.scatter(novos_dados[:, 0], novos_dados[:, 1], alpha=0.3, label='Sintéticos', s=20)
plt.title('Dados Sintéticos Gerados')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

#3. Conceitos Fundamentais

# 3.1 Camadas Ocultas e Neurônios

O que são: Elementos internos da rede que processam informações.

Explicação:

    Camadas Ocultas:

        São as camadas entre a entrada e saída

        Extraem características hierárquicas dos dados

        Cada camada aprende representações mais abstratas

    Neurônios:

        Unidades de processamento individuais

        Aplicam funções de ativação nas entradas ponderadas

    Como escolher:

        Regra dos 2/3: (entradas + saídas) × 2/3

        Baseado em dados: n_amostras / (α × (entradas + saídas))

        Experimentation: Testar diferentes arquiteturas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras import layers, models
import tensorflow as tf

class AnaliseArquitetura:
    """Classe completa para análise e sugestão de arquiteturas de redes neurais"""

    @staticmethod
    def calcular_neurônios_total(arquitetura):
        """
        Calcula o total de neurônios nas camadas ocultas

        Args:
            arquitetura (list): Lista com número de neurônios por camada
                Ex: [10, 64, 32, 1] = 10 entradas, 64+32 ocultos, 1 saída

        Returns:
            int: Total de neurônios nas camadas ocultas
        """
        # Soma todas as camadas exceto a primeira (entrada) e última (saída)
        total_ocultos = sum(arquitetura[1:-1])

        print(f" Arquitetura: {arquitetura}")
        print(f"   → Camadas ocultas: {arquitetura[1:-1]}")
        print(f"   → Total neurônios ocultos: {total_ocultos}")

        return total_ocultos

    @staticmethod
    def sugerir_arquitetura(dimensao_entrada, dimensao_saida, complexidade_problema='medio', n_amostras=None):
        """
        Sugere arquitetura baseada na complexidade do problema e número de amostras

        Args:
            dimensao_entrada (int): Número de features de entrada
            dimensao_saida (int): Número de neurônios de saída
            complexidade_problema (str): 'simples', 'medio', 'complexo'
            n_amostras (int): Número de amostras no dataset (opcional)

        Returns:
            list: Arquitetura sugerida
        """
        print(f"Analisando problema: {dimensao_entrada}D → {dimensao_saida}D")
        print(f"   Complexidade: {complexidade_problema}")

        # Arquiteturas base baseadas na complexidade
        sugestoes_base = {
            'simples': [dimensao_entrada, dimensao_saida],  # Sem camadas ocultas
            'medio': [dimensao_entrada, 64, 32, dimensao_saida],  # 2 camadas ocultas
            'complexo': [dimensao_entrada, 256, 128, 64, 32, dimensao_saida]  # 4 camadas ocultas
        }

        arquitetura = sugestoes_base.get(complexidade_problema, sugestoes_base['medio'])

        # Ajusta baseado no número de amostras se fornecido
        if n_amostras:
            arquitetura = AnaliseArquitetura.ajustar_por_amostras(
                arquitetura, n_amostras, dimensao_entrada, dimensao_saida
            )

        print(f"    Arquitetura sugerida: {arquitetura}")
        AnaliseArquitetura.calcular_neurônios_total(arquitetura)

        return arquitetura

    @staticmethod
    def regra_thumb_neurônios(dimensao_entrada, dimensao_saida, n_amostras):
        """
        Regras práticas para determinar número de neurônios em camada oculta

        Args:
            dimensao_entrada (int): Número de features de entrada
            dimensao_saida (int): Número de neurônios de saída
            n_amostras (int): Número de amostras no dataset

        Returns:
            int: Número sugerido de neurônios para camada oculta
        """
        print(f" Aplicando regras práticas:")
        print(f"   Entrada: {dimensao_entrada}, Saída: {dimensao_saida}, Amostras: {n_amostras}")

        # REGRA 1: Média entre entrada e saída (2/3)
        neurônios_intermediarios = int((dimensao_entrada + dimensao_saida) * 2/3)
        print(f"    Regra dos 2/3: ({dimensao_entrada} + {dimensao_saida}) × 2/3 = {neurônios_intermediarios}")

        # REGRA 2: Baseado no número de amostras
        neurônios_amostras = int(n_amostras / (5 * (dimensao_entrada + dimensao_saida)))
        print(f"    Baseado em amostras: {n_amostras} / (5 × ({dimensao_entrada} + {dimensao_saida})) = {neurônios_amostras}")

        # REGRA 3: Não exceder o número de amostras
        limite_amostras = min(neurônios_intermediarios, neurônios_amostras, 1000)

        # REGRA 4: Mínimo prático
        neurônios_final = max(limite_amostras, 16)  # Mínimo de 16 neurônios

        print(f"    Limite por amostras: {limite_amostras}")
        print(f"    Valor final (com mínimo 16): {neurônios_final}")

        return neurônios_final

    @staticmethod
    def ajustar_por_amostras(arquitetura, n_amostras, dimensao_entrada, dimensao_saida):
        """
        Ajusta arquitetura baseado no número de amostras disponíveis
        """
        print(f"    Ajustando por {n_amostras} amostras...")

        # Calcula neurônios sugeridos pela regra prática
        neurônios_sugeridos = AnaliseArquitetura.regra_thumb_neurônios(
            dimensao_entrada, dimensao_saida, n_amostras
        )

        # Ajusta camadas ocultas baseado na sugestão
        nova_arquitetura = [arquitetura[0]]  # Mantém entrada

        # Para arquiteturas com múltiplas camadas ocultas
        if len(arquitetura) > 2:
            # Reduz progressivamente da sugestão até a saída
            camadas_ocultas = len(arquitetura) - 2
            for i in range(camadas_ocultas):
                # Redução progressiva: 100% → 50% → 25% etc
                fator = 2 ** (i + 1)
                neurônios_camada = max(neurônios_sugeridos // fator, 8)  # Mínimo 8
                nova_arquitetura.append(neurônios_camada)
        else:
            # Se não tem camadas ocultas, adiciona uma
            nova_arquitetura.append(neurônios_sugeridos)

        nova_arquitetura.append(arquitetura[-1])  # Mantém saída

        print(f"    Arquitetura ajustada: {nova_arquitetura}")
        return nova_arquitetura

    @staticmethod
    def calcular_parametros(arquitetura):
        """
        Calcula número total de parâmetros (pesos + vieses) da rede

        Args:
            arquitetura (list): Lista com número de neurônios por camada

        Returns:
            int: Número total de parâmetros treináveis
        """
        total_parametros = 0
        detalhes = []

        for i in range(len(arquitetura) - 1):
            # Pesos: neurônios_atual × neurônios_proxima
            pesos = arquitetura[i] * arquitetura[i + 1]
            # Vieses: neurônios_proxima_camada
            vieses = arquitetura[i + 1]
            # Total na camada
            parametros_camada = pesos + vieses
            total_parametros += parametros_camada

            detalhes.append(f"Camada {i}→{i+1}: {arquitetura[i]}×{arquitetura[i+1]} = {pesos} pesos + {vieses} vieses = {parametros_camada} parâmetros")

        print(f" CÁLCULO DE PARÂMETROS:")
        for detalhe in detalhes:
            print(f"   {detalhe}")
        print(f"    TOTAL: {total_parametros} parâmetros treináveis")

        return total_parametros

    @staticmethod
    def analisar_overfitting(n_amostras, n_parametros, limite_seguro=10):
        """
        Analisa risco de overfitting baseado na relação amostras/parâmetros

        Args:
            n_amostras (int): Número de amostras de treinamento
            n_parametros (int): Número de parâmetros do modelo
            limite_seguro (int): Limite seguro de amostras por parâmetro

        Returns:
            dict: Análise de risco
        """
        razao = n_amostras / n_parametros if n_parametros > 0 else float('inf')

        print(f"ANÁLISE DE OVERFITTING:")
        print(f"   Amostras: {n_amostras}")
        print(f"   Parâmetros: {n_parametros}")
        print(f"   Razão amostras/parâmetros: {razao:.2f}:1")

        if razao >= limite_seguro:
            risco = "BAIXO"
            recomendacao = "Arquitetura adequada"
        elif razao >= limite_seguro / 2:
            risco = "MODERADO"
            recomendacao = "Considere regularização"
        else:
            risco = "ALTO"
            recomendacao = "Reduza arquitetura ou aumente dados"

        print(f"    Risco de overfitting: {risco}")
        print(f"    Recomendação: {recomendacao}")

        return {
            'razao': razao,
            'risco': risco,
            'recomendacao': recomendacao
        }

    @staticmethod
    def comparar_arquiteturas(dimensao_entrada, dimensao_saida, n_amostras):
        """
        Compara diferentes arquiteturas para o mesmo problema
        """
        print(" COMPARANDO ARQUITETURAS:")

        arquiteturas = {
            'Simples': [dimensao_entrada, dimensao_saida],
            'Médio': [dimensao_entrada, 64, 32, dimensao_saida],
            'Complexo': [dimensao_entrada, 256, 128, 64, 32, dimensao_saida],
            'Ajustado': AnaliseArquitetura.sugerir_arquitetura(
                dimensao_entrada, dimensao_saida, 'medio', n_amostras
            )
        }

        resultados = []

        for nome, arquitetura in arquiteturas.items():
            print(f"\n {nome}: {arquitetura}")
            neurônios = AnaliseArquitetura.calcular_neurônios_total(arquitetura)
            parametros = AnaliseArquitetura.calcular_parametros(arquitetura)
            analise = AnaliseArquitetura.analisar_overfitting(n_amostras, parametros)

            resultados.append({
                'nome': nome,
                'arquitetura': arquitetura,
                'neurônios_ocultos': neurônios,
                'parametros': parametros,
                'risco': analise['risco']
            })

        # Visualização comparativa
        AnaliseArquitetura.plotar_comparacao(resultados, n_amostras)

        return resultados

    @staticmethod
    def plotar_comparacao(resultados, n_amostras):
        """Plota comparação visual entre arquiteturas"""
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        fig.suptitle(f'Comparação de Arquiteturas (Base: {n_amostras} amostras)', fontsize=16)

        # Dados para plots
        nomes = [r['nome'] for r in resultados]
        neurônios = [r['neurônios_ocultos'] for r in resultados]
        parametros = [r['parametros'] for r in resultados]
        riscos = [r['risco'] for r in resultados]

        # Mapeamento de cores para risco
        cores_risco = {'BAIXO': 'green', 'MODERADO': 'orange', 'ALTO': 'red'}
        cores = [cores_risco[risco] for risco in riscos]

        # Plot 1: Neurônios ocultos
        bars1 = axes[0, 0].bar(nomes, neurônios, color=cores, alpha=0.7)
        axes[0, 0].set_title('Total de Neurônios Ocultos')
        axes[0, 0].set_ylabel('Neurônios')
        axes[0, 0].grid(True, alpha=0.3)

        # Adiciona valores nas barras
        for bar, valor in zip(bars1, neurônios):
            axes[0, 0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                           f'{valor}', ha='center', va='bottom')

        # Plot 2: Parâmetros totais
        bars2 = axes[0, 1].bar(nomes, parametros, color=cores, alpha=0.7)
        axes[0, 1].set_title('Total de Parâmetros Treináveis')
        axes[0, 1].set_ylabel('Parâmetros')
        axes[0, 1].grid(True, alpha=0.3)

        for bar, valor in zip(bars2, parametros):
            axes[0, 1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                           f'{valor:,}', ha='center', va='bottom')

        # Plot 3: Razão amostras/parâmetros
        razoes = [n_amostras / p if p > 0 else 0 for p in parametros]
        bars3 = axes[1, 0].bar(nomes, razoes, color=cores, alpha=0.7)
        axes[1, 0].set_title('Razão Amostras/Parâmetros')
        axes[1, 0].set_ylabel('Razão')
        axes[1, 0].axhline(y=10, color='red', linestyle='--', label='Limite seguro (10:1)')
        axes[1, 0].legend()
        axes[1, 0].grid(True, alpha=0.3)

        for bar, valor in zip(bars3, razoes):
            axes[1, 0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                           f'{valor:.1f}:1', ha='center', va='bottom')

        # Plot 4: Legenda de riscos
        axes[1, 1].axis('off')
        info_text = "LEGENDA DE RISCO:\n\n"
        for risco, cor in cores_risco.items():
            info_text += f"● {risco}: {cor.upper()}\n"

        info_text += f"\nRECOMENDAÇÕES:\n"
        info_text += f"• >10:1 → Baixo risco\n"
        info_text += f"• 5-10:1 → Moderado\n"
        info_text += f"• <5:1 → Alto risco"

        axes[1, 1].text(0.1, 0.9, info_text, fontsize=12, va='top', linespacing=1.5)

        plt.tight_layout()
        plt.show()


# EXEMPLOS PRÁTICOS DE USO



print(" EXEMPLO 1: PROBLEMA DE CLASSIFICAÇÃO SIMPLES")


# Problema: 10 features → classificação binária
dimensao_entrada = 10
dimensao_saida = 1
n_amostras = 1000

print(" PROBLEMA: Classificação binária com 10 features")
print(f"   Entrada: {dimensao_entrada}D, Saída: {dimensao_saida}D, Amostras: {n_amostras}")

# 1. Sugerir arquitetura
arquitetura_sugerida = AnaliseArquitetura.sugerir_arquitetura(
    dimensao_entrada, dimensao_saida, 'medio', n_amostras
)

# 2. Calcular parâmetros
parametros = AnaliseArquitetura.calcular_parametros(arquitetura_sugerida)

# 3. Analisar risco de overfitting
analise = AnaliseArquitetura.analisar_overfitting(n_amostras, parametros)


print(" EXEMPLO 2: PROBLEMA COMPLEXO - VISÃO COMPUTACIONAL")


# Problema: Imagens 32x32 RGB → 10 classes
dimensao_entrada = 32 * 32 * 3  # 3072 pixels
dimensao_saida = 10
n_amostras = 50000

print(" PROBLEMA: Classificação de imagens 32x32 RGB em 10 classes")
print(f"   Entrada: {dimensao_entrada}D, Saída: {dimensao_saida}D, Amostras: {n_amostras}")

# Usando regra prática para determinar neurônios
neurônios_sugeridos = AnaliseArquitetura.regra_thumb_neurônios(
    dimensao_entrada, dimensao_saida, n_amostras
)

# Arquitetura para problema complexo
arquitetura_complexa = [
    dimensao_entrada,
    neurônios_sugeridos,
    neurônios_sugeridos // 2,
    neurônios_sugeridos // 4,
    dimensao_saida
]

print(f"    Arquitetura complexa sugerida: {arquitetura_complexa}")

# Análise completa
parametros_complexo = AnaliseArquitetura.calcular_parametros(arquitetura_complexa)
AnaliseArquitetura.analisar_overfitting(n_amostras, parametros_complexo)


print(" EXEMPLO 3: COMPARAÇÃO DE MÚLTIPLAS ARQUITETURAS")


# Comparação para problema médio
dimensao_entrada = 20
dimensao_saida = 3  # 3 classes
n_amostras = 2000

print(" PROBLEMA: Classificação multiclasse com 20 features")
print(f"   Entrada: {dimensao_entrada}D, Saída: {dimensao_saida}D, Amostras: {n_amostras}")

# Compara diferentes abordagens
resultados_comparacao = AnaliseArquitetura.comparar_arquiteturas(
    dimensao_entrada, dimensao_saida, n_amostras
)


print(" RESUMO DAS REGRAS PRÁTICAS")


regras = {
    "Regra dos 2/3": "(entrada + saída) × 2/3",
    "Regra das Amostras": "amostras / (5 × (entrada + saída))",
    "Mínimo Prático": "Pelo menos 16 neurônios",
    "Máximo Seguro": "Máximo 1000 neurônios por camada",
    "Razão Segura": "Pelo menos 10 amostras por parâmetro",
    "Redução Progressiva": "Camadas seguintes com ~50% dos neurônios anteriores"
}

for regra, formula in regras.items():
    print(f"    {regra}: {formula}")


# EXEMPLO 4: CRIAÇÃO DE MODELO COM ARQUITETURA SUGERIDA



print(" EXEMPLO 4: IMPLEMENTANDO MODELO COM ARQUITETURA OTIMIZADA")


def criar_modelo_otimizado(dimensao_entrada, dimensao_saida, n_amostras, tipo_problema='classificacao'):
    """
    Cria modelo Keras com arquitetura otimizada baseada na análise
    """
    print(f" CRIANDO MODELO OTIMIZADO:")
    print(f"   Entrada: {dimensao_entrada}, Saída: {dimensao_saida}, Amostras: {n_amostras}")

    # Obtém arquitetura sugerida
    arquitetura = AnaliseArquitetura.sugerir_arquitetura(
        dimensao_entrada, dimensao_saida, 'medio', n_amostras
    )

    # Cria modelo sequencial
    modelo = tf.keras.Sequential()

    # Adiciona camadas baseado na arquitetura sugerida
    for i in range(1, len(arquitetura)):
        if i == 1:
            # Primeira camada precisa de input_shape
            modelo.add(layers.Dense(
                arquitetura[i],
                activation='relu',
                input_shape=(dimensao_entrada,)
            ))
        elif i == len(arquitetura) - 1:
            # Última camada - ativação baseada no tipo de problema
            if tipo_problema == 'classificacao':
                if dimensao_saida == 1:
                    ativacao = 'sigmoid'
                else:
                    ativacao = 'softmax'
            else:
                ativacao = 'linear'
            modelo.add(layers.Dense(arquitetura[i], activation=ativacao))
        else:
            # Camadas ocultas
            modelo.add(layers.Dense(arquitetura[i], activation='relu'))
            modelo.add(layers.Dropout(0.3))  # Dropout para regularização

    # Compila modelo
    if tipo_problema == 'classificacao':
        if dimensao_saida == 1:
            loss = 'binary_crossentropy'
        else:
            loss = 'categorical_crossentropy'
    else:
        loss = 'mse'

    modelo.compile(
        optimizer='adam',
        loss=loss,
        metrics=['accuracy'] if tipo_problema == 'classificacao' else ['mae']
    )

    print("    Modelo criado e compilado com sucesso!")
    modelo.summary()

    return modelo

# Exemplo de uso
modelo_otimizado = criar_modelo_otimizado(
    dimensao_entrada=15,
    dimensao_saida=3,
    n_amostras=1500,
    tipo_problema='classificacao'
)



# 3.2 Funções de Ativação

O que são: Funções que determinam a saída de cada neurônio.

Explicação:

    Propósito: Introduzir não-linearidade na rede

    Tipos principais:

        ReLU: max(0,x) - Mais usada, evita vanishing gradient

        Sigmoid: 1/(1+e⁻ˣ) - Para probabilidades (0-1)

        Tanh: (eˣ-e⁻ˣ)/(eˣ+e⁻ˣ) - Similar à sigmoid mas com média zero

        Softmax: Transforma saídas em probabilidades (soma=1)

    Escolha: Depende do problema e da camada

In [None]:
import numpy as np
import matplotlib.pyplot as plt

class VisualizacaoFuncoesAtivacao:
    """Visualiza diferentes funções de ativação"""

    @staticmethod
    def relu(x):
        return np.maximum(0, x)

    @staticmethod
    def sigmoid(x):
        return 1 / (1 + np.exp(-x))

    @staticmethod
    def tanh(x):
        return np.tanh(x)

    @staticmethod
    def leaky_relu(x, alpha=0.1):
        return np.where(x > 0, x, alpha * x)

    @staticmethod
    def softmax(x):
        exp_x = np.exp(x - np.max(x))
        return exp_x / np.sum(exp_x)

    def visualizar(self):
        """Plota todas as funções de ativação"""
        x = np.linspace(-5, 5, 100)

        funcoes = {
            'ReLU': self.relu(x),
            'Sigmoid': self.sigmoid(x),
            'Tanh': self.tanh(x),
            'Leaky ReLU': self.leaky_relu(x),
        }

        plt.figure(figsize=(12, 8))

        # Plota funções principais
        for i, (nome, y) in enumerate(funcoes.items()):
            plt.subplot(2, 3, i + 1)
            plt.plot(x, y, linewidth=2)
            plt.title(nome, fontsize=14)
            plt.grid(True, alpha=0.3)
            plt.xlabel('x')
            plt.ylabel('f(x)')

        # Plota softmax (especial)
        plt.subplot(2, 3, 5)
        x_softmax = np.array([1.0, 2.0, 3.0])
        y_softmax = self.softmax(x_softmax)
        bars = plt.bar(range(len(x_softmax)), y_softmax)
        plt.title('Softmax - Exemplo [1, 2, 3]', fontsize=14)
        plt.xticks(range(len(x_softmax)), [f'Classe {i}' for i in range(len(x_softmax))])
        plt.ylabel('Probabilidade')

        # Adiciona valores nas barras
        for bar, valor in zip(bars, y_softmax):
            plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                    f'{valor:.2f}', ha='center', va='bottom')

        # Explica características
        plt.subplot(2, 3, 6)
        plt.axis('off')
        info_text = """
        CARACTERÍSTICAS DAS FUNÇÕES:

        ReLU:
        • Simples e eficiente
        • Evita vanishing gradient
        • Pode causar "neurônios mortos"

        Sigmoid:
        • Saída entre 0 e 1
        • Boa para probabilidades
        • Sofre de vanishing gradient

        Tanh:
        • Saída entre -1 e 1
        • Média zero
        • Melhor que sigmoid

        Leaky ReLU:
        • Corrige "neurônios mortos"
        • Permite pequenos valores negativos
        """
        plt.text(0.1, 0.9, info_text, fontsize=10, va='top', linespacing=1.5)

        plt.tight_layout()
        plt.suptitle('Funções de Ativação em Redes Neurais', fontsize=16)
        plt.show()

print("=== VISUALIZAÇÃO DE FUNÇÕES DE ATIVAÇÃO ===")
visualizador = VisualizacaoFuncoesAtivacao()
visualizador.visualizar()

# Exemplo numérico
print("\n=== EXEMPLO NUMÉRICO ===")
x_exemplo = np.array([-2, -1, 0, 1, 2])
print(f"Entrada: {x_exemplo}")

funcoes_calc = {
    'ReLU': visualizador.relu(x_exemplo),
    'Sigmoid': visualizador.sigmoid(x_exemplo),
    'Tanh': visualizador.tanh(x_exemplo),
    'Leaky ReLU': visualizador.leaky_relu(x_exemplo),
}

for nome, valores in funcoes_calc.items():
    print(f"{nome:12}: {[f'{v:.3f}' for v in valores]}")

# Exemplo Softmax
print(f"\nSoftmax exemplo:")
vetor = np.array([2.0, 1.0, 0.1])
softmax_result = visualizador.softmax(vetor)
print(f"Entrada: {vetor}")
print(f"Softmax: {softmax_result}")
print(f"Soma: {np.sum(softmax_result):.1f}")



# 3.3 Épocas, Batch Size e Learning Rate

O que são: Hiperparâmetros críticos para o treinamento.

Explicação:

    Épocas: Número de vezes que a rede vê todo o dataset

        Poucas épocas: Underfitting

        Muitas épocas: Overfitting

    Batch Size: Número de amostras processadas antes da atualização dos pesos

        Batch pequeno: Treino mais ruidoso mas generaliza melhor

        Batch grande: Treino mais estável mas requer mais memória

    Learning Rate: Tamanho do passo nas atualizações dos pesos

        Muito alto: Pode divergir

        Muito baixo: Treino muito lento

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import callbacks
import time
from sklearn.model_selection import learning_curve

class EstrategiaTreino:
    """Classe completa com estratégias avançadas para configuração de treinamento"""

    @staticmethod
    def calcular_epocas_ideais(n_amostras, complexidade='medio', tipo_problema='classificacao'):
        """
        Calcula número sugerido de épocas baseado em múltiplos fatores

        Args:
            n_amostras (int): Número de amostras no dataset
            complexidade (str): 'simples', 'medio', 'complexo'
            tipo_problema (str): 'classificacao' ou 'regressao'

        Returns:
            int: Número sugerido de épocas
        """
        print(f" Calculando épocas ideais para:")
        print(f"   Amostras: {n_amostras}")
        print(f"   Complexidade: {complexidade}")
        print(f"   Tipo: {tipo_problema}")

        # Base por complexidade
        base_complexidade = {
            'simples': 50,    # Problemas lineares simples
            'medio': 100,     # Problemas não-lineares moderados
            'complexo': 500   # Problemas muito complexos (imagens, etc)
        }

        # Ajuste por número de amostras
        if n_amostras < 1000:
            fator_amostras = 0.8
        elif n_amostras < 10000:
            fator_amostras = 1.0
        else:
            fator_amostras = 1.2

        # Ajuste por tipo de problema
        fator_tipo = 1.5 if tipo_problema == 'regressao' else 1.0

        epocas_base = base_complexidade.get(complexidade, 100)
        epocas_ajustadas = int(epocas_base * fator_amostras * fator_tipo)

        # Limites práticos
        epocas_final = max(10, min(epocas_ajustadas, 2000))

        print(f"    Base: {epocas_base}")
        print(f"    Fator amostras: {fator_amostras}")
        print(f"    Fator tipo: {fator_tipo}")
        print(f"    Épocas sugeridas: {epocas_final}")

        return epocas_final

    @staticmethod
    def sugerir_batch_size(n_amostras, memoria_disponivel='medio', tipo_modelo='dense'):
        """
        Sugere batch size baseado em múltiplos fatores

        Args:
            n_amostras (int): Número de amostras
            memoria_disponivel (str): 'baixa', 'medio', 'alta'
            tipo_modelo (str): 'dense', 'cnn', 'rnn'

        Returns:
            int: Batch size sugerido
        """
        print(f" Sugerindo batch size para:")
        print(f"   Amostras: {n_amostras}")
        print(f"   Memória: {memoria_disponivel}")
        print(f"   Modelo: {tipo_modelo}")

        # Base por número de amostras
        if n_amostras <= 500:
            base = 16
        elif n_amostras <= 1000:
            base = 32
        elif n_amostras <= 5000:
            base = 64
        elif n_amostras <= 20000:
            base = 128
        else:
            base = 256

        # Ajuste por memória disponível
        fator_memoria = {
            'baixa': 0.5,
            'medio': 1.0,
            'alta': 2.0
        }.get(memoria_disponivel, 1.0)

        # Ajuste por tipo de modelo
        fator_modelo = {
            'dense': 1.0,
            'cnn': 0.5,    # CNNs geralmente usam batches menores
            'rnn': 0.8     # RNNs podem precisar de batches menores devido à sequência
        }.get(tipo_modelo, 1.0)

        batch_ajustado = int(base * fator_memoria * fator_modelo)

        # Garante que batch size é power of 2 (otimização GPU) e dentro de limites
        batches_potencia_2 = [16, 32, 64, 128, 256, 512, 1024]
        batch_final = min(batches_potencia_2,
                         key=lambda x: abs(x - batch_ajustado))

        # Não pode ser maior que número de amostras
        batch_final = min(batch_final, n_amostras)

        print(f"    Base: {base}")
        print(f"    Fator memória: {fator_memoria}")
        print(f"    Fator modelo: {fator_modelo}")
        print(f"    Batch size sugerido: {batch_final}")

        return batch_final

    @staticmethod
    def scheduler_learning_rate(epoca, lr_inicial=0.001, esquema='decay'):
        """
        Scheduling de learning rate com múltiplas estratégias

        Args:
            epoca (int): Época atual
            lr_inicial (float): Learning rate inicial
            esquema (str): 'decay', 'step', 'cosine', 'warmup'

        Returns:
            float: Learning rate para a época
        """
        if esquema == 'decay':
            # Decaimento exponencial suave
            lr = lr_inicial * np.exp(-0.1 * (epoca // 10))
        elif esquema == 'step':
            # Redução em degraus
            if epoca < 10:
                lr = lr_inicial
            elif epoca < 50:
                lr = lr_inicial * 0.1
            elif epoca < 100:
                lr = lr_inicial * 0.01
            else:
                lr = lr_inicial * 0.001
        elif esquema == 'cosine':
            # Decaimento cosseno (popular em papers recentes)
            lr = lr_inicial * (1 + np.cos(np.pi * epoca / 200)) / 2
        elif esquema == 'warmup':
            # Warmup seguido de decay
            if epoca < 5:
                lr = lr_inicial * (epoca + 1) / 5  # Warmup linear
            else:
                lr = lr_inicial * np.exp(-0.1 * ((epoca - 5) // 10))
        else:
            lr = lr_inicial

        return max(lr, 1e-6)  # Learning rate mínimo

    @staticmethod
    def criar_callbacks_avancados(monitor='val_loss', patience=15, lr_patience=10, verbose=1):
        """
        Cria conjunto completo de callbacks para treinamento robusto

        Args:
            monitor (str): Métrica para monitorar
            patience (int): Paciência para early stopping
            lr_patience (int): Paciência para redução de LR
            verbose (int): Verbosidade

        Returns:
            list: Lista de callbacks do Keras
        """
        callbacks_list = [
            # Early Stopping - para treino se não houver melhoria
            callbacks.EarlyStopping(
                monitor=monitor,
                patience=patience,
                restore_best_weights=True,
                verbose=verbose
            ),

            # ReduceLROnPlateau - reduz LR quando estagna
            callbacks.ReduceLROnPlateau(
                monitor=monitor,
                factor=0.5,
                patience=lr_patience,
                min_lr=1e-7,
                verbose=verbose
            ),

            # Model Checkpoint - salva melhores modelos
            callbacks.ModelCheckpoint(
                filepath='melhor_modelo.h5',
                monitor=monitor,
                save_best_only=True,
                save_weights_only=False,
                verbose=verbose
            ),

            # TensorBoard - para visualização (opcional)
            # callbacks.TensorBoard(
            #     log_dir='./logs',
            #     histogram_freq=1
            # ),

            # CSV Logger - salva histórico em CSV
            callbacks.CSVLogger(
                'historico_treino.csv',
                separator=',',
                append=False
            )
        ]

        print("  Callbacks configurados:")
        print("    Early Stopping")
        print("    Reduce LR on Plateau")
        print("    Model Checkpoint")
        print("    CSV Logger")

        return callbacks_list

    @staticmethod
    def analisar_curva_aprendizado(historico, tamanho_testes=None):
        """
        Analisa e visualiza a curva de aprendizado

        Args:
            historico: Objeto history retornado pelo model.fit()
            tamanho_testes (list): Tamanhos de dataset para análise

        Returns:
            dict: Análise da curva de aprendizado
        """
        if hasattr(historico, 'history'):
            history = historico.history
        else:
            history = historico

        print("📊 Analisando curva de aprendizado...")

        # Métricas disponíveis
        metricas = [k for k in history.keys() if not k.startswith('val_')]

        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        fig.suptitle('Análise Completa da Curva de Aprendizado', fontsize=16)

        analise = {}

        for i, metrica in enumerate(metricas[:2]):  # Analisa até 2 métricas
            if metrica in history:
                # Plot da métrica de treino e validação
                ax = axes[i, 0]
                ax.plot(history[metrica], label=f'Treino {metrica}', linewidth=2)

                val_metrica = f'val_{metrica}'
                if val_metrica in history:
                    ax.plot(history[val_metrica], label=f'Validação {metrica}', linewidth=2)

                ax.set_title(f'Curva de {metrica.upper()}')
                ax.set_xlabel('Época')
                ax.set_ylabel(metrica)
                ax.legend()
                ax.grid(True, alpha=0.3)

                # Análise de convergência
                if len(history[metrica]) > 10:
                    ultimos_10 = history[metrica][-10:]
                    variacao = np.std(ultimos_10) / np.mean(ultimos_10)

                    analise[metrica] = {
                        'convergiu': variacao < 0.05,
                        'variacao_ultimas_epocas': variacao,
                        'melhor_epoca': np.argmin(history[metrica]) if 'loss' in metrica else np.argmax(history[metrica])
                    }

        # Análise de overfitting
        if 'loss' in history and 'val_loss' in history:
            ax = axes[0, 1]
            overfitting_ratio = []
            for i in range(min(len(history['loss']), len(history['val_loss']))):
                ratio = history['loss'][i] / history['val_loss'][i] if history['val_loss'][i] > 0 else 1
                overfitting_ratio.append(ratio)

            ax.plot(overfitting_ratio, color='red', linewidth=2)
            ax.axhline(y=1.0, color='black', linestyle='--', label='Ideal')
            ax.axhline(y=1.5, color='orange', linestyle='--', label='Limite Moderado')
            ax.axhline(y=2.0, color='red', linestyle='--', label='Limite Severo')
            ax.set_title('Ratio Overfitting (Treino/Validação)')
            ax.set_xlabel('Época')
            ax.set_ylabel('Ratio Loss Treino/Validação')
            ax.legend()
            ax.grid(True, alpha=0.3)

            # Classificação do overfitting
            ultimo_ratio = overfitting_ratio[-1] if overfitting_ratio else 1
            if ultimo_ratio < 1.2:
                status_overfitting = "BAIXO"
            elif ultimo_ratio < 1.8:
                status_overfitting = "MODERADO"
            else:
                status_overfitting = "ALTO"

            analise['overfitting'] = {
                'status': status_overfitting,
                'ratio_final': ultimo_ratio
            }

        # Learning rate (se disponível)
        if 'lr' in history:
            ax = axes[1, 1]
            ax.plot(history['lr'], color='purple', linewidth=2)
            ax.set_title('Evolução do Learning Rate')
            ax.set_xlabel('Época')
            ax.set_ylabel('Learning Rate')
            ax.set_yscale('log')
            ax.grid(True, alpha=0.3)

        plt.tight_layout()
        plt.show()

        # Relatório de análise
        print("\n RELATÓRIO DA ANÁLISE:")
        for metrica, info in analise.items():
            if metrica != 'overfitting':
                status = "CONVERGIU" if info['convergiu'] else "NÃO CONVERGIU"
                print(f"    {metrica.upper()}: {status} (variação: {info['variacao_ultimas_epocas']:.3f})")

        if 'overfitting' in analise:
            print(f"    OVERFITTING: {analise['overfitting']['status']} (ratio: {analise['overfitting']['ratio_final']:.2f})")

        return analise

    @staticmethod
    def otimizar_hiperparametros(n_amostras, complexidade='medio', tipo_problema='classificacao'):
        """
        Sugere configurações completas de hiperparâmetros

        Args:
            n_amostras (int): Número de amostras
            complexidade (str): Complexidade do problema
            tipo_problema (str): Tipo de problema

        Returns:
            dict: Configurações otimizadas
        """
        print("  Otimizando hiperparâmetros...")

        # Épocas
        epocas = EstrategiaTreino.calcular_epocas_ideais(n_amostras, complexidade, tipo_problema)

        # Batch size
        batch_size = EstrategiaTreino.sugerir_batch_size(n_amostras)

        # Learning rate baseado na complexidade
        lr_base = {
            'simples': 0.01,
            'medio': 0.001,
            'complexo': 0.0001
        }.get(complexidade, 0.001)

        # Otimizador recomendado
        if complexidade == 'simples':
            otimizador = 'sgd'
        elif complexidade == 'medio':
            otimizador = 'adam'
        else:
            otimizador = 'adam'

        config = {
            'epocas': epocas,
            'batch_size': batch_size,
            'learning_rate': lr_base,
            'otimizador': otimizador,
            'callbacks': EstrategiaTreino.criar_callbacks_avancados(),
            'estrategia_lr': 'decay' if complexidade == 'complexo' else 'step'
        }

        print(" Configurações otimizadas:")
        for chave, valor in config.items():
            if chave != 'callbacks':
                print(f"   {chave}: {valor}")

        return config

    @staticmethod
    def calcular_tempo_estimado_treino(n_amostras, batch_size, epocas, complexidade_modelo='medio'):
        """
        Estima tempo de treinamento baseado em características do problema

        Args:
            n_amostras (int): Número de amostras
            batch_size (int): Tamanho do batch
            epocas (int): Número de épocas
            complexidade_modelo (str): Complexidade do modelo

        Returns:
            dict: Estimativa de tempo em diferentes cenários
        """
        # batches por época
        batches_por_epoca = n_amostras // batch_size

        # Tempo por batch (segundos) - estimativa base
        tempo_por_batch_base = {
            'simples': 0.01,   # Modelos simples
            'medio': 0.05,     # Modelos médios
            'complexo': 0.2    # Modelos complexos (CNNs, etc)
        }.get(complexidade_modelo, 0.05)

        # Tempo total estimado
        tempo_total_epocas = batches_por_epoca * tempo_por_batch_base * epocas

        # Conversão para minutos/horas
        tempo_minutos = tempo_total_epocas / 60
        tempo_horas = tempo_minutos / 60

        estimativa = {
            'segundos_total': tempo_total_epocas,
            'minutos_total': tempo_minutos,
            'horas_total': tempo_horas,
            'segundos_por_epoca': tempo_total_epocas / epocas,
            'batches_por_epoca': batches_por_epoca
        }

        print("  ESTIMATIVA DE TEMPO DE TREINO:")
        print(f"    Épocas: {epocas}")
        print(f"    Batches/época: {batches_por_epoca}")
        print(f"    Tempo total estimado: {tempo_minutos:.1f} minutos ({tempo_horas:.2f} horas)")
        print(f"    Tempo por época: {estimativa['segundos_por_epoca']:.1f} segundos")

        return estimativa


# EXEMPLOS PRÁTICOS



print(" EXEMPLO 1: PROBLEMA DE CLASSIFICAÇÃO MÉDIA")


# Cenário: Classificação com dataset médio
n_amostras = 5000
complexidade = 'medio'
tipo_problema = 'classificacao'

print(f" CENÁRIO: Classificação com {n_amostras} amostras")

# 1. Obter configurações otimizadas
config = EstrategiaTreino.otimizar_hiperparametros(
    n_amostras=n_amostras,
    complexidade=complexidade,
    tipo_problema=tipo_problema
)

# 2. Calcular tempo estimado
tempo_estimado = EstrategiaTreino.calcular_tempo_estimado_treino(
    n_amostras=n_amostras,
    batch_size=config['batch_size'],
    epocas=config['epocas'],
    complexidade_modelo=complexidade
)


print(" EXEMPLO 2: COMPARAÇÃO DE BATCH SIZES")


# Comparar diferentes batch sizes
n_amostras_test = 10000
memorias = ['baixa', 'medio', 'alta']
modelos = ['dense', 'cnn', 'rnn']

print(" COMPARANDO BATCH SIZES:")
for memoria in memorias:
    for modelo in modelos:
        batch = EstrategiaTreino.sugerir_batch_size(
            n_amostras_test, memoria, modelo
        )


print(" EXEMPLO 3: ESTRATÉGIAS DE LEARNING RATE")


# Comparar diferentes estratégias de LR
epocas_test = 150
lr_inicial = 0.01
estrategias = ['decay', 'step', 'cosine', 'warmup']

print(" COMPARANDO ESTRATÉGIAS DE LEARNING RATE:")
plt.figure(figsize=(12, 6))

for estrategia in estrategias:
    lr_history = []
    for epoca in range(epocas_test):
        lr = EstrategiaTreino.scheduler_learning_rate(
            epoca, lr_inicial, estrategia
        )
        lr_history.append(lr)

    plt.plot(lr_history, label=estrategia, linewidth=2)

plt.title('Comparação de Estratégias de Learning Rate')
plt.xlabel('Época')
plt.ylabel('Learning Rate')
plt.yscale('log')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()


print(" EXEMPLO 4: SIMULAÇÃO DE TREINAMENTO COMPLETO")


# Simular um histórico de treinamento para análise
print(" Simulando histórico de treinamento...")

# Histórico simulado (tipico de um treinamento)
historico_simulado = {
    'loss': [0.8, 0.5, 0.3, 0.2, 0.15, 0.12, 0.1, 0.09, 0.085, 0.082, 0.08, 0.079, 0.078, 0.077, 0.076],
    'val_loss': [0.7, 0.45, 0.28, 0.18, 0.14, 0.13, 0.12, 0.115, 0.11, 0.108, 0.107, 0.106, 0.105, 0.104, 0.103],
    'accuracy': [0.65, 0.75, 0.82, 0.88, 0.91, 0.92, 0.93, 0.935, 0.94, 0.942, 0.945, 0.947, 0.948, 0.949, 0.95],
    'val_accuracy': [0.68, 0.77, 0.83, 0.87, 0.89, 0.90, 0.905, 0.908, 0.91, 0.912, 0.913, 0.914, 0.915, 0.916, 0.917],
    'lr': [0.001] * 15  # LR constante para exemplo
}

# Analisar curva de aprendizado
analise = EstrategiaTreino.analisar_curva_aprendizado(historico_simulado)


print(" RESUMO DAS ESTRATÉGIAS RECOMENDADAS")


estrategias_resumo = {
    "Batch Size": "Use potências de 2 (32, 64, 128...) para otimização GPU",
    "Learning Rate": "Comece com 0.001-0.01 e use scheduling",
    "Early Stopping": "Monitore val_loss com patience 10-20",
    "Callbacks": "Sempre use ReduceLROnPlateau e ModelCheckpoint",
    "Épocas": "Ajuste baseado em complexidade e tamanho do dataset",
    "Overfitting": "Ratio treino/validação > 1.5 indica overfitting"
}

for estrategia, recomendacao in estrategias_resumo.items():
    print(f"    {estrategia}: {recomendacao}")

# EXEMPLO 5: IMPLEMENTAÇÃO PRÁTICA COM TENSORFLOW



print(" EXEMPLO 5: IMPLEMENTAÇÃO COM TENSORFLOW")


def criar_modelo_exemplo(input_dim=20, output_dim=3):
    """Cria modelo de exemplo para demonstração"""
    modelo = tf.keras.Sequential([
        tf.keras.layers.Dense(64, activation='relu', input_shape=(input_dim,)),
        tf.keras.layers.Dropout(0.3),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dropout(0.3),
        tf.keras.layers.Dense(output_dim, activation='softmax')
    ])

    return modelo

# Configurações para um problema específico
n_amostras_exemplo = 8000
input_dim = 20
output_dim = 3

print(f" CRIANDO PIPELINE DE TREINO PARA:")
print(f"   Amostras: {n_amostras_exemplo}")
print(f"   Input: {input_dim}D, Output: {output_dim}D")

# 1. Obter configurações otimizadas
config_exemplo = EstrategiaTreino.otimizar_hiperparametros(
    n_amostras=n_amostras_exemplo,
    complexidade='medio',
    tipo_problema='classificacao'
)

# 2. Criar modelo
modelo_exemplo = criar_modelo_exemplo(input_dim, output_dim)

# 3. Compilar com configurações otimizadas
modelo_exemplo.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=config_exemplo['learning_rate']),
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

print(" Modelo compilado com configurações otimizadas!")
print(f"   Otimizador: {config_exemplo['otimizador']}")
print(f"   Learning Rate: {config_exemplo['learning_rate']}")

# 4. Dados de exemplo (simulados)
X_simulado = np.random.randn(n_amostras_exemplo, input_dim)
y_simulado = np.random.randint(0, output_dim, n_amostras_exemplo)

print(f" Dados simulados: X {X_simulado.shape}, y {y_simulado.shape}")

# 5. Treinar com callbacks (comentado para não executar de verdade)
print(" Treinamento comentado para demonstração:")
print("""
# historico = modelo_exemplo.fit(
#     X_simulado, y_simulado,
#     epochs=config_exemplo['epocas'],
#     batch_size=config_exemplo['batch_size'],
#     validation_split=0.2,
#     callbacks=config_exemplo['callbacks'],
#     verbose=1
# )
""")

print(" Pipeline de treino configurado com sucesso!")



# 4. Bibliotecas Principais



O que é: Framework mais popular para deep learning.

# TensorFlow/Keras

Explicação:

    TensorFlow: Framework de baixo nível com execução eficiente

    Keras: API de alto nível que simplifica o uso do TensorFlow

    Vantagens:

        Comunidade grande e ativa

        Documentação extensa

        Suporte a GPU/TPU

        Produção-ready

    Casos de uso: Projetos de pequena a grande escala

# Pytorch:
    
    Características:

    Computação dinâmica (define-by-run)

    Interface Pythonica

    Boa para prototipagem rápida

Vantagens:

    Flexibilidade

    Debugging fácil

    Crescimento rápido na indústria

Casos de uso: Pesquisa, prototipagem, projetos acadêmicos


# Scikit-Learn

Vantagens:

    Interface consistente

    Integração com outras técnicas de ML

    Boa para baseline

Limitações:

    Não suporta redes complexas

    Menos eficiente para grandes datasets

Casos de uso: Problemas simples, prototipagem rápida



# Exemplo: Scikit-Learn

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import numpy as np

print("=== REDES NEURAIS COM SCIKIT-LEARN ===")

# Cria dataset moons (problema não linear)
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
print(f"Dataset criado: {X.shape} amostras, {len(np.unique(y))} classes")

# Visualiza os dados
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.scatter(X[y == 0, 0], X[y == 0, 1], color='red', alpha=0.6, label='Classe 0')
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='blue', alpha=0.6, label='Classe 1')
plt.title('Dataset Moons - Dados Originais')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True, alpha=0.3)

# Pré-processamento
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Divide em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42
)
print(f"Treino: {X_train.shape}, Teste: {X_test.shape}")

# Cria e treina MLP
mlp = MLPClassifier(
    hidden_layer_sizes=(100, 50),  # 2 camadas: 100 e 50 neurônios
    activation='relu',             # Função de ativação
    solver='adam',                 # Otimizador
    alpha=0.001,                   # Termo de regularização
    learning_rate_init=0.001,      # Taxa de aprendizado
    max_iter=500,                  # Máximo de iterações
    random_state=42,
    early_stopping=True,           # Para early se não melhorar
    validation_fraction=0.1        # 10% para validação
)

print("\n=== TREINANDO MODELO ===")
mlp.fit(X_train, y_train)

print(f"Treinamento concluído após {mlp.n_iter_} iterações")
print(f"Loss final: {mlp.loss_:.4f}")

# Avaliação
y_pred = mlp.predict(X_test)
accuracy = mlp.score(X_test, y_test)
print(f"\n=== AVALIAÇÃO ===")
print(f"Acurácia no teste: {accuracy:.4f}")

# Métricas detalhadas
print("\n=== RELATÓRIO DE CLASSIFICAÇÃO ===")
print(classification_report(y_test, y_pred))

# Matriz de confusão
cm = confusion_matrix(y_test, y_pred)
print("=== MATRIZ DE CONFUSÃO ===")
print(cm)

# Visualiza fronteira de decisão
plt.subplot(1, 2, 2)

# Cria grid para plotar fronteira
xx, yy = np.meshgrid(
    np.linspace(X_scaled[:, 0].min() - 0.5, X_scaled[:, 0].max() + 0.5, 100),
    np.linspace(X_scaled[:, 1].min() - 0.5, X_scaled[:, 1].max() + 0.5, 100)
)

# Previsões no grid
Z = mlp.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Plota fronteira
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.RdYlBu)
plt.scatter(X_test[y_test == 0, 0], X_test[y_test == 0, 1],
           color='red', alpha=0.6, label='Classe 0 Real')
plt.scatter(X_test[y_test == 1, 0], X_test[y_test == 1, 1],
           color='blue', alpha=0.6, label='Classe 1 Real')

# Destaca erros de classificação
erros = y_test != y_pred
plt.scatter(X_test[erros, 0], X_test[erros, 1],
           color='black', marker='x', s=100, label='Erros')

plt.title(f'Fronteira de Decisão MLP\nAcurácia: {accuracy:.3f}')
plt.xlabel('Feature 1 (escalada)')
plt.ylabel('Feature 2 (escalada)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Informações da rede
print("\n=== INFORMAÇÕES DA REDE ===")
print(f"Número de camadas: {mlp.n_layers_}")
print(f"Neurônios por camada: {mlp.hidden_layer_sizes}")
print(f"Função de ativação: {mlp.activation}")
print(f"Otimizador: {mlp.solver}")

# Curva de aprendizado
plt.figure(figsize=(10, 4))
plt.plot(mlp.loss_curve_)
plt.title('Curva de Aprendizado do MLP')
plt.xlabel('Iteração')
plt.ylabel('Loss')
plt.grid(True, alpha=0.3)
plt.show()



# 5. Técnicas Avançadas

# 5.1 Regularização

O que é: Técnicas para prevenir overfitting.

Explicação:

    L1/L2 Regularization: Adiciona penalidade aos pesos grandes

    Dropout: Desliga neurônios aleatoriamente durante o treino

    Batch Normalization: Normaliza as ativações de cada camada

    Early Stopping: Para o treino quando a validação para de melhorar

    Data Augmentation: Cria variações dos dados de treino

In [None]:
class TecnicasRegularizacao:
    """Implementação de técnicas de regularização"""

    @staticmethod
    def criar_modelo_regularizado(dimensao_entrada):
        # Cria modelo com várias técnicas de regularização
        modelo = models.Sequential([
            # Camada com regularização L2 nos pesos
            layers.Dense(64, activation='relu', input_shape=(dimensao_entrada,),
                        kernel_regularizer=tf.keras.regularizers.l2(0.001)),
            layers.BatchNormalization(),  # Normalização em lote
            layers.Dropout(0.3),          # Dropout 30%

            # Segunda camada regularizada
            layers.Dense(32, activation='relu',
                        kernel_regularizer=tf.keras.regularizers.l2(0.001)),
            layers.BatchNormalization(),
            layers.Dropout(0.3),

            # Camada de saída
            layers.Dense(1, activation='sigmoid')
        ])

        return modelo

    @staticmethod
    def data_augmentation_imagens():
        """Data augmentation para imagens - cria variações dos dados"""
        data_gen = tf.keras.preprocessing.image.ImageDataGenerator(
            rotation_range=20,       # Rotação aleatória até 20 graus
            width_shift_range=0.2,   # Deslocamento horizontal aleatório
            height_shift_range=0.2,  # Deslocamento vertical aleatório
            horizontal_flip=True,    # Inversão horizontal aleatória
            zoom_range=0.2,          # Zoom aleatório
            shear_range=0.2,         # Cisalhamento aleatório
            fill_mode='nearest'      # Preenche pixels faltantes com vizinhos
        )
        return data_gen

# 5.2 Transfer Learning

O que é: Reutilizar modelos pré-treinados em novos problemas.

Explicação:

    Como funciona:

        Usa pesos de redes treinadas em grandes datasets (ex: ImageNet)

        Fine-tuning nas camadas finais para a tarefa específica

    Vantagens:

        Requer menos dados

        Treino mais rápido

        Melhor performance

    Aplicações:

        Visão computacional

        Processamento de linguagem natural



In [None]:
class TransferLearningExample:
    """Exemplo de Transfer Learning"""

    @staticmethod
    def criar_modelo_transfer_learning():
        # Usa modelo pré-treinado MobileNetV2
        base_model = tf.keras.applications.MobileNetV2(
            weights='imagenet',       # Pesos treinados no ImageNet
            include_top=False,        # Exclui camadas fully connected do topo
            input_shape=(224, 224, 3) # Forma de entrada esperada
        )

        # Congela camadas base (não treina)
        base_model.trainable = False

        # Adiciona novas camadas para tarefa específica
        modelo = models.Sequential([
            base_model,                      # Base pré-treinada
            layers.GlobalAveragePooling2D(), # Pooling para reduzir dimensionalidade
            layers.Dense(128, activation='relu'),
            layers.Dropout(0.3),
            layers.Dense(10, activation='softmax')  # 10 classes para novo problema
        ])

        return modelo

# 7. Ferramentas de Análise e Visualização

O que são: Técnicas para entender e depurar redes neurais.

Explicação:

    Histórico de Treino: Gráficos de loss e acurácia ao longo do tempo

    Visualização de Arquitetura: Diagramas da estrutura da rede

    Análise de Camadas: Visualização das ativações internas

    Matriz de Confusão: Performance detalhada por classe

    Curvas ROC: Trade-off entre verdadeiros positivos e falsos positivos

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

class VisualizacaoRedesNeurais:
    """Ferramentas para visualização e análise"""

    @staticmethod
    def plotar_historico_treino(historico):
        # Cria figura com 2 subplots
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))

        # Plot loss
        ax1.plot(historico.history['loss'], label='Treino')
        ax1.plot(historico.history['val_loss'], label='Validação')
        ax1.set_title('Loss durante Treino')
        ax1.set_xlabel('Época')
        ax1.set_ylabel('Loss')
        ax1.legend()

        # Plot acurácia (se disponível)
        if 'accuracy' in historico.history:
            ax2.plot(historico.history['accuracy'], label='Treino')
            ax2.plot(historico.history['val_accuracy'], label='Validação')
            ax2.set_title('Acurácia durante Treino')
            ax2.set_xlabel('Época')
            ax2.set_ylabel('Acurácia')
            ax2.legend()

        plt.tight_layout()
        plt.show()

    @staticmethod
    def visualizar_arquitetura(modelo):
        # Gera visualização da arquitetura do modelo
        tf.keras.utils.plot_model(
            modelo,
            to_file='model_architecture.png',  # Salva em arquivo
            show_shapes=True,                  # Mostra formas dos tensores
            show_layer_names=True              # Mostra nomes das camadas
        )

    @staticmethod
    def analisar_camadas(modelo, X_exemplo):
        """Analisa ativações das camadas para entender o que a rede aprende"""
        # Cria modelo que retorna saídas de todas as camadas
        saidas_camadas = [camada.output for camada in modelo.layers]
        modelo_ativacoes = models.Model(
            inputs=modelo.input,
            outputs=saidas_camadas
        )

        # Calcula ativações para exemplo de entrada
        ativacoes = modelo_ativacoes.predict(X_exemplo)

        # Plota ativações de cada camada
        for i, ativacao in enumerate(ativacoes):
            if len(ativacao.shape) == 2:  # Camadas densas
                plt.figure(figsize=(8, 4))
                plt.imshow(ativacao, aspect='auto', cmap='viridis')
                plt.title(f'Camada {i} - {modelo.layers[i].name}')
                plt.colorbar()
                plt.show()

# 8. Considerações Práticas

# 8.1 Dicas para Treino Eficiente

O que são: Melhores práticas baseadas em experiência.

Explicação:

    Pré-processamento: Sempre normalize os dados

    Validação: Use split treino/validação/teste

    Hiperparâmetros: Comece com valores padrão e ajuste gradualmente

    Monitoramento: Acompanhe métricas durante o treino

    Experimentação: Mantenha um log de experimentos

# Glossário de Termos Técnicos

* Backpropagation: Algoritmo para calcular gradientes eficientemente

* Gradiente: Direção e magnitude da mudança necessária nos pesos

* Loss Function: Função que mede o erro da rede

* Optimizer: Algoritmo que atualiza os pesos baseado nos gradientes

* Forward Pass: Cálculo da saída da rede para uma dada entrada

* Batch: Conjunto de amostras processadas juntas

* Epoch: Passagem completa pelo dataset de treino

* Validation: Avaliação durante o treino para monitorar generalização

* Teste: Avaliação final em dados nunca vistos









# Oficina de Redes Neurais - Referências Completas

##  Referências Acadêmicas e Históricas

### Livros Fundamentais

#### 1. **Referências Clássicas**
- **McCulloch, W. S., & Pitts, W. (1943).** "A logical calculus of the ideas immanent in nervous activity". *Bulletin of Mathematical Biophysics*.
  - **Importância:** Artigo seminal que introduziu o primeiro modelo matemático de neurônio

- **Rosenblatt, F. (1958).** "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". *Psychological Review*.
  - **Contribuição:** Introduziu o conceito de perceptron e aprendizado supervisionado

- **Minsky, M., & Papert, S. (1969).** "Perceptrons: An Introduction to Computational Geometry".
  - **Impacto:** Demonstrou limitações do perceptron simples, levando ao "inverno das redes neurais"

#### 2. **Referências Modernas**
- **Goodfellow, I., Bengio, Y., & Courville, A. (2016).** "Deep Learning". MIT Press.
  - **Conteúdo:** Livro texto abrangente sobre deep learning
  - **Disponível online:** [deeplearningbook.org](http://www.deeplearningbook.org)

- **Nielsen, M. A. (2015).** "Neural Networks and Deep Learning".
  - **Característica:** Introdução prática com implementações em Python
  - **Disponível online:** [neuralnetworksanddeeplearning.com](http://neuralnetworksanddeeplearning.com)

### Artigos Seminais por Tópico

#### Redes Convolucionais (CNNs)
- **LeCun, Y., et al. (1998).** "Gradient-Based Learning Applied to Document Recognition".
  - **Contribuição:** Introduziu a arquitetura LeNet-5 para reconhecimento de dígitos

- **Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012).** "ImageNet Classification with Deep Convolutional Neural Networks".
  - **Impacto:** Revolucionou visão computacional com AlexNet

- **Simonyan, K., & Zisserman, A. (2014).** "Very Deep Convolutional Networks for Large-Scale Image Recognition".
  - **Contribuição:** Introduziu arquitetura VGG

#### Redes Recorrentes (RNNs/LSTMs)
- **Hochreiter, S., & Schmidhuber, J. (1997).** "Long Short-Term Memory".
  - **Importância:** Introduziu a arquitetura LSTM

- **Cho, K., et al. (2014).** "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation".
  - **Contribuição:** Introduziu GRU (Gated Recurrent Unit)

#### Redes Generativas (GANs)
- **Goodfellow, I., et al. (2014).** "Generative Adversarial Nets".
  - **Impacto:** Introduziu o conceito de GANs

#### Attention e Transformers
- **Vaswani, A., et al. (2017).** "Attention Is All You Need".
  - **Revolução:** Introduziu arquitetura Transformer, base para modelos modernos de NLP

---

##  Referências Técnicas Específicas

### Funções de Ativação
- **Glorot, X., & Bengio, Y. (2010).** "Understanding the difficulty of training deep feedforward neural networks".
  - **Contribuição:** Inicialização Xavier/Glorot

- **He, K., et al. (2015).** "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification".
  - **Importância:** Introduziu inicialização He e ReLU paramétrica

### Otimização
- **Kingma, D. P., & Ba, J. (2014).** "Adam: A Method for Stochastic Optimization".
  - **Impacto:** Introduziu o otimizador Adam

- **Ruder, S. (2016).** "An overview of gradient descent optimization algorithms".
  - **Revisão:** Comparação abrangente de algoritmos de otimização

### Regularização
- **Srivastava, N., et al. (2014).** "Dropout: A Simple Way to Prevent Neural Networks from Overfitting".
  - **Contribuição:** Introduziu técnica de Dropout

- **Ioffe, S., & Szegedy, C. (2015).** "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift".
  - **Impacto:** Introduziu Batch Normalization

---


##  Ferramentas e Frameworks

### Principais Frameworks
1. **TensorFlow**
   - **Documentação:** [tensorflow.org](https://www.tensorflow.org)
   - **GitHub:** [github.com/tensorflow/tensorflow](https://github.com/tensorflow/tensorflow)

2. **PyTorch**
   - **Documentação:** [pytorch.org](https://pytorch.org)
   - **GitHub:** [github.com/pytorch/pytorch](https://github.com/pytorch/pytorch)

3. **Keras**
   - **Documentação:** [keras.io](https://keras.io)
   - **GitHub:** [github.com/keras-team/keras](https://github.com/keras-team/keras)



---


##  Leitura Recomendada por Nível

### Iniciante
1. **"Make Your Own Neural Network"** - Tariq Rashid
2. **"Deep Learning with Python"** - François Chollet
3. **Blog: "Machine Learning is Fun!"** - Adam Geitgey

### Intermediário
1. **"Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow"** - Aurélien Géron
2. **"Deep Learning for Computer Vision"** - Rajalingappaa Shanmugamani
3. **Fast.ai cursos práticos**

### Avançado
1. **"Deep Learning"** - Goodfellow, Bengio, Courville
2. **"Pattern Recognition and Machine Learning"** - Christopher Bishop
3. **Artigos originais das arquiteturas fundamentais**



