FUNÇÕES DE ATIVAÇÃO
===================
As funções de ativação são responsáveis por determinar se um neurônio em uma rede neural deve ser ativado, ou seja, se deve transmitir o sinal adiante para a próxima camada. Elas introduzem não linearidade no modelo, o que é crucial para que a rede neural seja capaz de aprender padrões complexos. Sem essas funções, a rede seria simplesmente uma combinação linear, incapaz de resolver problemas complexos.

Sigmóide
----------
* Valores de saída entre 0 e 1.
* Utilizada em problemas de classificação binária.
* Sofre com o problema de "vanishing gradient" em redes profundas, o que pode dificultar o treinamento.
* $\sigma(x) = \frac{1}{1 + e^{-x}}$

Tangente Hiperbólica
---------------

* Os valores de saída variam entre -1 e 1.
* É mais "balanceada" que a sigmoide, já que a saída está centrada em torno de zero, mas também sofre com o problema de gradientes pequenos em valores extremos.
* $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

ReLU (Rectified Linear Unit)
----------------

* Introduz não linearidade de uma forma muito simples e eficiente.
* Facilita o cálculo, já que o gradiente é constante (1) para entradas positivas.
* Um problema comum é o "neurônio morto", quando as entradas são muito negativas, levando a uma saída zero constante e impossibilidade de aprendizado.
* $\text{ReLU}(x) = \max(0, x)$

Leaky ReLU
-----------
* É uma variante da ReLU, mas permite que valores negativos passem, com um pequeno gradiente, evitando o problema do "neurônio morto".
* $\text{Leaky ReLU}(x) = \max(0.01x, x)$

Softmax
----------

* Normaliza a saída para que a soma de todas as probabilidades seja igual a 1.
* Comumente usada na última camada de redes neurais para problemas de classificação multiclasse.
* $\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$

FUNÇÕES DE LOSS (PERDA)
===================

As funções de loss, ou funções de custo, são usadas para medir o erro ou discrepância entre as previsões do modelo e os valores reais dos dados de treinamento. O objetivo de qualquer modelo de aprendizado de máquina é minimizar essa função de perda durante o treinamento, ajustando os pesos da rede.

MSE - Mean Squared Error
-----------------------

* Utilizada em problemas de regressão.
* Penaliza erros maiores de forma mais severa.
* A função é suave e derivável, o que facilita o uso no treinamento via gradiente descendente.
* $MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

MAE - Mean Absolute Error
--------------------
* Outra função comum para problemas de regressão.
* Penaliza os erros de forma linear, sendo mais robusta a outliers do que o MSE.
* No entanto, não é derivável em $y_i = \hat{y_i}$, o que pode dificultar a otimização;
* $MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}|$

RMSE - Root Mean Squared Error
--------------------

* Expressa o erro na mesma unidade das variáveis preditas, facilitando a interpretação.
* Quanto menor o valor do RMSE, melhor o modelo.
* $RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2}$

Cross-Entropy Loss
------------------

* Amplamente utilizada em problemas de classificação binária.
* Penaliza severamente predições que estão longe das verdadeiras classes, forçando o modelo a aprender probabilidades corretas.
* Para problemas de multiclasse, usa-se a variante com softmax na saída.
* $L = - \frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y_i}) + (1 - y_i) \log(1 - \hat{y_i}) \right]$

Hinge Loss
-----------

* Utilizada em modelos de classificação, especialmente em máquinas de vetores de suporte (SVM).
* É ideal para maximizar a margem entre as classes.
* $L = \sum_{i=1}^{n} \max(0, 1 - y_i \hat{y_i})$

Huber Loss
------------
* É robusta a outliers, combinando as vantagens do MAE e do MSE.
* Uma combinação entre MSE e MAE, usa o MSE para erros pequenos e MAE para erros grandes.

Problemas de classificação binária
============================

**Exemplo:** Classificar se um e-mail é spam ou não.

* **Entrada:** Texto do e-mail.
* **Saída:** Uma probabilidade entre 0 e 1 indicando se o e-mail é spam (1) ou não (0).

**Função de ativação:**

* **Sigmoide** na última camada. A sigmoide transforma o valor em uma probabilidade entre 0 e 1, adequada para problemas binários.

**Função de perda:**

* **Cross-Entropy Loss (Entropia Cruzada Binária):** Esta função calcula a discrepância entre as probabilidades previstas e as classes reais (0 ou 1).

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Definir o modelo
model = Sequential([
    Dense(16, input_dim=1000, activation='relu'),
    Dense(8, activation='relu'),
    Dense(1, activation='sigmoid')
])

# Compilar o modelo com RMSE
model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.metrics import mean_squared_error
import numpy as np

class BinaryClassificationModel(nn.Module):
    def __init__(self):
        super(BinaryClassificationModel, self).__init__()
        self.layer1 = nn.Linear(1000, 16)
        self.layer2 = nn.Linear(16, 8)
        self.output = nn.Linear(8, 1)

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = torch.relu(self.layer2(x))
        x = torch.sigmoid(self.output(x))  # Sigmoid for binary classification
        return x

# Modelo, perda e otimizador
model = BinaryClassificationModel()
criterion = nn.BCELoss()  # Binary Cross-Entropy Loss
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))

# Exemplo de loop de treino
# for epoch in range(num_epochs):
#     outputs = model(inputs)
#     loss = criterion(outputs, labels)
#     optimizer.zero_grad()
#     loss.backward()
#     optimizer.step()


Problemas de classificação multiclasse
============================

**Exemplo:** Classificar o tipo de flor entre três categorias: 'setosa', 'versicolor' e 'virginica'.

* **Entrada:** Comprimento e largura das pétalas e sépalas.
* **Saída:** Uma das três classes possíveis (0, 1, 2).

**Função de ativação:**

* **Softmax** na última camada. O softmax transforma a saída em probabilidades que somam 1, adequadas para problemas multiclasse.

**Função de perda:**

* **Categorical Cross-Entropy (Entropia Cruzada Categórica):** Penaliza predições incorretas em relação às classes verdadeiras.

In [None]:
# Modelo de classificação multiclasse
model = Sequential([
    Dense(16, input_dim=4, activation='relu'),
    Dense(8, activation='relu'),
    Dense(3, activation='softmax')  # Três classes
])

# Compilar o modelo com RMSE
model.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy', tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
class MulticlassClassificationModel(nn.Module):
    def __init__(self):
        super(MulticlassClassificationModel, self).__init__()
        self.layer1 = nn.Linear(4, 16)
        self.layer2 = nn.Linear(16, 8)
        self.output = nn.Linear(8, 3)  # Três classes na saída

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = torch.relu(self.layer2(x))
        x = torch.softmax(self.output(x), dim=1)  # Softmax for multiclass classification
        return x

# Modelo, perda e otimizador
model = MulticlassClassificationModel()
criterion = nn.CrossEntropyLoss()  # Categorical Cross-Entropy Loss
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


In [None]:
# Modelo de regressão
model = Sequential([
    Dense(16, input_dim=5, activation='relu'),
    Dense(8, activation='relu'),
    Dense(1, activation='linear')  # Nenhuma ativação ou linear para regressão
])

# Compilar o modelo com RMSE
model.compile(optimizer=Adam(), loss='mean_squared_error', metrics=[tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
class RegressionModel(nn.Module):
    def __init__(self):
        super(RegressionModel, self).__init__()
        self.layer1 = nn.Linear(5, 16)
        self.layer2 = nn.Linear(16, 8)
        self.output = nn.Linear(8, 1)  # Saída com um único valor (preço da casa)

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = torch.relu(self.layer2(x))
        x = self.output(x)  # Linear activation (nenhuma ativação)
        return x

# Modelo, perda e otimizador
model = RegressionModel()
criterion = nn.MSELoss()  # Mean Squared Error Loss
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


Problema de Classificação Multilabel
===============

**Exemplo:** Classificar se uma imagem contém várias classes simultaneamente (por exemplo, 'gato', 'cachorro', 'pássaro' em uma imagem).

* **Entrada:** Imagem com múltiplos objetos.
* **Saída:** Um vetor de 0s e 1s indicando a presença ou ausência de cada classe.

**Função de ativação:**

* **Sigmoide** na última camada. Como cada classe é avaliada independentemente, a função sigmoide é usada para transformar a saída em probabilidades para cada classe.

**Função de perda:**

* **Binary Cross-Entropy (Entropia Cruzada Binária):** Esta função de perda é adequada para problemas multilabel onde cada classe é independente.

In [None]:
# Modelo de classificação multilabel
model = Sequential([
    Dense(128, input_dim=1024, activation='relu'),
    Dense(64, activation='relu'),
    Dense(10, activation='sigmoid')  # 10 classes independentes
])

# Compilar o modelo com RMSE
model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
class MultilabelClassificationModel(nn.Module):
    def __init__(self):
        super(MultilabelClassificationModel, self).__init__()
        self.layer1 = nn.Linear(1024, 128)
        self.layer2 = nn.Linear(128, 64)
        self.output = nn.Linear(64, 10)  # 10 classes independentes

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = torch.relu(self.layer2(x))
        x = torch.sigmoid(self.output(x))  # Sigmoid for multilabel classification
        return x

# Modelo, perda e otimizador
model = MultilabelClassificationModel()
criterion = nn.BCELoss()  # Binary Cross-Entropy Loss for multilabel classification
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


Problema de Regressão Robusta
=====================

**Exemplo:** Prever o valor de vendas, mas o conjunto de dados contém muitos outliers.

* **Entrada:** Características que influenciam as vendas.
* **Saída:** Um valor numérico contínuo (previsão de vendas).

**Função de ativação:**

* **Linear** na última camada.

**Função de perda:**

* **Huber Loss:** Combina o MSE para pequenos erros e o MAE para erros grandes, sendo mais robusta a outliers.

In [None]:
# Modelo de regressão robusta
model = Sequential([
    Dense(64, input_dim=10, activation='relu'),
    Dense(32, activation='relu'),
    Dense(1, activation='linear')
])

# Compilar o modelo com RMSE
model.compile(optimizer=Adam(), loss=tf.keras.losses.Huber(), metrics=[tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
class RobustRegressionModel(nn.Module):
    def __init__(self):
        super(RobustRegressionModel, self).__init__()
        self.layer1 = nn.Linear(10, 64)
        self.layer2 = nn.Linear(64, 32)
        self.output = nn.Linear(32, 1)

    def forward(self, x):
        x = torch.relu(self.layer1(x))
        x = torch.relu(self.layer2(x))
        x = self.output(x)  # Linear activation
        return x

# Modelo, perda e otimizador
model = RobustRegressionModel()
criterion = nn.SmoothL1Loss()  # Huber Loss
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


Problema com SVM (Hinge Loss)
================

**Exemplo:** Classificar se uma imagem contém um objeto específico ou não, usando uma Máquina de Vetores de Suporte (SVM).

* **Entrada:** Vetor de características da imagem.
* **Saída:** Uma classe binária (-1 ou 1), indicando a presença ou ausência do objeto.

**Função de ativação:**

* **Linear** ou sem ativação (SVMs geralmente não utilizam funções de ativação).

**Função de perda:**

* **Hinge Loss:** Penaliza predições incorretas com base em uma margem de separação entre as classes.

In [None]:
# Modelo de SVM usando Hinge Loss
model = Sequential([
    Dense(64, input_dim=10, activation='linear')  # Nenhuma ativação
])

# Compilar o modelo com Hinge Loss e RMSE
model.compile(optimizer=Adam(), loss='hinge', metrics=[tf.keras.metrics.RootMeanSquaredError()])

# Exemplo de treinamento
# model.fit(X_train, y_train, epochs=10)


In [None]:
class SVMModel(nn.Module):
    def __init__(self):
        super(SVMModel, self).__init__()
        self.layer = nn.Linear(10, 1)  # Camada linear única para simular SVM

    def forward(self, x):
        return self.layer(x)  # Nenhuma ativação

# Modelo, perda e otimizador
model = SVMModel()
criterion = nn.MultiMarginLoss()  # Hinge Loss approximation
optimizer = optim.Adam(model.parameters())

# Função para calcular RMSE
def compute_rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))


SVM - Support Vector Machine
=================

* Amplamente utilizados em aplicações como reconhecimento de imagens, bioinformática e detecção de fraudes devido à sua robustez e capacidade de lidar com dados de alta dimensionalidade.
* Seu objetivo principal é encontrar um hiperplano que melhor separa os dados em diferentes classes. Aqui estão os principais conceitos:

1. **Margem Máxima:** O SVM tenta encontrar o hiperplano que separa as classes de maneira mais ampla possível, maximizando a distância (margem) entre os pontos de dados mais próximos de cada classe, chamados de vetores de suporte.

2. **Vetores de Suporte:** São os pontos de dados que estão mais próximos do hiperplano de separação e que influenciam sua posição. Esses pontos são críticos para definir o limite de decisão.

3. **Classificação Linear:** Quando os dados são linearmente separáveis, o SVM encontra uma linha (no caso de 2D) ou um hiperplano (em dimensões mais altas) que separa claramente as duas classes.

4. **Classificação Não Linear:** Para dados que não são linearmente separáveis, o SVM pode utilizar o truque do kernel (kernel trick), que transforma os dados para um espaço de maior dimensão onde eles podem ser separados linearmente. Os kernels mais usados são o polinomial e o RBF (Radial Basis Function).

5. **Parâmetro C:** Controla o quanto o modelo tenta evitar classificações erradas dos dados. Um valor de C mais alto significa que o SVM tenta classificar todos os pontos corretamente, resultando em uma margem mais estreita, enquanto um C mais baixo permite uma margem mais ampla, com alguns pontos mal classificados.

6. **Kernel:** Um dos principais pontos fortes do SVM. Ele permite que o SVM lide com problemas de classificação não linear, mapeando os dados para espaços de maior dimensão onde a separação linear pode ser possível.