# Ridge Regression com Kernel (SGD): Cálculos Detalhados

### Conjunto de Dados
- Pontos de entrada (`X_residual`): `[[1.5], [1.5], [2.5], [3.5], [4.5]]`
- Valores reais (`y_residual`): `[1.5, 2.5, 3.5, 4.5, 5.5]`
- Parâmetros do modelo:
  - `eta = 0.9` (taxa de aprendizado)
  - `c = 0.01` (regularização)
  - `sigma = 1` (do kernel radial base, omitido nos cálculos).

---

## Iteração 1
**Novo ponto:**  
`x_new = [1.5]`, `y_new = 1.5`

1. **Inicialização:**  
   - `X_train_tensor = [[1.5]]` (o primeiro ponto é adicionado ao modelo).  
   - `alpha = [0]` (os pesos associados a cada ponto são inicializados como 0).

2. **Cálculo da Previsão (`y_pred`):**  
   Como é o primeiro ponto, não há previsões baseadas em outros pontos:  
   - `y_pred = 0`

3. **Erro e Atualização de `alpha`:**  
   - `error = y_new - y_pred = 1.5 - 0 = 1.5`  
   - Atualização de `alpha` para o ponto atual:  
     - `alpha[0] = eta * error = 0.9 * 1.5 = 1.35`

**Estado após Iteração 1:**  
- `X_train_tensor = [[1.5]]`  
- `alpha = [1.35]`  
- `y_pred = 0`

---

## Iteração 2
**Novo ponto:**  
`x_new = [1.5]`, `y_new = 2.5`

1. **Atualização de `X_train_tensor` e `alpha`:**  
   - `X_train_tensor = [[1.5], [1.5]]` (adicionamos o novo ponto).  
   - `alpha = [1.35, 0]` (inicializamos o peso para o novo ponto como 0).

2. **Cálculo da Previsão (`y_pred`):**  
   - `y_pred = alpha[0] * kernel([1.5], [1.5])`  
   - Assumindo que `kernel([1.5], [1.5]) = 1` (valor máximo de similaridade):  
     - `y_pred = 1.35 * 1 = 1.35`

3. **Erro e Atualização de `alpha`:**  
   - `error = y_new - y_pred = 2.5 - 1.35 = 1.15`  
   - Regularização do peso existente:  
     - `alpha[0] = (1 - eta * c) * alpha[0] = (1 - 0.9 * 0.01) * 1.35 = 1.33785`  
   - Atualização do peso para o novo ponto:  
     - `alpha[1] = eta * error = 0.9 * 1.15 = 1.035`

**Estado após Iteração 2:**  
- `X_train_tensor = [[1.5], [1.5]]`  
- `alpha = [1.33785, 1.035]`  
- `y_pred = 1.35`

---

## Iteração 3
**Novo ponto:**  
`x_new = [2.5]`, `y_new = 3.5`

1. **Atualização de `X_train_tensor` e `alpha`:**  
   - `X_train_tensor = [[1.5], [1.5], [2.5]]`  
   - `alpha = [1.33785, 1.035, 0]`

2. **Cálculo da Previsão (`y_pred`):**  
   - `y_pred = alpha[0] * kernel([1.5], [2.5]) + alpha[1] * kernel([1.5], [2.5])`  
   - Assumindo que `kernel([1.5], [2.5]) = exp(-||1.5 - 2.5||^2 / (2 * sigma^2))` e substituindo:  
     - `kernel([1.5], [2.5]) = exp(-1 / 2) ≈ 0.60653`  
   - Previsão:  
     - `y_pred = 1.33785 * 0.60653 + 1.035 * 0.60653 = 1.438`

3. **Erro e Atualização de `alpha`:**  
   - `error = y_new - y_pred = 3.5 - 1.438 = 2.062`  
   - Regularização dos pesos existentes:  
     - `alpha[0] = (1 - eta * c) * alpha[0] = (1 - 0.9 * 0.01) * 1.33785 = 1.325472`  
     - `alpha[1] = (1 - eta * c) * alpha[1] = (1 - 0.9 * 0.01) * 1.035 = 1.025685`  
   - Atualização do peso para o novo ponto:  
     - `alpha[2] = eta * error = 0.9 * 2.062 = 1.8558`

**Estado após Iteração 3:**  
- `X_train_tensor = [[1.5], [1.5], [2.5]]`  
- `alpha = [1.325472, 1.025685, 1.8558]`  
- `y_pred = 1.438`

---

## Iteração 4
**Novo ponto:**  
`x_new = [3.5]`, `y_new = 4.5`

1. **Atualização de `X_train_tensor` e `alpha`:**  
   - `X_train_tensor = [[1.5], [1.5], [2.5], [3.5]]`  
   - `alpha = [1.325472, 1.025685, 1.8558, 0]`

2. **Cálculo da Previsão (`y_pred`):**  
   - `y_pred = alpha[0] * kernel([1.5], [3.5]) + alpha[1] * kernel([1.5], [3.5]) + alpha[2] * kernel([2.5], [3.5])`  
   - Substituindo os kernels:  
     - `kernel([1.5], [3.5]) = exp(-4 / 2) ≈ 0.13534`  
     - `kernel([2.5], [3.5]) = exp(-1 / 2) ≈ 0.60653`  
   - Previsão:  
     - `y_pred = 1.325472 * 0.13534 + 1.025685 * 0.13534 + 1.8558 * 0.60653 = 1.396`

3. **Erro e Atualização de `alpha`:**  
   - `error = y_new - y_pred = 4.5 - 1.396 = 3.104`  
   - Regularização dos pesos existentes:  
     - `alpha[0] = (1 - eta * c) * alpha[0] = 1.313217`  
     - `alpha[1] = (1 - eta * c) * alpha[1] = 1.015428`  
     - `alpha[2] = (1 - eta * c) * alpha[2] = 1.837242`  
   - Atualização do peso para o novo ponto:  
     - `alpha[3] = eta * error = 0.9 * 3.104 = 2.7936`

**Estado após Iteração 4:**  
- `X_train_tensor = [[1.5], [1.5], [2.5], [3.5]]`  
- `alpha = [1.313217, 1.015428, 1.837242, 2.7936]`  
- `y_pred = 1.396`

---

Os cálculos seguem assim para cada ponto, detalhando as previsões, erros e atualizações dos pesos. O kernel mede a similaridade e os valores de `alpha` ajustam a influência de cada ponto no modelo.


In [3]:
import torch
import numpy as np

# Função kernel RBF
def Ridgkernel(x1, x2, sigma_0=1.0, l=1.0):
    diff = np.array(x1, dtype=float) - np.array(x2, dtype=float)
    return sigma_0**2 * np.exp(-np.dot(diff, diff) / (2 * l**2))

# Implementação da Regressão Ridge com SGD para Séries Temporais Online usando PyTorch
class RidgeSGDKernelTorchDict:
    def __init__(self, eta=0.01, c=1.0, sigma=1.0):
        self.eta = eta  # taxa de aprendizado
        self.c = c  # parâmetro de regularização
        self.sigma = sigma  # parâmetro do kernel
        self.alpha_dict = {}  # dicionário para armazenar os pesos associados às chaves
        self.X_train_dict = {}  # dicionário para armazenar os dados de treino

    def partial_fit(self, x_new, y_new, key):
        """
        Adiciona uma nova entrada ao modelo e atualiza os pesos.
        
        Args:
        - x_new: nova amostra (array ou lista de características).
        - y_new: valor alvo associado à amostra.
        - key: identificador único para a amostra.
        """
        x_new_tensor = torch.tensor(x_new, dtype=torch.float32)
        self.X_train_dict[key] = x_new_tensor  # Adiciona nova entrada ao conjunto de treino
        if key not in self.alpha_dict:
            self.alpha_dict[key] = torch.tensor(0.0, dtype=torch.float32)  # Inicializa o peso correspondente

        # Calcular a previsão
        pred_n = 0
        for k, x_train in self.X_train_dict.items():
            if k != key:  # Considera apenas os pontos anteriores
                kernel_value = torch.exp(-torch.norm(x_train - x_new_tensor) ** 2 / (2 * self.sigma ** 2))
                pred_n += self.alpha_dict[k] * kernel_value

        # Calcular o erro
        error = y_new - pred_n

        # Atualizar os pesos
        for k in list(self.alpha_dict.keys()):
            if k != key:
                self.alpha_dict[k] *= (1 - self.eta * self.c)  # Atualização regularizada
        self.alpha_dict[key] = self.eta * error  # Atualiza o peso para a nova amostra

    def predict(self, x_new):
        """
        Realiza uma previsão para uma nova entrada.
        
        Args:
        - x_new: nova entrada (array ou lista de características).
        
        Returns:
        - Previsão como float.
        """
        x_new_tensor = torch.tensor(x_new, dtype=torch.float32)
        prediction = 0
        for k, x_train in self.X_train_dict.items():
            kernel_value = torch.exp(-torch.norm(x_train - x_new_tensor) ** 2 / (2 * self.sigma ** 2))
            prediction += self.alpha_dict[k] * kernel_value
        return prediction.item()


# Dados ajustados como dicionários
X_residual = {
    "point_0": [1.5],
    "point_1": [1.5],
    "point_2": [2.5],
    "point_3": [3.5],
    "point_4": [4.5]
}
y_residual = {
    "point_0": 1.5,
    "point_1": 2.5,
    "point_2": 3.5,
    "point_3": 4.5,
    "point_4": 5.5
}

# Inicializar o modelo
ridge_model = RidgeSGDKernelTorchDict(eta=0.9, c=0.01, sigma=1.0)

# Treinar o modelo e exibir os resultados das iterações
for key in X_residual.keys():
    x_new = X_residual[key]
    y_new = y_residual[key]
    ridge_model.partial_fit(x_new, y_new, key)
    
    # Previsão para a amostra atual
    pred = ridge_model.predict(x_new)
    
    # Exibir resultados
    print(f"Iteração {key}:")
    print(f"  Ponto Atual: X = {x_new}, y = {y_new}")
    print(f"  Previsão: {pred:.4f}")
    print(f"  Pesos (alpha): {[(k, v.item()) for k, v in ridge_model.alpha_dict.items()]}")
    print("---")


Iteração point_0:
  Ponto Atual: X = [1.5], y = 1.5
  Previsão: 1.3500


AttributeError: 'float' object has no attribute 'item'

In [None]:
'''import torch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Função kernel (RBF ajustado com a equação 21.39)
def Ridgkernel(x1, x2, sigma_0=1.0, l=1.0):
    diff = np.array(x1, dtype=float) - np.array(x2, dtype=float)
    return sigma_0**2 * np.exp(-np.dot(diff, diff) / (2 * l**2))

# Implementação da Regressão Ridge com SGD para Séries Temporais Online usando PyTorch
class RidgeSGDKernelTorch:
    def __init__(self, eta=0.01, c=1.0, sigma=1.0):
        self.eta = eta  # taxa de aprendizado
        self.c = c  # parâmetro de regularização
        self.sigma = sigma  # parâmetro do kernel
        self.alpha = None  # pesos (serão inicializados depois)
        self.X_train_tensor = None  # histórico de amostras de treino

    def partial_fit(self, x_new, y_new):
        if self.X_train_tensor is None:
            self.X_train_tensor = torch.tensor([x_new], dtype=torch.float32)  # Inicializa o conjunto de treino
            self.alpha = torch.zeros(1, dtype=torch.float32)  # Inicializa os pesos com um único valor
        else:
            self.X_train_tensor = torch.vstack([self.X_train_tensor, torch.tensor(x_new, dtype=torch.float32)])  # Adiciona nova amostra
            self.alpha = torch.cat([self.alpha, torch.zeros(1)])  # Adiciona um peso para a nova amostra

        n_samples = self.X_train_tensor.shape[0]

        # Calcular a previsão
        if n_samples > 1:
            kernels = torch.exp(-torch.norm(self.X_train_tensor[:n_samples - 1] - \
                self.X_train_tensor[n_samples - 1], dim=1) ** 2 / (2 * self.sigma ** 2))
            pred_n = torch.dot(self.alpha[:n_samples - 1], kernels)
        else:
            pred_n = 0

        # Calcular o erro
        error = y_new - pred_n

        # Atualizar os pesos conforme a equação 21.33:
        self.alpha[:n_samples - 1] = (1 - self.eta * self.c) * self.alpha[:n_samples - 1]
        self.alpha[n_samples - 1] = self.eta * error

    def predict(self, x_new):
        # Prever com base nos dados de treino atuais
        x_new_tensor = torch.tensor(x_new, dtype=torch.float32)
        n_samples = self.X_train_tensor.shape[0]

        if n_samples > 1:
            kernels = torch.exp(-torch.norm(self.X_train_tensor[:n_samples - 1] - x_new_tensor, dim=1) ** 2 / (2 * self.sigma ** 2))
            prediction = torch.dot(self.alpha[:n_samples - 1], kernels)
            return prediction.item()
        else:
            return 0.0


# Criar o modelo para os resíduos
ridge_sgd_torch_residual = RidgeSGDKernelTorch(eta=0.8, c=0.01, sigma=0.4)
# Criar o modelo para os resíduos

# List para armazenar previsões
y_pred_residual = []

# Treinar e prever de forma online com os dados residuais
for x_new, y_new in zip(X_residual.values, y_residual.values):
    ridge_sgd_torch_residual.partial_fit(x_new, y_new)  # Atualiza o modelo com o novo ponto
    prediction = ridge_sgd_torch_residual.predict(x_new)  # Faz a previsão imediatamente após o ajuste
    y_pred_residual.append(prediction)

# Previsões indexadas
y_pred_residual_indexed = pd.Series(y_pred_residual, index=y_residual.index)

# Visualizar os resultados
print("Previsões para os resíduos:", y_pred_residual)
plt.figure(figsize=(16, 6))
plt.plot(y_residual, label='Resíduo Real')
plt.plot(y_pred_residual_indexed, label='Resíduo Previsto', linestyle='--')
plt.title('Comparação entre Resíduos Reais e Previstos')
plt.xlabel('Data')
plt.ylabel('Resíduo')
plt.legend()
plt.show()'''
