## Задание 8. Альтернативная функция потерь (1 балл)

В этом задании вам предстоит использовать другую функцию потерь для нашей задачи регрессии. В качестве функции потерь мы выбрали **Log-Cosh**:

$$
    L(y, a)
    =
    \log\left(\cosh(a - y)\right).
$$

Самостоятельно продифференцируйте данную функцию потерь чтобы найти её градиент:

$$\frac{dL(y, a)}{da} = \frac{1}{cosh(a - y)} \cdot sinh(a - y) = tanh(a - y)$$

По правилам дифференцирования сложной функции
$$\frac{dL(y, a)}{dw} = (\frac{da}{dw})^T \cdot \frac{dL(y, a)}{da}$$

$\frac{da}{dw}$ - Якобиан 

$$\frac{da}{dw} = \frac{d(Xw)}{dw} = X$$

$$\frac{dL(y, a)}{dw} = X^Ttanh(Xw - y)$$

Программно реализуйте градиентный спуск с данной функцией потерь в файле `descents.py`, обучите все четыре метода (без регуляризации) аналогично 5 заданию, сравните их качество с четырьмя методами из 5 задания.

Пример того, как можно запрограммировать использование нескольких функций потерь внутри одного класса градиентного спуска:


```python
from enum import auto
from enum import Enum

import numpy as np

class LossFunction(Enum):
    MSE = auto()
    MAE = auto()
    LogCosh = auto()
    Huber = auto()

...
class BaseDescent:
    def __init__(self, loss_function: LossFunction = LossFunction.MSE):
        self.loss_function: LossFunction = loss_function

    def calc_gradient(self, x: np.ndarray, y: np.ndarray) -> np.ndarray:
        if self.loss_function is LossFunction.MSE:
            return ...
        elif self.loss_function is LossFunction.LogCosh:
            return ...
...

```

In [None]:
from descents import LossFunction

In [None]:

descent_names = ['full', 'stochastic', 'momentum', 'adam']

descent_config = {
    'descent_name': 'name',
    'kwargs': {
        'dimension': x_train.shape[1],
        'lambda_': 1e-3,
        'loss_function': LossFunction.LogCosh
    }
}

stats_dict_logcosh = create_stats_dict()

for descent_name in tqdm(descent_names):
    descent_config['descent_name'] = descent_name
    for lambda_ in lambdas:
        descent_config['kwargs']['lambda_'] = lambda_
        descent = get_descent(descent_config)

        regression = LinearRegression(
            descent_config=descent_config
        )

        fit_and_update_stats(regression, x_train, y_train, x_val, y_val, stats_dict_logcosh, descent_name)

        stats_dict_logcosh[descent_name]["mse_val"].append(MSE(regression.predict(x_val), y_val))
        stats_dict_logcosh[descent_name]["mse_train"].append(MSE(regression.predict(x_train), y_train))
    

In [None]:
results_logcosh = get_best_params(stats_dict_logcosh, lambdas, "lambda")   
results_logcosh_df = pd.DataFrame(results_logcosh)
results_logcosh_df[["method_name", "mse_train", "mse_val", "losses_train", "losses_val", "r_2_train", "r_2_val", "iterations", "lambda"]]

In [None]:
results_df[["method_name", "losses_train", "losses_val", "r_2_train", "r_2_val", "iterations", "lambda"]]

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(15, 10))
descent_names_numed = {"full": 0, "stochastic": 1, "momentum": 2, "adam": 3}

for res in results:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"], label=(res["method_name"]))

for res in results_logcosh:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"], label=(res["method_name"] + " logcosh"))
    ax[descent_names_numed[res["method_name"]]].legend()

plt.suptitle("Losses while fitting mse and logcosh")
plt.legend()
plt.show()

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(15, 10))
descent_names_numed = {"full": 0, "stochastic": 1, "momentum": 2, "adam": 3}

for res in results:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"][10:], label=(res["method_name"]))

for res in results_logcosh:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"][10:], label=(res["method_name"] + " logcosh"))
    ax[descent_names_numed[res["method_name"]]].legend()

plt.suptitle("Losses while fitting mse and logcosh (from step 10)")
plt.legend()
plt.show()

In [None]:
fig, ax = plt.subplots(4, 1, figsize=(15, 10))
descent_names_numed = {"full": 0, "stochastic": 1, "momentum": 2, "adam": 3}

for res in results:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"][25:], label=(res["method_name"]))

for res in results_logcosh:
    ax[descent_names_numed[res["method_name"]]].plot(res["losses_history"][25:], label=(res["method_name"] + " logcosh"))
    ax[descent_names_numed[res["method_name"]]].legend()

plt.suptitle("Losses while fitting mse and logcosh (from step 25)")
plt.legend()
plt.show()