$$
y = w_1X_1 + w_2X_2 + ... + w_nX_n + b
$$
$$
y = wX + b
$$

$$
y = w_0X_0 + w_1X_1 + w_2X_2 + ...+ w_nX_n
$$
$$
y = w X
$$

$y$ - целевое значение \
$X$ - Пространство признаков (включая фиктивный единичный столбец)\
$w$ - Вес при признаках (Коэффициент наклона) `coef_`\
$b(w_0)$ - Свободный член (Коэффициент сдвига) `intercept_`

# Least Squares

Нахождение коэффициентов линейной регрессии методом **минимизации среднеквадратичной ошибки:**\
$w = \arg\min_{w}E(w, X, y), \hspace{1cm} ||Xw-y||^2 \rightarrow min$

---

## Normal Equition

$$
E(w, X, y) = \frac{1}{2n}\sum_{i=1}^n (w^Tx_i-y_i)^2 = \frac{1}{2n}||Xw-y||^2 = \frac{1}{2n}(Xw-y)^T(Xw-y) =
$$
$$
=\frac{1}{2n}((Xw)^TXw - (Xw)^Ty-y^TXw +y^Ty) = \frac{1}{2n}((Xw)^TXw - 2y^TXw +y^Ty) 
$$
$$
= \frac{1}{2n}(w^TX^TXw - 2y^TXw +y^Ty)
$$



$$
\frac{\partial E}{\partial w} = 0 \Rightarrow \frac{1}{2n}(2X^TXw-2X^Ty) = \frac{1}{n}(X^TXw-X^Ty)
$$

$$
X^TXw = X^Ty
$$
$$
w=(X^TX)^{-1}X^Ty
$$

Производная квадратичной формы: $\nabla_w(w^TAw)$=$2Aw$ если $A$=$A^T$ \
Производная линейной формы: $\nabla_w(b^Tw)$=$b$

-----

## Singular Value Decomposition

$$
w=(X^TX)^{-1}X^Ty
$$

$$
X = U \Sigma V^T
$$


$U$ - Ортогональная матрица левых сингулярных векторов ( $U^TU$=$I$ )\
$\Sigma$ - Диагональная матрица сингулярных значений\
$V^T$ - Ортогональная матрица правых сингулярных векторов ( $V^TV$=$I$ )


$$
w = (U^T \Sigma^TVU \Sigma V^T)^{-1}U^T \Sigma^TVy
$$
$$
w = (\Sigma^T \Sigma)^{-1} \Sigma^T V U^T y
$$
$$
w = V\Sigma^+U^Ty
$$

---

In [208]:
import numpy as np

In [202]:
class LeastSquares():
    def __init__(self, solve='normal'):
        self.solve = solve
        self.coef_ = None
        self.intercept_ = None
        
    def fit(self, X, y):
        ones = np.ones(X.shape[0]).reshape(-1, 1)
        X = np.hstack((ones, X))

        # Нормальное уравнение вручную
        if self.solve=='normal':
            normal = np.linalg.inv(X.T@X)@X.T@y
            self.coef_ = normal[1:]
            self.intercept_ = normal[0]

        # Нормальное уравнение встроенной функцией linalg.lstsq
        if self.solve=='lstsq':
            lstsq = np.linalg.lstsq(X, y, rcond=-1)[0]
            self.coef_ = lstsq[1:]
            self.intercept_ = lstsq[0]

        # Нормальное уравнение с сингулярным разложением
        if self.solve=='svd':
            U, Sigma, VT = np.linalg.svd(X, full_matrices=False)
            Sigma = np.diag(Sigma)
            svd = VT.T @ np.linalg.pinv(Sigma) @ U.T@y
            self.coef_ = svd[1:]
            self.intercept_ = svd[0]
              
    def predict(self, X):
        return X@self.coef_ + self.intercept_

In [209]:
from sklearn.datasets import make_regression
X, y = make_regression(n_samples=2_000, n_features=10, n_informative=8, noise=20, random_state=2)

In [210]:
lstsq = LeastSquares()
lstsq.fit(X, y)
lstsq.coef_

array([47.34335537, 14.59576405, 69.80732947, -0.22382365, 72.9913077 ,
        1.5481627 ,  8.88902274, -0.11267104, 14.01830252, 63.41957771])

In [211]:
from sklearn.linear_model import LinearRegression

In [212]:
LinReg = LinearRegression()
LinReg.fit(X, y)
LinReg.coef_

array([47.34335537, 14.59576405, 69.80732947, -0.22382365, 72.9913077 ,
        1.5481627 ,  8.88902274, -0.11267104, 14.01830252, 63.41957771])

**Выражденная матрица**

In [213]:
x1 = np.arange(1, 101).reshape(-1, 1)
x2 = (x1*2).reshape(-1, 1)
x3 = (x2*3).reshape(-1, 1)
x4 = (x2*3 + x3*4).reshape(-1, 1)

X = np.hstack((x1, x2))
X = np.hstack((X, x3))
X = np.hstack((X, x4))

y = np.arange(1, 200, 2)

In [214]:
np.linalg.det(X.T@X)

0.0

In [215]:
lstsq.fit(X, y)

LinAlgError: Singular matrix

In [216]:
lstsq = LeastSquares(solve='svd')
lstsq.fit(X, y)
lstsq.coef_

array([0.0021254 , 0.0042508 , 0.01275239, 0.06376196])

In [217]:
LinReg.fit(X, y)
LinReg.coef_

array([0.0021254 , 0.0042508 , 0.01275239, 0.06376196])

# Gradient Descent

Итеративный метод минимизации функции потерь

----
$$
\frac{\partial L}{\partial w} = \nabla\frac{1}{2n}|| Xw - y ||^2 = \frac{1}{n}X^T(Xw-y)
$$

$$
w = w_{i-1} - \eta \frac{\partial L}{\partial w}
$$

---


In [35]:
class BatchGD():
    def __init__(self, eps=0.1, learning_rate=0.01, max_iter=1000):
        self.eps = eps
        self.learning_rate = learning_rate
        self.coef_ = None
        self.intercept_ = None
        
    @staticmethod
    def grad(X, y, w):
        gradient_vector = 1/len(X) * X.T @ (X@w - y)
        return gradient_vector
        
    def fit(self, X, y, logging=False):
        # Вектор столбец
        y = y.reshape(-1, 1) 
        # Фиктивный признак единиц
        ones = np.ones(X.shape[0]).reshape(-1, 1) 
        X_ones = np.hstack((ones, X))
        
        # Случайная инициализация стартовых весов
        w = np.random.randn(X_ones.shape[1], 1)

        i=0
        
        for i in range(100):
            w = w - self.grad(X_ones, y, w)*self.eps
            
        self.coef_ = w.reshape(-1)[1:]
        self.intercept_ = w.reshape(-1)[0].reshape(1)

In [40]:
class StochasticGD():
    def __init__(self, learning_rate=0.1, max_iter=1000, n_epochs=50):
        self.learning_rate = learning_rate
        self.coef_ = None
        self.intercept_ = None
        self.n_epochs = n_epochs
        self.t1 = 5
        self.t2 = 50
        
    @staticmethod
    def learning_schedule(t, t1, t2):
        ls = t1 / (t + t2)
        return ls
        
    @staticmethod
    def grad(X, y, w):
        gradient_vector = 2/len(X) * X.T @ (X@w - y)
        return gradient_vector
        
    def fit(self, X, y, logging=False):
        # Вектор столбец
        y = y.reshape(-1, 1) 
        # Фиктивный признак единиц
        ones = np.ones(X.shape[0]).reshape(-1, 1) 
        X_ones = np.hstack((ones, X))
        m = len(X_ones)
        # Случайная инициализация стартовых весов
        w = np.random.randn(X_ones.shape[1], 1)
        
        for epoch in range(self.n_epochs):
            for i in range(m):
                random_index = np.random.randint(m)
                x_i = X_ones[random_index:random_index+1]
                y_i = y[random_index:random_index+1]
                eps = self.learning_schedule(epoch*m+i, self.t1, self.t2)
                w = w - self.grad(x_i, y_i, w)*eps   
            
        self.coef_ = w.reshape(-1)[1:]
        self.intercept_ = w.reshape(-1)[0].reshape(1)

In [41]:
class MiniBatchGD():
    def __init__(self, learning_rate=0.1, max_iter=1000, n_epochs=50, minibatch_size=20):
        self.learning_rate = learning_rate
        self.coef_ = None
        self.intercept_ = None
        self.n_epochs = n_epochs
        self.minibatch_size = minibatch_size
        self.t1 = 5
        self.t2 = 50
        
    @staticmethod
    def learning_schedule(t, t1, t2):
        ls = t1 / (t + t2)
        return ls
        
    @staticmethod
    def grad(X, y, w, minibatch_size):
        gradient_vector = 2/minibatch_size * X.T @ (X@w - y)
        return gradient_vector
        
    def fit(self, X, y, logging=False):
        # Вектор столбец
        y = y.reshape(-1, 1) 
        # Фиктивный признак единиц
        ones = np.ones(X.shape[0]).reshape(-1, 1) 
        X_ones = np.hstack((ones, X))
        m = len(X_ones)
        # Случайная инициализация стартовых весов
        w = np.random.randn(X_ones.shape[1], 1)
        t = 0
        for epoch in range(self.n_epochs):
            
            shuffled_indices = np.random.permutation(m)
            X_ones_shuffled = X_ones[shuffled_indices]
            y_shuffled = y[shuffled_indices]
            
            for i in range(0, m, self.minibatch_size):
                t+=1
                x_i = X_ones_shuffled[i:i+self.minibatch_size]
                y_i = y_shuffled[i:i+self.minibatch_size]
                
                eps = self.learning_schedule(t, self.t1, self.t2)
                w = w - self.grad(x_i, y_i, w, self.minibatch_size)*eps   
            
        self.coef_ = w.reshape(-1)[1:]
        self.intercept_ = w.reshape(-1)[0].reshape(1)

# Regularization

## L2 Regularization | Ridge

**Регуляризация L2 нормой** - Гребниевая регрессия - Регуляризация Тихонова\
Реализуется как в аналитическом так и в итеративном методом.

$$
|| Xw - y ||^2+ \lambda ||w||_2^2 \rightarrow min
$$

$$
w =(X^TX + \lambda I)^{-1}X^Ty
$$

In [109]:
from sklearn.linear_model import Ridge
from sklearn.linear_model import RidgeCV

In [9]:
from sklearn.linear_model import RidgeClassifier
from sklearn.linear_model import RidgeClassifierCV
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LogisticRegressionCV

## L1 Regularization | Lasso

**Регуляризация L1 нормой** - Штраф за абсолютные значения коэффициентов. Справляется с выбросами, зануляет не информативные признаки.\
Недифференцируется в нуле, реализуется итеративными алгоритмами.
$$
\frac{1}{2n}|| Xw - y ||^2+ \lambda ||w||_1 \rightarrow min
$$

In [108]:
from sklearn.linear_model import Lasso
from sklearn.linear_model import LassoCV

## L1+L2 Regularization | ElastincNet

Комбинированная модель, сохраняющая баланс между $l1$ и $l2$ регуляризациями через коэффициент $p$ ( `l1_ratio` ) - Доля выпавшая на $l1$
$$
\frac{1}{2n}|| Xw - y ||^2+ p\lambda ||w||_1 + \frac{(1-p)\lambda}{2} ||w||_2^2\rightarrow min
$$

In [149]:
from sklearn.linear_model import ElasticNet
from sklearn.linear_model import ElasticNetCV

-----