In [1]:
import numpy as np
import pandas as pd
import sklearn
import warnings
warnings.filterwarnings('ignore')
from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal
from pandas.testing import assert_frame_equal
from typing import Tuple

# 1. Матричные производные

На вход подаются вектор $x$ длины $n$, $c$ длины $m$ и матрица $A$ размера $\{n\times m\}$

Пусть $y = x^TAc$

Найдите $\frac{dy}{dx}$, $\frac{dy}{dA}$ и $\frac{dy}{dc}$

# TASK

In [2]:
def matrix_deriv(x: np.array, A: np.array, c: np.array):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [35]:
######################################################
x = np.array([ [1], [2], [3],  [4]])
c = np.array([[25], [5],[-9]])
A = np.arange(12).reshape(4,3)

y1, y2, y3 = matrix_deriv(x, A, c)

assert_array_equal(y1, np.array([[-13],
                                [ 50],
                                [113],
                                [176]]))

assert_array_equal(y2, np.array([[ 25,   5,  -9],
                                [ 50,  10, -18],
                                [ 75,  15, -27],
                                [100,  20, -36]]))
                   
assert_array_equal(y3, np.array([[60, 70, 80]]))
######################################################


# 2. Честная регрессия

В случае линейной регрессии  по функционалу $MSE$ задачу оптимизации можно записать следующим образом:

$$ \sum_{i=1}^N (\langle w, x_i \rangle - y_i) ^ 2 \to \min_w$$

Мы уже знаем, что решение будет выглядеть следующим образом:

$$W = \begin{cases} X^{-1}Y, & n = m\\
(X^TX)^{-1}X^Ty, & n > m\\
X^{T}(XX^{T})^{-1}y, & n < m
\end{cases}$$

где $n$ - количество объектов, а $m$ - количество признаков + 1 (дополнительно 1 вес без признака).

Решите задачу регресии честно, используя формулу выше. 

Чтобы вы не запутались мы сразу написали добавление единичного столбца к матрице $X$.


### Sample 1
#### Input:
```python
X_train = np.array([[1]])
y_train = np.array([2])
X_test = np.array([[0.], [2.], [3.]])
```
#### Output:
```python
model.predict(X_test) == np.array([1., 3., 4.])
model.w_ == np.array([[1.], [1.]])
model.coef_ == np.array([1., 1.])
```

# TASK

In [2]:
class TrueLinReg():
    def __init__(self):
        self.w_ = None  #cтолбец 
        self.coef_ = None #строка
        
    def fit(self, X: np.array, y: np.array) -> np.array:
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1) #добавляем вес без признака
        
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        
        self.coef_ = self.w_.reshape(-1)
        return self
        
    def predict(self, X) -> np.array:
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
        return (X @ self.w).reshape(-1)

In [37]:
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
######################################################
X_reg = np.array([[1], [2]])
y_reg = np.array([1, 2])

model = TrueLinReg().fit(X_reg, y_reg)

assert_array_almost_equal(model.predict(np.array([[0], [3], [4]])), np.array([0, 3, 4]), decimal=2)

assert_array_almost_equal(model.w_, np.array([[1.], [0.]]), decimal=2)

assert_array_almost_equal(model.coef_, np.array([1., 0.]), decimal=2)
######################################################
X_reg = np.array([[1], [2], [3]])
y_reg = np.array([1, -2, 1])

model = TrueLinReg().fit(X_reg, y_reg)
assert_array_almost_equal(model.predict(np.array([[0],[4]])), np.array([0., 0.]), decimal=2)

assert_array_almost_equal(model.w_, np.array([[0.], [0.]]), decimal=2)

assert_array_almost_equal(model.coef_, np.array([0., 0.]), decimal=2)
######################################################
X_reg = np.array([[1]])
y_reg = np.array([2])

model = TrueLinReg().fit(X_reg, y_reg)
assert_array_almost_equal(model.predict(np.array([[0.], [2.], [3.]])), np.array([1., 3., 4.]), decimal=2)

assert_array_almost_equal(model.w_, np.array([[1.], [1.]]), decimal=2)

assert_array_almost_equal(model.coef_, np.array([1., 1.]), decimal=2)
######################################################
X_reg, y_reg = make_regression(n_samples=10, n_features=9, n_targets=1)

model = LinearRegression().fit(X_reg, y_reg)
model_my = TrueLinReg().fit(X_reg, y_reg)

coef_real = np.hstack([model.coef_, model.intercept_])

assert_array_almost_equal(model_my.coef_, coef_real, decimal=3)
######################################################
X_reg, y_reg = make_regression(n_samples=200, n_features=10, n_targets=1)

model = LinearRegression().fit(X_reg, y_reg)
model_my = TrueLinReg().fit(X_reg, y_reg)

coef_real = np.hstack([model.coef_, model.intercept_])

assert_array_almost_equal(model_my.coef_, coef_real, decimal=3)
######################################################
X_reg, y_reg = make_regression(n_samples=10, n_features=15, n_targets=1)

model = LinearRegression().fit(X_reg, y_reg)
model_my = TrueLinReg().fit(X_reg, y_reg)
coef_real = np.hstack([model.coef_, model.intercept_])

assert sklearn.metrics.mean_absolute_error(model_my.coef_, coef_real) < 20

# 3. Честная регуляризация

Добавьте регуляризацию с коэффициентом $\lambda$ и решите задачу регрессии (для любого соотношения $m$ и $n$ используйте формулу)
$$w = (X^TX + \frac{\lambda}{2}I)^{-1}X^Ty$$
где $I$ - единичная матрица.

Не забудьте сами добавить **справа** единичный столбец к матрице $X$ аналогично предыдущей задачи.
### Sample 1
#### Input:
```python
X_train = np.array([[1], [2]])
y_train = np.array([1, 2])
lamb = 1

X_test = np.array([[0], [4]])
```
#### Output:
```python
model.predict(X_test) == np.array([0.33, 3])
model.w_ == np.array([[0.67], [0.33]])
model.coef_ == np.array([0.67, 0.33])
```

# TASK

In [5]:
class TrueReg():
    def __init__(self, lamb):
        self.lamb = lamb
        
    def fit(self, X, y):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
        
    def predict(self, X):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass

In [39]:
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression, Ridge
######################################################
X_reg = np.array([[1], [2]])
y_reg = np.array([1, 2])

model = TrueReg(1).fit(X_reg, y_reg)

assert_array_almost_equal(model.predict(np.array([[0], [4]])), np.array([0.33, 3]), decimal=2)

assert_array_almost_equal(model.w_, np.array([[0.67], [0.33]]), decimal=2)

assert_array_almost_equal(model.coef_, np.array([0.67, 0.33]), decimal=2)
######################################################
X_reg, y_reg = make_regression(n_samples=100, n_features=99, n_targets=1)

model = Ridge(1).fit(X_reg, y_reg)
model_my = TrueReg(1).fit(X_reg, y_reg)

coef_real = np.hstack([model.coef_, model.intercept_])

assert_array_almost_equal(model_my.coef_, coef_real, decimal=0)
######################################################
X_reg, y_reg = make_regression(n_samples=2000, n_features=10, n_targets=1)

model = Ridge(1).fit(X_reg, y_reg)
model_my = TrueReg(1).fit(X_reg, y_reg)

coef_real = np.hstack([model.coef_, model.intercept_])

assert_array_almost_equal(model_my.coef_, coef_real, decimal=0)
######################################################
X_reg, y_reg = make_regression(n_samples=100, n_features=150, n_targets=1)

model = Ridge(1).fit(X_reg, y_reg)
model_my = TrueReg(1).fit(X_reg, y_reg)
coef_real = np.hstack([model.coef_, model.intercept_])

assert sklearn.metrics.mean_absolute_error(model_my.coef_, coef_real) < 20

# 4. Градиент

На вход подаются обучающая выборка $(X,y)$ и как-то определенные веса $w$. Верните градиент функции $MSE$ для изменения весов в алгоритме градиентного спуска.
$$\nabla L = X^{T}(Xw - y)$$

Здесь не нужно добавлять единицы сбоку к матрице, считаем, что они уже есть.

### Sample 1
#### Input:
```python
w = np.array([[0.2], [0.2]]) #столбец!
X = np.array([[1,1], [2,2], [3,3]])
y = np.array([[1],[2],[3]]) #столбец!
```
#### Output:
```python
array([[-8.4], 
       [-8.4]]) #возвращаем столбец!
```

# TASK

In [39]:
def gradient_step(w: np.array, X: np.array, y: np.array) -> np.array:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    #нужно вернуть столбец
    pass

In [50]:
w = np.array([[0.2], 
              [0.2]])
X = np.array([[1,1], [2,2], [3,3]])
y = np.array([[1],[2],[3]])
assert_array_almost_equal( gradient_step(w, X, y), np.array([[-8.4], [-8.4]]))
######################################################

# 5. Стохастический градиент

Реализуйте стохаистический градиентный спуск: пересчитайте $\nabla_{w}L$ только для одного случайно выбранного элемента из выборки $X$.

$$L_{i} = (x_i^T w - y_i) ^ 2 \to \min_w$$

$$\nabla_{w}L^{i} = x_i (x_i^T w  - y_i)$$
где $x_i$ - вектор объекта выборки, выбранный случайно.  


Здесь не нужно добавлять единицы сбоку к матрице $X$, считаем, что они уже есть.

### Sample 1
#### Input:
```python
w = np.array([[1], [1], [1]]) #столбец!
X = np.array([[1, 1, 1], [0, 0, 0]])
y = np.array([[1], [0]]) #столбец!
```
#### Output:
```python
array([[0.],
       [0.],
       [0.]]) #столбец!
или
array([[2.],
       [2.],
       [2.]]) #столбец!
```

# TASK

In [36]:
import numpy as np

def stochastic_step(w: np.array, X: np.array, y: np.array) -> np.array:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    #нужно вернуть столбец
    pass

In [58]:
w = np.array([[1], [1], [1]])
y = np.array([[1], [0]])
X = np.array([[1, 1, 1], [0, 0, 0]])

z , k = 0 , 0
for i in range(100):
    g = stochastic_step(w, X, y)
    if g[0] == 2:
        z += 1
    else:
        k += 1
assert z >= 35 and k >= 35
######################################################
w = np.array([[5], [2], [1], [5]])
y = np.array([[0.5], [2], [-3]])
X = np.array([[1, 1, 1, 1], [0, 0, 0, 1], [3, 5, 3, 1]])

z , k, f = 0 , 0, 0
for i in range(100):
    g = stochastic_step(w, X, y)
    if g[0] == 108:
        z += 1
    elif g[0] == 0:
        k += 1
    else:
        f += 1
assert z >= 25 and k >= 25 and f >= 25

# 6. Градиентный спуск

Теперь реализуем Линейную регрессию на градиентном спуске. Реализуйте пересчёт весов в цикле для алгоритма градиентного спуска. Начальные веса инициализированы нулями. 
$$w_{new} = w - \eta\nabla L$$

Используйте параметры `max_iter`=$1000$, `eta`=$0.1$

Все итерации проходить не нужно. Остановитесь в момент, когда норма разницы между старыми и новыми весами станет меньше $1e-9$. 


### Sample 1
#### Input:
```python
X_train = np.array([[1], [2]])
y_train = np.array([1, 2])

model = GDLinReg(max_iter=1000, eta=0.1).fit(X_train, y_train)
y_pred = model.predict(np.array([[3],[4]]))

```
#### Output:
```python
y_pred = np.array([3., 4.])
model.coef_ = np.array([1., 0.])
```

# TASK

In [44]:
class GDLinReg():
    def __init__(self, max_iter=1000, eta=0.1):
        self.max_iter = max_iter
        self.eta = eta
        self.coef_ = None #строка
        self.w_ = None #столбец
    
    def _gradient_descending(w, X, y):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
    
    def fit(self, X, y):
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
        n, m = X.shape
        self.w_ = np.zeros((m, 1)) #столбец
        
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        
        self.coef_ = self.w_.reshape(-1)
        return self
        
    def predict(self, X):
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)   
        return (X @ self.w_).reshape(-1) #возвращаем всегда строку

In [60]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.datasets import make_regression
######################################################
X_reg = np.array([[1], [2]])
y_reg = np.array([1, 2])

model = GDLinReg().fit(X_reg, y_reg)
assert_array_almost_equal(model.predict(np.array([[3],[4]])), np.array([3., 4.]), decimal=1)

assert_array_almost_equal(model.coef_, np.array([1., 0.]), decimal=1)
######################################################
X_reg, y_reg = make_regression(n_samples=200, n_features=10, n_targets=1)

model = LinearRegression().fit(X_reg, y_reg)
model2 = GDLinReg().fit(X_reg, y_reg)

coef_real = np.hstack([model.coef_, model.intercept_])
coef_my = model2.coef_

assert mean_absolute_error(coef_my, coef_real) < 5
######################################################

# 7. Регуляризация

Реализуйте L2-регуляризацию (так же известную как Ridge).

$$L = \frac{1}{2}\lVert Xw - y\rVert_2^2 + \frac{\lambda}{2}\lVert w\rVert_2^2$$

Найдите новый $\nabla_{w} L$ и верните его.

Обратите внимание, что свободный коэффициент весов (самый последний) **не нужно** регуляризовывать.

### Sample 1
#### Input:
```python
w = np.array([[1], [1]])
X = np.array([[1,1], [2,2], [3,3]])

y = np.array([[1],[0],[0]])
```
#### Output:
```python
np.array([[28.], 
          [27.]]) #возвращаем столбец!
```

# TASK

In [3]:
def gradient_step_l2(w: np.array, X: np.array, y: np.array, lamb: float) -> np.array:
    # Коэффициент регуляризации lamb
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    #нужно вернуть столбец
    pass

In [180]:
w = np.array([[1], [1]])
X = np.array([[1,1], [2,2], [3,3]])

y = np.array([[1],[0],[0]])
assert_array_almost_equal(gradient_step_l2(w, X, y, 1), np.array([[28.], [27.]]))

# 8. Логистический градиент

Теперь переходим к задаче классификации и Логистической регрессии. Мы уже знаем, что в нашем случае нужно минимизировать метрику $LogLoss$:
$$\ln{L} = -\sum_{i=1}^{n}y_i\ln{(\sigma(x_i^{T}w))} + (1 - y_i)\ln{(1 - \sigma(x_i^{T}w))}$$
где $\sigma(z) = \frac{1}{1 + e^{-z}}$, $y \in \{0,1\}$

Ваша задача взять **производную** этой функции и вернуть вектор градиентов $\nabla_{w}\ln{L}$. Формулу необходимо вывести в векторном виде, чтобы считалось быстрее.

Обратите внимание: 

* $w$, $y$ - столбцы, а не строки. Ответ тоже столбец.
* В функции используется **натуральный** логарифм.
* Нужно посчитать полный градиент, а не стохастический.

### Sample 1
#### Input:
```python
w = np.array([0, 0])
X = np.array([[1,1], [2,2], [3,3]])
y = np.array([[1],[0],[0]])
```
#### Output:
```python
array([[2], 
       [2]]) #возвращаем столбец!
```

# TASK

In [33]:
import numpy as np

def log_gradient_step(w: np.array, X: np.array, y: np.array)-> np.array:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    #нужно вернуть столбец
    pass

In [181]:
w = np.array([[0], [0]])
X = np.array([[1,1], [2,2], [3,3]])

y = np.array([[1],[0],[0]])
assert_array_almost_equal(log_gradient_step(w, X, y), np.array([[2], [2]]))
######################################################

# 9. Логистическая регрессия

Теперь реализуем Логистическую регрессию на стохастическом градиентном спуске.
$$\ln{L} = -\sum_{i=1}^{n}y_i\ln{(\sigma(x_i^{T}w))} + (1 - y_i)\ln{(1 - \sigma(x_i^{T}w))} + \frac{\lambda}{2}\lVert w\rVert_2^2 \rightarrow \min$$
где $\sigma(z) = \frac{1}{1 + e^{-z}}$, $y \in \{0,1\}$, $\lVert w\rVert_2^2 = \sum_{i=1}^{n} w_i^2$= - квадрат эвклидовой нормы

Собственно вероятность принадлежности определенному классу:
$$P(y_i=1) = \sigma(x_i^T w)~~~P(y_i=0) = 1 - \sigma(x_i^T w)$$

Реализуйте пересчёт весов в цикле для алгоритма градиентного спуска. Начальные веса сгенерированны рандомно. 

$$w^{(t+1)} = w^{(t)} - \eta\nabla_{w} L^i$$

Будьте внимательны:

* На вход алгоритму приходит $y$ - **строка**, как и в любой sklearn алгоритм.
* Не устанавливайте количество итераций больше 1000 (алгоритм будет долго работать)
* Как и в линейной регрессии не забудьте добавить единичный столбец справа.

Можете использовать и обычный спуск, главное чтоб по времени зашло.

### Sample 1
#### Input:
```python
X_train = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y_train = np.array([1, 1, 0, 0])

model = SGDLogReg().fit(X_train, y_train)
y_pred = model.predict(np.array([[0.5, 0.5], [ -0.5,  -0.5]]))
y_prob = model.predict_proba(np.array([[0.5, 0.5], [-0.5, -0.5]]))
```
#### Output:
```python
y_pred = np.array([1., 0.])
y_prob = np.array([[0.1, 0.9],  # это не точный ответ, но очень приблизительный, отличие на 0.1 - это нормально
                   [0.9, 0.1]]) # для каждого объекта возвращаем его вероятность нуля и единицы
```

# TASK

In [178]:
import numpy as np

class SGDLogReg():
    def __init__(self, max_iter=1000, eta=0.01, lamb = 1):
        self.eta = eta
        self.max_iter = max_iter
        self.lamb = lamb
        self.w_ = None
        self.coef_ = None
        
    def _stochastic_step(self, w: np.array, X: np.array, y: np.array) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        #модифицируйте функцию из предыдущей задачи
        pass
        
    def fit(self, X: np.array, y: np.array) -> np.array:
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
        n, m = X.shape
        self.w_ = np.zeros(size=(m, 1))
        
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        
        self.coef_ = self.w_.reshape(-1)
        return self
    
    def predict(self, X: np.array) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
    
    def predict_proba(self, X: np.array) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.metrics import mean_absolute_error
######################################################
X_clf = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y_clf = np.array([1, 1, 0, 0])
model = SGDLogReg().fit(X_clf, y_clf)

assert model.lamb == 1

assert_equal(model.predict(np.array([[-0.5, -0.5]])), np.array([0.]))
assert_equal(model.predict(np.array([[ 0.5,  0.5]])), np.array([1.]))
######################################################
np.random.seed(1337)
n = 200
a = np.random.normal(loc=0, scale=1, size=(n, 2)) #первый класс
b = np.random.normal(loc=4, scale=2, size=(n, 2)) #второй класс
X = np.vstack([a, b]) #двумерный количественный признак
y = np.hstack([np.zeros(n), np.ones(n)]) #бинарный признак

X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, random_state=1645)

model = SGDLogReg(lamb=0.01).fit(X_train, y_train)
model_real = LogisticRegression(C=0.01, solver='sag').fit(X_train, y_train)

assert model.lamb == 0.01

assert mean_absolute_error(model.predict(X_test), model_real.predict(X_test)) < 0.1
assert mean_absolute_error(model.predict_proba(X_test), model_real.predict_proba(X_test)) < 0.2
######################################################
np.random.seed(1228)
n = 1000
a = np.random.normal(loc=0, scale=1, size=(n, 2)) #первый класс
b = np.random.normal(loc=4, scale=1, size=(n, 2)) #второй класс
X = np.vstack([a, b]) #двумерный количественный признак
y = np.hstack([np.zeros(n), np.ones(n)]) #бинарный признак

X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, random_state=1645)

model = SGDLogReg(lamb=0.5).fit(X_train, y_train)
model_real = SGDClassifier(loss='log',alpha=0.5).fit(X_train, y_train)


assert model.lamb == 0.5


assert mean_absolute_error(model.predict(X_test), model_real.predict(X_test)) < 0.1
assert mean_absolute_error(model.predict_proba(X_test), model_real.predict_proba(X_test)) < 0.2
######################################################

# 10. Momentum

Этот метод позволяет направить sgd в нужной размерности и уменьшить осцилляцию. 

В общем случае он будет выглядеть следующим образом: 

$$ v_t = \gamma v_{t - 1} + \eta \nabla_{w}L^i$$
$$ w^{(t+1)} = w^{(t)} - v_t$$

где

 - $\eta$ — learning rate
 - $w$ — вектор параметров
 - $L$ — оптимизируемый функционал
 - $\gamma$ — momentum term (обычно выбирается 0.9)


# TASK

In [None]:
from sklearn.base import BaseEstimator, ClassifierMixin

class SGDMomentum(BaseEstimator, ClassifierMixin):
    def __init__(self, features_size, gradient, lr=0.01, l=1, gamma=0.9, max_iter=1000):
        self.gradient = gradient
        self.lr = lr
        self.l = l
        self.gamma = gamma
        self.max_iter = max_iter
        self.w = np.random.normal(size=(features_size + 1, 1))

    def fit(self, X, y):
        v = np.zeros(self.w.shape)
        X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
        for i in range(self.max_iter):
            index = np.random.randint(X.shape[0])
            # пересчитайте веса в стохаистическом градиентном спуске
            '''
            .∧＿∧ 
            ( ･ω･｡)つ━☆・*。 
            ⊂  ノ    ・゜+. 
            しーＪ   °。+ *´¨) 
                    .· ´¸.·*´¨) 
                    (¸.·´ (¸.·'* ☆  <YOUR CODE>
            '''
            self.w = 
        return self

In [69]:
X = np.array([[ 2.67973871e-01, -9.43407158e-01,  4.59566449e-01,
         1.63136986e-01, -5.44506820e-01]])
y = np.array([-1])

r0 = SGDMomentum(5, lambda a, b, c, d: a, max_iter=10, l=1, lr=1)
r0.w = np.array([[0.1], [0.2], [0.3], [0.2], [0.1], [-0.1]])
r0.fit(X, y)
r1 = SGDMomentum(5, lambda a, b, c, d: a, max_iter=10, l=1, lr=0.1)
r1.w = np.array([[0.1], [0.2], [0.3], [0.2], [0.1], [-0.1]])
r1.fit(X, y)
######################################################
assert np.allclose(r0.w.reshape(6), np.array([ 0.01753165,  0.0350633,   0.05259494,  0.0350633,   0.01753165, -0.01753165]))
assert np.allclose(r1.w.reshape(6), np.array([-0.05887894, -0.11775788, -0.17663682, -0.11775788, -0.05887894,  0.05887894]))
######################################################