#### HW 1

#### На основе ШАД Яндекс


In [56]:
from matplotlib import pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
import torch
import random
np.random.seed(236)
torch.manual_seed(236)
random.seed(236)

### 1. Нахождение сложной производной

Найдите производную по x от функции 
$$\sin\left(\tan(x)\frac{x^2}{y} + \ln(e^{-x^2 + 3}+x^3y)\right)\tan(x^2e^{x^9})$$

При этом надо пользоваться встроенным в PyTorch autograd. Численное вычисление производной может не дать нужный результат.

In [57]:
def find_x_derivative(x, y):
    f = torch.sin(torch.tan(x)*x**2/y + torch.log(torch.exp(-x**2 + 3) + x**3*y))*torch.tan(x**2*torch.exp(x**2*torch.exp(x**9)))
    f.backward()
    return x.grad

In [58]:
x = torch.randn(1, 1, dtype=torch.float32, requires_grad=True)
y = torch.randn(1, 1, dtype=torch.float32, requires_grad=True)
dx = find_x_derivative(x, y)
x, y, dx

(tensor([[-0.9161]], requires_grad=True),
 tensor([[0.1797]], requires_grad=True),
 tensor([[-186.6953]]))

# 2. Нахождение косинусной близости

Вам даны две матрицы A и B. Необходимо посчитать косинусную близость между строчками матрицы A и столбцами матрицы B. Ответ - матрица чисел, где номер строки - номер строки из матрицы А, а номер столбца - номер столбца из В, от которых бралась косинусная близость.

Напомним, что косинусная близость двух векторов - косинус угла между ними. В n-мерном пространстве косинус угла между веткорами удобнее всего через скалярное произведение:
$$\cos(angle(x, y)) = \frac{x \cdot y}{\left\|x\right\| \left\|y\right\|}$$

(Наша операция очень похожа на умножение матриц)

In [59]:
def get_cos_sim(A, B):
    """
        A, B - torch float tensors
    """
    cos_sim = (A@B)/(torch.norm(A, dim=1, keepdim=True)@torch.norm(B, dim=0, keepdim=True))
    return cos_sim

In [64]:
A = torch.randn(3, 2, dtype=torch.float32)
B = torch.randn(2, 3, dtype=torch.float32)
cos_sim = get_cos_sim(A, B)
print(cos_sim, cos_sim.shape)

tensor([[-0.2869, -0.5746, -0.6564],
        [-0.9938, -0.9079,  0.6251],
        [ 0.4825,  0.1813, -0.9982]]) torch.Size([3, 3])


### Check

In [83]:
from sklearn.metrics.pairwise import cosine_similarity
np.round(cosine_similarity(A, B.T), 4)

array([[-0.2869, -0.5746, -0.6564],
       [-0.9938, -0.9079,  0.6251],
       [ 0.4825,  0.1813, -0.9982]], dtype=float32)

# 3. Линейная регрессия

Раньше мы самостоятельно считали производные, чтобы находить веса линейной регрессии с помощью градиентного спуска. Теперь нам нужно использовать для этого PyTorch и его autograd. 

**Важно**: на самом деле .backward не обновляет содержимое матриц с производными (some_tensor.grad), а прибавляет к ним только что посчитаные значения проивзодных. Это значит, что вызвав .backward дважды, вы получите удвоенную производную. Так как мы обновляем веса в цикле и много раз вызываем .backward, то очень быстро мы получим мусор в some_tensor.grad, если не будем его каждый раз обнулять. Таким образом, в конц итериации после использования производных обнулите значения в матрице производных для всех нужных Вам переменных. Делается это вот так 
> some\_tensor.grad.data.zero_()

In [84]:
class LinearRegression:
    def get_loss(self, preds, y):
        """
            @param preds: предсказания модели
            @param y: истиные значения
            @return mse: значение MSE на переданных данных
        """
        # возьмите средний квадрат ошибки по всем выходным переменным
        # то есть сумму квадратов ошибки надо поделить на количество_элементов * количество_таргетов
        mse = torch.mean((y-preds)**2)
        return mse
    
    def init_weights(self, input_size, output_size):
        """
            Инициализирует параметры модели
            W - матрица размерности (input_size, output_size)
            инициализируется рандомными числами из
            uniform распределения (torch.rand())
            b - вектор размерности (1, output_size)
            инициализируется нулями
        """
        torch.manual_seed(0) #необходимо для воспроизводимости результатов
        self.W = torch.rand(input_size, output_size,  requires_grad=True)
        self.b = torch.zeros(1, output_size, requires_grad=True)

    def fit(self, X, y, num_epochs=1000, lr=0.001):
        """
            Обучение модели линейной регрессии методом градиентного спуска
            @param X: размерности (num_samples, input_shape)
            @param y: размерности (num_samples, output_shape)
            @param num_epochs: количество итераций градиентного спуска
            @param lr: шаг градиентного спуска
            @return metrics: вектор значений MSE на каждом шаге градиентного
            спуска.
        """
        self.init_weights(X.shape[1], y.shape[1])
        metrics = []
        for _ in range(num_epochs):
            preds = self.predict(X)
            # сделайте вычисления градиентов c помощью Pytorch и обновите веса
            # осторожнее, оберните вычитание градиента в 
#                 with torch.no_grad():
#                     #some code
            # иначе во время прибавления градиента к переменной создастся очень много нод в дереве операций
            # и ваши модели в будущем будут падать от нехватки памяти
            loss = self.get_loss(preds, y)
            loss.backward()
            with torch.no_grad():
                self.W -= lr*self.W.grad.data
                self.b -= lr*self.b.grad.data
            self.W.grad.data.zero_()
            self.b.grad.data.zero_()
            if _ %100 == 0:
                print(f'Epoch: {_} Loss: {loss.item()}')
            metrics.append(self.get_loss(preds, y).data)
        return metrics

    def predict(self, X):
        """
            Думаю, тут все понятно. Сделайте свои предсказания :)
        """
        return X@self.W + self.b

1. Сгенерируйте данные с помощью make_regression с параметрами n_targets=3, n_features=2, noise=10, random_state=42. 
2. Обучите модель линейной регрессии, оставив в fit параметры num_epochs и lr по умолчанию (обратите внимание, что перед обучением нужно привести данные к типу, использующимся в torch) 
2. Посчитайте среднее значение метрики MSE по всем итерациям цикла в fit (массив из значений MSE на каждой итерации возвращается из метода fit). Ответом, который необходимо сдать в систему, будет число, округленное до 3х знаков после запятой.

In [85]:
X, Y = datasets.make_regression(n_targets=3, n_features=2, noise=10, random_state=42)
X = torch.from_numpy(X).float()
Y = torch.from_numpy(Y).float()
model = LinearRegression()
mse = model.fit(X, Y)

Epoch: 0 Loss: 7046.52734375
Epoch: 100 Loss: 6295.75732421875
Epoch: 200 Loss: 5628.20556640625
Epoch: 300 Loss: 5034.43896484375
Epoch: 400 Loss: 4506.1142578125
Epoch: 500 Loss: 4035.847900390625
Epoch: 600 Loss: 3617.107421875
Epoch: 700 Loss: 3244.10986328125
Epoch: 800 Loss: 2911.737060546875
Epoch: 900 Loss: 2615.452392578125


In [86]:
print(np.mean(mse))

4256.561


Здесь предлагаем протестировать метод predict удобным вам образом.

In [50]:
test_X, test_y = datasets.make_regression(n_targets=3, n_features=2, noise=10, random_state=42)
test_X = torch.from_numpy(test_X).float()
test_y = torch.from_numpy(test_y).float()
preds = model.predict(test_X)
model.get_loss(preds, test_y)

tensor(2351.2395, grad_fn=<MeanBackward0>)