<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg"  width=400></p>

<h3 style="text-align: center;"><b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b></h3>

In [1]:
from matplotlib import pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
import torch

### 1. Нахождение сложной производной

Найдите производную по x от функции 
$$\sin\left(\tan(x)\frac{x^2}{y} + \ln(e^{-x^2 + 3}+x^3y)\right)\tan(x^2e^{x^9})$$

При этом надо пользоваться встроенным в PyTorch autograd. Численное вычисление производной может не дать нужный результат.

In [103]:
def find_x_derivative(x_, y_):
    x = torch.tensor(torch.FloatTensor([x_]), requires_grad = True)
    print(x.type())
    y = torch.tensor(torch.FloatTensor([y_]), requires_grad = True)
    z = ((x.tan().mul((x**2).div(y)) + ((-(x**2)+3).exp() + (x**3).mul(y)).log()).sin()).mul(((x**2).mul((x**9).exp())).tan())
    z.backward()
    return x.grad

In [104]:
print(find_x_derivative(1, 21))

  


torch.FloatTensor


  after removing the cwd from sys.path.


tensor([-9.0207])


# 2. Нахождение косинусной близости

Вам даны две матрицы A и B. Необходимо посчитать косинусную близость между строчками матрицы A и столбцами матрицы B. Ответ - матрица чисел, где номер строки - номер строки из матрицы А, а номер столбца - номер столбца из В, от которых бралась косинусная близость.

Напомним, что косинусная близость двух векторов - косинус угла между ними. В n-мерном пространстве косинус угла между веткорами удобнее всего через скалярное произведение:
$$\cos(angle(x, y)) = \frac{x \cdot y}{\left\|x\right\| \left\|y\right\|}$$

(Наша операция очень похожа на умножение матриц)

In [85]:
def get_cos_sim(A, B):
    """
        A, B - torch float tensors
    """
    return ((A.t()).div((torch.norm(A, dim=1)).t()).t()).mm(B.div(torch.norm(B, dim=0)))
#     return (A @ B) / (A.norm(dim=1, keepdim=True) @ B.norm(dim=0, keepdim=True))

In [86]:
A = torch.FloatTensor([[1, -47, 25, -3], [10, 17, -15, 22], [-3, -7, 26, 36], [12, -27, -42, 0]])
B = torch.FloatTensor([[-50, -13, 1, 10, 1242], [21, 48, -13, -14, -20], [20, 15, 11, 43, 11], [11, 103, 147, 27, -8]])
# print(A)
# print(torch.norm(A, dim=1))
# print(((A.t()).div((torch.norm(A, dim=1)).t()).t()))
# print(torch.norm(torch.FloatTensor([1, -47, 25, -3])))

# print(torch.norm(B, dim=0))
# print(B.div(torch.norm(B, dim=0)))
# print(torch.norm(torch.FloatTensor([-50, 21, 20, 11])))

# print(get_cos_sim(A, B))
print(torch.mean(get_cos_sim(A, B)))

tensor([[  1., -47.,  25.,  -3.],
        [ 10.,  17., -15.,  22.],
        [ -3.,  -7.,  26.,  36.],
        [ 12., -27., -42.,   0.]])
tensor([53.3292, 33.1361, 45.0555, 51.3517])
tensor([[ 0.0188, -0.8813,  0.4688, -0.0563],
        [ 0.3018,  0.5130, -0.4527,  0.6639],
        [-0.0666, -0.1554,  0.5771,  0.7990],
        [ 0.2337, -0.5258, -0.8179,  0.0000]])
tensor(0.1498)


# 3. Линейная регрессия

Раньше мы самостоятельно считали производные, чтобы находить веса линейной регрессии с помощью градиентного спуска. Теперь нам нужно использовать для этого PyTorch и его autograd. 

**Важно**: на самом деле .backward не обновляет содержимое матриц с производными (some_tensor.grad), а прибавляет к ним только что посчитаные значения проивзодных. Это значит, что вызвав .backward дважды, вы получите удвоенную производную. Так как мы обновляем веса в цикле и много раз вызываем .backward, то очень быстро мы получим мусор в some_tensor.grad, если не будем его каждый раз обнулять. Таким образом, в конц итериации после использования производных обнулите значения в матрице производных для всех нужных Вам переменных. Делается это вот так 
> some\_tensor.grad.data.zero_()

In [8]:
class LinearRegression:
    def get_loss(self, preds, y):
        """
            @param preds: предсказания модели
            @param y: истиные значения
            @return mse: значение MSE на переданных данных
        """
        # возьмите средний квадрат ошибки по всем выходным переменным
        # то есть сумму квадратов ошибки надо поделить на количество_элементов * количество_таргетов
        #return ((preds.sub(y))**2).sum()/(2*preds.shape[0]*preds.shape[1])
        diff = preds - y
        return torch.sum(diff * diff) / diff.numel()
    
    def init_weights(self, input_size, output_size):
        """
            Инициализирует параметры модели
            W - матрица размерности (input_size, output_size)
            инициализируется рандомными числами из
            uniform распределения (torch.rand())
            b - вектор размерности (1, output_size)
            инициализируется нулями
        """
        torch.manual_seed(0)
        self.W = torch.rand(input_size, output_size,  requires_grad=True)
        self.b = torch.zeros(1, output_size, requires_grad=True)

    def fit(self, X, y, num_epochs=1000, lr=0.001):
        """
            Обучение модели линейной регрессии методом градиентного спуска
            @param X: размерности (num_samples, input_shape)
            @param y: размерности (num_samples, output_shape)
            @param num_epochs: количество итераций градиентного спуска
            @param lr: шаг градиентного спуска
            @return metrics: вектор значений MSE на каждом шаге градиентного
            спуска.
        """
        self.init_weights(X.shape[1], y.shape[1])
        metrics = []
        for _ in range(num_epochs):
            preds = self.predict(X)
            # сделайте вычисления градиентов c помощью Pytorch и обновите веса
            # осторожнее, оберните вычитание градиента в 
#                 with torch.no_grad():
#                     #some code
            # иначе во время прибавления градиента к переменной создастся очень много нод в дереве операций
            # и ваши модели в будущем будут падать от нехватки памяти
            
            loss = self.get_loss(preds, y)
            loss.backward()
            self.b.data -= lr*self.b.grad
            self.W.data -= lr*self.W.grad
#             with torch.no_grad():
#                 self.b -= lr*self.b.grad
#                 self.W -= lr*self.W.grad
            
            self.b.grad.data.zero_()
            self.W.grad.data.zero_()
            metrics.append(self.get_loss(preds, y).data)
        return metrics

    def predict(self, X):
        """
            Думаю, тут все понятно. Сделайте свои предсказания :)
        """
        return X@self.W+self.b

In [9]:
X, Y = datasets.make_regression(n_targets=3, n_features=2, noise=10, random_state=42)
X = torch.from_numpy(X.astype(np.float32))
Y = torch.from_numpy(Y.astype(np.float32))
model = LinearRegression()
mse = model.fit(X, Y)
print(len(mse), sum(mse))
print(torch.FloatTensor(mse).mean())

1000 tensor(4256564.)
tensor(4256.5605)
