# Лекция 3: Библиотеки для глубинного обучения. Примитивы фремворка Pytorch. 

#        Пример обучения нейронной сети в numpy

In [5]:
# -*- coding: utf-8 -*-
import numpy as np

# N - размер батча; D_in - размерность входа;
# H - скрытая размероность; D_out размерность выхода.
N, D_in, H, D_out = 64, 1000, 100, 10

# Инициализируем вход и выход из нормального распределения
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# Инициализируем веса из нормального распределения
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
epochs = 500
for t in xrange(epochs):
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    grad_y_pred = 2.0 * (y_pred - y) 
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

(0, 41859566.38522698)
(1, 47397469.966075629)
(2, 55157354.249319047)
(3, 50830339.774664581)
(4, 32197600.107160471)
(5, 13751907.505895544)
(6, 5088859.0277813543)
(7, 2311171.6387022827)
(8, 1433665.3726479863)
(9, 1068341.8897400945)
(10, 856406.37146082695)
(11, 706281.1417334025)
(12, 590657.57166276313)
(13, 498556.04507106205)
(14, 424053.32991746493)
(15, 363070.66552583728)
(16, 312732.1992073413)
(17, 270841.64208571881)
(18, 235760.45083094478)
(19, 206166.86190719134)
(20, 181059.48925840171)
(21, 159631.86630629725)
(22, 141257.34951139113)
(23, 125416.8063724167)
(24, 111695.82050353926)
(25, 99781.314465385352)
(26, 89388.638581276085)
(27, 80292.672241151653)
(28, 72292.406363056682)
(29, 65236.348046603831)
(30, 58996.796005008538)
(31, 53460.59752593821)
(32, 48540.32667259992)
(33, 44155.400496976552)
(34, 40234.73904473921)
(35, 36720.633896067258)
(36, 33565.002887538321)
(37, 30725.636853274002)
(38, 28164.853306584144)
(39, 25850.26672366586)
(40, 23755.4059656

# Первая и основная составляющая типичного современного фреймворка для машинного обучения - Tensor

В интерфейсе базовых операций тензор ничем не отличается от np.array, но при этом тензоры можно эффективно использовать при обучении на gpu. 

In [6]:
import torch

In [3]:
# Создаем неинициализированный тензор
x = torch.Tensor(5, 3)

In [4]:
x


1.00000e-08 *
 -0.0000  0.0000  6.0670
  0.0000  0.0902  0.0000
 -0.0000  0.0000 -0.0000
  0.0000  0.0000  0.0000
  0.0000  0.0000  0.0000
[torch.FloatTensor of size 5x3]

In [7]:
# инициализируем тензор нормальным распределением
x = torch.randn(5, 3)

In [8]:
x


 1.4312 -0.4596  0.6051
-1.2414  0.2560  1.3663
-0.8991  0.6741 -0.5378
-1.2244  1.1514 -1.9203
 0.7451  1.3182 -0.6524
[torch.FloatTensor of size 5x3]

In [7]:
x.size()

torch.Size([5, 3])

In [8]:
y = torch.rand(5, 3)

In [9]:
y


 0.7304  0.9615  0.2586
 0.3227  0.7867  0.0043
 0.8287  0.2735  0.0115
 0.2667  0.1086  0.5766
 0.4664  0.3912  0.6080
[torch.FloatTensor of size 5x3]

In [10]:
# Первый способ сложить 2 тензора
x + y


 1.1486  1.6697  0.5079
 1.0996  1.0322  0.5710
 1.7468  1.1038  0.0869
 0.5584  0.1626  1.1488
 1.3252  0.8794  0.7790
[torch.FloatTensor of size 5x3]

In [11]:
# Второй способ сложить 2 тензора
x.add(y)


 1.1486  1.6697  0.5079
 1.0996  1.0322  0.5710
 1.7468  1.1038  0.0869
 0.5584  0.1626  1.1488
 1.3252  0.8794  0.7790
[torch.FloatTensor of size 5x3]

In [12]:
# А еще можно так:
torch.add(x, y)


 1.1486  1.6697  0.5079
 1.0996  1.0322  0.5710
 1.7468  1.1038  0.0869
 0.5584  0.1626  1.1488
 1.3252  0.8794  0.7790
[torch.FloatTensor of size 5x3]

In [13]:
# Сохраняем выход в тензор result
result = torch.Tensor(5, 3)
torch.add(x, y, out=result)


 1.1486  1.6697  0.5079
 1.0996  1.0322  0.5710
 1.7468  1.1038  0.0869
 0.5584  0.1626  1.1488
 1.3252  0.8794  0.7790
[torch.FloatTensor of size 5x3]

In [14]:
# Перевод из numpy в torch
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b) 

[ 2.  2.  2.  2.  2.]

 2
 2
 2
 2
 2
[torch.DoubleTensor of size 5]



In [10]:
a = torch.randn(5, 3) 
b = torch.randn(3, 4)

In [11]:
# Матричное умножение

torch.mm(a,b)
a.mm(b)


 0.3363 -0.0260 -0.7842 -0.2396
-2.9455  0.2255  2.0970  2.0056
 0.2697 -0.2736 -2.2391 -0.3547
 3.4643 -0.0478  1.2616 -2.1739
-0.5717  0.4305 -0.1199  0.5803
[torch.FloatTensor of size 5x4]

In [12]:
# для python 3

a @ b

SyntaxError: invalid syntax (<ipython-input-12-6c2aa174fbbf>, line 3)

# предостережение!

В Pytorch пока нет встроенной реализации broadcasting

In [13]:
W = torch.randn(100, 10)
x = torch.randn(1, 100)
b = torch.ones(10)

In [14]:
x.mm(W) + b



Columns 0 to 7 
  7.6287  -6.7664  -8.9270  18.7777  24.6697  12.1760   6.5281  -0.9651

Columns 8 to 9 
 -4.7679   0.7349
[torch.FloatTensor of size 1x10]

In [20]:
x = torch.randn(5, 100)
x.mm(W) + b

RuntimeError: inconsistent tensor size at /Users/kuzmahrabrov/PlayGround/git/pytorch_tr/torch/lib/TH/generic/THTensorMath.c:601

In [15]:
# walk-through

x.mm(W) + b.repeat(x.size(0), 1)



Columns 0 to 7 
  7.6287  -6.7664  -8.9270  18.7777  24.6697  12.1760   6.5281  -0.9651

Columns 8 to 9 
 -4.7679   0.7349
[torch.FloatTensor of size 1x10]

Поменяем пару строчек в обучении на np и код уже можно запускать и на GPU

In [10]:
dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor # GPU

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in).type(dtype)
y = torch.randn(N, D_out).type(dtype)

w1 = torch.randn(D_in, H).type(dtype)
w2 = torch.randn(H, D_out).type(dtype)

learning_rate = 1e-6
for t in range(500):

    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    loss = (y_pred - y).pow(2).sum()
    print(t, loss)

    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

(0, 32809676.16619301)
(1, 28693061.05315274)
(2, 27519888.43800968)
(3, 25039857.47220069)
(4, 20054157.53912587)
(5, 13773547.718563348)
(6, 8429069.927183434)
(7, 4877779.911807358)
(8, 2874545.9275149256)
(9, 1803808.6938624352)
(10, 1229438.6448661834)
(11, 902951.1126687311)
(12, 702149.4485889704)
(13, 567664.8116604462)
(14, 470800.8592473045)
(15, 397049.25353155425)
(16, 338675.8176319734)
(17, 291295.93393846485)
(18, 252130.86828962527)
(19, 219363.69066592155)
(20, 191698.03767338302)
(21, 168138.33823114506)
(22, 147987.21340766735)
(23, 130687.0741750876)
(24, 115768.55118560394)
(25, 102826.84706028295)
(26, 91565.03858716623)
(27, 81739.43105763849)
(28, 73147.75508910605)
(29, 65592.53232185107)
(30, 58947.797676694376)
(31, 53077.57720127303)
(32, 47879.264176245735)
(33, 43263.73143671763)
(34, 39154.143952796265)
(35, 35489.01634416029)
(36, 32212.455132275827)
(37, 29278.024484641755)
(38, 26644.724312146398)
(39, 24277.65462706091)
(40, 22148.47893730522)
(41, 20

# Но самое важное в фреймворках - графы вычисления и автоматическое дифференцирование 

In [33]:
# Variable - обертка над тензором, содержащая значения градиента и еще немного полезной информации
from torch.autograd import Variable
x = Variable(torch.ones(2, 2), requires_grad = True)
x  

Variable containing:
 1  1
 1  1
[torch.FloatTensor of size 2x2]

In [34]:
x.data


 1  1
 1  1
[torch.FloatTensor of size 2x2]

In [35]:
x.grad

Variable containing:
 0  0
 0  0
[torch.FloatTensor of size 2x2]

In [36]:
# операция, которая породила переменную.
x.creator is None

True

In [37]:
y = x + 2
y

Variable containing:
 3  3
 3  3
[torch.FloatTensor of size 2x2]

In [39]:
y.creator.previous_functions

((Variable containing:
   1  1
   1  1
  [torch.FloatTensor of size 2x2], 0),)

In [17]:
y.grad

Variable containing:
 0  0
 0  0
[torch.FloatTensor of size 2x2]

In [40]:
z = y * y * 2
z

Variable containing:
 18  18
 18  18
[torch.FloatTensor of size 2x2]

In [41]:
z.creator.previous_functions

((<torch.autograd._functions.basic_ops.Mul at 0x7f88a80c1230>, 0),)

In [42]:
out = z.mean()
out

Variable containing:
 18
[torch.FloatTensor of size 1]

In [32]:
out.creator.previous_functions

((<torch.autograd._functions.basic_ops.MulConstant at 0x7f88a80c1050>, 0),)

In [44]:
# Запускаем бэкпроп
out.backward()

In [None]:
# dout/dz = 1/n = 1/4
# dout/dy = dout/dz * dz/dy = y
# dout/dx = y = (3 3 3 3)

In [45]:

x.grad

Variable containing:
 3  3
 3  3
[torch.FloatTensor of size 2x2]

In [46]:
y.grad # used

Variable containing:
 0  0
 0  0
[torch.FloatTensor of size 2x2]

In [48]:
z.grad # used

Variable containing:
 0  0
 0  0
[torch.FloatTensor of size 2x2]

# Что произошло?

autograd строит ациклический граф высчисления из переменных и операций(функций)
out.backward проходит по всему графу начиная от вершины out и считает градиенты вершин

In [51]:
class MyReLU(torch.autograd.Function):

    def forward(self, input):
        # forward pass
        self.save_for_backward(input)
        return input.clamp(min=0) # max(0, x)

    def backward(self, grad_output):
    # backward pass
        print(self.saved_tensors)
        print(grad_output.clone)
        input, = self.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input


Если мы хотим сохранить значения переменных в графе, то используем retain_variables = True. 
Это может быть нужно, если мы хотим несколько раз подряд сделать backprop

In [56]:
x = Variable(torch.ones(2, 2), requires_grad = True)
y = x + 2

In [57]:
y.backward(torch.ones(2, 2)) # setting up gradient is necessary because it's not a scalar
x.grad

Variable containing:
 1  1
 1  1
[torch.FloatTensor of size 2x2]

In [58]:
gradient = torch.randn(2, 2)

y.backward(gradient)

x.grad

Variable containing:
 1.5334  0.9173
 2.9637  0.3069
[torch.FloatTensor of size 2x2]

In [59]:
gradient


 0.5334 -0.0827
 1.9637 -0.6931
[torch.FloatTensor of size 2x2]

In [53]:
x = Variable(torch.ones(2, 2), requires_grad = True)
y = x + 2
y.backward(torch.ones(2, 2), retain_variables=True)
x.grad


Variable containing:
 1  1
 1  1
[torch.FloatTensor of size 2x2]

In [58]:
gradient = torch.randn(2, 2)

y.backward(gradient)

x.grad

Variable containing:
-5.2829  4.0769
 2.3827  2.7675
[torch.FloatTensor of size 2x2]

# Снова вернемся к исходной двухслойной сети

In [61]:
import torch
from torch.autograd import Variable

dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor # GPU

N, D_in, H, D_out = 64, 1000, 100, 10


x = Variable(torch.randn(N, D_in).type(dtype), requires_grad=False) # don't optimize f(x), f(y)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)


w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True)
w2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    loss = (y_pred - y).pow(2).sum()
    print(t, loss.data[0])
    
    # Обнуляем градиенты
    w1.grad.data.zero_()
    w2.grad.data.zero_()

    loss.backward()

    w1.data -= learning_rate * w1.grad.data
    w2.data -= learning_rate * w2.grad.data

(0, 23188858.0)
(1, 19625572.0)
(2, 20631708.0)
(3, 23688930.0)
(4, 26474370.0)
(5, 26236608.0)
(6, 21936760.0)
(7, 15079663.0)
(8, 8890982.0)
(9, 4777666.0)
(10, 2569942.5)
(11, 1472381.625)
(12, 935577.375)
(13, 659171.9375)
(14, 504209.78125)
(15, 407519.9375)
(16, 340670.59375)
(17, 290597.625)
(18, 250954.078125)
(19, 218450.59375)
(20, 191223.796875)
(21, 168142.296875)
(22, 148366.6875)
(23, 131375.953125)
(24, 116686.8515625)
(25, 103909.3515625)
(26, 92746.96875)
(27, 82966.5859375)
(28, 74395.6015625)
(29, 66841.3125)
(30, 60166.37109375)
(31, 54249.39453125)
(32, 48995.2578125)
(33, 44320.25390625)
(34, 40152.8671875)
(35, 36431.08984375)
(36, 33099.42578125)
(37, 30112.201171875)
(38, 27430.748046875)
(39, 25017.64453125)
(40, 22844.166015625)
(41, 20884.236328125)
(42, 19113.283203125)
(43, 17510.408203125)
(44, 16059.494140625)
(45, 14742.8154296875)
(46, 13547.8876953125)
(47, 12461.03515625)
(48, 11471.94140625)
(49, 10570.9990234375)
(50, 9749.1982421875)
(51, 8998.654

# Наконец, во многих фреймворках базовые слои нейронных сетей уже реализованы. Прямо как в первом домашнем задании!

In [29]:
from torch.autograd import Variable

N, D_in, D_out = 64, 1000, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

model = torch.nn.Sequential(
          torch.nn.Linear(D_in, D_out)
        )

loss_fn = torch.nn.MSELoss(size_average=False)

learning_rate = 1e-4
for t in range(500):
    y_pred = model(x)

    loss = loss_fn(y_pred, y)
    print(t, loss.data[0])

    model.zero_grad()

    loss.backward()

    for param in model.parameters():
        param.data -= learning_rate * param.grad.data

(0, 934.1334228515625)
(1, 597.23095703125)
(2, 388.3411560058594)
(3, 256.59918212890625)
(4, 172.109375)
(5, 117.04100799560547)
(6, 80.5948715209961)
(7, 56.126380920410156)
(8, 39.4816780090332)
(9, 28.022871017456055)
(10, 20.04847526550293)
(11, 14.444928169250488)
(12, 10.473118782043457)
(13, 7.636033535003662)
(14, 5.5954813957214355)
(15, 4.1187334060668945)
(16, 3.044092893600464)
(17, 2.258174180984497)
(18, 1.6808143854141235)
(19, 1.2549378871917725)
(20, 0.9396288394927979)
(21, 0.7053883075714111)
(22, 0.5308268666267395)
(23, 0.4003649652004242)
(24, 0.3026030957698822)
(25, 0.22916105389595032)
(26, 0.17386303842067719)
(27, 0.132135808467865)
(28, 0.10058683902025223)
(29, 0.07668688148260117)
(30, 0.058550264686346054)
(31, 0.044763918966054916)
(32, 0.03426747769117355)
(33, 0.026264341548085213)
(34, 0.020153604447841644)
(35, 0.015481488779187202)
(36, 0.011904941871762276)
(37, 0.009163699112832546)
(38, 0.007060266565531492)
(39, 0.0054445150308310986)
(40, 0.0

In [30]:
loss_fn(model(x), y)

Variable containing:
1.00000e-12 *
  1.5334
[torch.FloatTensor of size 1]

# А еще нам есть уже готовые оптимизаторы, такие как GD, SGD, ADAM, etc.

In [62]:
N, D_in, D_out = 64, 1000, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

model = torch.nn.Sequential(
          torch.nn.Linear(D_in, D_out),

        )
loss_fn = torch.nn.MSELoss(size_average=False)

In [89]:
N, D_in, D_out = 64, 1000, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

model = torch.nn.Sequential(
          torch.nn.Linear(D_in, D_out),

        )
loss_fn = torch.nn.MSELoss(size_average=False)

# model.parameters()

learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500):
    y_pred = model(x)

    loss = loss_fn(y_pred, y)
    print(t, loss.data[0])

    optimizer.zero_grad()

    loss.backward()

    optimizer.step()

0 774.2373046875
1 759.9967651367188
2 745.9061889648438
3 731.9664306640625
4 718.1824340820312
5 704.5537719726562
6 691.0833129882812
7 677.772216796875
8 664.6224365234375
9 651.6358642578125
10 638.813720703125
11 626.1564331054688
12 613.665771484375
13 601.3426513671875
14 589.1876831054688
15 577.201416015625
16 565.384033203125
17 553.7363891601562
18 542.2584228515625
19 530.950439453125
20 519.8123168945312
21 508.84368896484375
22 498.0445556640625
23 487.41436767578125
24 476.9522705078125
25 466.658203125
26 456.531005859375
27 446.5699768066406
28 436.7740478515625
29 427.1423034667969
30 417.67376708984375
31 408.36761474609375
32 399.2217712402344
33 390.23529052734375
34 381.4066162109375
35 372.73504638671875
36 364.2184753417969
37 355.85565185546875
38 347.6448059082031
39 339.5846252441406
40 331.6730041503906
41 323.90899658203125
42 316.2903137207031
43 308.8155517578125
44 301.4831848144531
45 294.29083251953125
46 287.2372741699219
47 280.3207092285156
48 273.

In [31]:
sgd = torch.optim.SGD
adadelta = torch.optim.Adadelta
adagrad = torch.optim.Adagrad
rmsprop = torch.optim.RMSprop