### Главы 13 - 14

Тензоры

In [1]:
import numpy as np

class Tensor(object):
    
    def __init__(self, data):
        self.data = np.array(data)
        
    def __add__(self, other):
        return Tensor(self.data + other.data)
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())

In [3]:
x = Tensor([1,2,3,4,5])
print(x)

[1 2 3 4 5]


In [4]:
y = x + x
print(y)

[ 2  4  6  8 10]


In [5]:
print(repr(y))

array([ 2,  4,  6,  8, 10])


In [7]:
print(str(y))

[ 2  4  6  8 10]


In [8]:
import numpy as np

class Tensor(object):
    
    def __init__(self, data, creators=None, creation_op=None):
        self.data = np.array(data)
        self.creators = creators # список любых тензоров, используемых для создания текущего тензора
        self.creation_op = creation_op # хранит операции, испольщзуемые для создания текущего тензора
        self.grad = None
        
    def backward(self, grad):
        """Рекурсивно распространяет назад градиент
        от потомков к родителям """
        self.grad = grad
        
        if self.creation_op == "add":
            self.creators[0].backward(grad)
            self.creators[1].backward(grad)
        
    def __add__(self, other):
        "Создает вычислительный граф"
        return Tensor(self.data + other.data, 
                     creators = [self, other],
                     creation_op = "add")
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())

In [14]:
x = Tensor([1,2,3,4,5])
y = Tensor([2,2,2,2,2])
z = x + y
z.backward(Tensor(np.array([1,1,1,1,1])))
print(x.grad)
print(y.grad)
print(z.creators)
print(z.creation_op)

[1 1 1 1 1]
[1 1 1 1 1]
[array([1, 2, 3, 4, 5]), array([2, 2, 2, 2, 2])]
add


In [15]:
a = Tensor([1,2,3,4,5])
b = Tensor([2,2,2,2,2])
c = Tensor([5,4,3,2,1])
d = Tensor([-1,-2,-3,-4,-5])

e = a + b
f = c + d
g  = e + f

g.backward(Tensor(np.array([1,1,1,1,1])))
print(a.grad)

[1 1 1 1 1]


Устраним ошибку распространения. В узел, дважды задействованном в создании потомков градиент должен вернуться дважды: [2,2,2,2,2]

In [18]:
a = Tensor([1,2,3,4,5])
b = Tensor([2,2,2,2,2])
c = Tensor([5,4,3,2,1])

d = a + b
e = b + c
f = d + e

f.backward(Tensor(np.array([1,1,1,1,1])))
print(b.grad.data == np.array([2,2,2,2,2]))

[False False False False False]


In [67]:
import numpy as np

class Tensor(object):
        
    def __init__(self, data, # вектор (список)
                 autograd = False, 
                 creators=None, 
                 creation_op=None, 
                 id_ = None):
        self.data = np.array(data) # принимаем значение атрибута в виде массива numpy
        self.creators = creators # список любых тензоров, используемых для создания текущего тензора
        self.creation_op = creation_op # хранит операции, используемые для создания текущего тензора
        self.grad = None # вначале градиента нет
        self.autograd = autograd # включатель автоградиента (нужно ли для конкретного нейрона вычислять градиент)
        self.children = {} # счетчик для учета количества градиентов, полученных от каждого потомка при обратном распространении
        
        if id_ is None: # если при инициировании инстанса нет айди, создать случайный
            self.id_ = np.random.randint(0, 100_000)
        else: # если при инициировании инстанса указан айди, присвоить его 
            self.id_ = id_
        
        if creators is not None: # если есть родители
            for c in creators: # для каждого родителя
                if self.id_ not in c.children: # если айди инстанса не среди айди потомков выбранного родителя
                    c.children[self.id_] = 1 # записать его в потомки выбранного родителя
                else: # если айди уже среди айди потомков
                    c.children[self.id_] += 1 # добавить еще единичку (т.е. учесть, через какое количество веток 
                                                            # наш инстанс является наследником)
    
    def all_children_grads_accounted_for(self):
        """Проверяет, получил ли тензор градиенты от всех своих потомков в графе"""
        for id_, cnt in self.children.items(): # словарь self.children имеет ключи id_ и значения 1,2,...
            if cnt != 0: # если наследников нет, вернуть False
                return False
        return True # если наследник(и) есть, вернуть True
    
    def backward(self,grad=None, grad_origin=None):
        """Рекурсивно распространяет назад градиент
        от потомков к родителям """
        if(self.autograd): # если включатель автоградиента вкл. (если для нейрона нужно вычислять градиент)
#             if(grad is None): # если градиента пока никакого нет
#                 grad = FloatTensor(np.ones_like(self.data))
            
            if(grad_origin is not None): # если есть градиент
                if(self.children[grad_origin.id_] == 0): # и если потомков дальше нет
                    raise Exception("cannot backprop more than once") # не распространять градиент
                else: # если потомки есть
                    self.children[grad_origin.id_] -= 1 # скинуть счетчик потомков на 1

            if(self.grad is None): # если у инстанса нет градиента
                self.grad = grad # присвоить атрибут метода grad
            else: # если есть градиент
                self.grad += grad # добавить к нему значение атрибута метода grad
            
            assert grad.autograd == False # проверка: если для градиента включен автоградиент, программу завалить
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and # если есть родители и одновременно есть наследники или grad_origin is None
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"): # если операция сложения
                    self.creators[0].backward(self.grad, self) # распространяем градиент на папу
                    self.creators[1].backward(self.grad, self) # и на маму
    
    def __add__(self, other):
        "Создает вычислительный граф"
        if self.autograd and other.autograd:
            
            return Tensor(self.data + other.data,
                            autograd=True,
                            creators = [self, other],
                            creation_op = "add")
        return Tensor(self.data + other.data)
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())

In [68]:
a = Tensor([1,2,3,4,5], autograd=True)
b = Tensor([2,2,2,2,2], autograd=True)
c = Tensor([5,4,3,2,1], autograd=True)

d = a + b
e = b + c
f = d + e

f.backward(Tensor(np.array([1,1,1,1,1])))
print(b.grad.data == np.array([2,2,2,2,2]))

[ True  True  True  True  True]


Реализуем поддержку отрицания

In [70]:
import numpy as np

class Tensor(object):
        
    def __init__(self, data, # вектор (список)
                 autograd = False, 
                 creators=None, 
                 creation_op=None, 
                 id_ = None):
        self.data = np.array(data) # принимаем значение атрибута в виде массива numpy
        self.creators = creators # список любых тензоров, используемых для создания текущего тензора
        self.creation_op = creation_op # хранит операции, используемые для создания текущего тензора
        self.grad = None # вначале градиента нет
        self.autograd = autograd # включатель автоградиента (нужно ли для конкретного нейрона вычислять градиент)
        self.children = {} # счетчик для учета количества градиентов, полученных от каждого потомка при обратном распространении
        
        if id_ is None: # если при инициировании инстанса нет айди, создать случайный
            self.id_ = np.random.randint(0, 100_000)
        else: # если при инициировании инстанса указан айди, присвоить его 
            self.id_ = id_
        
        if creators is not None: # если есть родители
            for c in creators: # для каждого родителя
                if self.id_ not in c.children: # если айди инстанса не среди айди потомков выбранного родителя
                    c.children[self.id_] = 1 # записать его в потомки выбранного родителя
                else: # если айди уже среди айди потомков
                    c.children[self.id_] += 1 # добавить еще единичку (т.е. учесть, через какое количество веток 
                                                            # наш инстанс является наследником)
    
    def all_children_grads_accounted_for(self):
        """Проверяет, получил ли тензор градиенты от всех своих потомков в графе"""
        for id_, cnt in self.children.items(): # словарь self.children имеет ключи id_ и значения 1,2,...
            if cnt != 0: # если наследников нет, вернуть False
                return False
        return True # если наследник(и) есть, вернуть True
    
    def backward(self,grad=None, grad_origin=None):
        """Рекурсивно распространяет назад градиент
        от потомков к родителям """
        if(self.autograd): # если включатель автоградиента вкл. (если для нейрона нужно вычислять градиент)
#             if(grad is None): # если градиента пока никакого нет
#                 grad = FloatTensor(np.ones_like(self.data))
            
            if(grad_origin is not None): # если есть градиент
                if(self.children[grad_origin.id_] == 0): # и если потомков дальше нет
                    raise Exception("cannot backprop more than once") # не распространять градиент
                else: # если потомки есть
                    self.children[grad_origin.id_] -= 1 # скинуть счетчик потомков на 1

            if(self.grad is None): # если у инстанса нет градиента
                self.grad = grad # присвоить атрибут метода grad
            else: # если есть градиент
                self.grad += grad # добавить к нему значение атрибута метода grad
            
            assert grad.autograd == False # проверка: если для градиента включен автоградиент, программу завалить
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and # если есть родители и одновременно есть наследники или grad_origin is None
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"): # если операция сложения
                    self.creators[0].backward(self.grad, self) # распространяем градиент на папу
                    self.creators[1].backward(self.grad, self) # и на маму
                if(self.creation_op == "neg"): # если операция сложения
                    self.creators[0].backward(self.grad.__neg__()) # распространяем градиент на папу
    
    def __add__(self, other):
        "Создает вычислительный граф"
        if self.autograd and other.autograd:
            
            return Tensor(self.data + other.data,
                            autograd=True,
                            creators = [self, other],
                            creation_op = "add")
        return Tensor(self.data + other.data)
    
    def __neg__(self):
        if self.autograd:
            return Tensor(self.data * (-1),
                 autograd = True, 
                 creators=[self], 
                 creation_op="neg")
        return Tensor(self.data * (-1))
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())

In [71]:
a = Tensor([1,2,3,4,5], autograd=True)
b = Tensor([2,2,2,2,2], autograd=True)
c = Tensor([5,4,3,2,1], autograd=True)

d = a + (-b)
e = (-b) + c
f = d + e

f.backward(Tensor(np.array([1,1,1,1,1])))
print(b.grad.data == np.array([-2,-2,-2,-2,-2]))

[ True  True  True  True  True]


Добавление других операций

In [None]:
import numpy as np

class Tensor(object):
        
    def __init__(self, data, # вектор (список)
                 autograd = False, 
                 creators=None, 
                 creation_op=None, 
                 id_ = None):
        self.data = np.array(data) # принимаем значение атрибута в виде массива numpy
        self.creators = creators # список любых тензоров, используемых для создания текущего тензора
        self.creation_op = creation_op # хранит операции, используемые для создания текущего тензора
        self.grad = None # вначале градиента нет
        self.autograd = autograd # включатель автоградиента (нужно ли для конкретного нейрона вычислять градиент)
        self.children = {} # счетчик для учета количества градиентов, полученных от каждого потомка при обратном распространении
        
        if id_ is None: # если при инициировании инстанса нет айди, создать случайный
            self.id_ = np.random.randint(0, 100_000)
        else: # если при инициировании инстанса указан айди, присвоить его 
            self.id_ = id_
        
        if creators is not None: # если есть родители
            for c in creators: # для каждого родителя
                if self.id_ not in c.children: # если айди инстанса не среди айди потомков выбранного родителя
                    c.children[self.id_] = 1 # записать его в потомки выбранного родителя
                else: # если айди уже среди айди потомков
                    c.children[self.id_] += 1 # добавить еще единичку (т.е. учесть, через какое количество веток 
                                                            # наш инстанс является наследником)
    
    def all_children_grads_accounted_for(self):
        """Проверяет, получил ли тензор градиенты от всех своих потомков в графе"""
        for id_, cnt in self.children.items(): # словарь self.children имеет ключи id_ и значения 1,2,...
            if cnt != 0: # если наследников нет, вернуть False
                return False
        return True # если наследник(и) есть, вернуть True
    
    def backward(self,grad=None, grad_origin=None):
        """Рекурсивно распространяет назад градиент
        от потомков к родителям """
        if(self.autograd): # если включатель автоградиента вкл. (если для нейрона нужно вычислять градиент)
#             if(grad is None): # если градиента пока никакого нет
#                 grad = FloatTensor(np.ones_like(self.data))
            
            if(grad_origin is not None): # если есть градиент
                if(self.children[grad_origin.id_] == 0): # и если потомков дальше нет
                    raise Exception("cannot backprop more than once") # не распространять градиент
                else: # если потомки есть
                    self.children[grad_origin.id_] -= 1 # скинуть счетчик потомков на 1

            if(self.grad is None): # если у инстанса нет градиента
                self.grad = grad # присвоить атрибут метода grad
            else: # если есть градиент
                self.grad += grad # добавить к нему значение атрибута метода grad
            
            assert grad.autograd == False # проверка: если для градиента включен автоградиент, программу завалить
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and # если есть родители и одновременно есть наследники или grad_origin is None
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"): # если операция сложения
                    self.creators[0].backward(self.grad, self) # распространяем градиент на папу
                    self.creators[1].backward(self.grad, self) # и на маму
                if(self.creation_op == "neg"): # если операция сложения
                    self.creators[0].backward(self.grad.__neg__()) # распространяем градиент на папу
                if(self.creation_op == "sub"):
                    new = Tensor(self.grad.data)
                    self.creators[0].backward(new, self)
                    new = Tensor(self.grad.__neg__().data)
                    self.creators[1].backward(self)
                if(self.creation_op == "mul"):
                    new = self.grad * self.creators[1]
                    self.creators[0].backward(new, self)
                    new = self.grad * self.creators[0]
                    self.creators[1].backward(self)
                if(self.creation_op == "mm"):
                    act = self.creators[0]
                    weights = self.creators[1] # как правило слой активации
                    new = self.grad.mm(weights.transpose())
                    act.backward(new)
                    new = self.grad.transpose().mm(act).transpose()
                    weights.backward(new)
                if(self.creation_op == "transpose"): 
                    self.creators[0].backward(self.grad.transpose())
                if 'sum' in self.creation_op: 
                    dim = int(self.creation_op.split("_")[1])
                    ds = self.creators[0].data.shape[dim]
                    self.creators[0].backward(self.grad.expand(dim, ds))
                if 'expand' in self.creation_op: 
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.sum(dim))
    
    def __add__(self, other):
        "Создает вычислительный граф"
        if self.autograd and other.autograd:
            
            return Tensor(self.data + other.data,
                            autograd=True,
                            creators = [self, other],
                            creation_op = "add")
        return Tensor(self.data + other.data)
    
    def __neg__(self):
        if self.autograd:
            return Tensor(self.data * (-1),
                 autograd = True, 
                 creators=[self], 
                 creation_op="neg")
        return Tensor(self.data * (-1))
    
    def __sub__(self, other):
        if self.autograd and other.autograd:
            return Tensor(self.data - other.data,
                            autograd=True,
                            creators = [self, other],
                            creation_op = "sub")
        return Tensor(self.data - other.data)
    
    def __mul__(self, other):
        if self.autograd and other.autograd:
            return Tensor(self.data * other.data,
                            autograd=True,
                            creators = [self, other],
                            creation_op = "mul")
        return Tensor(self.data * other.data)
    
    def __sum__(self, dim):
        """Выполняет сложение тензора по измерениям.
        При dim=0 сложение будет по столбцам, при dim=1 будут сложены строки"""
        if self.autograd:
            return Tensor(self.data.sum(dim),
                            autograd=True,
                            creators = [self],
                            creation_op = "sum_"+str(dim))
        return Tensor(self.data.sum(dim))
    
    def expand(self, dim, copies):
        """Используется для обратного распространения операции сложения.
        Копирует по измерению матрицу и размножает ее в количестве copies"""
        trans_cmd = list(range(0, len(data.shape))) # [0] для формы из одного измерения
        trans_cmd.insert(dim,  len(data.shape)) # вставляем в конец списка значение количества измерений, получаем [0, 1]
                                            # это нужно для параметра axes функции np.transpose()
        new_shape = list(data.shape) + [copies] # [2] для вектора из двух значений + [2] для двух копий,
                                            # получаем [2,2]
        new_data = data.repeat(copies).reshape(new_shape) # np.array([1,2]).repeat(2) возвращает array([1, 1, 2, 2])
                                                    # и решейпит на (2,2)
        new_data = new_data.transpose(trans_cmd) # решейпим функцией np.transpose()
        
        if self.autograd:
            return Tensor(new_data,
                            autograd=True,
                            creators = [self],
                            creation_op = "expand_" + str(dim))
        return Tensor(new_data)
    
    
    def transpose(self):
        if self.autograd:
            return Tensor(self.data.transpose(),
                            autograd=True,
                            creators = [self, x],
                            creation_op = "transpose")
        return Tensor(self.data.transpose())
    
    def mm(self, x):
        if self.autograd:
            return Tensor(self.data.dot(x.data),
                            autograd=True,
                            creators = [self, x],
                            creation_op = "mm")
        return Tensor(self.data.dot(x.data))
    
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())

Пример сети, в которой мы вручную делаем обратное распространение