# Chapter 13. 자동 최적화(Optimizer) 추가하기

### <앞서 했던것들 - Class Tensor 선언>

In [2]:
import numpy as np

class Tensor (object):
    
    def __init__(self,data,
                 autograd=False,
                 creators=None,
                 creation_op=None,
                 id=None):
        
        self.data = np.array(data)
        self.autograd = autograd
        self.grad = None
        if(id is None):
            self.id = np.random.randint(0,100000)
        else:
            self.id = id
        
        self.creators = creators
        self.creation_op = creation_op
        self.children = {}
        
        if(creators is not None):
            for c in creators:
                if(self.id not in c.children):
                    c.children[self.id] = 1
                else:
                    c.children[self.id] += 1

    def all_children_grads_accounted_for(self):
        for id,cnt in self.children.items():
            if(cnt != 0):
                return False
        return True 
        
    def backward(self,grad=None, grad_origin=None):
        if(self.autograd):
 
            if(grad is None):
                grad = Tensor(np.ones_like(self.data))

            if(grad_origin is not None):
                if(self.children[grad_origin.id] == 0):
                    raise Exception("cannot backprop more than once")
                else:
                    self.children[grad_origin.id] -= 1

            if(self.grad is None):
                self.grad = grad
            else:
                self.grad += grad
            
            # grads must not have grads of their own
            assert grad.autograd == False
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and 
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"):
                    self.creators[0].backward(self.grad, self)
                    self.creators[1].backward(self.grad, self)
                    
                if(self.creation_op == "sub"):
                    self.creators[0].backward(Tensor(self.grad.data), self)
                    self.creators[1].backward(Tensor(self.grad.__neg__().data), self)

                if(self.creation_op == "mul"):
                    new = self.grad * self.creators[1]
                    self.creators[0].backward(new , self)
                    new = self.grad * self.creators[0]
                    self.creators[1].backward(new, self)                    
                    
                if(self.creation_op == "mm"):
                    c0 = self.creators[0]
                    c1 = self.creators[1]
                    new = self.grad.mm(c1.transpose())
                    c0.backward(new)
                    new = self.grad.transpose().mm(c0).transpose()
                    c1.backward(new)
                    
                if(self.creation_op == "transpose"):
                    self.creators[0].backward(self.grad.transpose())

                if("sum" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.expand(dim,
                                                               self.creators[0].data.shape[dim]))

                if("expand" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.sum(dim))
                    
                if(self.creation_op == "neg"):
                    self.creators[0].backward(self.grad.__neg__())
                    
    def __add__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data + other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="add")
        return Tensor(self.data + other.data)

    def __neg__(self):
        if(self.autograd):
            return Tensor(self.data * -1,
                          autograd=True,
                          creators=[self],
                          creation_op="neg")
        return Tensor(self.data * -1)
    
    def __sub__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data - other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="sub")
        return Tensor(self.data - other.data)
    
    def __mul__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data * other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="mul")
        return Tensor(self.data * other.data)    

    def sum(self, dim):
        if(self.autograd):
            return Tensor(self.data.sum(dim),
                          autograd=True,
                          creators=[self],
                          creation_op="sum_"+str(dim))
        return Tensor(self.data.sum(dim))
    
    def expand(self, dim,copies):

        trans_cmd = list(range(0,len(self.data.shape)))
        trans_cmd.insert(dim,len(self.data.shape))
        new_data = self.data.repeat(copies).reshape(list(self.data.shape) + [copies]).transpose(trans_cmd)
        
        if(self.autograd):
            return Tensor(new_data,
                          autograd=True,
                          creators=[self],
                          creation_op="expand_"+str(dim))
        return Tensor(new_data)
    
    def transpose(self):
        if(self.autograd):
            return Tensor(self.data.transpose(),
                          autograd=True,
                          creators=[self],
                          creation_op="transpose")
        
        return Tensor(self.data.transpose())
    
    def mm(self, x):
        if(self.autograd):
            return Tensor(self.data.dot(x.data),
                          autograd=True,
                          creators=[self,x],
                          creation_op="mm")
        return Tensor(self.data.dot(x.data))
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())  


## '확률적 경사하강법 최적화기 (SGD Optimizer)'를 만들어 봅시다!


### SGD(Stochastic Gradient Descent, 확률적 경사하강법) 란?

 데이터 세트에서 무작위로 선택한 데이터 하나를 가지고 학습을 합니다. 노이즈는 많이 생기겠지만 지속적으로 무작위 데이터를 선택할 경우, 훨씬 적은 데이터 세트로 중요한 평균값을 추정할 수 있습니다.
(그냥 믿고 가야합니다. 모집단에서 샘플링하는 행위를 무수히 많이 했을 때 모집단의 평균에 수렴하는 원리)





## Class SGD 선언

In [3]:
class SGD():  #object 상속 - 호환성을 위함, 안써도 python 3 에서는 큰 문제 없음
    def __init__(self, parameters, alpha = 0.1):
        self.parameters = parameters
        self.alpha = alpha
        
    def zero(self):  #미분데이터를 0으로 만듬
        for p in self.parameters:
            p.grad.data *=0
            
    def step(self, zero = True):
        for p in self.parameters:
            p.data -=p.grad.data*self.alpha
            
        if(zero):
            p.grad.data *= 0

## 학습시작

In [4]:
import numpy as np
np.random.seed(0) #random의 seed 설정 - random하게 나오는 수가 항상 같도록 함

data = Tensor(np.array([[0,0],[0,1],[1,0],[1,1]]), autograd=True)
target = Tensor(np.array([[0],[1],[0],[1]]), autograd=True)

#weight를 random하게 설정
w = list()
w.append(Tensor(np.random.rand(2,3), autograd=True))
w.append(Tensor(np.random.rand(3,1), autograd=True))

optim = SGD(parameters=w, alpha=0.1)

for i in range(10):
    
    print('literation : ', i+1)
    
    # 예측
    pred = data.mm(w[0]).mm(w[1])
    print('pred : ', pred)
    
    # loss Function
    loss = ((pred - target)*(pred - target)).sum(0)
    print('loss : ',loss)
    
    # 학습
    loss.backward(Tensor(np.ones_like(loss.data)))
    optim.step()
    
    print('====================')

    
data = Tensor(np.array)

literation :  1
pred :  [[0.        ]
 [0.40915397]
 [0.46517944]
 [0.8743334 ]]
loss :  [0.58128304]
literation :  2
pred :  [[0.        ]
 [0.50658339]
 [0.49639968]
 [1.00298307]]
loss :  [0.48988149]
literation :  3
pred :  [[0.        ]
 [0.58279912]
 [0.42146354]
 [1.00426266]]
loss :  [0.35170626]
literation :  4
pred :  [[0.        ]
 [0.71187637]
 [0.32818368]
 [1.04006005]]
loss :  [0.19232457]
literation :  5
pred :  [[0.        ]
 [0.85957508]
 [0.19362989]
 [1.05320497]]
loss :  [0.06004246]
literation :  6
pred :  [[0.        ]
 [1.00555017]
 [0.03172923]
 [1.0372794 ]]
loss :  [0.0024273]
literation :  7
pred :  [[ 0.        ]
 [ 1.11588583]
 [-0.12827964]
 [ 0.98760619]]
loss :  [0.0300388]
literation :  8
pred :  [[ 0.        ]
 [ 1.16993727]
 [-0.24576217]
 [ 0.9241751 ]]
loss :  [0.09502714]
literation :  9
pred :  [[ 0.        ]
 [ 1.17146731]
 [-0.29749736]
 [ 0.87396995]]
loss :  [0.13378929]
literation :  10
pred :  [[ 0.        ]
 [ 1.14682355]
 [-0.29245105]
 [

#   

# Chapter 13. 계층 형식 지원하기

## 상용 프레임워크가 지원하는 계층 형식을 우리 프레임 워크에 추가해 봅시다
### 계층 추상화(Layer Abstraction)란?
 거의 모든 프레임 워크에서 가장 일반적인 추상화는 계층 추상화. 계층 추상화란 자주 사용되는 순전파 기법들을 보다 간단하게 API안에 모아놓은 API 집합입니다.

In [5]:
class Layer(object):
    
    def __init__(self):
        self.parameters = list()
        
    def get_parameters(self):
        return self.parameters


class Linear(Layer):

    def __init__(self, n_inputs, n_outputs):
        super().__init__()
        W = np.random.randn(n_inputs, n_outputs) * np.sqrt(2.0/(n_inputs))  #왜 곱해줬을까
        self.weight = Tensor(W, autograd=True)
        self.bias = Tensor(np.zeros(n_outputs), autograd=True) #편향 가중치 추가
        
        self.parameters.append(self.weight)
        self.parameters.append(self.bias)

    def forward(self, input):
        return input.mm(self.weight)+self.bias.expand(0,len(input.data))

#### Linear 클레스 내부에 새롭게 추가된 개념은 없습니다. 
가중치가 클래스 내부의 변수로 들어왔고(편향 가중치를 추가), 가중치와 편향이 정확한 값으로 초기화 되고 계층을 초기화 하는 함수가 추가되었습니다. 
##### *편향 가중치
학습 데이터(Input)이 가중치와 계산되어 넘어야 하는 임계점


#### 단일 getter를 갖는 추상 클래스 Layer
이 클래스는 더 복잡한 유형의 계층(계층을 포함하는 계층)을 고려하여 작성되었습니다.

#      

# Chapter 13. 계층을 포함하는 계층

## 계층은 다른 계층을 포함할 수 있습니다
순전파 Layer가 실어 나르는 리스트 안에 담긴 각 Layer의 출력은 그 다음 Layer의 입력이 됩니다

In [6]:
class Sequential(Layer):
    
    def __init__(self, layers=list()):
        super().__init__()
        
        self.layers = layers
    
    def add(self, layer):
        self.layers.append(layer)
        
    def forward(self, input):
        for layer in self.layers:
            input = layer.forward(input)
        return input
    
    def get_parameters(self):
        params = list()
        for l in self.layers:
            params += l.get_parameters()
        return params

## 코드가 간단해진 것을 볼 수 있다!

In [7]:
np.random.seed(0)

data = Tensor(np.array([[0,0],[0,1],[1,0],[1,1]]), autograd=True)
target = Tensor(np.array([[0],[1],[0],[1]]), autograd=True)

model = Sequential([Linear(2,3), Linear(3,1)]) 

#weight를 random하게 설정
#w = list()
#w.append(Tensor(np.random.rand(2,3), autograd=True))
#w.append(Tensor(np.random.rand(3,1), autograd=True))


optim = SGD(parameters=model.get_parameters(), alpha=0.05)

for i in range(10):
    
    print('literation : ', i+1)
    
    # 예측 - 간단해진 코드
    pred = model.forward(data)   # pred = data.mm(w[0]).mm(w[1])
    print('pred : ', pred)
    
    # loss Function
    loss = ((pred - target)*(pred - target)).sum(0)
    print('loss : ',loss)
    
    # 학습
    loss.backward(Tensor(np.ones_like(loss.data)))
    optim.step()
    
    print('====================')

    
data = Tensor(np.array)

literation :  1
pred :  [[ 0.        ]
 [-0.16322853]
 [ 0.19133757]
 [ 0.02810904]]
loss :  [2.33428272]
literation :  2
pred :  [[0.21642318]
 [1.06355293]
 [0.02706241]
 [0.87419215]]
loss :  [0.06743796]
literation :  3
pred :  [[ 0.20495065]
 [ 2.04954781]
 [-0.31382679]
 [ 1.53077037]]
loss :  [1.52375981]
literation :  4
pred :  [[-0.06608193]
 [ 1.75633489]
 [-0.37812003]
 [ 1.4442968 ]]
loss :  [0.91678369]
literation :  5
pred :  [[-0.28432789]
 [ 0.80029251]
 [ 0.08904433]
 [ 1.17366473]]
loss :  [0.15881376]
literation :  6
pred :  [[-0.34330462]
 [ 0.18462723]
 [ 0.48006987]
 [ 1.00800172]]
loss :  [1.01322193]
literation :  7
pred :  [[-0.37194604]
 [ 0.14538912]
 [ 0.14934416]
 [ 0.66667932]]
loss :  [1.00210997]
literation :  8
pred :  [[-0.30282278]
 [ 0.40890071]
 [-0.30387457]
 [ 0.40784892]]
loss :  [0.88408266]
literation :  9
pred :  [[-0.02489613]
 [ 0.70410468]
 [-0.00848608]
 [ 0.72051473]]
loss :  [0.16635789]
literation :  10
pred :  [[0.19901178]
 [0.9610579

#    

# Chapter 13. 손실 함수 계층

## Loss Function까지 Class로 만들어보자
평균제곱오차계층으로 만든다

In [8]:
class MSELoss(Layer):
    
    def __init__(self):
        super().__init__() 
    
    def forward(self, pred, target):
        return ((pred - target)*(pred - target)).sum(0)

In [9]:
np.random.seed(0)

data = Tensor(np.array([[0,0],[0,1],[1,0],[1,1]]), autograd=True)
target = Tensor(np.array([[0],[1],[0],[1]]), autograd=True)

model = Sequential([Linear(2,3), Linear(3,1)])

#Loss Function Class
criterion = MSELoss()

optim = SGD(parameters=model.get_parameters(), alpha=0.05)

for i in range(10):
    
    print('literation : ', i+1)
    
    # 예측 - 간단해진 코드
    pred = model.forward(data)   # pred = data.mm(w[0]).mm(w[1])
    print('pred : ', pred)
    
    # loss Function - 간단해진 코드
    loss = criterion.forward(pred, target)   #loss = ((pred - target)*(pred - target)).sum(0)
    print('loss : ',loss)
    
    # 학습
    loss.backward(Tensor(np.ones_like(loss.data)))
    optim.step()
    
    print('====================')

    
data = Tensor(np.array)

literation :  1
pred :  [[ 0.        ]
 [-0.16322853]
 [ 0.19133757]
 [ 0.02810904]]
loss :  [2.33428272]
literation :  2
pred :  [[0.21642318]
 [1.06355293]
 [0.02706241]
 [0.87419215]]
loss :  [0.06743796]
literation :  3
pred :  [[ 0.20495065]
 [ 2.04954781]
 [-0.31382679]
 [ 1.53077037]]
loss :  [1.52375981]
literation :  4
pred :  [[-0.06608193]
 [ 1.75633489]
 [-0.37812003]
 [ 1.4442968 ]]
loss :  [0.91678369]
literation :  5
pred :  [[-0.28432789]
 [ 0.80029251]
 [ 0.08904433]
 [ 1.17366473]]
loss :  [0.15881376]
literation :  6
pred :  [[-0.34330462]
 [ 0.18462723]
 [ 0.48006987]
 [ 1.00800172]]
loss :  [1.01322193]
literation :  7
pred :  [[-0.37194604]
 [ 0.14538912]
 [ 0.14934416]
 [ 0.66667932]]
loss :  [1.00210997]
literation :  8
pred :  [[-0.30282278]
 [ 0.40890071]
 [-0.30387457]
 [ 0.40784892]]
loss :  [0.88408266]
literation :  9
pred :  [[-0.02489613]
 [ 0.70410468]
 [-0.00848608]
 [ 0.72051473]]
loss :  [0.16635789]
literation :  10
pred :  [[0.19901178]
 [0.9610579

# *정리 : 프레임워크
## 프레임 워크 = 자동미분 + 기본 제공 계층 + 최적화기

#     

# Chapter 13. 비선형 계층
## Tensor에 'sigmoid'와 'tanh'를 추가

In [10]:
class Tensor (object):
    
    def __init__(self,data,
                 autograd=False,
                 creators=None,
                 creation_op=None,
                 id=None):
        
        self.data = np.array(data)
        self.autograd = autograd
        self.grad = None
        if(id is None):
            self.id = np.random.randint(0,100000)
        else:
            self.id = id
        
        self.creators = creators
        self.creation_op = creation_op
        self.children = {}
        
        if(creators is not None):
            for c in creators:
                if(self.id not in c.children):
                    c.children[self.id] = 1
                else:
                    c.children[self.id] += 1

    def all_children_grads_accounted_for(self):
        for id,cnt in self.children.items():
            if(cnt != 0):
                return False
        return True 
        
    def backward(self,grad=None, grad_origin=None):
        if(self.autograd):
 
            if(grad is None):
                grad = Tensor(np.ones_like(self.data))

            if(grad_origin is not None):
                if(self.children[grad_origin.id] == 0):
                    raise Exception("cannot backprop more than once")
                else:
                    self.children[grad_origin.id] -= 1

            if(self.grad is None):
                self.grad = grad
            else:
                self.grad += grad
            
            # grads must not have grads of their own
            assert grad.autograd == False
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and 
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"):
                    self.creators[0].backward(self.grad, self)
                    self.creators[1].backward(self.grad, self)
                    
                if(self.creation_op == "sub"):
                    self.creators[0].backward(Tensor(self.grad.data), self)
                    self.creators[1].backward(Tensor(self.grad.__neg__().data), self)

                if(self.creation_op == "mul"):
                    new = self.grad * self.creators[1]
                    self.creators[0].backward(new , self)
                    new = self.grad * self.creators[0]
                    self.creators[1].backward(new, self)                    
                    
                if(self.creation_op == "mm"):
                    c0 = self.creators[0]
                    c1 = self.creators[1]
                    new = self.grad.mm(c1.transpose())
                    c0.backward(new)
                    new = self.grad.transpose().mm(c0).transpose()
                    c1.backward(new)
                    
                if(self.creation_op == "transpose"):
                    self.creators[0].backward(self.grad.transpose())

                if("sum" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.expand(dim,
                                                               self.creators[0].data.shape[dim]))

                if("expand" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.sum(dim))
                    
                if(self.creation_op == "neg"):
                    self.creators[0].backward(self.grad.__neg__())
                    
                    
                    
                    #새롭게 추가된 sigmoid와 tanh의 역전파 논리
                    
                if(self.creation_op == "sigmoid"):
                    ones = Tensor(np.ones_like(self.grad.data))
                    self.creators[0].backward(self.grad * (self * (ones - self)))
                
                if(self.creation_op == "tanh"):
                    ones = Tensor(np.ones_like(self.grad.data))
                    self.creators[0].backward(self.grad * (ones - (self * self)))
                    
    def __add__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data + other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="add")
        return Tensor(self.data + other.data)

    def __neg__(self):
        if(self.autograd):
            return Tensor(self.data * -1,
                          autograd=True,
                          creators=[self],
                          creation_op="neg")
        return Tensor(self.data * -1)
    
    def __sub__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data - other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="sub")
        return Tensor(self.data - other.data)
    
    def __mul__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data * other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="mul")
        return Tensor(self.data * other.data)    

    def sum(self, dim):
        if(self.autograd):
            return Tensor(self.data.sum(dim),
                          autograd=True,
                          creators=[self],
                          creation_op="sum_"+str(dim))
        return Tensor(self.data.sum(dim))
    
    def expand(self, dim,copies):

        trans_cmd = list(range(0,len(self.data.shape)))
        trans_cmd.insert(dim,len(self.data.shape))
        new_data = self.data.repeat(copies).reshape(list(self.data.shape) + [copies]).transpose(trans_cmd)
        
        if(self.autograd):
            return Tensor(new_data,
                          autograd=True,
                          creators=[self],
                          creation_op="expand_"+str(dim))
        return Tensor(new_data)
    
    def transpose(self):
        if(self.autograd):
            return Tensor(self.data.transpose(),
                          autograd=True,
                          creators=[self],
                          creation_op="transpose")
        
        return Tensor(self.data.transpose())
    
    def mm(self, x):
        if(self.autograd):
            return Tensor(self.data.dot(x.data),
                          autograd=True,
                          creators=[self,x],
                          creation_op="mm")
        return Tensor(self.data.dot(x.data))
    
    
    
    
    
    # tanh와 sigmoid의 autograd
    def sigmoid(self):
        if(self.autograd):
            return Tensor(1 / (1 + np.exp(-self.data)),
                          autograd=True,
                          creators=[self],
                          creation_op="sigmoid")
        return Tensor(1 / (1 + np.exp(-self.data)))

    def tanh(self):
        if(self.autograd):
            return Tensor(np.tanh(self.data),
                          autograd=True,
                          creators=[self],
                          creation_op="tanh")
        return Tensor(np.tanh(self.data))
        
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())  
    

## Tanh 와 Sigmoid Class

In [11]:
class Tanh(Layer):
    def __init__(self):
        super().__init__()
    
    def forward(self, input):
        return input.tanh()
    
class Sigmoid(Layer):
    def __init__(self):
        super().__init__()
    
    def forward(self, input):
        return input.sigmoid()

In [12]:
np.random.seed(0)

data = Tensor(np.array([[0,0],[0,1],[1,0],[1,1]]), autograd=True)
target = Tensor(np.array([[0],[1],[0],[1]]), autograd=True)

#model에 tanh와 sigmoid가 들어가있다
model = Sequential([Linear(2,3), Tanh(), Linear(3,1), Sigmoid()])
criterion = MSELoss()

optim = SGD(parameters=model.get_parameters(), alpha=1)

for i in range(10):
    
    # Predict
    pred = model.forward(data)
    
    # Compare
    loss = criterion.forward(pred, target)
    
    # Learn
    loss.backward(Tensor(np.ones_like(loss.data)))
    optim.step()
    print(loss)



[1.06372865]
[0.75148144]
[0.44681309]
[0.123688]
[0.0039108]
[0.0003632]
[0.00066403]
[0.00577027]
[0.03565456]
[0.0092316]


# + relu 함수를 만들어 보자
## 역전파 논리

## autograd

## Class

# 워드 임베딩(Word Embedding)
워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 것을 말합니다. 워드 임베딩은 단어를 밀집 표현으로 변환하는 방법을 말합니다. 이번 챕터에서는 희소 표현, 밀집 표현, 그리고 워드 임베딩에 대한 개념을 이해합니다

## 희소 표현(Sparse Representation)
앞서 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이었습니다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 합니다. 그러니까 원-핫 벡터는 희소 벡터(sparse vector)입니다.

Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이 때 1 뒤의 0의 수는 9995개.

이러한 벡터 표현은 공간적 낭비를 불러일으킵니다. 잘 생각해보면, 공간적 낭비를 일으키는 것은 원-핫 벡터뿐만은 아닙니다. 희소 표현의 일종인 DTM과 같은 경우에도 특정 문서에 여러 단어가 다수 등장하였으나, 다른 많은 문서에서는 해당 특정 문서에 등장했던 단어들이 전부 등장하지 않는다면 역시나 행렬의 많은 값이 0이 되면서 공간적 낭비를 일으킵니다. 뿐만 아니라, 원-핫 벡터는 단어의 의미를 담지 못한다는 단점을 갖고있습니다.

## 밀집 표현(Dense Representation)
이러한 희소 표현과 반대되는 표현이 있으니, 이를 밀집 표현(dense representation)이라고 합니다. 밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않습니다. 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춥니다. 또한, 이 과정에서 더 이상 0과 1만 가진 값이 아니라 실수값을 가지게 됩니다. 다시 희소 표현의 예를 가져와봅시다.

Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이 때 1 뒤의 0의 수는 9995개. 차원은 10,000

예를 들어 10,000개의 단어가 있을 때 강아지란 단어를 표현하기 위해서는 위와 같은 표현을 사용했습니다. 하지만 밀집 표현을 사용하고, 사용자가 밀집 표현의 차원을 128로 설정한다면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됩니다.

Ex) 강아지 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128

이 경우 벡터의 차원이 조밀해졌다고 하여 밀집 벡터(dense vector)라고 합니다.

### 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 합니다. 그리고 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터(embedding vector)라고도 합니다.

![title](https://hackernoon.com/drafts/yop32ir.png)
#  

In [13]:
from IPython.display import Image

# 임베딩 계층
## 임베딩 계층은 색인을 활성화로 변환합니다

In [14]:
class Embedding(Layer):
    
    def __init__(self, vocab_size, dim):
        super().__init__()
        
        self.vocab_size = vocab_size
        self.dim = dim
        
        # this random initialiation style is just a convention from word2vec
        self.weight = (np.random.rand(vocab_size, dim) - 0.5) / dim

## Tensor에 Autograd를 위한 Indexing 추가하기

In [15]:
class Tensor (object):
    
    def __init__(self,data,
                 autograd=False,
                 creators=None,
                 creation_op=None,
                 id=None):
        
        self.data = np.array(data)
        self.autograd = autograd
        self.grad = None
        if(id is None):
            self.id = np.random.randint(0,100000)
        else:
            self.id = id
        
        self.creators = creators
        self.creation_op = creation_op
        self.children = {}
        
        if(creators is not None):
            for c in creators:
                if(self.id not in c.children):
                    c.children[self.id] = 1
                else:
                    c.children[self.id] += 1

    def all_children_grads_accounted_for(self):
        for id,cnt in self.children.items():
            if(cnt != 0):
                return False
        return True 
        
    def backward(self,grad=None, grad_origin=None):
        if(self.autograd):
 
            if(grad is None):
                grad = Tensor(np.ones_like(self.data))

            if(grad_origin is not None):
                if(self.children[grad_origin.id] == 0):
                    raise Exception("cannot backprop more than once")
                else:
                    self.children[grad_origin.id] -= 1

            if(self.grad is None):
                self.grad = grad
            else:
                self.grad += grad
            
            # grads must not have grads of their own
            assert grad.autograd == False
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            if(self.creators is not None and 
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"):
                    self.creators[0].backward(self.grad, self)
                    self.creators[1].backward(self.grad, self)
                    
                if(self.creation_op == "sub"):
                    self.creators[0].backward(Tensor(self.grad.data), self)
                    self.creators[1].backward(Tensor(self.grad.__neg__().data), self)

                if(self.creation_op == "mul"):
                    new = self.grad * self.creators[1]
                    self.creators[0].backward(new , self)
                    new = self.grad * self.creators[0]
                    self.creators[1].backward(new, self)                    
                    
                if(self.creation_op == "mm"):
                    c0 = self.creators[0]
                    c1 = self.creators[1]
                    new = self.grad.mm(c1.transpose())
                    c0.backward(new)
                    new = self.grad.transpose().mm(c0).transpose()
                    c1.backward(new)
                    
                if(self.creation_op == "transpose"):
                    self.creators[0].backward(self.grad.transpose())

                if("sum" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.expand(dim,
                                                               self.creators[0].data.shape[dim]))

                if("expand" in self.creation_op):
                    dim = int(self.creation_op.split("_")[1])
                    self.creators[0].backward(self.grad.sum(dim))
                    
                if(self.creation_op == "neg"):
                    self.creators[0].backward(self.grad.__neg__())
                    
                if(self.creation_op == "sigmoid"):
                    ones = Tensor(np.ones_like(self.grad.data))
                    self.creators[0].backward(self.grad * (self * (ones - self)))
                
                if(self.creation_op == "tanh"):
                    ones = Tensor(np.ones_like(self.grad.data))
                    self.creators[0].backward(self.grad * (ones - (self * self)))
                
                
                
                # 임베딩 계층을 구축할 수 있으려면 Autograd가 indexing을 지원해야 합니다
                if(self.creation_op == "index_select"):
                    new_grad = np.zeros_like(self.creators[0].data)
                    indices_ = self.index_select_indices.data.flatten()
                    grad_ = grad.data.reshape(len(indices_), -1)
                    for i in range(len(indices_)):
                        new_grad[indices_[i]] += grad_[i]
                    self.creators[0].backward(Tensor(new_grad))
                    
    def __add__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data + other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="add")
        return Tensor(self.data + other.data)

    def __neg__(self):
        if(self.autograd):
            return Tensor(self.data * -1,
                          autograd=True,
                          creators=[self],
                          creation_op="neg")
        return Tensor(self.data * -1)
    
    def __sub__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data - other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="sub")
        return Tensor(self.data - other.data)
    
    def __mul__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data * other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="mul")
        return Tensor(self.data * other.data)    

    def sum(self, dim):
        if(self.autograd):
            return Tensor(self.data.sum(dim),
                          autograd=True,
                          creators=[self],
                          creation_op="sum_"+str(dim))
        return Tensor(self.data.sum(dim))
    
    def expand(self, dim,copies):

        trans_cmd = list(range(0,len(self.data.shape)))
        trans_cmd.insert(dim,len(self.data.shape))
        new_data = self.data.repeat(copies).reshape(list(self.data.shape) + [copies]).transpose(trans_cmd)
        
        if(self.autograd):
            return Tensor(new_data,
                          autograd=True,
                          creators=[self],
                          creation_op="expand_"+str(dim))
        return Tensor(new_data)
    
    def transpose(self):
        if(self.autograd):
            return Tensor(self.data.transpose(),
                          autograd=True,
                          creators=[self],
                          creation_op="transpose")
        
        return Tensor(self.data.transpose())
    
    def mm(self, x):
        if(self.autograd):
            return Tensor(self.data.dot(x.data),
                          autograd=True,
                          creators=[self,x],
                          creation_op="mm")
        return Tensor(self.data.dot(x.data))
    
    def sigmoid(self):
        if(self.autograd):
            return Tensor(1 / (1 + np.exp(-self.data)),
                          autograd=True,
                          creators=[self],
                          creation_op="sigmoid")
        return Tensor(1 / (1 + np.exp(-self.data)))

    def tanh(self):
        if(self.autograd):
            return Tensor(np.tanh(self.data),
                          autograd=True,
                          creators=[self],
                          creation_op="tanh")
        return Tensor(np.tanh(self.data))
    
    def index_select(self, indices):

        if(self.autograd):
            new = Tensor(self.data[indices.data],
                         autograd=True,
                         creators=[self],
                         creation_op="index_select")
            new.index_select_indices = indices
            return new
        return Tensor(self.data[indices.data])
    
    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())  
    
class Tanh(Layer):
    def __init__(self):
        super().__init__()
    
    def forward(self, input):
        return input.tanh()
    
class Sigmoid(Layer):
    def __init__(self):
        super().__init__()
    
    def forward(self, input):
        return input.sigmoid()

In [16]:
x = Tensor(np.eye(5), autograd=True)
x.index_select(Tensor([[1,2,3],[2,3,4]])).backward()
print(x.grad)

[[0. 0. 0. 0. 0.]
 [1. 1. 1. 1. 1.]
 [2. 2. 2. 2. 2.]
 [2. 2. 2. 2. 2.]
 [1. 1. 1. 1. 1.]]


# 텐서 재사용을 위한 자동 미분 디버깅

In [77]:
class Tensor (object):
    
    def __init__(self,data,
                 autograd=False,
                 creators=None,
                 creation_op=None,
                 id=None):
        
        self.data = np.array(data)
        self.autograd = autograd
        self.grad = None
        if(id is None):
            self.id = np.random.randint(0,100000)
            print('id : ', self.id)
            
        else:
            self.id = id
    
        
        
        self.creators = creators
        self.creation_op = creation_op
        self.children = {}
        print('init',self.children)
        
        if(creators is not None):
            for c in creators:
                if(self.id not in c.children):
                    print(self.id, 'is not in children of ' ,c.id)
                    c.children[self.id] = 1
                    print(' add this id in children of ',c.id, ':: c.children : ',c.children)
                else:
                    c.children[self.id] += 1
                    print(self.id, 'is in ' ,c.id,' add this id in c.children :: c.children : ',c.children)
        print()

    def all_children_grads_accounted_for(self):
       
        for id,cnt in self.children.items():
            if(cnt != 0):
                return False
        return True        
        
    def backward(self,grad=None, grad_origin=None):
        if(self.autograd):
            if(grad is None):
                grad = FloatTensor(np.ones_like(self.data))
            
            if(grad_origin is not None):
                if(self.children[grad_origin.id] == 0):
                    print('grad_origin is not None')
                    raise Exception("cannot backprop more than once")
                else:
                    self.children[grad_origin.id] -= 1
                   
                    print('grad_origin is None, minus grad_origin.id :: ',self.children)

            if(self.grad is None):
                self.grad = grad
                
                print('self.grad of ',self.id,' is None. self.grad = grad : ',self.grad)
            else:
                self.grad += grad
                print(self.grad)
                print('self.grad of ',self.id,' is not None',self.grad)
            
            
            # grads must not have grads of their own
            assert grad.autograd == False
            
            # only continue backpropping if there's something to
            # backprop into and if all gradients (from children)
            # are accounted for override waiting for children if
            # "backprop" was called on this variable directly
            print('call All_Children! is ',self.all_children_grads_accounted_for() )
            print()
            if(self.creators is not None and 
               (self.all_children_grads_accounted_for() or 
                grad_origin is None)):

                if(self.creation_op == "add"):
                    self.creators[0].backward(self.grad, self)
                    self.creators[1].backward(self.grad, self)
                  
                    print('++++++역전파 완료++++++')
                    print()
                
    def __add__(self, other):
        if(self.autograd and other.autograd):
            return Tensor(self.data + other.data,
                          autograd=True,
                          creators=[self,other],
                          creation_op="add")
        return Tensor(self.data + other.data)

    def __repr__(self):
        return str(self.data.__repr__())
    
    def __str__(self):
        return str(self.data.__str__())  

print('id : 1 = a, 2 = b, 3 = c ')
a = Tensor([1,2,3,4,5], autograd=True,id=1)
b = Tensor([2,2,2,2,2], autograd=True,id=2)
c = Tensor([5,4,3,2,1], autograd=True,id=3)
print('++++++++++++++++')

print('d 선언')
d = a + b
print('e 선언')
e = b + c
print('f 선언')
f = d + e

print('+++++++++++++==')

print()
print('<역전파 시작>')

f.backward(Tensor(np.array([1,1,1,1,1])))


id : 1 = a, 2 = b, 3 = c 
init {}

init {}

init {}

++++++++++++++++
d 선언
id :  47449
init {}
47449 is not in children of  1
 add this id in children of  1 :: c.children :  {47449: 1}
47449 is not in children of  2
 add this id in children of  2 :: c.children :  {47449: 1}

e 선언
id :  90637
init {}
90637 is not in children of  2
 add this id in children of  2 :: c.children :  {47449: 1, 90637: 1}
90637 is not in children of  3
 add this id in children of  3 :: c.children :  {90637: 1}

f 선언
id :  36444
init {}
36444 is not in children of  47449
 add this id in children of  47449 :: c.children :  {36444: 1}
36444 is not in children of  90637
 add this id in children of  90637 :: c.children :  {36444: 1}

+++++++++++++==

<역전파 시작>
id :  53484
init {}

self.grad of  36444  is None. self.grad = grad :  [1 1 1 1 1]
call All_Children! is  True

grad_origin is None, minus grad_origin.id ::  {36444: 0}
self.grad of  47449  is None. self.grad = grad :  [1 1 1 1 1]
call All_Children! is  True

