## step17. memory management & circular reference

파이썬은 필요 없어진 객체를 메모리에서 자동으로 삭제한다.  
그렇더라도 코드를 제대로 작성하지 않으면   
메모리 누수(memory leak), 메모리 부족(out of memory) 등의 문제가 발생할 수 있다.
* 참조(reference) 카운트 방식 : 참조 수가 0이 된 객체를 제거
* garbage collection 방식 : 세대(generation)를 기준으로 쓸모없어진 객체를 제거
---
어떤 객체들이 원모양을 이루며 서로가 서로를 참조하게 되는 상황을   
순환 참조(circular reference)라고 한다.  
-> 메모리 관리 차원에서 바람직하지 않은 참조방식

In [7]:
# 순환참조 해결 - weakref모듈

import weakref
import numpy as np

a = np.array([1,2,3])
b = weakref.ref(a)

print(b,'\n')
print(b(),'\n')

a = None
print(b)

<weakref at 0x000002B3BA1BDD68; to 'numpy.ndarray' at 0x000002B3BB4A14E0> 

[1 2 3] 

<weakref at 0x000002B3BA1BDD68; dead>


In [3]:
class Variable:
    def __init__(self, data):
        if data is not None:
            if not isinstance(data, np.ndarray):
                raise TypeError('{} is not supported'.format(type(data)))

        self.data = data
        self.grad = None
        self.creator = None
        self.generation = 0

    def set_creator(self, func):
        self.creator = func
        self.generation = func.generation + 1

    def cleargrad(self):
        self.grad = None

    def backward(self):
        if self.grad is None:
            self.grad = np.ones_like(self.data)

        funcs = []
        seen_set = set()

        def add_func(f):
            if f not in seen_set:
                funcs.append(f)
                seen_set.add(f)
                funcs.sort(key=lambda x: x.generation)

        add_func(self.creator)

        while funcs:
            f = funcs.pop()
            gys = [output().grad for output in f.outputs]  # output is weakref
            gxs = f.backward(*gys)
            if not isinstance(gxs, tuple):
                gxs = (gxs,)

            for x, gx in zip(f.inputs, gxs):
                if x.grad is None:
                    x.grad = gx
                else:
                    x.grad = x.grad + gx

                if x.creator is not None:
                    add_func(x.creator)

In [2]:
def as_array(x):
    if np.isscalar(x):
        return np.array(x)
    return x

class Function:
    def __call__(self, *inputs):
        xs = [x.data for x in inputs]
        ys = self.forward(*xs)
        if not isinstance(ys, tuple):
            ys = (ys,)
        outputs = [Variable(as_array(y)) for y in ys]

        self.generation = max([x.generation for x in inputs])
        for output in outputs:
            output.set_creator(self)
        self.inputs = inputs
        self.outputs = [weakref.ref(output) for output in outputs]  # output is weakref
        return outputs if len(outputs) > 1 else outputs[0]

    def forward(self, xs):
        raise NotImplementedError()

    def backward(self, gys):
        raise NotImplementedError()

In [20]:
class Square(Function):
    def forward(self, x):
        y = x ** 2
        return y

    def backward(self, gy):
        x = self.inputs[0].data
        gx = 2 * x * gy
        return gx


def square(x):
    return Square()(x)

# step 18. Memory Saver Mode

### Two structures that can improve memory usage
* Delete unnecessary differential results immediately without saving them.
* If backpropagation is not required, omit the unnecessary calculation.

In [14]:
class Add(Function):
    def forward(self, x0, x1):
        y = x0 + x1
        return y

    def backward(self, gy):
        return gy, gy


def add(x0, x1):
    return Add()(x0, x1)

In [15]:
## 필요없는 미분값 삭제
# 현재는 모든 변수가 미분값을 변수에 저장하고있음
x0 = Variable(np.array(1.0))
x1 = Variable(np.array(1.0))
t = add(x0, x1)
y = add(x0, t)
y.backward()

print(y.grad, t.grad)
print(x0.grad, x1.grad)

# chain rule 구현을 위해 중간단계의 미분값들이 필요 but 말단 변수들에 대한 미분값을 모두 구했다면
# 지속적으로 저장하고있을 필요는 없음

1.0 1.0
2.0 1.0


In [16]:
class Variable:
    def __init__(self, data):
        if data is not None:
            if not isinstance(data, np.ndarray):
                raise TypeError('{} is not supported'.format(type(data)))

        self.data = data
        self.grad = None
        self.creator = None
        self.generation = 0

    def set_creator(self, func):
        self.creator = func
        self.generation = func.generation + 1

    def cleargrad(self):
        self.grad = None

    def backward(self, retain_grad=False):  # 미분값 유지에 대한 옵션 추가
        if self.grad is None:
            self.grad = np.ones_like(self.data)

        funcs = []
        seen_set = set()

        def add_func(f):
            if f not in seen_set:
                funcs.append(f)
                seen_set.add(f)
                funcs.sort(key=lambda x: x.generation)

        add_func(self.creator)

        while funcs:
            f = funcs.pop()
            gys = [output().grad for output in f.outputs] 
            gxs = f.backward(*gys)
            if not isinstance(gxs, tuple):
                gxs = (gxs,)

            for x, gx in zip(f.inputs, gxs):
                if x.grad is None:
                    x.grad = gx
                else:
                    x.grad = x.grad + gx

                if x.creator is not None:
                    add_func(x.creator)

            if not retain_grad:  # 중간단계 미분값 삭제
                for y in f.outputs:
                    y().grad = None  

신경망에는 학습(training)과 추론(inference)이라는 두 가지 단계가 있다.  
학습 시에는 미분값을 구해야 하지만, 추론 시에는 순전파만 하기 때문에  
중간 계산 결과를 곧바로 버리면 메모리 사용량을 크게 줄일 수 있다.  

---
#### 추론 단계에서는 중간계산결과를 저장하거나 계산을 연결할 필요가 없음

In [18]:
# config 클래스를 활용한 모드 전환
class Config:
    enable_backprop = True # 역전파를 가능하게할지 말지를 결정  

(설정 데이터는 한 군데에만 존재하는 것이 좋기때문에, 굳이 클래스로 만들었음)

In [43]:
class Function:
    def __call__(self, *inputs):
        xs = [x.data for x in inputs]
        ys = self.forward(*xs)
        if not isinstance(ys, tuple):
            ys = (ys,)
        outputs = [Variable(as_array(y)) for y in ys]

        if Config.enable_backprop:
            self.generation = max([x.generation for x in inputs])
            for output in outputs:
                output.set_creator(self)
            self.inputs = inputs
            self.outputs = [weakref.ref(output) for output in outputs]

        return outputs if len(outputs) > 1 else outputs[0]

    def forward(self, xs):
        raise NotImplementedError()

    def backward(self, gys):
        raise NotImplementedError()

In [21]:
Config.enable_backprop = True
x = Variable(np.ones((100,100,100)))
y = square(square(square(x)))
y.backward()
print(x.grad[1])

# Config.enable_backprop = False
# x = Variable(np.ones((100,100,100)))
# y = square(square(square(x)))
# print(x.grad[1])

[[8. 8. 8. ... 8. 8. 8.]
 [8. 8. 8. ... 8. 8. 8.]
 [8. 8. 8. ... 8. 8. 8.]
 ...
 [8. 8. 8. ... 8. 8. 8.]
 [8. 8. 8. ... 8. 8. 8.]
 [8. 8. 8. ... 8. 8. 8.]]


In [17]:
import contextlib

@contextlib.contextmanager
def using_config(name, value):
    # with문 진입전의 전처리
    old_value = getattr(Config, name)
    setattr(Config, name, value)
    # with문 진입
    try:
        yield
    # with문 실행 종료 후 후처리
    finally:
        setattr(Config, name, old_value)

In [22]:
def no_grad():
    return using_config('enable_backprop', False)

with no_grad():
    x = Variable(np.array(2.0))
    y = square(x)

# step 19. Improved variable availability

In [3]:
# 변수 구분을 위해 name 속성을 추가
# 변수가 직접 shape, ndim, size, dtype을 시할 수 있도록 수정
# len함수와 print함수를 사용할 수 있도록

class Variable:
    def __init__(self, data, name = None):
        if data is not None:
            if not isinstance(data, np.ndarray):
                raise TypeError('{} is not supported'.format(type(data)))

        self.data = data
        self.name = name
        self.grad = None
        self.creator = None
        self.generation = 0
    
    @property # getter - 메서드를 속성처럼
    def shape(self):
        return self.data.shape
    
    @property
    def ndim(self):
        return self.data.ndim
    
    @property
    def size(self):
        return self.data.size
    
    @property
    def dtype(self):
        return self.data.dtype
    
    def __len__(self):
        return len(self.data)
    
    def __repr__(self):
        if self.data is None:
            return 'variable(None)'
        p = str(self.data).replace('\n','\n'+' '*9)
        return 'variable('+p+')'
        
    def set_creator(self, func):
        self.creator = func
        self.generation = func.generation + 1

    def cleargrad(self):
        self.grad = None

    def backward(self, retain_grad=False):  # 미분값 유지에 대한 옵션 추가
        if self.grad is None:
            self.grad = np.ones_like(self.data)

        funcs = []
        seen_set = set()

        def add_func(f):
            if f not in seen_set:
                funcs.append(f)
                seen_set.add(f)
                funcs.sort(key=lambda x: x.generation)

        add_func(self.creator)

        while funcs:
            f = funcs.pop()
            gys = [output().grad for output in f.outputs] 
            gxs = f.backward(*gys)
            if not isinstance(gxs, tuple):
                gxs = (gxs,)

            for x, gx in zip(f.inputs, gxs):
                if x.grad is None:
                    x.grad = gx
                else:
                    x.grad = x.grad + gx

                if x.creator is not None:
                    add_func(x.creator)

            if not retain_grad:  # 중간단계 미분값 삭제
                for y in f.outputs:
                    y().grad = None  

In [37]:
x = Variable(np.array([[1,2,3],[4,5,6]]))
print(x)

variable([[1 2 3]
          [4 5 6]])


# step20. operator overload(1)

In [4]:
# 곱셈을 수행하는 Mul 클래스 구현
class Mul(Function):
    def forward(self, x0, x1):
        y = x0 * x1
        return y
    
    def backward(self, gy):
        x0, x1 = self.inputs[0].data, self.inputs[1].data
        return gy * x1, gy * x0

In [5]:
def mul(x0, x1):
    return Mul()(x0, x1)

In [12]:
class Add(Function):
    def forward(self, x0, x1):
        y = x0 + x1
        return y

    def backward(self, gy):
        return gy, gy


def add(x0, x1):
    return Add()(x0, x1)

In [48]:
a = Variable(np.array(3.0))
b = Variable(np.array(2.0))
c = Variable(np.array(1.0))

y = add(mul(a, b), c)

y.backward()

print(y)
print(a.grad)
print(b.grad)

variable(7.0)
2.0
3.0


In [26]:
# 특수 메서드 __add__, __mul__ 을 이용하여 +와 *가 variable에 대해 수행될 떄
# 대신 호출할 함수를 설정할 수 있음
Variable.__add__ = add
Variable.__mul__ = mul

In [51]:
a = Variable(np.array(3.0))
b = Variable(np.array(2.0))
c = Variable(np.array(1.0))

y = a * b + c

y.backward()

print(y)
print(a.grad)
print(b.grad)

variable(7.0)
2.0
3.0


# step20. operator overload(2)

ndarray, int, float 형의 객체와 Variable 객체를 함께 사용하기위한 개선

In [9]:
# 인자로 주어진 객체를 Variable 인스턴스로 변환하는 함수
def as_variable(obj):
    if isinstance(obj, Variable):
        return obj
    return Variable(obj)

In [10]:
class Function:
    # DeZero의 모든 함수는 Function을 상속하므로, 다른 모든함수에 이 수정사항이 적용될 것임
    def __call__(self, *inputs):
        inputs = [as_variable(x) for x in inputs] # 모든 input의 자료형 Variable화
        xs = [x.data for x in inputs]
        ys = self.forward(*xs)
        if not isinstance(ys, tuple):
            ys = (ys,)
        outputs = [Variable(as_array(y)) for y in ys]

        if Config.enable_backprop:
            self.generation = max([x.generation for x in inputs])
            for output in outputs:
                output.set_creator(self)
            self.inputs = inputs
            self.outputs = [weakref.ref(output) for output in outputs]

        return outputs if len(outputs) > 1 else outputs[0]

    def forward(self, xs):
        raise NotImplementedError()

    def backward(self, gys):
        raise NotImplementedError()

In [23]:
x = Variable(np.array(2.0))
y = x + np.array(3.0)
print(y)

variable(5.0)


In [None]:
# 두 번째 인수가 float이나 int인 경우

In [None]:
def as_array(x):
    if np.isscalar(x):
        return np.array(x)
    return x

def add(x0, x1):
    x1 = as_array(x1) # 수정
    return Add()(x0, x1)

In [27]:
Variable.__add__ = add

x = Variable(np.array(2.0))
y = x + 3.0
print(y)

variable(5.0)


In [28]:
# 첫 번째 인수가 float이나 int인 경우
# radd 메서드 사용시 계산이 우측의 변수부터 기준으로 하여 수행된다
Variable.__add__ = add
Variable.__radd__ = add
Variable.__mul__ = mul
Variable.__rmul__ = mul

In [31]:
x = Variable(np.array(2.0))
y = 3 + x
print(y)

variable(5.0)


In [32]:
# 첫 번째 인수가 ndarray 인스턴스인 경우
# 연산자 우선순위를 지정한다.

class Variable:
    
    # 우선순위를 큰 값으로 지정하여 연산시 다른 타입(Variable)의 인스턴스의 메서드가
    # 먼저 호출되도록 하기
    __array_priority__ = 200  
    
    def __init__(self, data, name = None):
        if data is not None:
            if not isinstance(data, np.ndarray):
                raise TypeError('{} is not supported'.format(type(data)))

        self.data = data
        self.name = name
        self.grad = None
        self.creator = None
        self.generation = 0
    
    @property
    def shape(self):
        return self.data.shape
    
    @property
    def ndim(self):
        return self.data.ndim
    
    @property
    def size(self):
        return self.data.size
    
    @property
    def dtype(self):
        return self.data.dtype
    
    def __len__(self):
        return len(self.data)
    
    def __repr__(self):
        if self.data is None:
            return 'variable(None)'
        p = str(self.data).replace('\n','\n'+' '*9)
        return 'variable('+p+')'
        
    def set_creator(self, func):
        self.creator = func
        self.generation = func.generation + 1

    def cleargrad(self):
        self.grad = None

    def backward(self, retain_grad=False): 
        if self.grad is None:
            self.grad = np.ones_like(self.data)

        funcs = []
        seen_set = set()

        def add_func(f):
            if f not in seen_set:
                funcs.append(f)
                seen_set.add(f)
                funcs.sort(key=lambda x: x.generation)

        add_func(self.creator)

        while funcs:
            f = funcs.pop()
            gys = [output().grad for output in f.outputs] 
            gxs = f.backward(*gys)
            if not isinstance(gxs, tuple):
                gxs = (gxs,)

            for x, gx in zip(f.inputs, gxs):
                if x.grad is None:
                    x.grad = gx
                else:
                    x.grad = x.grad + gx

                if x.creator is not None:
                    add_func(x.creator)

            if not retain_grad:  
                for y in f.outputs:
                    y().grad = None  

# step22. operator overload (3)

In [33]:
class Neg(Function): # 부호변경
    def forward(self, x):
        return -x
    def backward(self, gy):
        return -gy
    
def neg(x):
    return Neg()(x)


class Sub(Function): # 뻴셈
    def forward(self, x0, x1):
        y = x0 - x1
        return y
    def backward(self, gy):
        return gy, -gy
    
def sub(x0, x1):
    x1 = as_array(x1)
    return Sub()(x0, x1)


def rsub(x0, x1): # 뺄샘의 순서가 뒤바뀌게 됨
    x1 = as_array(x1)
    return Sub()(x1, x0) # 순서를 다시한번 바꿔서 원래의 연산대로 맞춰줌

Variable.__neg__ = neg
Variable.__sub__ = sub
Variable.__rsub__ = rsub

In [34]:
x = Variable(np.array(2.0))
y1 = 2.0 - x
y2 = x - 1.0
print(y1)
print(y2)

variable(0.0)
variable(1.0)


In [36]:
class Div(Function): # 나눗셈
    def forward(self, x0, x1):
        y = x0 / x1
        return y

    def backward(self, gy):
        x0, x1 = self.inputs[0].data, self.inputs[1].data
        gx0 = gy / x1
        gx1 = gy * (-x0 / x1 ** 2)
        return gx0, gx1


def div(x0, x1):
    x1 = as_array(x1)
    return Div()(x0, x1)

def rdiv(x0, x1): # 오른쪽부터 인자를 인식하여 나누는 분자 분모가 바뀌게 됨
    x1 = as_array(x1)
    return Div()(x1, x0) # 다시 순서를 바꿔 원래연산대로 순서 맞춰주기

Variable.__truediv__ = div
Variable.__rtruediv__ = rdiv

In [37]:
class Pow(Function):
    def __init__(self, c):
        self.c = c # 거듭제곱 승수 c는 상수취급된다.

    def forward(self, x):
        y = x ** self.c
        return y

    def backward(self, gy):
        x = self.inputs[0].data
        c = self.c

        gx = c * x ** (c - 1) * gy
        return gx

def pow(x, c):
    return Pow(c)(x)

Variable.__pow__ = pow

In [38]:
x = Variable(np.array(2.0))
y = x ** 3
print(y)

variable(8.0)


# step23. 패키지로 정리하기

In [None]:
# Add import path for the dezero directory.
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))

In [12]:
os.getcwd()

'C:\\Users\\user\\jupyter_note\\[study]-DL_from_scratch3'

In [13]:
import numpy as np
from dezero.core_simple import Variable


x = Variable(np.array(1.0))
y = (x + 3) ** 2
y.backward()

print(y)
print(x.grad)

TypeError: unsupported operand type(s) for +: 'Variable' and 'int'

In [14]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))

In [18]:
?os