# Chapter3 Deep learning with PyTorch 
#### 이번장에서는 
- PyTorch 라이브러리 구체화 및 구현 세부사항에 익숙해지는 것 
- tensor


## Tensor
#### :  다차원 배열 
#### : numpy에서 배열은 실제로는 tensor 

<img src="./image/tensor.png" width=500>


#### - 차원 
- 0차원(점) : 하나의 단일 숫자 
- 1차원(선분) : 벡터
- 2차원 : 행렬
- 3차원 이상 : 다차원 행렬(텐서)


#### - type 
- pytorch에서는 8개의 type 지원 
    - float형 3 개 : 16 비트, 32 비트 및 64 비트
    - integer형 5개 : 부호있는 8 비트, 부호없는 8 비트, 16 비트, 32 비트, 64 비트
    
    
- 자주 사용되는 종류 
    - torch.FloatTensor (32비트 float)
    - torch.ByteTensor (8비트의 부호없는 integer)
    - torch.LongTensor (64비트 부호있는 integer)

###  tensor 생성 방법 
- 1. 필요한 형식의 생성자 호출하기 
- 2. numpy배열 또는 파이썬 list를 텐서로 변환하기 
- 3. pytorch에게 특정 데이터가 있는 텐서를 생성하도록 요청하기 



In [2]:
import torch 
import numpy as np

#### 1. 필요한 형식의 생성자 호출하기 

In [8]:
a = torch.FloatTensor(3, 2) #(행, 열)
a

tensor([[0.0000e+00, 0.0000e+00],
        [1.2771e-40, 9.0079e+15],
        [1.6751e-37, 2.9775e-41]])

- 초기화되지 않은 텐서 
- 기본적으로 pytorch는 텐서용 메모리를 할당하지만 초기화는 하지 않음 

In [9]:
#텐서 초기화 
a.zero_()

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

####  2. numpy배열 또는 파이썬 list를 텐서로 변환하기 

In [28]:
#list
torch.FloatTensor([[1, 2, 3], [3, 2, 1]])

tensor([[1., 2., 3.],
        [3., 2., 1.]])

In [33]:
#array 
n = np.zeros(shape=(3, 2)) #기본적으로 double(float64)
torch.tensor(n)

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]], dtype=torch.float64)

#### 3. pytorch에게 특정 데이터가 있는 텐서를 생성하도록 요청하기 

In [31]:
torch.zeros(3, 2)

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

In [32]:
torch.ones(3, 2)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

### * tensor 연산 
#### - inplace 
- 함수 이름 뒤에 밑줄(_) 추가 
- 텐서의 내용에 직접 작용
- 연산 후 객체 반환 
- 성능 및 메모리면에서 효율적

#### - functional equivalent
- 복사본을 만들어 함수 작용 

#### - 예)


In [17]:
x = torch.ones(3, 2)
y = torch.zeros(3, 2)

In [18]:
x

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [19]:
y

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

- inplace

In [20]:
y.add_(2 * x) 

tensor([[2., 2.],
        [2., 2.],
        [2., 2.]])

In [21]:
y #객체에 직접 작용 

tensor([[2., 2.],
        [2., 2.],
        [2., 2.]])

- functional equivalent

In [22]:
x = torch.ones(3, 2)
y = torch.zeros(3, 2)

In [23]:
y.add(2 * x) 

tensor([[2., 2.],
        [2., 2.],
        [2., 2.]])

In [26]:
y #복사본 생성 #원본 객체에는 영향 없음 

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

### * tensor type 명시적 지정
- 일반적으로 딥러닝에서는 32, 16비트의 float형을 사용하는 것이 바람직 

In [37]:
n = np.zeros(shape=(3, 2), dtype=np.float32) ##
torch.tensor(n)

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

In [38]:
n = np.zeros(shape=(3, 2))
torch.tensor(n, dtype=torch.float32) ##

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

## Scalar Tensors
- pytorch 0.4.0 버전부터 0차원 텐서(스칼라) 지원

### 생성 및 접근 
- torch.tensor()
- item()
    - 실제 파이썬 값에 접근

In [40]:
a = torch.tensor(3)
a

tensor(3)

In [41]:
a = torch.tensor([1, 2, 3])
a

tensor([1, 2, 3])

In [42]:
s = a.sum()
s #scalar

tensor(6)

In [44]:
s.item() #파이썬 값에 접근 

6

##  Tensor operations 
http://pytorch.org/docs/ 
#### - inplace
- 객체에 직접 작용


#### - functional equivalent 
- 객체를 복사해서 작용 


#### - torch package 
- 함수의 인자는 일반적으로 텐서 


#### - tensor class
- 호출된 텐서에서 작동 



** numpy에 별로 특화되지 않은 함수는 pytorch에서도 사용 가능 
    - torch.stack()
    - torch.transpose()
    - torch.cat()

## GPU Tensors 
- pytoch는 CUDA GPU 지원 
- 조작되고있는 텐서의 type에 따라 작업에서 CPU, GPU 자동 선택됨 
- 앞에서 언급한 텐서들은 CPU용 
- GPU용 텐서는 torch.cuda 패키지에 존재 

### tensor를 CPU에서 GPU로 변환하기 
#### - 텐서의 복사본을 지정된 device(CPU/GPU)에 생성 
- 텐서가 device에 이미 존재하면 기존 텐서 반환

#### 1. device의 문자열 전달 
- CPU : "cpu"
- GPU : "cuda"
    - 1번째 GPU 카드: "cuda: 0"
    - 2번째 GPU 카드: "cuda: 1" 
    
#### 2. torch.device.class 사용 
- device이름과 선택적 인덱스 허용 

In [54]:
a = torch.FloatTensor([2, 3]) #cpu에 생성 
a

tensor([2., 3.])

In [49]:
ca = a.cuda() #gpu에 복사 
ca

AssertionError: 
Found no NVIDIA driver on your system. Please check that you
have an NVIDIA GPU and installed a driver from
http://www.nvidia.com/Download/index.aspx

In [50]:
a + 1

tensor([3., 4.])

In [51]:
ca + 1

NameError: name 'ca' is not defined

In [52]:
ca.device

NameError: name 'ca' is not defined

## Gradients
### 그래디언트 계산 방법 
#### 1. 정적그래프 
- tensorflow, theano 등에서 사용하는 방법 
- 미리 그래프(계산)를 정의 (이 후 변경 불가능)
- 그래프는 계산이 진행되기 전에 딥러닝 라이브러리에 의해 처리되고 최적화됨 

#### 2. 동적그래프 
- pytoch, chainer 등에서 사용하는 방법 
- 그래프를 미리 정의하지 않음 
- 실제 데이터에서 데이터 변환에 사용하려는 작업만 실행하면 됨 
    - 이 때, 라이브러리는 수행된 작업 순서를 기록,
    - 그래디언트를 계산하도록 요청하면,
        - 작업 기록을 unroll 
        - 네트워크 파라미터의 그래디언트를 축적(accmulate)
        - notebook gradient 방법이라고도 불림 
        
        
- 계산 오버헤드는 높지만 개발자가 더 자유로워짐 
    - 그래디언트에 대한 자유로운 조작 가능 
    
    
- 계산과 메모리 측면에서의 효율성이 높음 
    
## Tensors and gradients
- pytorch 텐서에는 그래디언트  계산 및 추적 기능이 내장되어있음 


<img src="./image/gradients.png" width=400>

### 그래디언트와 관련된 tensor의 속성 
#### - grad
- 계산된 그래디언트를 포함하는 동일한 형태의 텐서를 보유하는 속성 


#### - is_leaf
- True: 텐서가 사용자에의해 생성 
- False: 객체가 함수변환의 결과 


#### - requires_grad 
- leaf 텐서에서 상속된 속성 
- True: 그래디언트가 계산되는 텐서 
- False: (default)

In [126]:
v1 = torch.tensor([1.0, 1.0], requires_grad=True) #calculates gradient 
v2 = torch.tensor([2.0, 2.0])

In [127]:
v1

tensor([1., 1.], requires_grad=True)

In [128]:
v2

tensor([2., 2.])

### 간단한 그래프 생성 예제
<img src="./image/graph.png" width=400>

In [129]:
v_sum = v1 + v2 

v_res = (v_sum * 2).sum()

v_res

tensor(12., grad_fn=<SumBackward0>)

- leaf node(사용자가 생성): v1, v2 

In [130]:
v1.is_leaf, v2.is_leaf

(True, True)

In [131]:
v_sum.is_leaf, v_res.is_leaf

(False, False)

- 그래디언트를 계산하는지: v1, v_sum, v_res

In [132]:
v1.requires_grad, v2.requires_grad

(True, False)

In [133]:
v_sum.requires_grad, v_res.requires_grad

(True, True)

- 그래프의 그래디언트 계산 
    - backward(): 그래프에 있는 다른 변수들에 대하여 해당 변수의 미분을 계산
        - 그래프 내의 다른 변수들의 변화가 해당 변수에 어떤 영향을 끼치는지 

In [134]:
v_res.backward()

In [139]:
v1.grad

tensor([2., 2.])

- v1의 각 값이 1 증가하면 v_res의 값은 2 증가한다 

In [136]:
v2.grad #requires_grad=Fasle

In [137]:
v_res.grad

In [138]:
v_sum.grad

## NN building blocks 
### torch.nn 패키지 
#### - 패키지 내의 모든 클래스는  nn.Module 기본클래스에서 상속받음 

 http://pytorch.org/docs의
 
#### - 간단한 예제 (LInear model)

In [143]:
import torch.nn as nn 

In [144]:
l = nn.Linear(2, 5) #nn.Linear(n_inputs, n_outputs)

v = torch.FloatTensor([1, 2])

l(v)

tensor([ 0.6548, -0.7220,  1.7513, -1.6557, -0.0152], grad_fn=<AddBackward0>)

- 무작위로 초기화된 feed-forward 레이어 생성 
- 두개의 입력, 5개의 출력 

#### - Sequential 
- 다른 레이어를 파이프에 결합할 수 있게 해주는 클래스 
- 예)
- fc-relu-fc-relu-dropout-softmax

In [152]:
s = nn.Sequential(nn.Linear(2, 5), #(n_inputs, n_outputs)
                  nn.ReLU(),
                  nn.Linear(5, 20), 
                  nn.ReLU(),
                  nn.Linear(20, 10), 
                  nn.Dropout(p=0.3), 
                  nn.Softmax(dim=1))


In [153]:
s

Sequential(
  (0): Linear(in_features=2, out_features=5, bias=True)
  (1): ReLU()
  (2): Linear(in_features=5, out_features=20, bias=True)
  (3): ReLU()
  (4): Linear(in_features=20, out_features=10, bias=True)
  (5): Dropout(p=0.3)
  (6): Softmax()
)

In [154]:
s(torch.FloatTensor([[1, 2]]))

tensor([[0.1433, 0.0995, 0.1524, 0.0798, 0.0721, 0.0844, 0.0914, 0.0995, 0.0783,
         0.0995]], grad_fn=<SoftmaxBackward>)

## Custom layers
### nn.Module이 자식에게 제공하는 기능 
#### - 현재 모듈에 포함된 모든 서브모듈 추적 
- 하나의 모듈에는 여러개의 모듈 존재 가능 


#### - 등록된 서브 모듈의 모든 매개변수 처리 
#### - nn.Module 자식이 제공하는 메소드 
- parameters(): 그래디언트 계산이 필요한 모든 변수의 iterator(모듈 가중치) 반환
- zero_grad(): 모든 파라미터의 모든 그래디언트 0으로 초기화 
- to (device): 모든 모듈 매개변수를 지정된 장치(CPU, GPU)로 이동 
- state_dict(): 모든 모듈 파라미터가 있는 사전을 반환 (모델 직렬화에 유용)
- load_state_dict(): 상태 사전으로 모듈 초기화 
- apply(): 일반 변화 수행 

#### - 데이터에 모듈 어플리케이션 규칙 설정 가능 
- 모든 모듈은 오버라이팅하여 forward() 메소드에서 데이터변환을 수행해야함 

#### - 코드 단순성과 재사용에 매우 편리 
- nn.Module 규칙에 따르면 one-layer Linear 변환이나 1001 layer의 ResNet을 같은 방식으로 처리 가능 


### 모듈 생성 간소화 방법 
#### 1. 하위모듈 등록 
#### 2. forward()  메소드 구현 

In [162]:
class OurModule(nn.Module):
    def __init__(self, num_inputs, num_classes, dropout_prob=0.3):
        super(OurModule, self).__init__() #부모생성자 호출을 통해 초기화 
        
        #모듈을 필드에 할당 
        self.pipe = nn.Sequential(nn.Linear(num_inputs, 5), 
                                  nn.ReLU(),
                                  nn.Linear(5, 20), 
                                  nn.ReLU(), 
                                  nn.Linear(20, num_classes), 
                                  nn.Dropout(p=dropout_prob), 
                                  nn.Softmax(dim=1))
        
    
    #forward() Overriding 
    #데이터변환 구현 
    #이 모듈은 다른 레이어를 둘러싼 매우 단순한 wrapper이므로 데이터 변환을 요청하기만 하면 됨 
    def forward(self, x):
        return self.pipe(x)

#### - 데이터에 모듈을 적용하기
- 1. 모듈 인스턴스를 함수처럼 인자를 넘겨서 사용해야함 

- 2. nn.Module (부모) 클래스의 forward() 함수를 사용하지 않아야 함
    - nn.Module이 __call__()메소드를 오버라이딩함 
    - forward()를 직접 호출하면 부모의 개입 발생 가능 
    
    
- **이를 통해 부모의 magic stuff, 내가 overriding한 forward() 사용 가능**
    
### 모듈 사용하기

In [164]:
if __name__=="__main__":
    net = OurModule(num_inputs=2, num_classes=3) #원하는 크기의 모듈 생성 
    
    v = torch.FloatTensor([[2, 3]])
    
    out = net(v) #함수처럼 사용 (데이터를 인자로 넘겨줌)
    

In [165]:
net

OurModule(
  (pipe): Sequential(
    (0): Linear(in_features=2, out_features=5, bias=True)
    (1): ReLU()
    (2): Linear(in_features=5, out_features=20, bias=True)
    (3): ReLU()
    (4): Linear(in_features=20, out_features=3, bias=True)
    (5): Dropout(p=0.3)
    (6): Softmax()
  )
)

In [167]:
out

tensor([[0.3153, 0.3693, 0.3153]], grad_fn=<SoftmaxBackward>)


- **forward( )** 
    - 모든 데이터 배치에 대한 제어권을 얻음
    - 더 복잡한 연산 수행 가능 
    
- 모듈에 대한 인수(argument)의 개수는 하나의 파라미터로 제한되지 않음 


## Loss Functions
- loss function: 네트워크의 예측이 원하는 결과와 얼마나 가까운지 
- loss value: loss function의 출력값 

#### - nn 패키지에 존재 
- nn.Module의 하위클래스로 구현됨 
- 일반적으로 네트워크의 출력과 원하는 출력을 인수로 받음 

#### - 가장 일반적으로 사용되는 손실함수 
- **nn.MSELoss**
- **nn.BCELoss**, **nn.BCEWithLogits**
    - Binary교차 엔트로피 손실 (이진 분류에서 자주 사용)
    
  
- **nn.CrossEntropyLoss**, **nn.NLLLoss**
    - maximum likelihood 기준으로, 다중클래스 분류문제게 사용 
 
## Optimizers
#### - 역할
- 손실값을 줄이기위해 모델 파라미터의 그래디언트를 취해 파라미터를 변경하는 것 

#### - torch.optim 패키지에 구현 
#### - 널리 사용되는 optimizer
- **SGD**
- **RMSProp**
- **Adagrad**


### 최적화 수행 알고리즘 (7단계)
#### 1. 데이터를 배치로 분할 
#### 2. 모든 배치에는 데이터 샘플과 대상 레이블 포함 
- 두 데이터 모두 텐서 

In [None]:
for batch_samples, batch_labels in iterate_batches(data, batch_size=32): 
    batch_samples_t = torch.tensor(batch_samples)
    batch_labels_t = torch.tensor(batch_labels)

#### 3. 데이터 샘플을 네트워크로 전달 

In [None]:
out_t = net(batch_sampels_t)

#### 4. 네트워크 출력 및 대상 레이블을 손실함수에 전달 

In [None]:
loss_t = loss_function(out_t, batch_labels_t)

#### 5. 네트워크 전체에 대한 그래디언트 계산 

In [None]:
loss_t.backward()

#### 6. 최적화 작업 수행 


In [None]:
optimizer.step()

#### 7. 매개변수의 그래디언트를 0으로 만들기 
- 네트워크에서 zero_grad() 호출 
- optimizer가 zero_grad() 호출 (#)

In [None]:
optimizer.zero_grad()

## Monitoring with TensorBoard 
#### - 학습 과정을 확인하고 그 역학을 관찰하기위해 사용 

#### -  tensorboard-pytorch 사용 
- https://github.com/lanpa/tensorboard-pytorch
- pip install tensorboard-pytorch 

#### - 예제 

In [169]:
import math 
from tensorboardX import SummaryWriter

In [170]:
if __name__ == "__main__":
    writer = SummaryWriter() #데이터 작성자 생성 
    
    funcs = {"sin": math.sin, 
             "cos": math.cos, 
             "tan": math.tan}
    
    for angle in range(-360, 360):
        angle_rad = angle * math.pi/180 #라디안 
        
        for name, fun in funcs.items():
            val = fun(angle_rad)
        
            writer.add_scalar(name, val, angle) #작성자에 전달 
            
    writer.close() #작성자 종료 

<img src="./image/tensorboard_example.png" width=700>

## Example - Gan on Atari images 
#### : GAN(Generative Adversarial Networks)를 통해 다양한 atari 게임 스크린샷 생성 
- GAN: 두개의 네트워크(생성자, 판별자)가 서로 경쟁하며 학습 
    - 생성자: 판별자가 실제 데이터와 구별하기 어려운 가짜 데이터 생성하려 시도  
    - 판별자: 실제 데이터와 가짜 데이터를 구별하려시도
    

**atari-gan.py**

- wrapper 클래스 정의 
    - 배열의 입력을 처리 
    - 정해진 크리고 이미지 resize
    - 첫번째 place로 컬러 채널 축을 이동 
        - pytorch의 convolution 레이어는 (channel, height, width)
        
        
- Discriminator (판별자) 클래스
    - 스케일링된 컬러 이미지 입력
    - 5개의 convolution layer 
    - sigmoid 출력 
    
 
- Generator (생성자) 클래스
    - 가짜 이미지 생성 
    - 5개의 convolution layer 
    - tanh 출력 
    
    
- iterate_batches()  함수 
    - 배치 생성 
    - 각 환경에 대해 랜덤 액션을 수행한 결과(관찰) 
    
    
- main
    - 환경 생성 
    - 네트워크 생성 (판별자, 생성자)
    - 손실 정의 
    - 라벨 정의 
    - 판별자, 생성자 학습 
    - 생성된 가짜 이미지, 실제 이미지 저장
    - 각 네트워크 손실 저장
    
    
#### - 주요함수 
- nn.Conv2d(in_channels=입력크기, out_channels=출력크기, kernel_size, stride, padding)

- nn.ConvTransposed2d(in_channels, out_channels, kernel_size, stride, padding)
    - deconvolution 
    
- nn.ReLU()
- nn. BatchNorm2d
    - 4차원 입력에대해 batch normalization수행 
    

- view(shape)
    - reshape tensor 
    


<img src="./image/server-11100.png">
<img src="./image/server-84000.png">

https://m.blog.naver.com/PostView.nhn?blogId=fastcampus&logNo=221029365132&proxyReferer=https%3A%2F%2Fwww.google.com%2F

https://tensorflow.blog/2017/02/28/pytorch-vs-tensorflow/

https://dev-strender.github.io/articles/2018-02/comparison-of-deep-learning-tools