<a href="https://colab.research.google.com/github/hsh6449/TIL/blob/main/torch_5_17_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# wikidocs `"파이썬으로 시작하는 딥러닝 입문"`
## 5.17 Study

### #0 기본개념

`-` tensor : 1차원 벡터가 3차원으로 구성된 것, 2차원은 행렬(matrix)
1. 2D Tensor : (batch size, dimension) # batch size는 한번에 처리할 데이터의 개수
2. 3D Tensor(이미지) : (batch size, width, height) 
3. 3D Tensor(text) : (batch size, length, dim)

In [3]:
import torch
import numpy as np

`-` numpy로 tensor 만들기

In [6]:
#1차원 벡터

t = np.array([0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0])
t

array([0., 1., 2., 3., 4., 5., 6.])

In [7]:
print('Rank of t: ', t.ndim)
print('Shape of t: ', t.shape)

Rank of t:  1
Shape of t:  (7,)


In [9]:
# 2차원 행렬

m = np.array([[0.0, 1.0, 2.0],[3.0, 4.0, 5.0]])
m

array([[0., 1., 2.],
       [3., 4., 5.]])

In [10]:
print('Rank of m: ', m.ndim)
print('Shape of m: ', m.shape)

Rank of m:  2
Shape of m:  (2, 3)


`-` torch로 tensor 만들기

In [11]:
#1차원 벡터

t = torch.FloatTensor([0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0])
t

tensor([0., 1., 2., 3., 4., 5., 6.])

In [13]:
print(t.dim())  # rank
print(t.shape)  # shape
print(t.size()) # shape

1
torch.Size([7])
torch.Size([7])


In [15]:
t[0:3]

tensor([0., 1., 2.])

In [17]:
# 2차원 행렬

m = torch.FloatTensor([[0.0, 1.0, 2.0],[3.0, 4.0, 5.0]])
m

tensor([[0., 1., 2.],
        [3., 4., 5.]])

In [18]:
print('Rank of m: ', m.ndim)
print('Shape of m: ', m.shape)

Rank of m:  2
Shape of m:  torch.Size([2, 3])


In [19]:
m[:,1]

tensor([1., 4.])

In [20]:
m[:,:-1]

tensor([[0., 1.],
        [3., 4.]])

`-` tensor 연산

In [21]:
t1 = torch.FloatTensor([0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0])
t2 = torch.FloatTensor([0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0])

In [22]:
t1 + t2

tensor([ 0.,  2.,  4.,  6.,  8., 10., 12.])

In [23]:
t1 + 3 # 브로드캐스팅(자동으로 차원을 맞춰주는 기능)

tensor([3., 4., 5., 6., 7., 8., 9.])

In [24]:
# 2 x 1 Vector + 1 x 2 Vector, 브로드캐스팅 2
m1 = torch.FloatTensor([[1, 2]])
m2 = torch.FloatTensor([[3], [4]])
print(m1 + m2)

tensor([[4., 5.],
        [5., 6.]])


In [28]:
#곱셈은 matmul()

m1 = torch.FloatTensor([[1, 2], [3, 4]])
m2 = torch.FloatTensor([[1], [2]])
print('Shape of Matrix 1: ', m1.shape) # 2 x 2
print('Shape of Matrix 2: ', m2.shape) # 2 x 1
print(m1.matmul(m2)) 

Shape of Matrix 1:  torch.Size([2, 2])
Shape of Matrix 2:  torch.Size([2, 1])
tensor([[ 5.],
        [11.]])


In [29]:
m1.mean() # 평균

tensor(2.5000)

In [32]:
m1.mean(dim=1)

tensor([1.5000, 3.5000])

In [34]:
print(m1.sum()) # 단순히 원소 전체의 덧셈을 수행
print(m1.sum(dim=0)) # 행을 제거
print(m1.sum(dim=1)) # 열을 제거
print(m1.sum(dim=-1)) # 열을 제거

tensor(10.)
tensor([4., 6.])
tensor([3., 7.])
tensor([3., 7.])


In [36]:
m1.max(), m1.max(dim=1)

(tensor(4.),
 torch.return_types.max(values=tensor([2., 4.]), indices=tensor([1, 1])))

`-` ******* view : 원소의 수 유지하면서 tensor 크기 변경

In [37]:
t = np.array([[[0, 1, 2],
               [3, 4, 5]],
              [[6, 7, 8],
               [9, 10, 11]]])
ft = torch.FloatTensor(t)

In [38]:
print(ft.shape)

torch.Size([2, 2, 3])


In [42]:
ft.view(-1,3).shape

torch.Size([4, 3])

In [44]:
ft.view(2,6)

tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [ 6.,  7.,  8.,  9., 10., 11.]])

In [46]:
ft.view(1,12)

tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.]])

In [49]:
ft.view(2,2,1,3)

tensor([[[[ 0.,  1.,  2.]],

         [[ 3.,  4.,  5.]]],


        [[[ 6.,  7.,  8.]],

         [[ 9., 10., 11.]]]])

`-` Squeeze & Unsqueeze

In [50]:
ft = torch.FloatTensor([[0], [1], [2]])
print(ft)
print(ft.shape)

tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


In [51]:
print(ft.squeeze())
print(ft.squeeze().shape)

tensor([0., 1., 2.])
torch.Size([3])


In [52]:
ft = torch.Tensor([0, 1, 2])
print(ft.shape)

torch.Size([3])


In [61]:
ft.unsqueeze(0), ft.unsqueeze(0).shape

(tensor([[0., 1., 2.]]), torch.Size([1, 3]))

In [62]:
ft.unsqueeze(1), ft.unsqueeze(1).shape

(tensor([[0.],
         [1.],
         [2.]]), torch.Size([3, 1]))

In [63]:
lt = torch.LongTensor([1, 2, 3, 4]) #정수형
lt.float()

tensor([1., 2., 3., 4.])

In [64]:
bt = torch.ByteTensor([True, False, False, True])
print(bt)

tensor([1, 0, 0, 1], dtype=torch.uint8)


In [67]:
bt.long(), bt.float()

(tensor([1, 0, 0, 1]), tensor([1., 0., 0., 1.]))

`-` 연결 & stack

In [68]:
x = torch.FloatTensor([[1, 2], [3, 4]])
y = torch.FloatTensor([[5, 6], [7, 8]])

In [78]:
torch.cat([x,y], axis=1)

tensor([[1., 2., 5., 6.],
        [3., 4., 7., 8.]])

In [80]:
torch.stack([x,y], axis=2)

tensor([[[1., 5.],
         [2., 6.]],

        [[3., 7.],
         [4., 8.]]])

`-` 기타 연산

In [81]:
x = torch.FloatTensor([[0, 1, 2], [2, 1, 0]])

In [82]:
torch.ones_like(x)

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [83]:
torch.zeros_like(x)

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [85]:
torch.FloatTensor(np.zeros(10).reshape(2,5))

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [87]:
x = torch.FloatTensor([[1, 2], [3, 4]])

In [90]:
print(x.mul(2.))
print(x)

tensor([[2., 4.],
        [6., 8.]])
tensor([[1., 2.],
        [3., 4.]])


In [91]:
print(x.mul_(2.))  # 곱하기 2를 수행한 결과를 변수 x에 값을 저장하면서 결과를 출력
print(x) # 기존의 값 출력

tensor([[2., 4.],
        [6., 8.]])
tensor([[2., 4.],
        [6., 8.]])


### *Class

In [92]:
# add 함수 구현
result = 0

def add_m(num):
  global result
  result += num
  return result

In [93]:
add_m(4)

4

In [95]:
add_m(5)

9

In [96]:
class Calculator:
  def __init__(self): #실행될때 초기화
    self.result = 0

  def add_m(self, num):
    self.result += num
    return self.result

In [98]:
call = Calculator()

In [99]:
call.add_m(5)

5

In [100]:
call.add_m(5)

10

In [103]:
call.__init__()

In [104]:
call.add_m(4)

4

### #1 선형회귀

`-` 선형회귀 : 관측치가 주어져있을때 데이터 간의 관계를 선형으로 나타내는 것

`-` 비용함수 : 손실함수, 오차함수. 목적함수로도 불리며 종류는 매우 다양할 수 있음, 가장 흔히 최소제곱법이라고 불리는 `MSE` 사용

`-` 경사하강법 : 비용함수의 값을 최소화하는(오차최소화)하는 방식으로 학습을 진행하는 최적화 기법, 즉 cost(비용)이 최소화된 parameter를 찾는 기법
-  비용이 최소화된 지점은 비용함수의 미분값이 0이되는 값.
- 비용함수를 미분하여 현재 지점에서의 접선의 기울기를 구하고 적절한 α를 곱해 가중치를 업데이트 
-α: 학습률이라고도 불리며 클수록 더 빠르게 업데이트, BUT 너무 크면 기울기가 수렴하지않고 발산하므로 적절한 학습률을 설정할 필요가 있음

In [106]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [107]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [108]:
x_train.shape, y_train.shape

(torch.Size([3, 1]), torch.Size([3, 1]))

In [110]:
# 가중치 W를 0으로 초기화
## *reauires_grad는 계속해서 값이 변하는 변수임을 선언

W = torch.zeros(1, requires_grad=True)

In [111]:
b = torch.zeros(1, requires_grad=True)

In [112]:
f = b + W*x_train

In [113]:
print(f)
print(y_train)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)
tensor([[2.],
        [4.],
        [6.]])


초기값이기 때문에 아직 값이 많이 다름 -> 비용함수 필요

In [114]:
loss = torch.mean((f-y_train)**2)
loss

tensor(18.6667, grad_fn=<MeanBackward0>)

`-` 경사하강법 구현

In [119]:
optimizer = torch.optim.SGD([W,b], lr = 0.01)

In [120]:
optimizer.zero_grad()

In [121]:
loss.backward()

In [122]:
loss

tensor(18.6667, grad_fn=<MeanBackward0>)

In [123]:
optimizer.step()

In [129]:
nb_epochs = 1999 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = x_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step() ## W와 b의 값이 업데이트 됨

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/1999 W: 0.353, b: 0.151 Cost: 14.770963
Epoch  100/1999 W: 1.746, b: 0.577 Cost: 0.047939
Epoch  200/1999 W: 1.801, b: 0.453 Cost: 0.029624
Epoch  300/1999 W: 1.843, b: 0.356 Cost: 0.018306
Epoch  400/1999 W: 1.877, b: 0.280 Cost: 0.011312
Epoch  500/1999 W: 1.903, b: 0.220 Cost: 0.006990
Epoch  600/1999 W: 1.924, b: 0.173 Cost: 0.004319
Epoch  700/1999 W: 1.940, b: 0.136 Cost: 0.002669
Epoch  800/1999 W: 1.953, b: 0.107 Cost: 0.001649
Epoch  900/1999 W: 1.963, b: 0.084 Cost: 0.001019
Epoch 1000/1999 W: 1.971, b: 0.066 Cost: 0.000630
Epoch 1100/1999 W: 1.977, b: 0.052 Cost: 0.000389
Epoch 1200/1999 W: 1.982, b: 0.041 Cost: 0.000240
Epoch 1300/1999 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/1999 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/1999 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/1999 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/1999 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/1999 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/1999 W: 1.997, b: 0.008 Cost: 0.000008

- 파이토치는 이전 값을 누적해서 저장하기때문에 새로 계산하는 값이 필요하다면 반드시 초기화 시켜줘야함
```
optimizer.zero_grad()
```

- 데이터 개수가 늘어나면 하나하나 계산하기 어렵기 때문에 `자동미분` 이용

`-` 다중회귀

In [131]:
# 훈련 데이터
x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])
x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])
x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [144]:
# 가중치 w와 편향 b 초기화
w1 = torch.zeros(1, requires_grad=True)
w2 = torch.zeros(1, requires_grad=True)
w3 = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [145]:
optimizer = optim.SGD([w1, w2, w3, b], lr = 0.00001)
nb_epochs = 1000

for i in range(nb_epochs + 1):
  y = b + w1*x1_train + w2*x2_train + w3*x3_train

  cost = torch.mean((y_train - y)**2)

  optimizer.zero_grad()
  cost.backward()
  optimizer.step() 

    # 100번마다 로그 출력
  if epoch % 100 == 0:
    print('Epoch {:4d}/{} w1: {:.3f} w2: {:.3f} w3: {:.3f} b: {:.3f} Cost: {:.6f}'.format(epoch, nb_epochs, w1.item(), w2.item(), w3.item(), b.item(), cost.item()))

Epoch 1000/1000 w1: 0.294 w2: 0.294 w3: 0.297 b: 0.003 Cost: 29661.800781
Epoch 1000/1000 w1: 0.459 w2: 0.458 w3: 0.464 b: 0.005 Cost: 9298.520508
Epoch 1000/1000 w1: 0.551 w2: 0.550 w3: 0.557 b: 0.006 Cost: 2915.712402
Epoch 1000/1000 w1: 0.602 w2: 0.601 w3: 0.609 b: 0.007 Cost: 915.040527
Epoch 1000/1000 w1: 0.631 w2: 0.630 w3: 0.639 b: 0.007 Cost: 287.935944
Epoch 1000/1000 w1: 0.648 w2: 0.646 w3: 0.655 b: 0.008 Cost: 91.371300
Epoch 1000/1000 w1: 0.657 w2: 0.655 w3: 0.664 b: 0.008 Cost: 29.758276
Epoch 1000/1000 w1: 0.662 w2: 0.660 w3: 0.669 b: 0.008 Cost: 10.445292
Epoch 1000/1000 w1: 0.665 w2: 0.663 w3: 0.672 b: 0.008 Cost: 4.391232
Epoch 1000/1000 w1: 0.666 w2: 0.665 w3: 0.674 b: 0.008 Cost: 2.493121
Epoch 1000/1000 w1: 0.667 w2: 0.665 w3: 0.675 b: 0.008 Cost: 1.897676
Epoch 1000/1000 w1: 0.668 w2: 0.666 w3: 0.675 b: 0.008 Cost: 1.710553
Epoch 1000/1000 w1: 0.668 w2: 0.666 w3: 0.675 b: 0.008 Cost: 1.651389
Epoch 1000/1000 w1: 0.668 w2: 0.666 w3: 0.676 b: 0.008 Cost: 1.632369
Epo

In [146]:
w1, w2, w3, b

(tensor([0.7179], requires_grad=True),
 tensor([0.6125], requires_grad=True),
 tensor([0.6801], requires_grad=True),
 tensor([0.0092], requires_grad=True))

- 처음에 학습률을 0.01로 설정했더니 발산했다 -> 학습률을 잘 설정하는게 중요하다!...