Pytorch 설치 및 확인



In [None]:
!pip install torch

In [2]:
import torch
print(torch.__version__) # 현재 설치된 PyTorch 버전을 출력합니다.
print(torch.cuda.is_available()) # CUDA(병렬 컴퓨팅 플랫폼)가 사용 가능한지 확인하고 결과를 출력합니다.
# torch.cuda.is_available() 함수는 PyTorch에서 CUDA(Compute Unified Device Architecture)를 사용할 수 있는지를 확인하는 방법
# PyTorch와 같은 딥러닝 프레임워크에서 CUDA를 활용하면 모델 학습 및 추론 속도를 크게 향상가능
# True: CUDA가 사용 가능함. 즉, NVIDIA GPU가 설치되어 있고, 적절한 드라이버와 CUDA Toolkit이 설치되어 있습니다.
# False: CUDA가 사용 불가능함. 즉, GPU가 없거나 드라이버가 제대로 설치되지 않았습니다.

2.4.1+cpu
False


## Pytorch Tensor

pytorch의 가장 근본이 되는 Tensor들에 대해서 배워보겠습니다.

### Tensor 만드는 법


torch.tensor(data): data는 튜플, 리스트, numpy 배열 등등임.

주요 속성들
- dtype: 데이터 타입
- device: gpu에 있는지, cpu에 있는지
- requires_grad: 이게 True면 미분값을 계산함. 아니면 하지 않음.


In [4]:
matrix = torch.tensor([[1.0,2.0], [3.0,4.0]])
matrix2 = torch.tensor([[1,2,3], [3,4,5]])
print(matrix.shape)
print(matrix2.shape)

torch.Size([2, 2])
torch.Size([2, 3])


In [5]:
matrix2 = [[1,2,3], [3,4,5]]
lst = [matrix2, matrix2, matrix2, matrix2]

tensor_3d = torch.tensor([[[1.0], [2.0]], [[3.0], [4.0]]])
tensor_3d_2 = torch.tensor(lst) # len(lst), len(lst[0]), len(lst[0][0]), ...
print(tensor_3d_2.shape)

# tensor([[[1.],
#          [2.]],
#       
#         [[3.],
#          [4.]]])

torch.Size([4, 2, 3])


In [6]:
# 0-D Tensor
scalar = torch.tensor(5.0) # 0차원tensor(scalar)생성
print(scalar)  # tensor(5.)

vector = torch.tensor([1.0, 2.0, 3.0]) # 1차원tensor(vector)생성
print(vector)  # tensor([1., 2., 3.])

matrix = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
print(matrix)
# tensor([[1., 2.],
#         [3., 4.]])

tensor_3d = torch.tensor([[[1.0], [2.0]], [[3.0], [4.0]]])
print(tensor_3d)
# tensor([[[1.],
#          [2.]],
#
#         [[3.],
#          [4.]]])

tensor(5.)
tensor([1., 2., 3.])
tensor([[1., 2.],
        [3., 4.]])
tensor([[[1.],
         [2.]],

        [[3.],
         [4.]]])


### torch.tensor의 주요 속성들

- tensor.shape
- tensor.size()
- tensor.dtype

In [7]:
print(vector.shape)    # torch.Size([3])
print(matrix.size())   # torch.Size([2, 2])
print(tensor_3d.shape) # torch.Size([2, 2, 1])

torch.Size([3])
torch.Size([2, 2])
torch.Size([2, 2, 1])


In [8]:
print(vector.dtype)    # torch.float32
int_tensor = torch.tensor([1, 2, 3], dtype=torch.int32)
print(int_tensor.dtype)  # torch.int32  # in32 : 32자리 이진수공간 할당?

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tensor_gpu = torch.tensor([1.0, 2.0, 3.0]).to(device)
print(tensor_gpu.device)  # cuda:0 or cpu

torch.float32
torch.int32
cpu


### torch.tensor 만드는 방법

- torch.tensor(data)
- 자주 쓰는 텐서들은 만드는 함수가 있음.
  * torch.zeros(size): size 형태로 된, 0으로 된 텐서를 만듬.
  * torch.ones(size): size 형태로 된, 1로 된 텐서를 만듬.
  * torch.rand(size) / torch.randn(size) : 랜덤한 숫자로 된 텐서를 만듬. rand는 0과 1 사이에서 랜덤하게, randn은 표준정규분포(평균 0, 표준편차 1)에서 뽑아옴. # 유니폼디쓰리부션?
  * torch.eye(n): 대각선만 1이고 이외에는 0인 2D 텐서(행렬)을 만듬. # identity 매트릭스 행렬곱시 그대로 나옴 # 자연어용?
- 이외에도 많이 쓰이는 함수들
  * torch.arange: range() 함수와 매우 비슷하다.
  * torch.linspace(start, end, steps): start부터, end까지, steps개의 숫자를 가지는 텐서를 만듬. 이 때, 숫자들은 등간격으로 만들어짐.

In [3]:
list_tensor = torch.tensor([1, 2, 3])
tuple_tensor = torch.tensor((4, 5, 6))

zeros = torch.zeros((2,3))
zeros1 = torch.zeros(2,3)
zeros2 = torch.zeros(((0, 0, 0)))
zeros3 = torch.zeros((([0, 0, 0])))
zeros4 = torch.zeros((1, 2))
ones = torch.ones((2, 3))
rand = torch.rand((2, 3))
eye = torch.eye(3)  # 3x3 Identity matrix

normal = torch.randn((2, 3))  # Normal distribution
# print(normal)
arange_tensor = torch.arange(start=0, end=10, step=2) # range(0,10,2)
linspace_tensor = torch.linspace(start=0, end=1, steps=5) # 0 0.25 0.5 0.75 1

float_tensor = torch.tensor([1.0, 2.0, 3.0], dtype=torch.float64)
int_tensor = torch.tensor([1, 2, 3], dtype=torch.int32)

print(zeros.shape)
print(zeros1.shape)
print(zeros2.shape)
print(zeros3.shape)
print(zeros4.shape)
print(ones)
# print(rand)
# print(eye)
# print(arange_tensor)
# print(linspace_tensor)

torch.Size([2, 3])
torch.Size([2, 3])
torch.Size([0, 0, 0])
torch.Size([0, 0, 0])
torch.Size([1, 2])
tensor([[1., 1., 1.],
        [1., 1., 1.]])


TODO: 위 각 함수들을 torch.tensor와 파이썬 리스트 operation들을 이용하여 재구현해 보세요.

In [14]:
print(torch.tensor((((2,3)))))

tensor([2, 3])


In [13]:
a=((((((((((2,3))))))))))

while not isinstance(a[0],int):
    assert isinstance(a, (tuple,list)), "not a list or tuple"
    a = a[0]
print(a[0],a[1])

2 3


In [10]:
# write your code here
class pytorch():
    def nested_list(shape, value=0):
        
        while not isinstance(a[0],int):
            assert isinstance(a, (tuple,list)), "not a list or tuple"
            a = a[0]
        return 
    def random_nested_list():
        return 
    def torch_zeros(self, *arg):
        return torch.tensor()
    def torch_ones(self,):
        return torch.tensor()
    def torch_rand(self,):
        return torch.tensor()
    def torch_arange(self, end=None, start=None, step=1):
        return torch.tensor()
    def torch_lnspace(self, end=None, start=None, step=1):
        return torch.tensor()
    @staticmethod
    def torch_eye(x):
        return torch.tensor([[0 if i != j else 1 for j in range(x)] for i in range(x)])
    def __str__():
        return torch.tensor()

py = pytorch()
# py_zeros = py.torch_zeros((2,3))
# print(*py_zeros, sep='\n')
# py_ones = py.torch_ones((2,3))
# print(*py_ones, sep='\n')
# py_rand = py.torch_rand((2,3))
# print(py_rand, sep='\n')
py_eye = py.torch_eye(10)
print(py_eye)
# py_arange = py.torch_arange(start=0 ,end=10, step=2)
# print(*py_arange, sep='\n')
# py_lnspace = py.torch_lnspace(0, 1, 5)
# print(*py_lnspace, sep='\n')


tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]])


In [18]:
# solution
import random

def nested_list(shape, value = 0):
    """Accepts tuple/list of int, denoting shape of the nested list.
    """
    if len(shape) == 1:
        l = shape[0]
        return [value for _ in range(l)]
    else:
        l = shape[0]
        return [nested_list(shape[1:], value = value) for _ in range(l)]

def random_nested_list(shape, sample_from, *args):
    if len(shape) == 1:
        l = shape[0]
        return [sample_from(*args) for _ in range(l)]
    else:
        l = shape[0]
        return [random_nested_list(shape[1:], sample_from, *args) for _ in range(l)]
'''
def random_nested_list(shape):
    """Accepts tuple/list of int, denoting shape of the nested list.
    """
    if len(shape) == 1:
        l = shape[0]
        return [random.random() for _ in range(l)]
    else:
        l = shape[0]
        return [random_nested_list(shape[1:]) for _ in range(l)]
'''
def randomn_nested_list(shape):
    """Accepts tuple/list of int, denoting shape of the nested list.
    """
    if len(shape) == 1:
        l = shape[0]
        return [random.gauss(0, 1) for _ in range(l)]
    else:
        l = shape[0]
        return [randomn_nested_list(shape[1:]) for _ in range(l)]

def zeros(shape):
    return torch.tensor(nested_list(shape, value = 0))
def ones(shape):
    return torch.tensor(nested_list(shape, value = 1))
def rand(shape):
    return torch.tensor(random_nested_list(shape, random.random))
def randn(shape):
    return torch.tensor(random_nested_list(shape, random.gauss, 0, 1))
def eyes(n):
    return torch.tensor([[0 if i != j else 1 for j in range(n)] for i in range(n)])

print(nested_list((2, 3, 4), value = 0))
print(zeros((2,3,4)))
print(ones((2,3,4)))
print(rand((2,3,4)))
print(randn((2,3,4)))
# print(eyes(10))

[[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0]], [[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0]]]
tensor([[[0, 0, 0, 0],
         [0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0],
         [0, 0, 0, 0]]])
tensor([[[1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1]],

        [[1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1]]])
tensor([[[0.7112, 0.3081, 0.0491, 0.7796],
         [0.6231, 0.2741, 0.7289, 0.0334],
         [0.4788, 0.1130, 0.0838, 0.9905]],

        [[0.8330, 0.7324, 0.4121, 0.8628],
         [0.5409, 0.0022, 0.8721, 0.0515],
         [0.8311, 0.2582, 0.5533, 0.9722]]])
tensor([[[ 0.5515,  0.7149, -0.4704, -1.2368],
         [ 0.7926, -0.2710, -1.0941,  0.0809],
         [-0.8256, -1.0248,  0.0860,  1.8237]],

        [[-1.1565, -0.4196, -0.0352, -0.1363],
         [-0.7713,  1.6323,  0.9970, -0.9861],
         [-0.1973,  0.5031, -0.1601, -1.2636]]])


### torch.tensor끼리의 연산

일반적인 사칙연산, 행렬 곱(matmul), 원소간 곱 등등이 다 적용됨.  
엘레멘트 와이즈? 와이드로 하면 행렬?의 차원이 같으면 원소간 연산이 기본

In [147]:
a = torch.tensor([1.0, 2.0, 3.0]) # tensor([1., 2., 3.]) 
b = torch.tensor([4.0, 5.0, 6.0]) # tensor([4., 5., 6.])

add = a + b  # tensor([5., 7., 9.])
sub = a - b  # tensor([-3., -3., -3.])

mul = a * b  # tensor([ 4., 10., 18.])
div = b / a  # tensor([4.0000, 2.5000, 2.0000])

exp = a ** 2  # tensor([1., 4., 9.])

In [None]:
matrix_a = torch.tensor([[1, 2], [3, 4]])
matrix_b = torch.tensor([[5, 6], [7, 8]])
'''
1 2  5 6
3 4  7 8

1 3
2 4
'''
'''
1*5 + 2*7 = 19   1*6 + 2*8 = 22
3*5 + 4*7 = 43   3*6 + 4*8 = 50
'''
matmul = torch.matmul(matrix_a, matrix_b)

# tensor([[19, 22],
#         [43, 50]])

elem_mul = matrix_a * matrix_b
# tensor([[ 5, 12],
#         [21, 32]])

transposed = torch.transpose(matrix_a, 0, 1)
# tensor([[1, 3],
#         [2, 4]])

print(torch.matmul(torch.tensor([[1],[2],[3]]), torch.tensor([[4,5,6]])))
# 잡학: torch.transpose() 텐서의 차원을 바꾸는 메서드(행렬 전치)

### Broadcasting

브로드캐스팅은 서로 다른 크기를 가진 텐서들 간에 연산을 수행할 때, 자동으로 크기를 맞춰주는 PyTorch(및 NumPy)의 기능입니다. 이 기능은 명시적으로 텐서의 크기를 변환하지 않아도, 작은 크기의 텐서를 큰 크기의 텐서와 함께 연산할 수 있도록 해줍니다. Pandas나 Numpy 등에서도 자주 활용되기 때문에 알아두면 좋습니다.

브로드캐스팅 규칙:
1. 차원의 맞추기: 두 텐서의 차원(Dimension) 수가 다를 때, 차원이 작은 텐서의 앞쪽에 1을 추가하여 차원을 맞춥니다.
2. 크기 맞추기: 각 차원에서 크기가 1인 텐서는 해당 차원의 크기를 큰 텐서의 크기에 맞춰 늘릴 수 있습니다.
3. 불가능한 경우: 두 텐서가 특정 차원에서 서로 다른 크기를 가지며, 그중 하나가 1이 아니면 브로드캐스팅이 불가능하고 오류가 발생합니다.

예를 들어서,

- (2,3) 크기의 텐서에 (3,) 크기의 텐서를 더하면, (2,3) 크기의 텐서가 됩니다. 이 때 (3,) 크기의 텐서들은 첫 번째 차원에 대해서 다 더해집니다.


In [166]:
a = torch.tensor([[1, 2, 3], [4, 5, 6]])    # Shape: (2, 3,)
b = torch.tensor([1, 2, 3])                 # Shape: (3,)
b = torch.tensor([[1, 2, 3]])               # Shape: (1, 3,)
b = torch.tensor([[1, 2, 3], [1, 2, 3]])    # Shape: (2, 3,)

broadcast_add = a + b  # Shape: (2, 3)
# tensor([[2, 4, 6],
#         [5, 7, 9]])

a = torch.tensor([[1], [2], [3]])                   # Shape: (3, 1)
b = torch.tensor([4, 5, 6])                         # Shape: (3,)
b = torch.tensor([[4, 5, 6]])                       # Shape: (1, 3,)
b = torch.tensor([[4, 5, 6], [4, 5, 6], [4, 5, 6]]) # Shape: (3, 3,)
a = torch.tensor([[1, 1, 1], [2, 2, 2], [3, 3, 3]]) # Shape: (3, 3)
a*b = [[4, 5, 6], [8, 10, 12], [12, 15, 18]]
# To make shapes compatible:
# a: (3, 1) -> (3, 3)
# b: (3,)   -> (1, 3) -> (3, 3)

broadcast_mul = a * b  # Shape: (3, 3)
# tensor([[ 4,  5,  6],
#         [ 8, 10, 12],
#         [12, 15, 18]])

### 이 외 tensor operation들

- Slicing / Indexing
- Reshaping
- Concatenation / Stacking

In [None]:
# slicing / indexing
tensor = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Basic indexing
element = tensor[1, 2]  # tensor(6)

# Slicing
sub_tensor = tensor[:, 1:]  # tensor([[2, 3],
                            #         [5, 6],
                            #         [8, 9]])

# Advanced indexing with masks
mask = tensor > 5
filtered = tensor[mask]  # tensor([6, 7, 8, 9])

In [None]:
# reshaping

tensor = torch.arange(0, 12)
reshaped_view = tensor.view(3, 4)  # tensor([[ 0,  1,  2,  3],
                                   #         [ 4,  5,  6,  7],
                                   #         [ 8,  9, 10, 11]])

reshaped_reshape = tensor.reshape(2, 6)  # tensor([[ 0,  1,  2,  3,  4,  5],
                                         #         [ 6,  7,  8,  9, 10, 11]])

# tensor.permute
tensor = torch.randn(2, 3, 4)
permuted = tensor.permute(2, 0, 1)  # Changes the order of dimensions
print(permuted.shape)  # torch.Size([4, 2, 3])


In [None]:
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])

# Concatenate along existing dimension
concat = torch.cat((a, b), dim=0)  # tensor([1, 2, 3, 4, 5, 6])

# Stack along a new dimension
stack = torch.stack((a, b), dim=0)
# tensor([[1, 2, 3],
#         [4, 5, 6]])


### 수학적 함수들

- abs, sqrt, exp, log 등 unary 함수들 (텐서 하나만을 input으로 받음): torch.abs, torch.sqrt, torch.exp, torch.log
- max, min 등 binary 함수들 (텐서 2개를 input으로 받음): torch.max, torch.min
- 차원을 하나 혹은 여럿 낮추는 Reduction Operation들: torch.sum(tensor, dim = n)


In [179]:
a = torch.tensor([-1.0, -2.0, 3.0])

abs_a = torch.abs(a)               # tensor([1., 2., 3.])
# sqrt_a = torch.sqrt(a)           # tensor([   nan,    nan, 1.7321])
sqrt_a = torch.sqrt(torch.abs(a))  # tensor([1., 1.4142, 1.7321])
exp_a = torch.exp(a)               # tensor([0.3679, 0.1353, 20.0855])
log_a = torch.log(torch.abs(a))    # tensor([0.0000, 0.6931, 1.0986])

In [170]:
a = torch.tensor([1.0, 2.0, 3.0])
b = torch.tensor([4.0, 5.0, 6.0])

max_ab = torch.max(a, b)  # tensor([4., 5., 6.])
min_ab = torch.min(a, b)  # tensor([1., 2., 3.])

In [None]:
tensor = torch.tensor([[1, 2, 3], [3, 4, 5]]) # (2,3)

sum_all = torch.sum(tensor)          # tensor(10)
sum_dim0 = torch.sum(tensor, dim=0)  # tensor([4, 6, 8]) (3,)
sum_dim1 = torch.sum(tensor, dim=1)  # tensor([6, 12]) (2,)

mean_all = torch.mean(tensor.float(), dim=1)  # tensor(2.5000)
print(mean_all)

In [None]:
a = torch.tensor([1, 2, 3])
b = torch.tensor([2, 2, 2])

greater = a > b  # tensor([False, False, True])
equal = a == b   # tensor([False, True, False])

## Pytorch로 다시 해 보는 선형회귀

주어진 데이터 $(x_i, y_i)$ 에 대해서 $y=wx+b$에서, 가장 적절한 w와 b를 찾는 것이 선형회귀였음.

y = wx + b 에서, w와 b는 parameter이고 x는 입력, y는 출력임.
이 때 w랑 b를 구하기 위해서, 다음의 loss function을 최소화하는 방향으로 학습하고 싶다고 하자.

$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $

원래는 저 값을 그냥 바로 식으로 계산할 수 있었지만, 언제나 그렇지는 않기 때문에 (선형회귀 외의 다른 모델들에서) 수치적으로 계산해보자.




In [1]:
# 임의로 데이터를 한번 만들어 보자.
# True parameters
true_w = 2.0  # 실제 가중치
true_b = 1.0  # 실제 바이어스

# Generate data
X = torch.randn(100, 1) * 10  # 100 samples, single feature # 평균이 0이고 표준편차가 10인 정규 분포에서 샘플링
y = true_w * X + true_b + torch.randn(100, 1) * 0.2  # 노이즈를 추가하여 y 값을 생성
# w,b 2개의 파라미터 텐서 2개 생성

# y값 생성 과정
# y[0] = true_w * X[0] + true_b + torch.randn(1, 1) * 2  # 샘플*가중치 + (노이즈)
# y[1] = true_w * X[1] + true_b + torch.randn(1, 1) * 2
# ...
# y[99] = true_w * X[99] + true_b + torch.randn(1, 1) * 2

# 이 텐서가 학습 가능하게 requires_grad = True로 설정
w = torch.randn(1, 1, requires_grad=True) #  requires_grad=True, 가중치 w 무작위로 초기화, 기울기 계산할 수 있도록 설정
b = torch.randn(1, requires_grad=True) # 바이어스 b 무작위로 초기화, 기울기 계산할 수 있도록 설정

learning_rate = 0.009 # 학습률 설정 # 이걸 올리면 보폭이 커진다? 가장 적당한 값을 찾아야 한다
epochs = 5000 # 총 학습 에폭 수 설정

for epoch in range(epochs): # 학습횟수 에폭스
    # Forward pass: compute predicted y (예측된 y계산)
    # 100,1 / 1 -> 100, 1 / 1, 1 -> 100, 1 /100, 1 # 100,1 곱하기 1,1 은 shape가
    y_pred = X * w + b # y_pred: 100,1 # # 입력X * 가중치w + 바이어스b = 예측값

    # Compute and print loss # 손실계산
    loss = torch.mean((y_pred - y) ** 2) # 평균 제곱 오차(MSE) 손실을 계산 # 100, 1

    # Backward pass: compute gradients
    loss.backward() # 손실에 대한 기울기 계산

    # Update parameters using gradient descent # 경량 경량화
    with torch.no_grad(): # 기울기 업데이트 시 기울기를 추적하지 않도록 설정 기울기
        w -= learning_rate * w.grad # w 업데이트
        b -= learning_rate * b.grad # b 업데이트
    # 보법을 옵티마이저?라 한다? 잘하기 쉽지않다 가져다 쓴다?
    
    # Zero gradients after updating # 업데이트 후  w,b의 그레디언트 기울기를 0으로 초기화
    w.grad.zero_()
    b.grad.zero_()

    # 100에폭마다 현재 파라미터와 손실을 출력.
    if epoch % 200 == 0:
        print(f'Epoch {epoch}: w = {w.item():.4f}, b = {b.item():.4f}, loss = {loss.item():.4f}')
        
    # 로컬미니마이즈: 손실함수의 특정 지점, 주변보다 손실값이 낮지만, 전체 함수에서 최저점(글로벌미니마이즈)이 아닌 곳
    #   그래디언트가 로컬미니마이즈에 빠지면 더이상 파라미터를 업데이트 하지못해 최적화가 안되는 구조
    #   특히 비선형함수에서 발생 가능
    #   해결법:
    #       모멘텀(Momentum): 이전 기울기를 반영, 업데이트 방향을 조정함으로써 로컬 미니마를 피하도록 유도
    #       학습률 조정: 학습률을 조금씩 감소시키거나, 동적으로 조정하는 기법으로 최적화 성능 개선가능
    #       다양한 초기화: 파라미터를 여러 번 다른 초기값으로 초기화 하여 최적화 과정을 반복함으로 로컬미니마에 빠질 가능성을 감소

NameError: name 'torch' is not defined

TODO: 위 선형회귀 부분을 함수로 만들고, 다양한 하이퍼파라미터 (여기서의 hyperparameter은 learning rate 뿐임)를 바꿔가며 최적의 모델을 찾아보세요.


In [None]:
# write your code here

### 선형회귀 조금 더 해보기


TODO: 이번에는 비슷하게, 입력이 3개이고 출력이 1개인 선형회귀를 해 보자.

$y = w_1 x_1 + w_2 x_2 + w_3 x_3 + b$

In [None]:
# y = w1*x1 + w2 * x2 + w3 * x3 + b


### 뒤에서 할 내용 미리 살짝 엿보기 - Optimizer


In [None]:
# 이번에는 adam optimizer를 한번 사용해보자.

import torch
import math

# 임의로 데이터를 한번 만들어 보자.
# True parameters
true_w = 2.0
true_b = 1.0

# Generate data
X = torch.randn(100, 1) * 10  # 100 samples, single feature
y = true_w * X + true_b + torch.randn(100, 1) * 2  # Add noise

# requires_grad = True로 해야 학습이 가능
w = torch.randn(1, 1, requires_grad=True)
b = torch.randn(1, requires_grad=True)

# 아담 옵티마이저 하이퍼파라미터 설정
learning_rate = 0.005
epochs = 10000
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8

# 아담 옵티마이저를 위한 모멘트 변수 초기화
m_w = torch.zeros_like(w)
v_w = torch.zeros_like(w)
m_b = torch.zeros_like(b)
v_b = torch.zeros_like(b)

# 아담 옵티마이저를 위한 시간 스텝 변수 초기화
t = 0

for epoch in range(1, epochs + 1):
    # Forward pass: compute predicted y
    y_pred = X * w + b

    # Compute and print loss
    loss = torch.mean((y_pred - y) ** 2)

    # Backward pass: compute gradients
    loss.backward()

    # 아담 옵티마이저 업데이트
    with torch.no_grad():
        t += 1  # 시간 스텝 증가

        # w 파라미터 업데이트
        m_w = beta1 * m_w + (1 - beta1) * w.grad
        v_w = beta2 * v_w + (1 - beta2) * (w.grad ** 2)
        # 편향 보정
        m_w_hat = m_w / (1 - beta1 ** t)
        v_w_hat = v_w / (1 - beta2 ** t)
        # 파라미터 업데이트
        w -= learning_rate * m_w_hat / (torch.sqrt(v_w_hat) + epsilon)

        # b 파라미터 업데이트
        m_b = beta1 * m_b + (1 - beta1) * b.grad
        v_b = beta2 * v_b + (1 - beta2) * (b.grad ** 2)
        # 편향 보정
        m_b_hat = m_b / (1 - beta1 ** t)
        v_b_hat = v_b / (1 - beta2 ** t)
        # 파라미터 업데이트
        b -= learning_rate * m_b_hat / (torch.sqrt(v_b_hat) + epsilon)

    # Gradients 초기화
    w.grad.zero_()
    b.grad.zero_()

    if epoch % 100 == 0:
        print(f'Epoch {epoch}: w = {w.item():.4f}, b = {b.item():.4f}, loss = {loss.item():.4f}')


자꾸 local minima 어딘가에 빠지는 것 같다. 이걸 수정하기 위해서, 일정 횟수 이상 바뀌지 않으면 noise를 주는 방식을 생각해보자.


In [None]:
import torch
import math

# 임의로 데이터를 한번 만들어 보자.
# True parameters
true_w = 2.0
true_b = 1.0

# Generate data
torch.manual_seed(42)  # 재현성을 위해 시드 설정
X = torch.randn(100, 1) * 10  # 100 samples, single feature
y = true_w * X + true_b + torch.randn(100, 1) * 2  # Add noise

# requires_grad = True로 해야 학습이 가능
w = torch.randn(1, 1, requires_grad=True)
b = torch.randn(1, requires_grad=True)

# 아담 옵티마이저 하이퍼파라미터 설정
learning_rate = 0.005
epochs = 10000
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8

# 아담 옵티마이저를 위한 모멘트 변수 초기화
m_w = torch.zeros_like(w)
v_w = torch.zeros_like(w)
m_b = torch.zeros_like(b)
v_b = torch.zeros_like(b)

# 아담 옵티마이저를 위한 시간 스텝 변수 초기화
t = 0


patience = 300  # 손실과 파라미터 변화가 임계값 이하로 유지되는 에포크 수
threshold_loss = 1e-4  # 손실 변화 임계값
threshold_w = 1e-4     # w 변화 임계값
threshold_b = 1e-4     # b 변화 임계값


loss_history = []
w_history = []
b_history = []

for epoch in range(1, epochs + 1):
    # Forward pass: compute predicted y
    y_pred = X * w + b

    # Compute and print loss
    loss = torch.mean((y_pred - y) ** 2)

    # Backward pass: compute gradients
    loss.backward()

    # 아담 옵티마이저 업데이트
    with torch.no_grad():
        t += 1  # 시간 스텝 증가

        # w 파라미터 업데이트
        m_w = beta1 * m_w + (1 - beta1) * w.grad
        v_w = beta2 * v_w + (1 - beta2) * (w.grad ** 2)
        # 편향 보정
        m_w_hat = m_w / (1 - beta1 ** t)
        v_w_hat = v_w / (1 - beta2 ** t)
        # 파라미터 업데이트
        w -= learning_rate * m_w_hat / (torch.sqrt(v_w_hat) + epsilon)

        # b 파라미터 업데이트
        m_b = beta1 * m_b + (1 - beta1) * b.grad
        v_b = beta2 * v_b + (1 - beta2) * (b.grad ** 2)
        # 편향 보정
        m_b_hat = m_b / (1 - beta1 ** t)
        v_b_hat = v_b / (1 - beta2 ** t)
        # 파라미터 업데이트
        b -= learning_rate * m_b_hat / (torch.sqrt(v_b_hat) + epsilon)

    # Gradients 초기화
    w.grad.zero_()
    b.grad.zero_()

    # 손실과 파라미터 값을 기록
    loss_history.append(loss.item())
    w_history.append(w.item())
    b_history.append(b.item())

    # Patience에 도달했는지 확인
    if epoch >= patience :
        # 최근 'patience' 에포크의 손실 변화 계산
        recent_losses = loss_history[-patience:]
        loss_deltas = [abs(recent_losses[i] - recent_losses[i-1]) for i in range(1, patience)]
        max_loss_delta = max(loss_deltas)

        # 최근 'patience' 에포크의 w 변화 계산
        recent_ws = w_history[-patience:]
        w_deltas = [abs(recent_ws[i] - recent_ws[i-1]) for i in range(1, patience)]
        max_w_delta = max(w_deltas)

        # 최근 'patience' 에포크의 b 변화 계산
        recent_bs = b_history[-patience:]
        b_deltas = [abs(recent_bs[i] - recent_bs[i-1]) for i in range(1, patience)]
        max_b_delta = max(b_deltas)

        # 변화가 모두 임계값 이하인 경우 노이즈 추가
        if (max_loss_delta < threshold_loss) and (max_w_delta < threshold_w) and (max_b_delta < threshold_b):
            print(f'\nEpoch {epoch}: No significant updates in the last {patience} epochs. Adding noise to parameters.')
            # 파라미터에 노이즈 추가
            noise_w = torch.randn_like(w) * 0.1
            noise_b = torch.randn_like(b) * 0.1
            w.data += noise_w
            b.data += noise_b

    if epoch % 100 == 0:
        print(f'Epoch {epoch}: w = {w.item():.4f}, b = {b.item():.4f}, loss = {loss.item():.4f}')

# 최종 파라미터 출력
print(f'\nFinal Parameters: w = {w.item():.4f}, b = {b.item():.4f}, loss = {loss.item():.4f}')


## 딥러닝 들어가기


아래 코드는 pytorch 에서 딥러닝 모델을 짤 때, 가장 일반적인 형식이라고 할 수 있다. 각 부분에서 쓰일 함수들은 문제에 따라서 다르지만, 대개의 경우 위 내용이 크게 바뀌지 않을 것임.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
import torch.nn.functional as F
import numpy as np

# Seed for reproducibility
torch.manual_seed(0)
np.random.seed(0)

In [None]:
# Generate synthetic data
num_samples = 1000
input_features = 20

# Features: random numbers
X = np.random.randn(num_samples, input_features).astype(np.float32)

# Labels: sum of features > 0 => class 1, else class 0
y = (X.sum(axis=1) > 0).astype(np.float32)

# Convert to PyTorch tensors
X_tensor = torch.from_numpy(X)
y_tensor = torch.from_numpy(y).unsqueeze(1)  # Add dimension for compatibility

# Create a dataset and data loader
dataset = TensorDataset(X_tensor, y_tensor)
batch_size = 32
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

In [None]:
class SimpleMLP(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleMLP, self).__init__()
        # Define layers
        self.fc1 = nn.Linear(input_size, hidden_size)  # First fully connected layer
        self.relu = nn.ReLU()                         # ReLU activation
        self.fc2 = nn.Linear(hidden_size, output_size) # Second fully connected layer

    def forward(self, x):
        out = self.fc1(x)      # Input to first layer
        out = self.relu(out)   # Apply ReLU
        out = self.fc2(out)    # Output layer
        return out

# Hyperparameters
input_size = input_features
hidden_size = 64
output_size = 1  # Binary classification

# Instantiate the model
model = SimpleMLP(input_size, hidden_size, output_size)

# Loss function and optimizer
criterion = nn.BCEWithLogitsLoss()  # Combines a sigmoid layer and the BCELoss
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Training parameters
num_epochs = 20

# Training loop
for epoch in range(num_epochs):
    for batch_X, batch_y in dataloader:
        # Forward pass
        outputs = model(batch_X)
        loss = criterion(outputs, batch_y)

        # Backward pass and optimization
        optimizer.zero_grad()  # Clear gradients
        loss.backward()        # Compute gradients
        optimizer.step()       # Update weights

    # Print loss for every epoch
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

# Evaluation
model.eval()

with torch.no_grad():
    outputs = model(X_tensor)
    predictions = torch.sigmoid(outputs)  # Apply sigmoid to get probabilities
    predicted_classes = (predictions >= 0.5).float()

    # Calculate accuracy
    accuracy = (predicted_classes == y_tensor).float().mean()
    print(f'Accuracy: {accuracy * 100:.2f}%')


TODO: input_size, hidden_size, learning_rate 등의 하이퍼파라미터를 바꿔 가며 최적의 모델을 찾아보세요.

In [None]:
# write your code here