# 딥러닝 프레임워크에서 구현 흐름

In [None]:
!pip install torch

1. 데이터 전처리, ** 중요 딥러닝 모델의 입력 shape와 출력 shape를 확인
2. 데이터셋 클래스 작성
3. 데이터셋 인스턴스를 활용해서 데이터 로더 할당
4. 딥러닝 모델 작성
5. 순전파 함수를 정의
6. 손실함수 정의
7. 최적화 기법 설정
8. 하이퍼 파라미터를 설정
9. 학습, 검증 시행
10. 테스트 데이터로 추론

## 3.1 선형회귀

In [1]:
import torch
import torch.nn as nn # nn 모듈에는 뉴럴 네트워크를 구성하기 위해 필요한 모든 요소가 구현되어 있다. ex) Linear, Conv, RNN, 활성화함수 등
import torch.nn.functional as F
import torch.optim as optim
import torch.nn.init as init

In [4]:
device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
print(device)

cpu


## 옵티마이저 

In [5]:
optimizer = optim.SGD(model.parameters(), lr=learning_rate)
optimizer = optim.Adam(model.paramters(), lr=learning_rate)
# optimizer를 설정하기 위해서는 모델의 파라미터와, 러닝레이트가 필요하다!!



NameError: name 'model' is not defined

## 손실함수

In [9]:
# 손실함수를 정의
bce_loss = nn.BCELoss()
ce_loss = nn.CrossEntropyLoss()
mse_loss = nn.MSELoss()

In [10]:
# 모델이 있고 예측값이 나왔다고 가정.
y_hat = torch.tensor([1.1, 2.4, 3.1])
y_target = torch.tensor([1, 2, 3])
# 간단한게 로스 함수의 입력에 타깃 데이터와 예측 값을 넣으면 로스가 계산된다.
loss1 = mse_loss(y_hat, y_target)
print(loss1)

tensor(0.0600)


In [12]:
# cross entropy
torch.manual_seed(1)
output = torch.rand([4, 10]) # 2x10 행렬을 생성합니다. 2는 데이터의 수, 10은 클래스의 수
target = torch.LongTensor([1, 9, 2, 3]) # 1과 9는 실제 정답
loss2 = ce_loss(output, target)
print(loss2)

tensor(2.4982)


In [15]:
# binary cross entropy
torch.manual_seed(1)
sigmoid = nn.Sigmoid()
input_ = torch.randn(3)
y_pred = sigmoid(input_)
target = torch.empty(3).random_(2)

loss1 = bce_loss(y_pred, target)
print(input_)
print(y_pred)
print(target)
print(loss1)

tensor([0.6614, 0.2669, 0.0617])
tensor([0.6596, 0.5663, 0.5154])
tensor([1., 0., 0.])
tensor(0.6587)


## 선형회귀

In [58]:
# nn 모듈에는 딥러닝 모델을 구축하기 위해 필요한 모든 요소가 구현되어 있다.
# 우리는 이것들을 잘 갖다쓰기만 하면 된다.

# y = wx + b
linear_model = nn.Linear(1, 1) # 첫번째 인자 : 입력의 차원, 두번째 인자 : 출력의 차원

In [59]:
# 선형회귀 데이터 생성
num_data = 1000
a = torch.Tensor(10, 2) # 대문자 텐서는 모양을 입력받음
print(a)
a = torch.tensor([1, 2, 3, 4])
print(a)
# torch.init
# init 모듈은 가중치나 텐서 데이터들의 분포를 초기화할 때 사용합니다.
x = init.uniform_(torch.Tensor(num_data, 1), -10, 10) # 첫번째 인자 : 텐서 shape, 두번째, 세번째 : 범위
noise = init.normal_(torch.FloatTensor(num_data, 1), std=1) 
y = 2*x + 3 # 실제 모델.
y_noise = y + noise

optimizer = optim.SGD(linear_model.parameters(), lr=0.1)

tensor([[1.0469e-38, 1.0653e-38],
        [1.0194e-38, 2.9389e-39],
        [1.0194e-38, 9.9184e-39],
        [2.9389e-39, 1.0194e-38],
        [2.9389e-39, 9.2755e-39],
        [9.0918e-39, 1.0010e-38],
        [9.9184e-39, 1.0653e-38],
        [9.1837e-39, 9.6428e-39],
        [1.0010e-38, 9.1837e-39],
        [8.9082e-39, 9.2755e-39]])
tensor([1, 2, 3, 4])


In [60]:
print(linear_model.weight)
print(linear_model.bias)
print(linear_model.weight.grad)
print(linear_model.bias.grad)

Parameter containing:
tensor([[-0.3054]], requires_grad=True)
Parameter containing:
tensor([-0.4991], requires_grad=True)
None
None


## 지도학습 모델의 학습 순서  

1) 옵티마이저의 그래디언트를 0으로 만든다.   
2) 데이터를 모델에 넣어서 값을 예측한다.  
3) 정답 데이터와 예측값을 통해 손실함수를 계산한다.  
4) 자동미분함수인 .backward()를 이용해 그래디언트를 계산한다.  
5) 옵티마이저의 step() 함수를 호출한다.  

In [61]:
num_epochs = 1000
target = y_noise
for i in range(num_epochs):
    optimizer.zero_grad() # 1
    y_pred = linear_model(x) # 2
    loss = mse_loss(y_pred, target) # 3
    loss.backward() # 4
    optimizer.step() # 5
    
    if i % 10 == 0:
        print(loss.data)
    

tensor(192.5185)
tensor(1.2783e+17)
tensor(9.1067e+31)
tensor(inf)
tensor(inf)
tensor(inf)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(nan)
tensor(na

In [42]:
print(linear_model.weight)
print(linear_model.bias)
print(linear_model.weight.grad)
print(linear_model.bias.grad)
optimizer.zero_grad()
print(linear_model.weight.grad)
print(linear_model.bias.grad)

Parameter containing:
tensor([[2.0024]], requires_grad=True)
Parameter containing:
tensor([2.5626], requires_grad=True)
tensor([[-0.0028]])
tensor([-1.0385])
tensor([[0.]])
tensor([0.])


## 3.2 다중선형회귀

In [64]:
# 선형회귀 데이터 생성
num_data = 1000

x = init.uniform_(torch.Tensor(num_data, 3), -10, 10) # 첫번째 인자 : 텐서 shape, 두번째, 세번째 : 범위
noise = init.normal_(torch.FloatTensor(num_data, 1), std=1) 
weights = torch.tensor([2., 3., 1.])
y = x.matmul(weights) + -1
y = y.unsqueeze(1)
y_noise = y + noise
print(f"y shape : {y_noise.shape}")



y shape : torch.Size([1000, 1])


$${y = w_1 x_1 + w_2 x_2 + w_3 x_3 + b}$$

In [68]:
# 다중선형회귀 모델 : y = w_1*x_1 + w_2*x_2 + w_3*x_3 + b
multi_model = nn.Linear(3, 1)
optimizer = optim.SGD(multi_model.parameters(), lr=0.01)
loss_func = nn.MSELoss()
target = y_noise

In [69]:
for i in range(num_epochs):
    optimizer.zero_grad() # 1
    y_pred = multi_model(x) # 2
    loss = mse_loss(y_pred, target) # 3
    loss.backward() # 4
    optimizer.step() # 5
    
    if i % 10 == 0:
        print(loss.data)
    

tensor(418.2192)
tensor(1.3588)
tensor(1.2272)
tensor(1.1394)
tensor(1.0807)
tensor(1.0415)
tensor(1.0153)
tensor(0.9978)
tensor(0.9862)
tensor(0.9784)
tensor(0.9731)
tensor(0.9697)
tensor(0.9673)
tensor(0.9658)
tensor(0.9647)
tensor(0.9641)
tensor(0.9636)
tensor(0.9633)
tensor(0.9631)
tensor(0.9629)
tensor(0.9628)
tensor(0.9628)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0.9627)
tensor(0

In [70]:
print(multi_model.weight)
print(multi_model.bias)
print(multi_model.weight.grad)
print(multi_model.bias.grad)
optimizer.zero_grad()
print(multi_model.weight.grad)
print(multi_model.bias.grad)

Parameter containing:
tensor([[2.0000, 3.0048, 1.0018]], requires_grad=True)
Parameter containing:
tensor([-0.9799], requires_grad=True)
tensor([[ 8.9372e-06,  6.0501e-06, -1.7341e-06]])
tensor([2.7530e-06])
tensor([[0., 0., 0.]])
tensor([0.])


# 퀴즈 (Easy)  
1) 하이퍼파라미터를 조정해서 모델의 가중치와 편향이 정답에 가깝도록 학습시켜보세요

## 3.3 로지스틱 회귀

In [71]:
x_data = [[0, 2], [1, 2], [3, 1], [4, 3], [5, 3], [6, 2]]
y_data = [[0], [0], [0], [1], [1], [1]]
x_train = torch.FloatTensor(x_data)
y_train = torch.FloatTensor(y_data)

In [77]:
linear_model = nn.Linear(2, 1)
sigmoid = nn.Sigmoid()
optimizer = optim.Adam(linear_model.parameters(), lr=0.001)

In [78]:
# 학습
num_epochs = 1000
for i in range(num_epochs):
    optimizer.zero_grad() # 1
    y_pred = sigmoid(linear_model(x_train)) # 2
    loss = bce_loss(y_pred, y_train) # 3
    loss.backward() # 4
    optimizer.step() # 5
    
    if i % 10 == 0:
        print(loss.data)

tensor(0.9818)
tensor(0.9669)
tensor(0.9522)
tensor(0.9380)
tensor(0.9242)
tensor(0.9109)
tensor(0.8980)
tensor(0.8857)
tensor(0.8738)
tensor(0.8625)
tensor(0.8518)
tensor(0.8416)
tensor(0.8319)
tensor(0.8228)
tensor(0.8142)
tensor(0.8061)
tensor(0.7984)
tensor(0.7913)
tensor(0.7846)
tensor(0.7782)
tensor(0.7723)
tensor(0.7666)
tensor(0.7613)
tensor(0.7562)
tensor(0.7513)
tensor(0.7466)
tensor(0.7421)
tensor(0.7377)
tensor(0.7334)
tensor(0.7292)
tensor(0.7250)
tensor(0.7209)
tensor(0.7169)
tensor(0.7129)
tensor(0.7090)
tensor(0.7050)
tensor(0.7011)
tensor(0.6973)
tensor(0.6934)
tensor(0.6896)
tensor(0.6858)
tensor(0.6820)
tensor(0.6782)
tensor(0.6745)
tensor(0.6708)
tensor(0.6671)
tensor(0.6635)
tensor(0.6598)
tensor(0.6563)
tensor(0.6527)
tensor(0.6492)
tensor(0.6456)
tensor(0.6422)
tensor(0.6387)
tensor(0.6353)
tensor(0.6319)
tensor(0.6286)
tensor(0.6253)
tensor(0.6220)
tensor(0.6188)
tensor(0.6156)
tensor(0.6124)
tensor(0.6092)
tensor(0.6061)
tensor(0.6031)
tensor(0.6000)
tensor(0.5

In [76]:
print(linear_model.weight)
print(linear_model.bias)
print(linear_model.weight.grad)
print(linear_model.bias.grad)
optimizer.zero_grad()
print(linear_model.weight.grad)
print(linear_model.bias.grad)

Parameter containing:
tensor([[0.2931, 0.0539]], requires_grad=True)
Parameter containing:
tensor([-0.3991], requires_grad=True)
tensor([[-0.1656,  0.0978]])
tensor([0.1438])
tensor([[0., 0.]])
tensor([0.])


## 3.4 클래스를 통한 회귀 모델 구현

In [None]:
class LinearRegression(nn.Module):
    def __init__(self):
        # 부모클래스인 nn.Module의 생성자를 먼저 호출한다.
        super(LinearRegression, self).__init__()
        self.linear_layer = nn.Linear(1, 1)
        
    def forward(self, x):
        # 순전파 함수 : 입력값 x를 생성자에 정의된 레이어에 넣어서 값을 예측한다.
        return self.linear_layer(x)
    

class MultiRegression(nn.Module):
    def __init__(self):
        super(MultiRegression, self).__init__()
        self.multi_layer = nn.Linear(3, 1)
        
    def forward(self, x):
        return self.multi_layer(x)
    

## 퀴즈 (Normal)  
위 세 가지 모델을 구현했으면 또 반복문을 통해 학습시켜야 합니다.  
이는 귀찮은 과정이니 함수 형태로 만들어서 코드의 반복을 줄여봅시다.  
텐서플로우에서 사용했던 fit 함수를 직접 만들어봅시다.  
fit() 함수는 model, optimizer, loss_func, x_train, y_train, epochs를 입력으로 받습니다.  
위에서 수행한 반복문을 함수형태로 만들어서 세 가지 회귀모델에 적용할 것입니다.  

In [None]:
def fit():
    pass

## Softmax 회귀  
https://wikidocs.net/60575