## PyTorch Workflow

Let's explore an example PyTorch end-to-end workflow

Resources :
- Ground truth notebook : https://github.com/mrdbourke/pytorch-deep-learning/blob/main/01_pytorch_workflow.ipynb
- Book version of notebook : https://www.learnpytorch.io/01_pytorch_workflow/
- Ask a Question : https://github.com/mrdbourke/pytorch-deep-learning/discussions


In [1]:
what_were_covering = { 1 : "data(prepare and load)",
                       2 : "build model",
                       3 : "fitting the model to data(training)",
                       4 : "making predictions and evaluting a model (inference)",
                       5 : "saving and loading a model",
                       6 : "putting it all together"}
what_were_covering

{1: 'data(prepare and load)',
 2: 'build model',
 3: 'fitting the model to data(training)',
 4: 'making predictions and evaluting a model (inference)',
 5: 'saving and loading a model',
 6: 'putting it all together'}

In [2]:
import torch
from torch import nn # nn contains all of PyTorch's building blocks for neural networks
import matplotlib.pyplot as plt

# Check PyTorch version
torch.__version__


'2.4.0'

## Preparing and loading data

Data can be almost anything in machine learning

* excel spreadsheet
* images of any kind
* videos (YouTube has lots of data)
* audio like songs or podcasts
* DNA
* Text

Machine learning is a game of two parts :

1. 데이터를 숫자 표현으로 변환
2. 해당 숫자 표현으로 패턴을 학습하는 모델을 구축

- Linear Regression(선형 회귀) 
    - 선형 회귀는 가장 단순한 지도 학습(Supervised Learning) 알고리즘 중 하나이다. 
    - 주어진 데이터를 기반으로 독립 변수  X 와 종속 변수  y  사이의 선형 관계를 찾는 모델




In [1]:
import torch

# 1. 가중치와 편향 설정
weight = 0.7  # b
bias = 0.3    # a

# 2. 데이터 생성 (입력값 X)
start = 0
end = 1
step = 0.02
X = torch.arange(start, end, step).unsqueeze(dim=1)
y= weight * X + bias

# 3. 출력값 Y 계산
y = weight * X + bias  # 선형 회귀 공식 적용

# 4. 데이터 확인
print("X:", X[:10])  # X의 처음 10개 값
print("y:", y[:10])  # y의 처음 10개 값
print("X 길이:", len(X))
print("y 길이:", len(y))

X: tensor([[0.0000],
        [0.0200],
        [0.0400],
        [0.0600],
        [0.0800],
        [0.1000],
        [0.1200],
        [0.1400],
        [0.1600],
        [0.1800]])
y: tensor([[0.3000],
        [0.3140],
        [0.3280],
        [0.3420],
        [0.3560],
        [0.3700],
        [0.3840],
        [0.3980],
        [0.4120],
        [0.4260]])
X 길이: 50
y 길이: 50


### Splitting data into training and testing data sets (One of the most important concepts and machine learning)
데이터를 훈련 세트와 테스트 세트로 분할하는 것은 가장 중요한 개념 중 하나이다.

- Three datasets : 데이터를 세 가지 데이터 세트로 분할
    - Training set : 모델을 학습하는 데 사용되는 데이터 (60-80%)
    - Validation set : 모델을 평가하는 데 사용되는 데이터 (10-20%)
    - Test set : 모델을 평가하는 데 사용되는 데이터 (10-20%)



In [3]:
# Create a train/test split
train_split = int(0.8 * len(X))
X_train, y_train = X[:train_split], y[:train_split] # 훈련 세트로 분할
X_test, y_test = X[train_split:], y[train_split:] # 테스트 세트로 분할

len(X_train), len(y_train), len(X_test), len(y_test) # 훈련 세트와 테스트 세트의 길이 출력


(40, 40, 10, 10)

In [4]:
X_train, y_train

(tensor([[0.0000],
         [0.0200],
         [0.0400],
         [0.0600],
         [0.0800],
         [0.1000],
         [0.1200],
         [0.1400],
         [0.1600],
         [0.1800],
         [0.2000],
         [0.2200],
         [0.2400],
         [0.2600],
         [0.2800],
         [0.3000],
         [0.3200],
         [0.3400],
         [0.3600],
         [0.3800],
         [0.4000],
         [0.4200],
         [0.4400],
         [0.4600],
         [0.4800],
         [0.5000],
         [0.5200],
         [0.5400],
         [0.5600],
         [0.5800],
         [0.6000],
         [0.6200],
         [0.6400],
         [0.6600],
         [0.6800],
         [0.7000],
         [0.7200],
         [0.7400],
         [0.7600],
         [0.7800]]),
 tensor([[0.3000],
         [0.3140],
         [0.3280],
         [0.3420],
         [0.3560],
         [0.3700],
         [0.3840],
         [0.3980],
         [0.4120],
         [0.4260],
         [0.4400],
         [0.4540],
         [

데이터를 어떻게 하면 더 잘 시각화할 수있을까?
그리고 이것이 데이터 탐색기의 모토가 등장하는 곳이다

Visualize !

In [5]:
def plot_predictions(train_data=X_train,
                     train_labels = y_train,
                     test_data = X_test,
                     test_labels = y_test,
                     predictions = None):
    "데이터를 테스트하고 예측하고, 비교"
    plt.figure(figsize=(10,7))

    # plot training data in blue
    plt.scatter(train_data, train_labels, c="b", s = 4, label="Training data")

    # plot test data in green
    plt.scatter(test_data, test_labels, c="g", s = 4, label="Testing data")

    # Are there predictions?
    if predictions is not None:
        # plot the predictions in red if they exist
        plt.scatter(test_data, predictions, c="r", s = 4, label="Predictions")

    # Show the legend
    plt.legend(prop={"size": 14})
