In [1]:
# INIT
import torch
import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from huggingface_hub import login
login("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")

def get_device():
    if torch.cuda.is_available():
        return torch.device("cuda")
    elif torch.backends.mps.is_built():
        return torch.device("mps")
    else:
        return torch.device("cpu")

DEVICE = get_device()

print(f"디바이스: {DEVICE}")

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /Users/asanobm/.cache/huggingface/token
Login successful
디바이스: mps


# 파이토치 기초

## 텐서(Tensor)

파이토치는 텐서(Tensor)를 사용하여 모델의 입력과 출력, 그리고 모델의 매개변수를 부호화(encode)한다. 텐서는 NumPy의 ndarray와 유사하며, GPU를 사용한 연산 가속도 가능하다.

### 텐서 초기화하기
```python
import torch

tensor = torch.rand(2, 3)
print(tensor)
```

In [2]:
tensor = torch.Tensor([1, 2, 3, 4])
print(tensor)
# 텐서의 속성
print(f"텐서의 타입: {tensor.type()}")
print(f"텐서의 크기: {tensor.shape}")
print(f"텐서의 디바이스: {tensor.device}")
print(f"텐서의 레이아웃: {tensor.layout}")

tensor([1., 2., 3., 4.])
텐서의 타입: torch.FloatTensor
텐서의 크기: torch.Size([4])
텐서의 디바이스: cpu
텐서의 레이아웃: torch.strided


In [3]:
# change device
tensor.cpu().to(DEVICE)

tensor([1., 2., 3., 4.], device='mps:0')

## 가설

가설(Hypothesis)이란 어떤 사실을 설명하거나 증명하기 위한 가정으로 두개 이상의 변수 관계를 검증 가능한 형태로 기술하여 변수 간의 관계를 예측하는 것을 의미한다.

> page 55

가설은
연구가설(Research Hypothesis)과 대립가설(Alternative Hypothesis), 그리고 귀무가설(Null Hypothesis)로 구분된다.

* 연구가설은 연구자가 연구를 통해 증명하고자 하는 가설이다. 연구가설은 연구자가 연구를 통해 증명하고자 하는 가설이다.
* 귀무가설은 통계학에서 처음부터 버릴 것으로 예상되는 가설이다.
* 대립가설은 귀무가설의 반대 가설이다.

## 머신러닝에서 가설

머신러닝에서 가설은 독립변수(X)와 종속변수(Y)의 관계를 예측하는 함수이다.

* 가설은 **단일 가설(Single Hypohesis)**과 **가설 집합(Hypothesis Set)**으로 표현할 수 있다.
* 단일 가설은 입력을 출력에 매핑하고 평가하고 예측하는데 사용한다.
* 가설 집합은 모델이 학습하는 동안 단일 가설을 변경하고 평가하는데 사용한다.

## 통계적 가설 검정

대표적인 통계적 가설은 다음과 같다.

* t-검정(t-test)은 두 집단의 평균이 유의미한지를 검정하는 방법이다. t-검정은 두 집단의 평균이 유의미한지를 검정하는 방법이다.
* 쌍체t-검정(Paired t-test)은 두 집단의 평균이 유의미한지를 검정하는 방법이다.
* 비쌍체t-검정(Unpaired t-test)은 두 집단의 평균이 유의미한지를 검정하는 방법이다.


머신러닝의 통계적 가설을 적용한다면 비쌍체t-검정을 사용해야 한다. 독립 변수(X)와 종속 변수(Y)의 관계를 예측하는 함수를 찾기 위해 머신러닝 모델을 학습시키는데, 
이때 학습 데이터와 검증 데이터를 나누어 학습 데이터로 학습을 하고 검증 데이터로 검증을 한다. 이때 학습 데이터와 검증 데이터는 서로 다른 데이터이므로 비쌍체t-검정을 사용해야 한다.

### 사람의 키(cm)가 설병과 관련 있는지 검증하기

In [4]:
import seaborn as sns
from scipy import stats

man_height = stats.norm.rvs(loc=170, scale=10, size=500, random_state=1)
woman_height = stats.norm.rvs(loc=150, scale=10, size=500, random_state=1)

X=np.concatenate([man_height, woman_height])
Y=['man'] * len(man_height) + ['woman'] * len(woman_height)

df = pd.DataFrame(list(zip(X,Y)), columns=["X", "Y"])
fig = sns.displot(data=df, x="X", hue="Y", kind="kde")
fig.set_axis_labels("cm", "count")
plt.show()

ModuleNotFoundError: No module named 'seaborn'

stats.norm.rvs는 특정 평균(loc)과 표준편차(scale)를 가지는 정규분포에서 무작위 표본을 추출한다.

비쌍체 검정을 확인

In [None]:
statistic, pvalue = stats.ttest_ind(man_height, woman_height, equal_var=True)

print(f"statistic: {statistic}")    
print(f"pvalue: {pvalue}")
print(f"*: {pvalue < 0.05}")
print(f"**: {pvalue < 0.01}")

statistic: 31.96162891312776
pvalue: 6.2285854381989205e-155
*: True
**: True


성별 차이에 대한 유의미성을 판단하기 위해 통계량(statistic)또는 유의확률(p-value)을 확인, 토계량이 크고 유의확률이 작다면 귀무가설이 참일 확률이 낮다고 할 수 있다.

즉 "남녀 키의 평균이 서로 같다"의 확률이 낮다

## 손실함수

손실 함수(Loss Function)는 실제값과 예측값의 차이를 계산하는 함수이다.
실제값과 예측값을 통해 계산된 오차값을 최소화해 정확도를 높이는 방법으로 학습이 진행된다. 손실함수는 목적함수(Objective Function), 비용함수(Cost Function), 라고도 한다.

* 목적함수: 함수값의 결과를 최대값 또는 최소값으로 최적화하는 함수이다.
* 비용함수: 전체 데이터에 대한 오차를 계산하는 함수이다.

$손실함수 \subset 목적함수 \subset 비용함수$의 포함관계를 가진다.

### 제곱 오차(Squared Error)

평균 제곱오차(Mean Squared Error, MSE)는 실제값과 예측값의 차이를 제곱하여 평균한 것이다. 제곱 오차는 회귀 문제를 풀 때 자주 사용되는 손실 함수이다.

제곱 오차 계산 방식: $SE = (Y_{i}-\hat{Y_{i}})^{2}$

제곱 오차에서는 실제값과 예측값을 감산한 값에 제곰을 취하는데, 만약 제곱을 취하지 않으면 오차가 양의 방향인지 음의 방향인지 알 수 있다. 하지만 오차에서는 오차의 방향보다 오차의 크기에 초점을 두기 때문에 제곱을 취하여 오차가 항상 양수가 되도록 한다.

제곱이 아닌 절댓값을 취해 오차의 크기를 확인할 수도 있다. 하지만 오차의 간극을 더 크게 인식하게 되므로 제곱 오차를 사용한다.

### 오차 제곱합

오차 제곱합(Sum of Squared Error, SSE)은 오차를 모두 더한 값을 의미한다. 제곰 오차는 각 데이터의 오차를 의미하므로 가설 또는 모델 자체가 얼마나 정확한지를 평가하는 척도로 사용된다. 오차 제곱합은 제곱 오차를 모두 더한 값이므로 제곱 오차보다 더 큰 값을 가진다.

오차 제곱합 계산 방식: $SSE = \sum_{i=1}^{n}(Y_{i}-\hat{Y_{i}})^{2}$

오차 제곱합에서 오찻값들을 제곱하지 안혹 모두 더하면 음수가 나오는 오류가 발생할 수 있다. 따라서 오차 제곱합에서는 오차를 제곱한 후 모두 더한다.

### 평균 제곱 오차

평균 제곱 오차(Mean Squared Error, MSE)는 제곱 오차를 데이터의 개수로 나눈 것이다. 평균 제곱 오차는 제곱 오차와 오차 제곱합의 크기를 줄이는 역할을 한다.

평균 제곱 오차 계산 방식: $MSE = \frac{1}{n}\sum_{i=1}^{n}(Y_{i}-\hat{Y_{i}})^{2}$

### 교차 엔트로피

교차 엔트로피(Cross Entropy)는 분류 문제에서 사용되는 손실 함수이다. 교차 엔트로피는 실제값이 1일 때의 예측값의 자연로그를 계산한다. 교차 엔트로피는 실제값이 1일 때의 예측값이 1일수록 오차가 작아지고, 실제값이 0일 때의 예측값이 0일수록 오차가 작아진다.

교차 엔트로피 계산 방식: $CE = -\sum_{i=1}^{n}y_{i}log(\hat{y_{i}})$

## 최적화

최적화(Optimization)란 목적 함수의 결괏값을 최적화하는 변수를 찾는 알고리즘이다. 손실 함수에서 인공 신경망은 오찻값을 최소화하여 학습 데이터에 대한 가설의 정확도를 높이는 방법으로 학습이 진행된다. 머신러닝은 손실 함수를 활용해 최적의 해법이나 변수를 찾는 것이다.

* 손실 함수의 값이 최소가 되는 변수를 찾는다면 새로운 데이터에 대해 더 정교한 예측을 할 수 있다.
* 최적화 알고리즘은 실젯값과 예측값의 차이를 계산해 오차를 최소로 줄일 수 있는 가중치와 편향을 계산한다.

최적의 가중치와 편향을 갖는 가설은 오찻값이 0에 가까운 함수가 된다.(도함수의 변화량이 0에 가깝다는 뜻)

### 경사 하강법

경사 하강법(Gradient Descent)은 최적화 알고리즘 중 하나이다. 경사 하강법은 함수의 기울기가 낮은 곳으로 계속 이동시켜 극값에 도달할 때 까지 반복시키는 방법이다.

$$\displaystyle \mathbf {x} _{i+1}=\mathbf {x} _{i}-\gamma _{i}\nabla f(\mathbf {x} _{i})$$

경사 하강법을 포함한 최적화 함수는 초기값$\mathbf {x} _{0}$을 설정하고, 초기값에서의 기울기$\nabla f(\mathbf {x} _{0})$를 계산한다. 그리고 기울기가 낮은 방향으로 이동시키는데, 이때 이동하는 거리를 학습률(learning rate)이라고 한다. 학습률은 0과 1 사이의 값으로 설정하며, 학습률이 너무 작으면 최소값에 도달하는 시간이 오래 걸리고, 학습률이 너무 크면 최소값을 찾지 못하고 발산한다.

### 가중치 갱신 방법
가설은$\hat{Y} = W_{i}*x+b_{i}$로 하고, 손실 함수는 평균 제곱 오차를 적용

$$
\hat{Y}_{i} = W_{i}x+b_{i} \\
MSE(W,b) = {1 \over n}\sum_{i=1}^{n}(Y_{i}-\hat{Y_{i}})^{2}
$$

가중치의 기울기를 확인하기 위해W에 대해 편미분한다.

$$
W_{i+1} = W_{i} - \alpha \frac{\partial}{\partial W} \frac{1}{n} \sum_{i=1}^{n}(Y_{i}-\hat{Y_{i}})^{2} \\
        = W_{i} - \alpha \frac{\partial}{\partial W} \frac{1}{n} \sum_{i=1}^{n}[\frac{1}{n}\{Y_{i}-(W_{i}x_b)\}^2] \\
        = W_{i} - \alpha \frac{2}{n} \sum_{i=1}^{n}[Y_{i}-(W_{i}x+b_{i})(-x)] \\
        = W_{i} - \alpha \frac{2}{n} \sum(Y_{i}-\hat{Y_{i}})(-x) \\
        = W_{i} + \alpha \frac{2}{n} \sum(Y_{i}-\hat{Y_{i}})x \\
        = W_{i} + \alpha 2E[(\hat{Y_{i}}-Y_{i})x]
$$

일반 계산
$$
W_{i+1} = W_{i} - \alpha E[(\hat{Y_{i}}-Y_{i})x]
$$

경사 하강법을 적용한 새로운 가중치 수식은$W_{i+1} = W_{i} - \alpha E[(\hat{Y_{i}}-Y_{i})x]$이다. 이때 가중치의 기울기는$E[(\hat{Y_{i}}-Y_{i})x]$이다. 가중치의 기울기는 가중치가 증가할 때 손실 함수가 증가하는지 감소하는지를 나타낸다. 가중치의 기울기가 양수이면 가중치가 증가할 때 손실 함수가 증가하므로 가중치를 감소시켜야 한다. 가중치의 기울기가 음수이면 가중치가 증가할 때 손실 함수가 감소하므로 가중치를 증가시켜야 한다.

## 학습률

머신러닝에서 $\alpha$는 학습률(learning rate)이다. 초깃값($W_{0}$)을 임의의 값으로 설정하듯 합습률($\alpha$)도 임의의 값으로 설정한다. 학습률에 따라 다음 가중치($W_{1}W_{2}W_{3}...$)가 결정된다. 


## 최적화 문제

최솟값, 극솟값이 존재하는 데이터에서 기울기가 0이되는 극값은 최댓값, 최솟값, 극댓값, 극솟값으로 구분할 수 있다. 시작점 또는 학습률이 낮으면 최솟값을 찾지 못하고 극솟값에 도달할 수 있다. 또한 안장점(saddle point)이라는 기울기가 0이 되는 지점이 존재한다. 안장점은 기울기가 0이지만 극댓값도 극솟값도 아닌 지점이다.

최적화 알고리즘은 경사 하강법처럼 목적 함수가 최적의 값을 찾아갈 수 있도록 도와주는 알고리즘이다. 최적화 알고리즘은 경사 하강법 외에도 다양한 알고리즘이 존재한다.

* 확률적 경사 하강법(Stochastic Gradient Descent, SGD)
* 모멘텀(Momentum)
* 아다그라드(Adagrad)
* 알엠에스프롭(RMSprop)
* 아담(Adam)

## 단순 선형 회귀



In [5]:
import numpy as np
x = np.array([
    [1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30],
])

y = np.array([
    [0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.6], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8],
])

# 초기화
w = 0.0 # 가중치
b = 0.0 # 편향
lr=0.005 # 학습률

def forward(w, b, lr):
    for epoch in range(10000):
        y_pred = w * x + b
        loss = ((y - y_pred) ** 2).mean()
        
        w = w - lr * ((y_pred - y) * x).mean()
        b = b - lr * (y_pred - y).mean()
        
        if (epoch+1) % 1000 == 0:
            print(f"Epoch: :{epoch+1:4d}, w: {w:.3f}, b: {b:.3f}, loss: {loss:.3f}")

forward(w, b, lr)


Epoch: :1000, w: 0.872, b: -0.277, loss: 1.362
Epoch: :2000, w: 0.876, b: -0.374, loss: 1.358
Epoch: :3000, w: 0.878, b: -0.404, loss: 1.358
Epoch: :4000, w: 0.878, b: -0.413, loss: 1.358
Epoch: :5000, w: 0.879, b: -0.415, loss: 1.358
Epoch: :6000, w: 0.879, b: -0.416, loss: 1.358
Epoch: :7000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :8000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :9000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :10000, w: 0.879, b: -0.417, loss: 1.358


In [6]:
w = 0.0
b = 0.0
lr=0.001
forward(w, b, lr)

Epoch: :1000, w: 0.861, b: -0.055, loss: 1.389
Epoch: :2000, w: 0.865, b: -0.131, loss: 1.377
Epoch: :3000, w: 0.868, b: -0.191, loss: 1.370
Epoch: :4000, w: 0.870, b: -0.239, loss: 1.365
Epoch: :5000, w: 0.872, b: -0.277, loss: 1.362
Epoch: :6000, w: 0.873, b: -0.306, loss: 1.361
Epoch: :7000, w: 0.874, b: -0.329, loss: 1.359
Epoch: :8000, w: 0.875, b: -0.348, loss: 1.359
Epoch: :9000, w: 0.876, b: -0.362, loss: 1.358
Epoch: :10000, w: 0.876, b: -0.374, loss: 1.358


In [7]:
w = 0.0
b = 0.0
lr=0.006
forward(w, b, lr)

Epoch: :1000, w: 0.873, b: -0.306, loss: 1.361
Epoch: :2000, w: 0.877, b: -0.390, loss: 1.358
Epoch: :3000, w: 0.878, b: -0.410, loss: 1.358
Epoch: :4000, w: 0.879, b: -0.415, loss: 1.358
Epoch: :5000, w: 0.879, b: -0.416, loss: 1.358
Epoch: :6000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :7000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :8000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :9000, w: 0.879, b: -0.417, loss: 1.358
Epoch: :10000, w: 0.879, b: -0.417, loss: 1.358


## 단순 선형 회귀: 파이토치

In [8]:
import torch
from torch import optim

In [9]:
x = torch.FloatTensor(x)
y = torch.FloatTensor(y)

x.shape, y.shape

(torch.Size([30, 1]), torch.Size([30, 1]))

In [10]:
w = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)
lr=0.001

optimizer = optim.SGD([w, b], lr=lr)

for epoch in range(10000):
    y_pred = w * x + b
    loss = ((y - y_pred) ** 2).mean()
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (epoch+1) % 1000 == 0:
        print(f"Epoch: :{epoch+1:4d}, w: {w.item():.3f}, b: {b.item():.3f}, loss: {loss.item():.3f}")

Epoch: :1000, w: 0.865, b: -0.131, loss: 1.377
Epoch: :2000, w: 0.870, b: -0.239, loss: 1.365
Epoch: :3000, w: 0.873, b: -0.306, loss: 1.361
Epoch: :4000, w: 0.875, b: -0.348, loss: 1.359
Epoch: :5000, w: 0.876, b: -0.374, loss: 1.358
Epoch: :6000, w: 0.877, b: -0.390, loss: 1.358
Epoch: :7000, w: 0.878, b: -0.400, loss: 1.358
Epoch: :8000, w: 0.878, b: -0.406, loss: 1.358
Epoch: :9000, w: 0.878, b: -0.410, loss: 1.358
Epoch: :10000, w: 0.878, b: -0.413, loss: 1.358


가중치와 편향이 넘파이 방식과 동일하다(?) 학습률을 0.001로 기존 경사 하강법보다 낮은 학습률을 선택했지만, 확률적 경사 하강법을 활용해 더 빠른 속도로 최적의 가중치와 편향을 찾는다.

**zero_grad()**: 기울기를 0으로 초기화한다. 기울기가 누적되지 않도록 반복할 때마다 기울기를 0으로 초기화한다.
**backward()**: 기울기를 계산한다. 기울기를 계산한 후에는 가중치와 편향을 갱신한다.