#### [ 미니 테스트 2024-03-14 ]<hr>


[1] 지도학습에 대한 설명과 종류에 대해서 간략하게 설명해 주세요.


> -   문제(feature)와 답(target)이 주어진 상태로 데이터로부터 가중치를 학습시켜 새로운 입력에 대해 정확한 답을 낼 수 있는 모델을 만드는 것
> -   회귀 : 연속적인 결과에 대해 값을 예측하는 것
> -   분류 : 입력한 데이터가 속한 범주를 예측하는 것


[2] 지도학습의 학습 프로세스를 간략하게 설명해 주세요.


> -   데이터 준비
>     -   데이터 분석
>     -   데이터 전처리
> -   모델 선택
>     -   타겟의 분류에 따라 회귀/분류 및 적합한 모델 탐색
> -   모델 학습
>     -   준비한 데이터셋으로 모델을 학습시켜 출력과 정답간의 오차를 산출
>     -   오차를 역전파하여 모델의 가중치를 업데이트
>     -   위 과정을 반복하여 오차가 최소화되는 가중치를 학습
> -   모델 평가
>     -   별도의 평가용 데이터셋으로 모델의 성능을 평가
>     -   모델에 따른 성능 지표 사용(회귀 : R2, MAE 등, 분류 : 정확도, F1 등)
> -   모델 상용화
>     -   평가 결과가 만족스러운 모델을 실제로 서비스


[3] 선형회귀 대해 간략하게 설명해주세요.

-   개념
-   조건
-   동작원리
-   선형식
-   오차/잔차 계산 방법


> -   개념 :
>     -   입력(Feature)과 출력(Target) 사이의 선형 관계를 모델링하는 알고리즘
> -   조건 :
>     -   입력(Feature)과 출력(Target) 사이에 선형 관계가 성립해야 함
> -   동작원리 :
>     -   손실 함수를 사용해 데이터와 직선 사이의 오차가 최소화되는 지점을 찾음
> -   선형식 :
>     -   y = x1 _ w1 + x2 _ w2 + ... + xn \* wn + b (w: 가중치, b: 바이어스)
> -   오차/잔차 계산 방법 :
>     -   손실 함수를 사용해 데이터와 예측 값 사이의 오차(예 : MAE, MSE 등)를 계산하여 최적화 수행


[4] 로지스틱회귀 대해 간략하게 설명해주세요.

-   개념
-   조건
-   동작원리
-   선형식
-   오차/잔차 계산 방법


> -   개념 :
>     -   시그모이드 함수를 사용해 이진분류를 수행하는 알고리즘
> -   조건 :
>     -   출력(Target)이 범주형 데이터
> -   동작원리 :
>     -   시그모이드 함수를 통해 선형 방정식의 출력을 0과 1 사이의 값으로 변환하여 확률적으로 더 가까운 분류로 예츨
> -   선형식 :
>     -   z = x1 _ w1 + x2 _ w2 + ... + xn \* wn + b (w: 가중치, b: 바이어스)
>     -   P(X) = exp(z)/(1+exp(z)) (P(X) : 출력 확률, exp(z) : 지수 함수)
> -   오차/잔차 계산 방법 :
>     -   binary_cross_entropy 함수 사용


[5] Fashion MNIST 데이터셋에서 10개 카테고리 중 하나를 선택해서 2진 분류로 구현해 주세요.

-   데이터셋 : scikit-learn의 datasets 사용
    -   from sklearn.datasets import fetch_openml
    -   db_name = 'Fashion-MNIST'
    -   fashion_data = fetch_openml(name=db_name, parser='auto')


In [1]:
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from sklearn.datasets import fetch_openml


In [2]:
db_name = "Fashion-MNIST"
fashion_data = fetch_openml(name=db_name, parser="auto", as_frame=False)


In [3]:
X, y = fashion_data.data, fashion_data.target
X.shape, X.dtype, y.shape, y.dtype


((70000, 784), dtype('int64'), (70000,), dtype('O'))

In [4]:
y = y.astype(np.uint8)


In [5]:
X_train = torch.FloatTensor(X[:60000])
y_train = (torch.ByteTensor(y[:60000]) == 5).float().unsqueeze(1)
X_test = torch.FloatTensor(X[60000:])
y_test = (torch.ByteTensor(y[60000:]) == 5).float().unsqueeze(1)

X_train.shape, X_train.dtype, y_train.shape, y_train.dtype, X_test.shape, X_test.dtype, y_test.shape, y_test.dtype


(torch.Size([60000, 784]),
 torch.float32,
 torch.Size([60000, 1]),
 torch.float32,
 torch.Size([10000, 784]),
 torch.float32,
 torch.Size([10000, 1]),
 torch.float32)

In [6]:
scaled_X_train = X_train / 255.0
scaled_X_test = X_test / 255.0


In [7]:
model = nn.Sequential(nn.Linear(784, 1), nn.Sigmoid())
optimizer = optim.SGD(model.parameters(), lr=0.1)


In [8]:
nb_epochs = 10000
for epoch in range(nb_epochs + 1):
    hypothesis = model(scaled_X_train)

    cost = F.binary_cross_entropy(hypothesis, y_train)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    if epoch % 100 == 0:
        prediction = hypothesis > torch.FloatTensor([0.5])
        correct_prediction = prediction.float() == y_train
        accuracy = correct_prediction.sum().item() / len(correct_prediction)

        print(
            f"Epoch : {epoch:4d}/{nb_epochs} Cost : {cost.item():.6f} Accuracy : {accuracy:.6f}"
        )


Epoch :    0/10000 Cost : 0.646285 Accuracy : 0.733250
Epoch :  100/10000 Cost : 0.136824 Accuracy : 0.940550
Epoch :  200/10000 Cost : 0.115803 Accuracy : 0.955217
Epoch :  300/10000 Cost : 0.103817 Accuracy : 0.961783
Epoch :  400/10000 Cost : 0.095751 Accuracy : 0.965633
Epoch :  500/10000 Cost : 0.089842 Accuracy : 0.968733
Epoch :  600/10000 Cost : 0.085280 Accuracy : 0.971050
Epoch :  700/10000 Cost : 0.081628 Accuracy : 0.972783
Epoch :  800/10000 Cost : 0.078626 Accuracy : 0.974033
Epoch :  900/10000 Cost : 0.076105 Accuracy : 0.975300
Epoch : 1000/10000 Cost : 0.073952 Accuracy : 0.976117
Epoch : 1100/10000 Cost : 0.072087 Accuracy : 0.976783
Epoch : 1200/10000 Cost : 0.070454 Accuracy : 0.977300
Epoch : 1300/10000 Cost : 0.069008 Accuracy : 0.977717
Epoch : 1400/10000 Cost : 0.067718 Accuracy : 0.978200
Epoch : 1500/10000 Cost : 0.066558 Accuracy : 0.978633
Epoch : 1600/10000 Cost : 0.065507 Accuracy : 0.978867
Epoch : 1700/10000 Cost : 0.064550 Accuracy : 0.979200
Epoch : 18

In [9]:
pre_y = (model(scaled_X_test) > torch.FloatTensor([0.5])).float()
pre_y


tensor([[0.],
        [0.],
        [0.],
        ...,
        [0.],
        [0.],
        [1.]])

In [10]:
accuracy_test = (pre_y == y_test).sum().item() / len(y_test)
accuracy_test


0.9832