### 머신러닝 함수 구현 실습: train_test_split, accuracy, one_hot_encode


머신러닝 실습에서 자주 사용되는 유틸리티 함수들을 **직접 구현해보는 실습**


총 3개의 함수 작성 훈련을 통해 데이터 분할, 평가, 인코딩 기초를 다지기.
## 아래 코드를 설명하는 것이 필요 


### 실습용 데이터

```python
# 입력 데이터 (이름, 점수, 레이블)
data = [
    ("홍길동", 85, 1),
    ("김유신", 72, 1),
    ("이순신", 60, 1),
    ("강감찬", 45, 0),
    ("유관순", 92, 1),
    ("안중근", 55, 0),
    ("윤봉길", 78, 1),
    ("신사임당", 33, 0),
    ("장보고", 67, 1),
    ("이황", 49, 0)
]

labels = [1, 1, 1, 0, 1, 0, 1, 0, 1, 0] # 통과 불합격 판별 기준: 60점 
```


In [1]:
data = [
    ("홍길동", 85, 1),
    ("김유신", 72, 1),
    ("이순신", 60, 1),
    ("강감찬", 45, 0),
    ("유관순", 92, 1),
    ("안중근", 55, 0),
    ("윤봉길", 78, 1),
    ("신사임당", 33, 0),
    ("장보고", 67, 1),
    ("이황", 49, 0)
]

labels = [1, 1, 1, 0, 1, 0, 1, 0, 1, 0]


### 실습 1: train_test_split 함수 구현

데이터를 주어진 비율로 섞어서 학습/테스트 데이터로 나누는 함수를 작성하기.


In [12]:
import random
import numpy as np
from sklearn.linear_model import LinearRegression

# 사용자 정의 train_test_split 함수
def train_test_split(data, ratio=0.8): #80% 학습용 20%테스트용 분할
    shuffled = data[:]             # 데이터 복사
    random.shuffle(shuffled)       # 무작위 섞기
    n = int(len(shuffled) * ratio) #학습 데이터 개수 계산
    return shuffled[:n], shuffled[n:] #학습, 테스트 데이터 나누기

# 점수와 라벨만 추출하여 새로운 데이터 생성
score_label_data = [(score, label) for _, score, label in data]

# 학습/테스트 분할
train_data, test_data = train_test_split(score_label_data, ratio=0.8)

# X(입력)와 y(출력) 분리 + 2차원으로 변환
X_train = np.array([[score] for score, _ in train_data])
y_train = np.array([label for _, label in train_data])
X_test = np.array([[score] for score, _ in test_data])
y_test = np.array([label for _, label in test_data])

# 선형회귀 모델 생성 및 학습
model = LinearRegression() # 객체 생성 => 클래스 생성자
model.fit(X_train, y_train) # fit() 학습한다는 함수 => 식을 찾는다


# 점수(score)를 기반으로 결과(label)를 예측하는 선형 모델을 학습하고,
# 이후에는 model.predict()로 새로운 점수에 대한 결과를 예측할 수 있게 됩니다.#


### 실습 2: accuracy 함수 구현

예측값과 실제값이 주어졌을 때 정확도를 계산하는 함수를 구현하기.


In [None]:
# 분류 모델의 정확도(accuracy) 계산 
def accuracy(y_true, y_pred):
    correct = sum([1 for yt, yp in zip(y_true, y_pred) if yt == yp])
    return correct / len(y_true) * 100

# 테스트
# 예측
print(X_test)
y_pred = model.predict(X_test)
print(y_pred)
# 예측값에 시그모이드 적용
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 0/1 판별
y_est = sigmoid(y_pred)
y_pred2 = (y_est >= 0.5).astype(int)


print(y_test)
print(y_pred2)
print("정확도:", accuracy(y_test, y_pred2))


[[72]
 [85]]
[0.77922403 1.07859825]
[1 1]
[1 1]
정확도: 100.0


### 실습 3: one_hot_encode 함수 구현

레이블 리스트를 받아 원-핫 인코딩된 2차원 리스트를 반환하는 함수를 구현하기.
**특성변환


In [None]:
def one_hot_encode(labels):
    num_classes = max(labels) + 1
    return [[1 if i == label else 0 for i in range(num_classes)] for label in labels] 
    # 동작 이해 필요>설명할 수 있어야 한다 

# 테스트
labels = [0, 1, 2, 3, 0, 1, 3]
print("원-핫 인코딩 결과:")
for row in one_hot_encode(labels):
    print(row)


원-핫 인코딩 결과:
[1, 0, 0, 0]
[0, 1, 0, 0]
[0, 0, 1, 0]
[0, 0, 0, 1]
[1, 0, 0, 0]
[0, 1, 0, 0]
[0, 0, 0, 1]


파이썬에서 __call__() 메서드를 오버라이드하면 객체를 함수처럼 호출

- 이를 이용하면 model(input)처럼 썼을 때 자동으로 forward() 메서드가 호출

 __call__()로 forward() 자동 호출 예제

In [None]:
class BaseModel:
    def __call__(self, X): # 객체를 함수처럼 호출할 때 자동으로 실행되는 매직 메서드
        return self.forward(X)
    
    def forward(self, X):
        raise NotImplementedError("forward() must be implemented in subclass") # 파이썬에서 예외 발생시킴 
        # 자바의 throw 와비슷함 raise
        # 상속받는 쪽이 반드시 forward()를 정의하도록 강제함


class MyModel(BaseModel):
    def forward(self, X): #실제 계산을 담당하는 함수. PyTorch 모델이 반드시 구현해야 하는 부분
        return [x * 2 for x in X]


In [None]:
try:
    value = int(input("숫자 입력: "))
    result = 10 / value #파이썬 인터프리터 내부에서 자동으로 예외를 발생
except ValueError:
    print("정수를 입력해야 합니다.")
except ZeroDivisionError:
    print("0으로 나눌 수 없습니다.")
except Exception as e:
    print("기타 예외:", e)
#try catch 

## 객체를 함수처럼 호출

In [None]:
model = MyModel()

input_data = [1, 2, 3]
output = model(input_data)  # __call__() → forward() 자동 호출
# 내부적으로 model.__call__(input) → 자동으로 forward(input) 호출
print(output)  # [2, 4, 6]


[2, 4, 6]


### BaseModel → MyModel 구조는 PyTorch의 핵심 설계 철학과 거의 동일하며, 딥러닝 모델을 직접 구현하는 데 매우 중요한 기반

In [None]:
import torch
import torch.nn as nn # torch.nn 모듈은 신경망 레이어, 모델 구조, 손실 함수 등을 담고 있는 PyTorch의 핵심 구성요소

class Net(nn.Module): #nn.Module을 상속받아 PyTorch 모델로 인식
    def forward(self, x): # forward() 메서드를 자동 연결해주는 __call__() 등이 내장
        return x + 1

net = Net()
print(net(torch.tensor(3)))  # __call__ → forward 자동 호출


tensor(4)


net(torch.tensor(3))
→ net.__call__(torch.tensor(3))
→ net.forward(torch.tensor(3))
→ return x + 1 → tensor(4)


### 모델의 순전파(forward propagation) 연산을 정의하는 함수


PyTorch에서는 model(input)을 호출하면 __call__() → forward()로 연결


여기서는 입력 x에 단순히 1을 더해서 반환


__call__()	객체를 함수처럼 사용 가능하게 함

forward()	주 연산 로직 (직접 호출은 안 함)

model(X)	내부적으로 forward(X) 실행됨

In [None]:
import torch
import torch.nn as nn

class Net(nn.Module): #class bASEMODEL 이랑비슷함
    def __init__(self):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(2, 4),     # 입력 2차원 → 은닉 4차원
            nn.ReLU(),           # 비선형 함수
            nn.Linear(4, 1)      # 은닉 → 출력
        )

    def forward(self, x):
        return self.model(x)

# 모델 생성
net = Net()

# 샘플 입력 (2차원 벡터 2개)
X = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
y_true = torch.tensor([[1.0], [0.0]])

# 예측
y_pred = net(X) #__call__()자동호출 > forward()호출

# 손실 함수 (Mean Squared Error)
criterion = nn.MSELoss() 
loss = criterion(y_pred, y_true)

# 출력
print("예측 결과:\n", y_pred)
print("손실 값:", loss.item())
