#  기본 지도 학습 알고리즘들

### 기획 배경
- **기본 지도 학습 알고리즘들**은 머신러닝의 핵심인 **지도 학습(Supervised Learning)** 을 배우는 단계입니다.  
- 머신러닝 기본기를 다진 후, 실제 데이터에 적용할 수 있는 **회귀와 분류 알고리즘**을 익혀야 합니다.  
- 단순하고 직관적인 알고리즘을 먼저 배우면, 이후 복잡한 모델(딥러닝 포함)에도 같은 원리를 적용할 수 있습니다.  


### 학습 목표
이 토픽을 수강한 뒤, 수강생은 다음을 할 수 있어야 합니다:

- 지도 학습의 대표 알고리즘인 **선형 회귀, 다중 선형 회귀, 로지스틱 회귀**의 원리를 이해한다.  
- 손실 함수와 경사 하강법을 통해 모델을 학습하는 과정을 설명할 수 있다.  
- `scikit-learn` 라이브러리를 활용해 실제 데이터를 학습/예측/평가할 수 있다.  
- 모델 성능을 평가하고 개선할 수 있다.  


## 목차

### 0. 들어가기
- 지도 학습(Supervised Learning)의 개념 복습  
- 회귀(Regression)와 분류(Classification)의 차이

### 1. 선형 회귀 (Linear Regression)
- 개념: 입력(x)과 출력(y)의 **직선적 관계**를 모델링  
- 수학적 표현:  
  $y = w x + b$
- 손실 함수: 평균제곱오차(MSE)  
- 경사 하강법 개념 & 학습률의 역할  
- Numpy로 직접 구현하기  
- `scikit-learn` 예제: 단순 선형 회귀


<img src="image/linear_regression.png" width="500">  

이미지 출처 : [https://www.lennysnewsletter.com/p/linear-regression-and-correlation-analysis](https://www.lennysnewsletter.com/p/linear-regression-and-correlation-analysis)

### 2. 다중 선형 회귀 (Multiple Linear Regression)
- 개념: 입력 변수가 여러 개인 경우  
- 수학적 표현:  
  $
  y = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b
  $
- 경사 하강법 적용  
- 정규방정식(Closed-form solution)  
- 경사 하강법 vs 정규방정식 비교  
- `scikit-learn` 예제: 다중 선형 회귀  

<img src="image/Simple_multiple_comparison.jpg" width="500">  

이미지 출처 : [https://www.shiksha.com/online-courses/articles/linear-and-multiple-regression/](https://www.shiksha.com/online-courses/articles/linear-and-multiple-regression/)



### 3. 로지스틱 회귀 (Logistic Regression)
- 개념: **분류(Classification)** 문제에 사용  
- 시그모이드 함수:  
  $
  \sigma(z) = \frac{1}{1+e^{-z}}
  $
- 결정 경계와 확률적 해석  
- 손실 함수: 로지스틱 손실(Log loss)  
- Numpy로 로지스틱 회귀 구현  
- `scikit-learn` 예제: 이진 분류, 다중 분류  

### ✅ 체크포인트
- 지도 학습 = 입력과 정답(Label)으로 학습하는 방식  
- 회귀(연속값 예측) vs 분류(범주 예측) 구분 가능  
- 선형 회귀 → 다중 선형 회귀 → 로지스틱 회귀는 지도 학습의 기본기  
- 손실 함수와 경사 하강법은 모든 머신러닝 모델 학습의 핵심 개념  


## 0. 들어가기

지도 학습(Supervised Learning)은 **입력(x)** 과 **정답(y)** 을 함께 제공하여,  
모델이 x→y 규칙을 학습하게 만드는 방식입니다.  

- **회귀(Regression)**: 연속적인 숫자를 예측 (예: 집값, 키, 몸무게)  
- **분류(Classification)**: 범주를 예측 (예: 스팸/햄, 합격/불합격)  


<img src="image/supervised.png" width="400">

> 비유: **회귀는 주관식(연속 값 범위에서 답)**, **분류는 객관식(라벨 중 하나 선택)**. 

### 0.1 예측 모델의 기본 구조 및 학습 흐름

지도학습 모델은 입력 x를 받아 함수 f(x; θ)를 통해 예측값 ŷ를 생성합니다.  
이때 θ(세타)는 모델의 파라미터(가중치, 절편 등)로, 학습의 대상입니다.

$
\hat{y} = f(x; \theta)
$

모델은 학습 과정에서 **‘예측값과 실제값의 차이’를 줄이도록 θ를 조정**합니다.  
이 차이를 정량화한 것이 바로 **손실함수(Loss Function)** 입니다.

#### 학습 흐름

1️⃣ **데이터 입력**: (x, y) 쌍이 모델에 주어짐  
2️⃣ **예측 수행**: 모델이 현재 파라미터로 ŷ = f(x; θ) 계산  
3️⃣ **손실 계산**: 예측값 ŷ와 실제값 y의 차이를 수치로 표현  
4️⃣ **파라미터 조정**: 경사하강법으로 손실이 줄어드는 방향으로 θ 업데이트  

> 즉, 지도학습의 핵심은  
> **“얼마나 잘 예측했는가(손실)”를 정의하고,  
> 그 손실을 줄이기 위해 파라미터를 업데이트하는 과정**입니다.

#### 회귀와 분류의 출력 차이

| 구분 | 출력 형태 | 예시 | 대표 모델 |
|------|-------------|--------|------------|
| **회귀** | 실수(연속 값) | 키, 온도, 매출액 | Linear Regression, SVR |
| **분류** | 범주(이산 값) | 고양이/개, 합격/불합격 | Logistic Regression, SVM, CNN |

회귀는 "수치를 맞추는 문제",  
분류는 "라벨을 구분하는 문제"이므로  
손실함수의 형태도 서로 달라집니다.

> 두 과업은 **본질이 다르므로 손실함수와 평가지표가 다릅니다.**

### 0.2 회귀 vs 분류: 왜 손실 함수·평가 지표가 다른가?
- **회귀**는 예측값과 실제값의 **수치적 거리**를 줄이는 문제가 핵심 → “오차의 크기”를 직접 최소화하는 손실이 필요.  
- **분류**는 **확률적 의사결정**(정답 라벨에 높은 확률을 부여)과 **의사결정 임계값**이 핵심 → 확률분포와 분리도를 반영하는 손실·지표가 필요.



### 0.3 손실함수(회귀)
- **MSE(Mean Squared Error)**: $(\frac{1}{N}\sum (y-\hat y)^2$)  
  - 큰 오차에 가중(제곱) → 이상치에 민감, 평균적으로 매끈하게 맞춤.
- **MAE(Mean Absolute Error)**: $(\frac{1}{N}\sum |y-\hat y|$)  
  - 이상치에 덜 민감, 중앙값 적합에 가까움.
- **Huber/Smooth L1**: 작은 오차는 제곱, 큰 오차는 절대값 → **MSE·MAE 절충**(이상치 완화).
- **Quantile Loss**: 특정 분위수(예: P90) 예측 → **수요예측, 리스크 상한/하한 추정**에 유용.

    <img src="image/linear regression-error.png" width="500">  

    이미지 출처 : [https://community.cloudera.com/t5/Community-Articles/Understanding-Linear-Regression/ta-p/281391](https://community.cloudera.com/t5/Community-Articles/Understanding-Linear-Regression/ta-p/281391)

### 0.4 손실함수(분류)
- **Binary Cross-Entropy(Log Loss)**: 이진 분류  
  - 정답 라벨에 확률을 최대화(잘못 확신하면 큰 패널티).
- **Categorical Cross-Entropy**: 다중 분류(softmax)  
  - 정답 클래스 확률을 키우고, 오답 확률을 낮춤.

    <img src="image/softmax.webp" width="500">  

    이미지 출처 : [https://www.singlestore.com/blog/a-guide-to-softmax-activation-function/](https://www.singlestore.com/blog/a-guide-to-softmax-activation-function/)
    softmax.webp

- **Focal Loss**: 불균형 데이터에서 어려운 샘플에 더 큰 가중 → **소수 클래스 학습 강화**.




### 0.4 평가지표(회귀)

모델이 학습을 마친 뒤에는 **얼마나 정확히 예측했는가**를 평가해야 합니다.  
하지만 회귀와 분류는 **출력값의 형태가 다르기 때문에**,  평가 기준 역시 서로 다른 관점으로 정의됩니다.

- **회귀**는 **연속적인 값**을 예측하므로, “얼마나 가까운가(오차의 크기)”가 핵심입니다.  

- **RMSE**: $\sqrt{\text{MSE}}$, 단위가 원래 타깃과 같아 해석 용이.  
- **MAE**: 평균 절대 오차, 이상치 강건성.  
- **MAPE**: 평균 상대 오차(%) — **0 근처 타깃, 음수, 단위 문제에 주의**.  
- **\(R^2\)**: 설명력(0~1 이상), 기준모델 대비 성능 — **불균형 범위·비선형일 때 오해 소지**.

### 0.5 평가지표(분류)

**분류**는 **라벨(범주)** 를 맞히는 것이므로, “얼마나 잘 구분했는가(정답 비율·확률 분리도)”가 핵심입니다.  
불균형 데이터에서는 단순 정확도보다 **정밀도·재현율·AUC** 등의 세부 지표가 중요합니다.

- **Accuracy**: 전체 정답 비율 — **클래스 불균형에 취약**.  

- **Precision / Recall / F1 Score**:  
  - Precision: 예측한 양성 중 진짜 양성 비율  
  - Recall: 실제 양성 중 잡아낸 비율  
  - F1: 정밀·재현 조화 평균(임계값 민감)  
  - **마이크로/매크로 평균** 선택에 유의(다중 클래스/불균형).
- **ROC-AUC**: 임계값 전 범위에서 분리도(특이도 vs 민감도).  
- **PR-AUC**: 양성 희소 시 **더 정보량 있는 지표**.  
- **Log Loss**: 확률 보정(calibration)까지 평가.

#### 0.7-1 손실함수 요약 표

회귀 알고리즘 손실 함수 
대표 손실함수 | 핵심 특징 | 비고/주의 |
|---|---|---|
|**MSE** | 오차 제곱 평균. 큰 오차에 더 큰 패널티 → 매끈한 적합 | 이상치에 민감 |
|**MAE** | 절대오차 평균. 이상치에 강건 | 미분 불연속(0 근처) – 구현은 가능 |
|**Huber / Smooth L1** | 작은 오차는 제곱, 큰 오차는 절대값 → MSE·MAE 절충 | 이상치 완화 + 안정적 학습 |
|**Quantile Loss** | 분위수(예: P90) 예측 | 수요/리스크 상하한 예측에 유용 |

분류 알고리즘 손실 함수

| 과업 | 대표 손실함수 | 핵심 특징 | 비고/주의 |
|---|---|---|---|
| **분류(이진)** | **Binary Cross-Entropy (Log Loss)** | 정답 라벨 확률 최대화(잘못된 확신에 큰 패널티) | 시그모이드/로지스틱과 함께 사용 |
| **분류(다중)** | **Categorical Cross-Entropy** | 정답 클래스 확률 최대화 | 소프트맥스와 함께 사용 |
| **불균형/난샘플 가중** | **Focal Loss** | 어려운 샘플에 가중, 쉬운 샘플 페널티 감소 | 클래스 불균형 완화 |

#### 0.7-2 평가지표 요약 표

회귀 알고리즘 평가지표

대표 평가지표 | 정의(요약) | 비고/주의 |
|---|---|---|
| **RMSE** | MSE의 제곱근(타깃 단위와 동일) | 큰 오차에 민감 |
| **MAE** | 절대오차 평균 | 이상치 강건 |
| **MAPE** | 상대오차 평균(%) | 0/음수 취급 주의, 스케일 영향 적음 |
| **R²** | 설명력(기준모델 대비 개선 비율) | 비선형/분산 큰 데이터에서 오해 소지 |

#### 혼동행렬(Confusion Matrix) 용어 정리
- **TP (True Positive)**: 실제 1이고, 예측도 1  
- **FP (False Positive)**: 실제 0인데, 예측이 1 (거짓 경보)  
- **TN (True Negative)**: 실제 0이고, 예측도 0  
- **FN (False Negative)**: 실제 1인데, 예측이 0 (놓침)

#### 혼동행렬(Confusion Matrix) 표

| 실제 \ 예측 | 0 (Negative)         | 1 (Positive)         |
|-------------|-----------------------|-----------------------|
| **0 (Negative)** | **TN**: 진짜 음성 (정상 정답) | **FP**: 거짓 양성 (거짓 경보) |
| **1 (Positive)** | **FN**: 거짓 음성 (놓침)     | **TP**: 진짜 양성 (정상 검출) |

| 과업 | 대표 평가지표 | 정의(요약) | 비고/주의 |
|---|---|---|---|
| **분류** | **Accuracy** | (TP+TN)/전체 | 불균형 시 왜곡 위험 큼 |
|  | **Precision** | TP/(TP+FP) | 양성 예측의 “정확함” |
|  | **Recall** | TP/(TP+FN) | 실제 양성 포착률(민감도) |
|  | **F1-score** | 2·(P·R)/(P+R) | Precision–Recall 균형 지표 |

#### 왜 Accuracy만 보면 위험한가? (왜곡 사례)

- **클래스 불균형**: 양성이 1%인 데이터에서 전부 0으로 예측하면 **정확도 99%** 지만,  
  - Recall = 0 (양성 전부 놓침), Precision 정의 불가(양성 예측 없음) → **실전 성능 형편없음**
- **임계값(Threshold) 민감성**: 같은 모델도 임계값 선택에 따라 Accuracy는 비슷해 보여도 **Precision/Recall 트레이드오프**가 크게 달라짐
- **비대칭 비용**: FP와 FN의 비용이 다르면 Accuracy만 높여도 **운영 비용**이 커질 수 있음  
  (예: 불량 검출에서 FN은 치명적 손실)

> 실전 권장: **Accuracy + (Precision/Recall/F1)** 를 함께 보고, 업무 비용/목표에 맞춰 **임계값을 최적화**하세요.

### 연습 문제) 암 진단 모델 평가

한 병원에서 **암(양성, Positive)** / **정상(음성, Negative)** 예측 모델을 만들었습니다.  
테스트 데이터 100명에 대한 실제값과 모델 예측 결과는 아래와 같습니다.

|              | 실제 암 (Positive) | 실제 정상 (Negative) |
|--------------|--------------------|-----------------------|
| **예측 암**      | 5                  | 5                     |
| **예측 정상**    | 5                  | 85                    |


위 표는 **혼동행렬(Confusion Matrix)** 입니다.  
- TP (참양성) = 5  
- FP (거짓양성) = 5  
- FN (거짓음성) = 5  
- TN (참음성) = 85  


#### 문제
1. Accuracy, Precision, Recall, F1 Score를 각각 계산하시오.  
2. 왜 Accuracy만 보면 모델 성능이 좋아 보일 수 있는지 설명하시오.  


<details>
<summary>정답</summary>

```python
TP, FP, FN, TN = 5, 5, 5, 85

# 1. Accuracy
accuracy = (TP + TN) / (TP + FP + FN + TN)
# (5 + 85) / 100 = 0.90

# 2. Precision (양성 예측의 정확도)
precision = TP / (TP + FP)
# 5 / (5 + 5) = 0.50

# 3. Recall (양성 중 놓치지 않은 비율)
recall = TP / (TP + FN)
# 5 / (5 + 5) = 0.50

# 4. F1 Score
f1 = 2 * (precision * recall) / (precision + recall)
# 2 * (0.5 * 0.5) / (0.5 + 0.5) = 0.50

print(f"Accuracy={accuracy:.2f}, Precision={precision:.2f}, Recall={recall:.2f}, F1={f1:.2f}")
```

출력:
```
Accuracy=0.90, Precision=0.50, Recall=0.50, F1=0.50
```

#### 해설
- Accuracy만 보면 **90%**로 성능이 좋아 보임.  
- 하지만 실제 암 환자(양성)는 절반이나 놓쳤음(Recall=0.5).  
- Precision도 0.5 → 암이라고 예측한 절반은 정상인 사람.  
- **결론**: 클래스 불균형(암=10명, 정상=90명) 상황에서 Accuracy는 과대평가를 일으킴.  
  → 이런 경우 **Precision, Recall, F1** 지표로 성능을 반드시 함께 평가해야 함.  
</details>


## 1. 선형 회귀 (Linear Regression)

<img src="image/linear_regression.png" width="500">  

이미지 출처 : [https://www.lennysnewsletter.com/p/linear-regression-and-correlation-analysis](https://www.lennysnewsletter.com/p/linear-regression-and-correlation-analysis)

### 1.1 개념
- 입력 변수와 출력 변수 사이의 관계를 **직선(Linear)** 으로 모델링  
- 단순 선형 회귀:  
  $$
  y = w x + b
  $$  
  - w = 기울기(가중치, weight)  
  - b = 절편(bias)  

### 1.2 손실 함수 (Loss Function)
모델의 성능을 평가하기 위해 **예측값과 실제값의 차이**를 계산해야 함.  
대표적으로 **평균제곱오차(MSE, Mean Squared Error)** 사용.  

$$
MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$ 

### 1.3 경사 하강법 (Gradient Descent)
- 손실 함수를 최소화하기 위한 방법  
- 파라미터 w, b를 조금씩 조정하여 MSE를 줄여나감  
- **학습률(learning rate, η)**: 얼마나 크게 이동할지 조절  

업데이트 식:  
$$
w := w - \eta \frac{\partial L}{\partial w}, \quad b := b - \eta \frac{\partial L}{\partial b}
$$


### 1.4 Numpy로 직접 구현하기
```python
import numpy as np
# 선형 회귀(Linear Regression)를 경사하강법(Gradient Descent)으로 학습하는 최소 예제
# y ≈ w*x + b 형태의 1차 모델을 가정하고, MSE(평균제곱오차)를 최소화하는 w, b를 찾습니다.
# - X: 입력(특징) 벡터, shape: (N,)
# - y: 정답(타깃) 벡터, shape: (N,)
# - w, b: 학습할 파라미터(스칼라)
# ------------------------------------------------------------

# 데이터 (공부 시간 -> 점수)
# 예시로 완벽한 선형관계 y = 2x 를 사용합니다.
X = np.array([1, 2, 3, 4, 5], dtype=float)
y = np.array([2, 4, 6, 8, 10], dtype=float)  # y = 2x 관계

# 파라미터 초기화
# w: 기울기(스칼라), b: 절편(스칼라)
w = 0.0
b = 0.0

# 하이퍼파라미터 설정
# lr(learning rate): 한 번의 업데이트에서 이동하는 크기
# epochs: 전체 데이터셋을 몇 번 반복하여 학습할지
lr = 0.01
epochs = 1000

# 샘플 수 (편미분에서 평균을 내기 위해 사용)
N = len(X)

# 경사 하강법 루프
for _ in range(epochs):
    # 1) 순전파(Forward): 현재 파라미터로 예측값 계산
    # y_pred_i = w*X_i + b
    y_pred = w * X + b  # shape: (N,)

    # 2) 오차(Error) 계산: 예측 - 정답
    # error_i = y_pred_i - y_i
    error = y_pred - y  # shape: (N,)

    # (참고) 손실 함수를 MSE로 두면:
    # L = (1/N) * Σ (y_pred_i - y_i)^2
    # 여기서는 매 스텝마다 L을 굳이 출력하진 않지만, 모니터링하려면 아래 주석을 해제하세요.
    # L = (1.0 / N) * np.sum(error ** 2)

    # 3) 역전파(Gradient) 계산
    # MSE에 대한 w, b의 편미분(벡터/행렬 미분 결과)을 사용합니다.
    # dL/dw = (2/N) * Σ (y_pred_i - y_i) * X_i  = (2/N) * (error · X)
    # dL/db = (2/N) * Σ (y_pred_i - y_i)        = (2/N) * sum(error)
    dw = (2.0 / N) * np.dot(error, X)   # 스칼라
    db = (2.0 / N) * np.sum(error)      # 스칼라

    # 4) 파라미터 업데이트(경사 하강)
    # w := w - lr * dL/dw
    # b := b - lr * dL/db
    w -= lr * dw
    b -= lr * db

    # (선택) 학습 과정을 보고 싶다면 주기적으로 손실을 출력하세요.
    # if _ % 100 == 0:
    #     print(f"epoch={_:4d}  L={L:.6f}  w={w:.4f}  b={b:.4f}")

# 학습된 파라미터와 최종 예측 출력
print("학습된 w:", w)         # 이론적 정답은 2.0에 수렴
print("학습된 b:", b)         # 이론적 정답은 0.0에 수렴
print("예측 y:", w * X + b)   # 각 X에 대한 최종 예측값
```

### 1.5 scikit-learn으로 선형 회귀 구현

In [None]:
from sklearn.linear_model import LinearRegression

# 입력을 2D로 변환
X = X.reshape(-1, 1)

model = LinearRegression()
model.fit(X, y)

print("회귀 계수 w:", model.coef_)
print("절편 b:", model.intercept_)
print("예측:", model.predict([[6]]))  # 공부시간 6시간 → 점수 예측

### ✅ 체크포인트
- 선형 회귀는 입력과 출력의 관계를 직선으로 모델링한다.  
- 손실 함수(MSE)를 최소화하는 방향으로 학습한다.  
- 경사 하강법은 w, b를 조정하며 오차를 줄이는 과정이다.  
- `scikit-learn`을 사용하면 쉽게 선형 회귀를 적용할 수 있다.  


## 2. 다중 선형 회귀 (Multiple Linear Regression)

### 2.1 개념
- 단순 선형 회귀는 입력이 하나일 때 \( y = wx + b \)  
- 다중 선형 회귀는 입력이 여러 개일 때 사용  

$$
y = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b
$$

예: 집값 예측  
- $( x_1 $): 방 개수  
- $( x_2 $): 평수  
- $( x_3 $): 위치 지수  



### 2.2 손실 함수
- 여전히 평균제곱오차(MSE)를 사용  
- 여러 개의 w(가중치)와 b(절편)를 동시에 학습  



### 2.3 경사 하강법
- 파라미터 벡터 $( \vec{w} $)를 학습  
- 업데이트 식:  

$$
\vec{w} := \vec{w} - \eta \nabla_w L, \quad b := b - \eta \frac{\partial L}{\partial b}
$$

### 2.4 Numpy로 구현하기

In [None]:
import numpy as np

# 데이터 (방 개수, 평수) → 집값
X = np.array([[1, 30],
              [2, 50],
              [3, 70],
              [4, 100]])   # 입력 특성 2개
y = np.array([200, 400, 600, 1000])   # 출력

# 파라미터 초기화
w = np.zeros(X.shape[1])
b = 0.0
lr = 0.0001
epochs = 1000

# 경사 하강법
for _ in range(epochs):
    y_pred = np.dot(X, w) + b
    error = y_pred - y
    
    dw = (2/len(X)) * np.dot(X.T, error)
    db = (2/len(X)) * np.sum(error)
    
    w -= lr * dw
    b -= lr * db

print("학습된 w:", w)
print("학습된 b:", b)
print("예측:", np.dot(X, w) + b)

### 2.5 scikit-learn으로 다중 회귀 구현

In [None]:

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)

print("회귀 계수 w:", model.coef_)
print("절편 b:", model.intercept_)
print("예측:", model.predict([[3, 80]]))  # 방 3개, 80평 → 집값 예측

### 2.6 경사 하강법 vs 정규방정식
- **경사 하강법**  
  - 반복적으로 최적해를 근사  
  - 대용량 데이터셋에 적합 (빅데이터)  
- **정규방정식**  
  - 한 번의 계산으로 해 구함  
  - 데이터 크기가 작을 때 효율적  
  - 하지만 $( (X^TX)^{-1} $) 계산에 비용이 큼 (O(n³))  



### ✅ 체크포인트
- 다중 선형 회귀는 여러 입력 변수를 동시에 고려할 수 있다.  
- 손실 함수는 MSE, 학습은 경사 하강법 또는 정규방정식으로 가능하다.  
- `scikit-learn`을 사용하면 매우 간단하게 구현할 수 있다.  
- 경사 하강법은 대규모 데이터에, 정규방정식은 소규모 데이터에 적합하다.  


## 3. 로지스틱 회귀 (Logistic Regression)

### 3.1 개념
- **선형 회귀**는 연속값 예측 → 회귀 문제에 적합  
- **로지스틱 회귀**는 범주형 값 예측 → 분류 문제에 적합  
- 예: 스팸메일(스팸/정상), 시험 결과(합격/불합격)

### 3.2 시그모이드 함수 (Sigmoid Function)
- 로지스틱 회귀의 핵심: 입력값을 **0~1 사이 확률**로 변환  

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

- z = \( w x + b \)  


<img src="image/sigmoid.jpg" alt="sigmoid" width="400">

이미지 출처 : https://en.wikipedia.org/wiki/Sigmoid_function


In [None]:
import numpy as np
import matplotlib.pyplot as plt

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

x = np.linspace(-10, 10, 100)
y = sigmoid(x)

plt.plot(x, y)
plt.title("Sigmoid Function")
plt.xlabel("z")
plt.ylabel("σ(z)")
plt.grid()
plt.show()

### 3.3 결정 경계 (Decision Boundary)
- 시그모이드 함수 결과 ≥ 0.5 → 1 (True)  
- 시그모이드 함수 결과 < 0.5 → 0 (False)  

즉, 확률을 기준으로 분류하는 것.

### 3.4 손실 함수 (Log Loss)
- 회귀에서는 MSE 사용  
- 분류에서는 **Log Loss (Cross-Entropy Loss)** 사용  

$$
L = -\frac{1}{n} \sum_{i=1}^n \Big[y_i \log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)\Big]
$$

### 3.5 Numpy로 구현하기 (이진 분류)

In [None]:
# 데이터: 공부 시간(x) → 합격 여부(y: 0 or 1)
X = np.array([1, 2, 3, 4, 5])
y = np.array([0, 0, 0, 1, 1])  

# 파라미터 초기화
w = 0.0
b = 0.0
lr = 0.1
epochs = 1000

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 경사 하강법
for _ in range(epochs):
    z = w*X + b
    y_pred = sigmoid(z)
    
    # 오차
    error = y_pred - y
    
    # 파라미터 업데이트
    dw = np.dot(error, X) / len(X)
    db = np.sum(error) / len(X)
    
    w -= lr * dw
    b -= lr * db

print("학습된 w:", w)
print("학습된 b:", b)

# 예측
test = np.array([2.5, 3.5, 5])
pred = sigmoid(w*test + b)
print("예측 확률:", pred)
print("분류 결과:", (pred >= 0.5).astype(int))


### 3.6 scikit-learn으로 로지스틱 회귀 구현

In [None]:
from sklearn.linear_model import LogisticRegression

X = X.reshape(-1, 1)  # 입력을 2D로 변환
model = LogisticRegression()
model.fit(X, y)

print("예측 확률:", model.predict_proba([[3], [4], [5]]))
print("분류 결과:", model.predict([[3], [4], [5]]))

### 3.7 다중 분류 (Multiclass Classification)
- 로지스틱 회귀는 기본적으로 이진 분류에 사용  
- **OvR(One vs Rest)** 방식으로 다중 분류 확장 가능  
  - 예: 숫자(0~9) 손글씨 분류  



### ✅ 체크포인트
- 로지스틱 회귀는 분류 문제에서 사용되는 지도학습 알고리즘이다.  
- 시그모이드 함수를 사용해 확률(0~1)로 해석할 수 있다.  
- 손실 함수는 Log Loss (교차 엔트로피)를 사용한다.  
- `scikit-learn`으로 손쉽게 이진/다중 분류 문제를 해결할 수 있다.  


### 4. Scikit-learn 모델 사용법 요약

#### 1) 분류(Classification) 예제 — 로지스틱 회귀

In [2]:
# 분류(Classification) 기본 흐름:
# 1) 더미 데이터 생성 (make_classification)
# 2) 학습/검증 데이터 분리 (train_test_split)
# 3) 모델 생성 및 학습 (LogisticRegression.fit)
# 4) 예측 (predict, predict_proba)
# 5) 성능 평가 (정확도, F1, ROC-AUC, 혼동행렬)

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, confusion_matrix, classification_report
)

In [3]:

# 1) 더미 데이터 생성
X, y = make_classification(
    n_samples=1000, # - n_samples: 샘플 수
    n_features=10, # - n_features: 특징 수
    n_informative=5, # - n_informative: 실제로 유용한 특징 수
    n_redundant=2, # - n_redundant: 중복 특징 수
    random_state=42 # - random_state: 재현성
)

# 2) 학습/검증 데이터 분리
# - stratify=y: 분류에서는 클래스 비율을 유지하도록 권장
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2,
    random_state=42, stratify=y
)

# 3) 모델 생성 및 학습
# - max_iter: 수렴 보장을 위해 여유 있게 설정
# - n_jobs: 가능한 경우 병렬 처리 (LogisticRegression 일부 solver에서만 사용)
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

# 4) 예측
y_pred = clf.predict(X_test)                    # 라벨 예측(0/1)
y_prob = clf.predict_proba(X_test)[:, 1]        # 양성(1) 클래스 확률

# 5) 성능 평가
acc  = accuracy_score(y_test, y_pred)           # 전체 정확도
prec = precision_score(y_test, y_pred)          # 정밀도(양성 예측의 정확성)
rec  = recall_score(y_test, y_pred)             # 재현율(양성 포착률)
f1   = f1_score(y_test, y_pred)                 # F1(정밀/재현 조화평균)
auc  = roc_auc_score(y_test, y_prob)            # ROC-AUC(임계값 독립 분리도)

cm   = confusion_matrix(y_test, y_pred)         # 혼동행렬
rep  = classification_report(y_test, y_pred)    # 클래스별 정밀/재현/F1 상세

print("[Classification] Logistic Regression")
print(f"Accuracy  : {acc:.4f}")
print(f"Precision : {prec:.4f}")
print(f"Recall    : {rec:.4f}")
print(f"F1        : {f1:.4f}")
print(f"ROC-AUC   : {auc:.4f}")
print("Confusion Matrix:\n", cm)
print("Classification Report:\n", rep)


[Classification] Logistic Regression
Accuracy  : 0.8550
Precision : 0.8913
Recall    : 0.8119
F1        : 0.8497
ROC-AUC   : 0.9248
Confusion Matrix:
 [[89 10]
 [19 82]]
Classification Report:
               precision    recall  f1-score   support

           0       0.82      0.90      0.86        99
           1       0.89      0.81      0.85       101

    accuracy                           0.85       200
   macro avg       0.86      0.86      0.85       200
weighted avg       0.86      0.85      0.85       200



### 기본 지도 학습 알고리즘들 – 실습 문제

### 문제 1. 단순 선형 회귀 (Numpy 구현)
X = [1, 2, 3, 4, 5], y = [2, 4, 6, 8, 10] 데이터를 이용해  
경사 하강법으로 선형 회귀를 학습하고, w와 b를 출력하세요.  

<details>
<summary>정답 보기</summary>

```python
import numpy as np

X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

w, b = 0.0, 0.0
lr = 0.01
epochs = 1000

for _ in range(epochs):
    y_pred = w*X + b
    error = y_pred - y
    
    dw = (2/len(X)) * np.dot(error, X)
    db = (2/len(X)) * np.sum(error)
    
    w -= lr * dw
    b -= lr * db

print("w:", w, "b:", b)
```
</details>

In [None]:
# 여기에 작성하세요

### 문제 3. 선형 회귀 (scikit-learn)
사이킷런의 `LinearRegression`을 사용해, 공부 시간 X=[1,2,3,4,5]과 점수 y=[2,4,6,8,10] 데이터를 학습하고, 6시간 공부했을 때 점수를 예측하세요.  

<details>
<summary>정답 보기</summary>

```python

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 6, 8, 10])

model = LinearRegression()
model.fit(X, y)

print("회귀 계수:", model.coef_)
print("절편:", model.intercept_)
print("6시간 예측:", model.predict([[6]]))
```
</details>

In [None]:
# 여기에 작성하세요
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 6, 8, 10])

### 문제 4. 로지스틱 회귀 (Numpy 구현)
X = [1, 2, 3, 4, 5], y = [0, 0, 0, 1, 1] 데이터에서  
로지스틱 회귀를 경사 하강법으로 학습한 후, X=3, 4, 5에 대한 확률과 분류 결과를 출력하세요.  

<details>
<summary>정답 보기</summary>

```python

import numpy as np

X = np.array([1, 2, 3, 4, 5])
y = np.array([0, 0, 0, 1, 1])

w, b = 0.0, 0.0
lr = 0.1
epochs = 1000

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

for _ in range(epochs):
    z = w*X + b
    y_pred = sigmoid(z)
    error = y_pred - y
    
    dw = np.dot(error, X) / len(X)
    db = np.sum(error) / len(X)
    
    w -= lr * dw
    b -= lr * db

test = np.array([3, 4, 5])
probs = sigmoid(w*test + b)
preds = (probs >= 0.5).astype(int)

print("확률:", probs)
print("분류:", preds)
```
</details>

In [None]:
# 여기에 작성하세요


### 문제 5. 로지스틱 회귀 (scikit-learn)
사이킷런의 `LogisticRegression`을 사용해,  
X=[1,2,3,4,5], y=[0,0,0,1,1] 데이터를 학습하고,  
X=3, 4, 5의 예측 확률과 분류 결과를 출력하세요.  

<details>
<summary>정답 보기</summary>

```python

from sklearn.linear_model import LogisticRegression
import numpy as np

X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([0, 0, 0, 1, 1])

model = LogisticRegression()
model.fit(X, y)

print("예측 확률:", model.predict_proba([[3], [4], [5]]))
print("분류 결과:", model.predict([[3], [4], [5]]))
```
</details>



In [None]:
# 여기에 작성하세요

### ✅ 체크포인트
- 선형 회귀는 연속적인 값을 예측, 로지스틱 회귀는 분류 문제에 사용된다.  
- 경사 하강법은 손실 함수를 줄이면서 파라미터를 학습하는 기본 알고리즘이다.  
- 정규방정식은 소규모 데이터에서 해를 빠르게 구할 수 있다.  
- `scikit-learn`을 사용하면 복잡한 수식을 직접 구현하지 않아도 쉽게 모델을 적용할 수 있다.  
