<a href="https://colab.research.google.com/github/JKH-ML/python/blob/main/6_%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80_%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1_%ED%9A%8C%EA%B7%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 선형 회귀 (Linear Regression)

## 개념

선형 회귀는 입력 변수 $\mathbf{x}$와 출력 변수 $y$ 사이의 선형 관계를 모델링하는 기법입니다.

예측 식:

$$
\hat{y} = \mathbf{w}^\top \mathbf{x} + b
$$

여기서,  
$\hat{y}$ 는 예측값,  
$\mathbf{w}$ 는 가중치 벡터,  
$b$ 는 절편 (bias),  
$\mathbf{x}$ 는 입력 벡터입니다.

---

## 손실 함수 (Mean Squared Error)

$$
\mathcal{L} = \frac{1}{n} \sum_{i=1}^{n} \left( \hat{y}_i - y_i \right)^2
$$

이는 예측값 $\hat{y}$와 실제값 $y$의 차이를 제곱하여 평균한 값입니다.

---

## 목적

이 손실 $\mathcal{L}$을 최소화하는 $\mathbf{w}, b$를 찾는 것이 목표입니다.

---

# 2. 로지스틱 회귀 (Logistic Regression)

## 개념

로지스틱 회귀는 **이진 분류** 문제에 사용됩니다.  
선형 회귀 결과를 시그모이드 함수를 통해 0~1 사이의 확률로 변환합니다.

예측 식:

$$
\hat{y} = \sigma(\mathbf{w}^\top \mathbf{x} + b)
$$

시그모이드 함수는 다음과 같습니다:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

여기서,  
$\hat{y}$ 는 클래스 1일 확률을 의미하며,  
$\sigma$ 는 시그모이드 함수입니다.

---

## 손실 함수 (Binary Cross-Entropy)

$$
\mathcal{L} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log \hat{y}_i + (1 - y_i) \log (1 - \hat{y}_i) \right]
$$

이 손실 함수는 실제 클래스 $y_i$와 예측 확률 $\hat{y}_i$ 사이의 오차를 계산합니다.

---

## 목적

로지스틱 회귀의 목적은, 예측 확률 $\hat{y}$와 실제 클래스 $y$ 사이의 차이를 최소화하는 파라미터 $\mathbf{w}, b$를 찾는 것입니다.


# 선형 회귀 및 로지스틱 회귀 실습 코드 설명

## 1. 선형 회귀 (Linear Regression)

### 데이터 생성

```python
X_lin = 2 * np.random.rand(100, 1)
y_lin = 4 + 3 * X_lin + np.random.randn(100, 1)
```

- 입력값 $x$는 0~2 사이의 값 100개를 생성합니다.
- 실제 출력값 $y$는 $y = 4 + 3x + \epsilon$ 형태이며, 약간의 노이즈가 추가됩니다.

---

### 선형 회귀 함수 정의

```python
def linear_regression(X, y, lr=0.1, epochs=1000):
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    w = np.random.randn(2, 1)
    for _ in range(epochs):
        gradients = 2 / X.shape[0] * X_b.T.dot(X_b.dot(w) - y)
        w -= lr * gradients
    return w
```

- $X$에 bias 항을 추가하여 $X_b = [1, x]$ 형태로 만듭니다.
- 임의로 초기화된 가중치 $w$를 사용해 경사 하강법으로 학습합니다.
- 손실 함수는 평균 제곱 오차 (MSE)를 사용하며, 그에 따른 gradient를 직접 계산합니다.

---

### 예측 및 시각화

```python
X_test = np.linspace(0, 2, 100).reshape(-1, 1)
X_test_b = np.c_[np.ones((100, 1)), X_test]
y_pred_lin = X_test_b.dot(w_lin)
```

- 테스트용 입력 $x$ 값 100개를 생성하고 예측값 $\hat{y}$를 계산합니다.

시각화에는 Plotly를 사용해 실제 데이터 (산점도)와 예측 직선 (선 그래프)를 함께 표시합니다.

---

## 2. 로지스틱 회귀 (Logistic Regression)

### 데이터 생성

```python
X_log, y_log = make_classification(...)
```

- 사이킷런 `make_classification`을 이용해 1차원 분류용 샘플 데이터를 생성합니다.
- $X$는 하나의 특성(feature)을 가지며, $y$는 0 또는 1 클래스입니다.

---

### 시그모이드 함수 정의

```python
def sigmoid(z):
    return 1 / (1 + np.exp(-z))
```

- 시그모이드 함수는 임의의 입력 $z$를 (0, 1) 사이의 확률 값으로 변환합니다.

---

### 로지스틱 회귀 함수 정의

```python
def logistic_regression(X, y, lr=0.1, epochs=1000):
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    w = np.random.randn(X_b.shape[1], 1)
    y = y.reshape(-1, 1)
    for _ in range(epochs):
        z = X_b.dot(w)
        h = sigmoid(z)
        gradients = 1 / X.shape[0] * X_b.T.dot(h - y)
        w -= lr * gradients
    return w
```

- 선형 조합 $z = Xw$에 시그모이드 함수를 적용하여 예측 확률 $\hat{y}$를 얻습니다.
- 손실 함수는 Binary Cross-Entropy이며, 이를 직접 미분한 식으로 gradient를 계산합니다.
- 경사 하강법으로 파라미터 $w$를 업데이트합니다.

---

### 예측 및 시각화

```python
y_prob = sigmoid(X_range_b.dot(w_log))
```

- 테스트용 $x$ 값에 대해 확률 예측을 수행합니다.
- Plotly로 실제 클래스 (0 또는 1)과 예측된 확률 곡선을 함께 시각화합니다.


# 머신러닝 핵심 개념 설명

---

## 1. 가중치 (Weight)

가중치는 입력 데이터의 중요도를 조절하는 **계수**입니다.  
선형 회귀나 신경망에서 입력 벡터 $\mathbf{x}$의 각 요소에 곱해지는 값입니다.

예:  
$$
\hat{y} = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b = \mathbf{w}^\top \mathbf{x} + b
$$

가중치는 학습을 통해 조정되며, 예측의 정확도를 높이기 위한 핵심 변수입니다.

---

## 2. 바이어스 (Bias)

바이어스는 예측 함수에 추가되는 **상수항**입니다.  
모델이 원점을 기준으로만 회전하거나 이동하는 것을 방지하여, **데이터의 분포를 더 잘 맞출 수 있게** 해줍니다.

예:  
$$
\hat{y} = \mathbf{w}^\top \mathbf{x} + b
$$

여기서 $b$는 바이어스 항입니다.

---

## 3. 손실 함수 (Loss Function)

손실 함수는 **모델이 예측한 값 $\hat{y}$와 실제 정답 $y$ 사이의 차이**를 수치화하는 함수입니다.  
모델이 얼마나 잘 작동하는지를 측정하며, 학습의 목표는 손실 함수를 **최소화**하는 것입니다.

---

## 4. 평균 제곱 오차 (MSE, Mean Squared Error)

주로 회귀 문제에서 사용되는 손실 함수입니다.  
예측값과 실제값의 차이를 제곱한 뒤 평균을 구합니다.

수식:  
$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2
$$

특징:
- 값이 클수록 오차가 큼을 의미
- 미분 가능하므로 경사 하강법에 적합
- 이상치에 민감함 (제곱하기 때문에)

---

## 5. 이진 교차 엔트로피 (Binary Cross-Entropy)

로지스틱 회귀 및 이진 분류 문제에서 주로 사용됩니다.  
예측된 확률 $\hat{y}$가 실제 클래스 $y$와 얼마나 일치하는지를 측정합니다.

수식:  
$$
\text{BCE} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]
$$

특징:
- 확률 예측값 $\hat{y}_i$가 실제 $y_i$와 가까울수록 손실이 작아짐
- $y_i = 1$일 때는 $\log(\hat{y}_i)$, $y_i = 0$일 때는 $\log(1 - \hat{y}_i)$만 작동
- 분류에서 성능 측정에 효과적

---

## 6. 경사 하강법 (Gradient Descent)

손실 함수를 최소화하기 위해 사용되는 **최적화 알고리즘**입니다.  
함수의 기울기(gradient)를 따라 **조금씩 파라미터를 업데이트**해 나갑니다.

업데이트 식 (예: MSE 기준):  
$$
\mathbf{w} := \mathbf{w} - \eta \cdot \nabla_{\mathbf{w}} \mathcal{L}
$$

- $\eta$는 학습률 (learning rate)로, 얼마나 크게 이동할지를 조절
- $\nabla_{\mathbf{w}} \mathcal{L}$는 손실 함수 $\mathcal{L}$에 대한 가중치 $\mathbf{w}$의 기울기

특징:
- 손실이 줄어드는 방향으로 이동
- 너무 크게 이동하면 발산하고, 너무 작으면 느리게 수렴

---

## 7. 시그모이드 함수 (Sigmoid Function)

시그모이드는 입력을 **0과 1 사이의 값**으로 압축하는 함수입니다.  
로지스틱 회귀에서 확률을 계산할 때 사용됩니다.

수식:  
$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

특징:
- $z \to \infty$일 때 $\sigma(z) \to 1$, $z \to -\infty$일 때 $\sigma(z) \to 0$
- 미분 가능
- 로지스틱 회귀에서 예측 확률로 해석됨

예:  
입력 $z = \mathbf{w}^\top \mathbf{x} + b$ 를 시그모이드에 통과시키면 예측 확률 $\hat{y}$를 얻음:
$$
\hat{y} = \sigma(\mathbf{w}^\top \mathbf{x} + b)
$$


---

## 8. 하이퍼파라미터 (Hyperparameter)

하이퍼파라미터는 **모델이 학습되기 전에 사용자가 직접 설정하는 변수**입니다.  
학습 과정에서 자동으로 업데이트되지 않으며, 모델의 성능에 큰 영향을 미칩니다.

예시:
- 학습률 (learning rate, $\eta$)
- 반복 횟수 (epochs)
- 배치 크기 (batch size)
- 정규화 계수 (L2 패널티 등)
- 은닉층의 수 및 뉴런 개수
- 초기 가중치 범위

하이퍼파라미터는 주로 **실험과 검증**을 통해 최적화됩니다.  
이를 **하이퍼파라미터 튜닝**이라고 합니다 (ex: grid search, random search, Bayesian optimization).

---

## 9. 활성화 함수 (Activation Function)

활성화 함수는 뉴런의 **출력을 비선형적으로 변환**하여, **복잡한 함수나 분류 경계**를 학습할 수 있도록 도와줍니다.

대표적인 활성화 함수:

1. **시그모이드 (Sigmoid)**  
   $$
   \sigma(z) = \frac{1}{1 + e^{-z}} \quad \text{(0과 1 사이의 값 출력)}
   $$

2. **하이퍼볼릭 탄젠트 (Tanh)**  
   $$
   \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} \quad \text{(-1과 1 사이 출력)}
   $$

3. **ReLU (Rectified Linear Unit)**  
   $$
   \text{ReLU}(z) = \max(0, z)
   $$

특징 요약:

| 함수 | 출력 범위 | 장점 | 단점 |
|------|-----------|------|------|
| Sigmoid | (0, 1) | 확률 표현 적합 | 기울기 소실 문제 |
| Tanh | (-1, 1) | 중심이 0이라 학습 빠름 | 여전히 기울기 소실 |
| ReLU | [0, ∞) | 계산 효율, 빠른 수렴 | 음수 영역에서 죽은 뉴런 발생 가능 |

신경망에서는 보통 **은닉층에는 ReLU**, **출력층에는 Sigmoid(이진), Softmax(다중 분류)** 를 사용합니다.



---

## 10. 정규화 (Normalization)

정규화는 입력 데이터를 일정한 범위로 스케일링하는 전처리 과정입니다.  
특히 머신러닝에서는 서로 다른 스케일을 가진 피처들이 모델에 영향을 끼치지 않도록 **균형을 맞추기 위해 필수적인 작업**입니다.

### 주요 기법

1. **Min-Max 정규화**
   $$
   x_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}
   $$
   - 모든 데이터를 [0, 1] 범위로 변환

2. **Z-정규화 (표준화, Standardization)**
   $$
   x_{\text{std}} = \frac{x - \mu}{\sigma}
   $$
   - 평균이 0, 표준편차가 1인 정규 분포로 변환
   - 이상치에 더 견고함

정규화를 하지 않으면 **특정 변수의 스케일이 너무 커서** 모델이 제대로 학습되지 않거나, **경사 하강법의 수렴 속도가 느려질 수 있습니다.**

---

## 11. 오버피팅 / 언더피팅

모델이 **학습 데이터에 대해 과도하게 적응하거나** (Overfitting), **충분히 학습하지 못하는** (Underfitting) 상황을 의미합니다.

### 오버피팅 (Overfitting)

- 학습 데이터에는 매우 높은 정확도를 보이지만, 테스트 데이터에는 성능이 낮아짐
- 모델이 **데이터의 잡음(noise)까지 외워버림**
- 원인: 복잡한 모델, 학습 시간 과다, 데이터 부족

### 언더피팅 (Underfitting)

- 학습 데이터조차 제대로 학습하지 못함
- 모델이 **너무 단순하거나**, 학습을 충분히 하지 않음
- 원인: 너무 작은 모델, 너무 짧은 학습 시간, 너무 큰 학습률

### 비교 요약

| 구분 | 오버피팅 | 언더피팅 |
|------|----------|-----------|
| 원인 | 복잡한 모델, 학습 과다 | 단순한 모델, 학습 부족 |
| 특징 | 훈련 정확도↑, 테스트 정확도↓ | 훈련/테스트 모두 정확도 낮음 |
| 해결책 | 드롭아웃, 정규화, 더 많은 데이터 | 모델 복잡도 증가, 학습 충분히 |



---

## 12. 추가로 알아보면 좋은 키워드 목록

머신러닝/딥러닝 모델을 효과적으로 학습하고 일반화 성능을 향상시키기 위해, 아래 개념들도 함께 학습하는 것이 좋습니다.

| 키워드 | 설명 |
|--------|------|
| **Dropout** | 학습 중 일부 뉴런을 무작위로 비활성화하여 과적합을 방지 |
| **Batch Normalization** | 각 미니배치마다 입력을 정규화하여 학습을 안정화하고 빠르게 수렴 |
| **Weight Initialization (Xavier, He)** | 가중치 초기화 방법으로, 적절한 분산을 통해 학습 효율 개선 |
| **Optimizers (SGD, Adam, RMSprop 등)** | 경사 하강법의 변형으로, 학습률 조절 및 모멘텀을 포함한 최적화 방법 |
| **Learning Rate Scheduler** | 학습 도중 학습률을 동적으로 조정하여 손실 수렴을 유도 |
| **Early Stopping** | 검증 데이터 손실이 더 이상 감소하지 않으면 학습을 조기 종료 |
| **Data Augmentation** | 훈련 데이터를 회전, 이동, 왜곡 등을 통해 늘려서 일반화 성능을 향상 |
| **Softmax 함수** | 다중 클래스 분류에서 각 클래스에 대한 확률 출력을 생성하는 함수 |
| **Cross-validation (교차 검증)** | 데이터를 여러 조각으로 나누어 모델의 일반화 성능을 평가하는 기법 |
| **L1/L2 정규화** | 가중치에 패널티를 주어 과적합을 방지 (L1은 희소성, L2는 작게 유지) |
| **모델 저장 및 불러오기** | 학습된 모델을 파일로 저장하고 재사용하는 방법 (Pickle, Torch 등) |

---

이 키워드들은 중급 이상으로 나아갈 때 매우 중요한 개념들로, 각 용어에 대해 실습과 함께 학습하는 것을 권장합니다.


In [1]:
# Linear & Logistic Regression 구현 (NumPy + Plotly)

import numpy as np
import plotly.graph_objects as go
from sklearn.datasets import make_classification

# 선형 회귀용 샘플 데이터 생성
np.random.seed(0)
X_lin = 2 * np.random.rand(100, 1)
y_lin = 4 + 3 * X_lin + np.random.randn(100, 1)

# 선형 회귀 학습 함수
def linear_regression(X, y, lr=0.1, epochs=1000):
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    w = np.random.randn(2, 1)
    for _ in range(epochs):
        gradients = 2 / X.shape[0] * X_b.T.dot(X_b.dot(w) - y)
        w -= lr * gradients
    return w

# 학습 및 예측
w_lin = linear_regression(X_lin, y_lin)
X_test = np.linspace(0, 2, 100).reshape(-1, 1)
X_test_b = np.c_[np.ones((100, 1)), X_test]
y_pred_lin = X_test_b.dot(w_lin)

# 선형 회귀 시각화
fig_lin = go.Figure()
fig_lin.add_trace(go.Scatter(x=X_lin.squeeze(), y=y_lin.squeeze(), mode='markers', name='Data'))
fig_lin.add_trace(go.Scatter(x=X_test.squeeze(), y=y_pred_lin.squeeze(), mode='lines', name='Prediction'))
fig_lin.update_layout(title='Linear Regression', xaxis_title='x', yaxis_title='y')
fig_lin.show()

# --------------------------- #

# 로지스틱 회귀용 샘플 데이터 생성
X_log, y_log = make_classification(n_samples=200, n_features=1, n_redundant=0, n_informative=1,
                                   n_clusters_per_class=1, flip_y=0.1, random_state=1)

# 시그모이드 함수
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 로지스틱 회귀 학습 함수
def logistic_regression(X, y, lr=0.1, epochs=1000):
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    w = np.random.randn(X_b.shape[1], 1)
    y = y.reshape(-1, 1)
    for _ in range(epochs):
        z = X_b.dot(w)
        h = sigmoid(z)
        gradients = 1 / X.shape[0] * X_b.T.dot(h - y)
        w -= lr * gradients
    return w

# 학습 및 예측
w_log = logistic_regression(X_log, y_log)
X_range = np.linspace(X_log.min(), X_log.max(), 200).reshape(-1, 1)
X_range_b = np.c_[np.ones((200, 1)), X_range]
y_prob = sigmoid(X_range_b.dot(w_log))

# 로지스틱 회귀 시각화
fig_log = go.Figure()
fig_log.add_trace(go.Scatter(x=X_log.squeeze(), y=y_log, mode='markers', name='Data', marker=dict(color='black')))
fig_log.add_trace(go.Scatter(x=X_range.squeeze(), y=y_prob.squeeze(), mode='lines', name='Probability'))
fig_log.update_layout(title='Logistic Regression', xaxis_title='x', yaxis_title='Probability')
fig_log.show()
