# 02. 딥러닝 기초: 활성화 함수 (Activation Functions)

## 개요
활성화 함수는 신경망에 비선형성을 추가하여 복잡한 패턴을 학습할 수 있게 해줍니다.
이 실습에서는 Sigmoid, ReLU, Softmax 등 주요 활성화 함수를 구현하고 시각화합니다.

## 학습 목표
1. 활성화 함수의 필요성 이해
2. Sigmoid, ReLU, Softmax 함수 구현 및 시각화
3. 각 활성화 함수의 특징과 사용 시나리오 파악
4. Gradient Vanishing 문제 이해

## 핵심 단계
- Step 1: 비선형성의 필요성
- Step 2: Sigmoid 함수
- Step 3: ReLU 함수
- Step 4: Softmax 함수
- Step 5: 활성화 함수 비교

## 라이브러리 임포트

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

## Step 1: 비선형성의 필요성

활성화 함수가 없으면 아무리 층을 많이 쌓아도 결과는 선형 함수입니다.

예시:
- 층 1: $y = 2x + 1$
- 층 2: $y = 3x + 2$
- 합치면: $y = 6x + 5$ → 그냥 직선!

In [None]:
# 선형 함수의 합성은 여전히 선형
x = np.linspace(-5, 5, 100)

# 층 1: y = 2x + 1
# 층 2: y = 3x + 2
# 합성: y = 3(2x + 1) + 2 = 6x + 5

layer1 = 2 * x + 1
layer2 = 3 * layer1 + 2  # 층 1의 출력을 입력으로
combined = 6 * x + 5     # 직접 계산한 결과

plt.figure(figsize=(10, 4))
plt.plot(x, layer2, 'b-', linewidth=2, label='2 Layers Stacked')
plt.plot(x, combined, 'r--', linewidth=2, label='Single Linear (6x + 5)')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear functions stacked = Still Linear!')
plt.legend()
plt.grid(True)
plt.show()

print("두 선형 층을 쌓아도 결과는 단순한 선형 함수입니다.")
print("비선형 활성화 함수가 필요한 이유입니다!")

## Step 2: Sigmoid 함수

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

**특징:**
- 출력 범위: 0 ~ 1
- 확률로 해석 가능
- 이진 분류에 적합

In [None]:
def sigmoid(z):
    """Sigmoid 함수"""
    return 1 / (1 + np.exp(-z))

def sigmoid_derivative(z):
    """Sigmoid의 미분 (도함수)"""
    s = sigmoid(z)
    return s * (1 - s)

In [None]:
# Sigmoid 함수 시각화
z = np.linspace(-10, 10, 200)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Sigmoid 함수
ax1 = axes[0]
ax1.plot(z, sigmoid(z), 'b-', linewidth=2)
ax1.axhline(y=0.5, color='gray', linestyle='--', alpha=0.5)
ax1.axvline(x=0, color='gray', linestyle='--', alpha=0.5)
ax1.set_xlabel('z')
ax1.set_ylabel('sigmoid(z)')
ax1.set_title('Sigmoid Function')
ax1.set_ylim(-0.1, 1.1)
ax1.grid(True)

# Sigmoid 도함수
ax2 = axes[1]
ax2.plot(z, sigmoid_derivative(z), 'r-', linewidth=2)
ax2.axhline(y=0.25, color='gray', linestyle='--', alpha=0.5, label='max = 0.25')
ax2.set_xlabel('z')
ax2.set_ylabel("sigmoid'(z)")
ax2.set_title('Sigmoid Derivative (Gradient)')
ax2.legend()
ax2.grid(True)

plt.tight_layout()
plt.show()

print("Sigmoid 함수의 특징:")
print(f"  sigmoid(-10) = {sigmoid(-10):.6f} (거의 0)")
print(f"  sigmoid(0) = {sigmoid(0):.1f} (정확히 0.5)")
print(f"  sigmoid(10) = {sigmoid(10):.6f} (거의 1)")
print(f"\n미분값의 최대: {np.max(sigmoid_derivative(z)):.4f} (z=0일 때)")

## Step 3: ReLU 함수 (Rectified Linear Unit)

$$ReLU(z) = max(0, z)$$

**특징:**
- 출력 범위: 0 ~ ∞
- 계산이 매우 빠름
- Gradient Vanishing 문제 완화
- 은닉층에서 가장 많이 사용

In [None]:
def relu(z):
    """ReLU 함수"""
    return np.maximum(0, z)

def relu_derivative(z):
    """ReLU의 미분"""
    return np.where(z > 0, 1, 0)

def leaky_relu(z, alpha=0.01):
    """Leaky ReLU 함수"""
    return np.where(z > 0, z, alpha * z)

In [None]:
# ReLU 함수 시각화
z = np.linspace(-5, 5, 200)

fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# ReLU
ax1 = axes[0]
ax1.plot(z, relu(z), 'b-', linewidth=2)
ax1.axhline(y=0, color='gray', linestyle='--', alpha=0.5)
ax1.axvline(x=0, color='gray', linestyle='--', alpha=0.5)
ax1.set_xlabel('z')
ax1.set_ylabel('ReLU(z)')
ax1.set_title('ReLU Function')
ax1.grid(True)

# ReLU 도함수
ax2 = axes[1]
ax2.plot(z, relu_derivative(z), 'r-', linewidth=2)
ax2.set_xlabel('z')
ax2.set_ylabel("ReLU'(z)")
ax2.set_title('ReLU Derivative')
ax2.set_ylim(-0.1, 1.5)
ax2.grid(True)

# Leaky ReLU
ax3 = axes[2]
ax3.plot(z, leaky_relu(z, 0.1), 'g-', linewidth=2, label='Leaky ReLU (alpha=0.1)')
ax3.plot(z, relu(z), 'b--', linewidth=1, alpha=0.7, label='ReLU')
ax3.axhline(y=0, color='gray', linestyle='--', alpha=0.5)
ax3.axvline(x=0, color='gray', linestyle='--', alpha=0.5)
ax3.set_xlabel('z')
ax3.set_ylabel('Leaky ReLU(z)')
ax3.set_title('Leaky ReLU (Dead Neuron Problem Solution)')
ax3.legend()
ax3.grid(True)

plt.tight_layout()
plt.show()

print("ReLU 함수의 특징:")
print(f"  ReLU(-5) = {relu(-5)}")
print(f"  ReLU(0) = {relu(0)}")
print(f"  ReLU(3) = {relu(3)}")
print(f"  ReLU(100) = {relu(100)}")

## Step 4: Softmax 함수

$$Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$$

**특징:**
- 출력 범위: 0 ~ 1 (합 = 1)
- 확률 분포로 해석 가능
- 다중 분류 문제에 사용

In [None]:
def softmax(z):
    """Softmax 함수 (수치 안정성 고려)"""
    z = np.array(z)
    # Overflow 방지를 위해 최댓값을 빼줌
    exp_z = np.exp(z - np.max(z))
    return exp_z / np.sum(exp_z)

In [None]:
# Softmax 예제
logits = np.array([2.0, 1.0, 0.1])
probabilities = softmax(logits)

print("Softmax 계산 과정:")
print(f"입력 (logits): {logits}")
print(f"\n1. 지수 계산:")
for i, z in enumerate(logits):
    print(f"   e^{z} = {np.exp(z):.4f}")
print(f"\n2. 합계: {np.sum(np.exp(logits)):.4f}")
print(f"\n3. 정규화 결과:")
for i, p in enumerate(probabilities):
    print(f"   Class {i}: {p:.4f} ({p*100:.1f}%)")
print(f"\n확률의 합: {np.sum(probabilities):.4f}")

In [None]:
# 헬스케어 예제: X-ray 진단
# 모델 출력 (logits)
xray_logits = np.array([3.5, 1.2, 0.5])  # 폐렴, 정상, 기타
xray_probs = softmax(xray_logits)

classes = ['Pneumonia', 'Normal', 'Other']

plt.figure(figsize=(8, 5))
bars = plt.bar(classes, xray_probs * 100, color=['red', 'green', 'blue'], alpha=0.7)
plt.ylabel('Probability (%)')
plt.title('X-ray Diagnosis: Softmax Output')
plt.ylim(0, 100)

# 막대 위에 값 표시
for bar, prob in zip(bars, xray_probs):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 2, 
             f'{prob*100:.1f}%', ha='center', fontsize=12)

plt.show()

print(f"진단 결과: {classes[np.argmax(xray_probs)]} ({xray_probs[np.argmax(xray_probs)]*100:.1f}% 확률)")

## Step 5: 활성화 함수 비교

In [None]:
def tanh(z):
    """Tanh 함수"""
    return np.tanh(z)

# 모든 활성화 함수 비교
z = np.linspace(-5, 5, 200)

plt.figure(figsize=(12, 6))
plt.plot(z, sigmoid(z), 'b-', linewidth=2, label='Sigmoid (0~1)')
plt.plot(z, tanh(z), 'g-', linewidth=2, label='Tanh (-1~1)')
plt.plot(z, relu(z), 'r-', linewidth=2, label='ReLU (0~inf)')
plt.plot(z, leaky_relu(z, 0.1), 'm--', linewidth=2, label='Leaky ReLU')

plt.axhline(y=0, color='gray', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='gray', linestyle='--', alpha=0.3)
plt.xlabel('z')
plt.ylabel('f(z)')
plt.title('Activation Functions Comparison')
plt.legend(loc='upper left')
plt.grid(True, alpha=0.3)
plt.ylim(-2, 5)
plt.show()

In [None]:
# 활성화 함수 선택 가이드
print("="*60)
print("활성화 함수 선택 가이드")
print("="*60)
print()
print("| 함수      | 출력 범위   | 주요 용도           | 장점            | 단점           |")
print("|-----------|-------------|---------------------|-----------------|----------------|")
print("| Sigmoid   | 0 ~ 1       | 이진 분류 출력층    | 확률 해석 가능  | Gradient 소멸  |")
print("| Tanh      | -1 ~ 1      | RNN 은닉층          | 0 중심          | Gradient 소멸  |")
print("| ReLU      | 0 ~ inf     | 은닉층 (기본 선택)  | 빠름, 안정적    | Dead neuron    |")
print("| Softmax   | 0 ~ 1 (합=1)| 다중 분류 출력층    | 확률 분포       | 계산 복잡      |")
print()
print("실전 가이드:")
print("  1. 은닉층: 우선 ReLU 사용 (기본 선택)")
print("  2. 이진 분류 출력: Sigmoid (예: 암 유무)")
print("  3. 다중 분류 출력: Softmax (예: 10가지 질병 중 하나)")
print("  4. 회귀 출력: 활성화 함수 없음 (Linear)")

## Step 6: Gradient Vanishing 문제

Sigmoid의 미분값은 최대 0.25입니다. 층이 깊어질수록 기울기가 기하급수적으로 작아집니다.

In [None]:
# Gradient Vanishing 시뮬레이션
layers = range(1, 21)
sigmoid_gradients = [0.25 ** n for n in layers]  # 최대 기울기 가정
relu_gradients = [1 ** n for n in layers]        # ReLU: 양수 영역에서 1

plt.figure(figsize=(10, 5))
plt.semilogy(layers, sigmoid_gradients, 'b-o', label='Sigmoid (max gradient = 0.25)')
plt.semilogy(layers, relu_gradients, 'r-s', label='ReLU (gradient = 1)')
plt.xlabel('Number of Layers')
plt.ylabel('Gradient (log scale)')
plt.title('Gradient Vanishing Problem')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("Sigmoid를 사용한 경우 각 층의 기울기:")
for n in [1, 5, 10, 15, 20]:
    grad = 0.25 ** n
    print(f"  {n}층: {grad:.2e}")

print("\n결론: 깊은 네트워크에서는 ReLU를 사용해야 학습이 가능합니다!")

## 정리

이번 실습에서 배운 내용:

1. **활성화 함수의 필요성**: 비선형성을 추가하여 복잡한 패턴 학습
2. **Sigmoid**: 0~1 출력, 확률 해석 가능, 이진 분류에 사용
3. **ReLU**: 계산 빠름, Gradient Vanishing 완화, 은닉층 기본 선택
4. **Softmax**: 확률 분포 출력, 다중 분류에 사용
5. **Gradient Vanishing**: 깊은 네트워크에서 Sigmoid의 문제, ReLU로 해결