
# 📘 SVM (Support Vector Machine) 이란?

**SVM**은 주어진 데이터를 분류하거나 회귀하는 데 사용하는 **지도 학습 알고리즘**입니다. 본질적으로 SVM은 \*\*가장 최적의 결정 경계(분류면)\*\*를 찾아내는 데 초점을 둡니다.

---

## 🎯 핵심 아이디어

SVM은 다음과 같은 **"마진 최대화(Margin Maximization)"** 원리에 기반합니다:

> **서포트 벡터(Support Vector)**: 클래스 간 경계를 형성하는 데 핵심이 되는 데이터 포인트들
> **결정 경계(Decision Boundary)**: 두 클래스를 구분짓는 선 혹은 초평면(hyperplane)

SVM은 이 경계를 \*\*가장 넓은 마진(margin)\*\*으로 그려주는 경계를 찾습니다.

![SVM margin 설명 그림](https://upload.wikimedia.org/wikipedia/commons/7/72/SVM_margin.png)

> 붉은 선: 결정 경계
> 점선: 마진 경계선
> 초록 원: 서포트 벡터

---

## 🧠 선형 SVM vs 비선형 SVM

| 구분          | 설명                     | 예시               |
| ----------- | ---------------------- | ---------------- |
| **선형 SVM**  | 직선 또는 평면으로 구분 가능       | 예: 키/몸무게로 남녀 구분  |
| **비선형 SVM** | 커널(Kernel) 사용 → 고차원 맵핑 | 예: 원형 분포, XOR 문제 |

---

## 🔁 커널 기법 (Kernel Trick)

* 선형으로 나눌 수 없는 데이터를 **고차원으로 변환**해서 분리 가능하게 만드는 방법
* 대표적인 커널 함수:

  * **RBF (Radial Basis Function)** – 가장 널리 사용됨
  * **Polynomial**
  * **Sigmoid**

```python
from sklearn.svm import SVC
model = SVC(kernel='rbf')  # 비선형 커널 적용
```

---

## 📐 수학적 직관

SVM은 다음을 최적화합니다:

> **Margin을 최대화하는 방향으로 결정 경계를 잡되, 잘못 분류된 샘플은 패널티로 처리**

즉, 다음과 같은 수식을 최소화합니다:

$$
\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum \xi_i
$$

* $\|\mathbf{w}\|$: 마진을 구성하는 가중치
* $\xi_i$: 허용된 오류 (soft margin)
* $C$: 오류 허용률을 조절하는 **정규화 파라미터**

---

## 📊 SVM의 회귀: SVR (Support Vector Regression)

* **기본 개념은 동일**
* 목표는 마진 내에서 **데이터와 예측값의 차이를 허용**
* 마진 밖의 포인트에 대해서만 패널티 부여
* $\epsilon$-insensitive loss 사용

---

## ✅ 장점

| 항목         | 설명                     |
| ---------- | ---------------------- |
| **정확도 높음** | 특히 **고차원 데이터**에서 성능 우수 |
| **비선형 가능** | 커널을 이용해 비선형 분류/회귀 가능   |
| **과적합 방지** | 마진 기반이므로 일반화 성능 높음     |

---

## ⚠️ 단점

| 항목              | 설명                        |
| --------------- | ------------------------- |
| **대규모 데이터에 느림** | 계산 복잡도 ↑                  |
| **하이퍼파라미터 많음**  | C, 커널 종류, γ 등 튜닝 필요       |
| **해석이 어려움**     | 결정 경계나 기여 변수 직관적으로 알기 어려움 |

---

## 🧪 실전 적용 분야

* **이미지 분류** (얼굴 인식, 손글씨 인식 등)
* **의료 데이터 분석**
* **텍스트 분류** (스팸 분류, 감성 분석)
* **시계열 예측** (SVR 응용)
* **생물정보학** (유전자 분류 등)

---

## 📌 Python 예시

```python
from sklearn.svm import SVC
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

model = SVC(kernel='rbf', C=1.0, gamma='scale')
model.fit(X, y)

pred = model.predict(X)
```

---

## 🧩 결론

SVM은 특히 **복잡하고 고차원적인 데이터 구조를 정밀하게 분류**하거나 **비선형적인 회귀 문제를 해결**할 때 매우 강력한 도구입니다.
다만, **속도와 해석력**의 제약이 있으므로, **정확도 우선의 상황**에서 추천됩니다.

---



---

# 📘 개요: 웨이블릿 + SVM 회귀란?

Wavelet-SVM 회귀는 다음 두 기술을 결합합니다:

1. **웨이블릿 변환 (Wavelet Transform)**
   → 원시 데이터를 시간 및 주파수 영역으로 분해하여, **다양한 주기성과 패턴을 다층적으로 분석**

2. **서포트 벡터 머신 회귀 (SVR)**
   → 비선형 관계를 모델링할 수 있는 커널 기반 회귀 기법

**결합 목표**: 잡음이 많은 시계열에서도 안정적인 회귀 성능을 확보하고, 다양한 주기 특성을 반영한 예측 성능 향상

---

# 🔧 처리 흐름 (모델 구조)

```plaintext
[입력 시계열 데이터] 
      ↓
[웨이블릿 변환] → 저주파/고주파 성분 분해
      ↓
[성분별 특성 추출 및 재구성]
      ↓
[SVM 회귀 모델 입력] → 커널 적용
      ↓
[예측 출력 (회귀 결과)]
```

---

# 🔍 웨이블릿 변환이란?

* **Wavelet Transform**은 시계열을 **다중 해상도**로 분해
* Fourier 변환과 달리 **시간-주파수 동시 분석 가능**
* 고주파: 급격한 변화 (노이즈, 이상치)
* 저주파: 장기 추세

➡️ 이를 통해 **잡음을 분리하고** SVM이 안정적으로 학습할 수 있도록 도와줍니다

---

# 🧠 SVM 회귀와의 차이점

| 항목     | 일반 SVM 회귀    | Wavelet-SVM 회귀               |
| ------ | ------------ | ---------------------------- |
| 입력 데이터 | 원시 특성 벡터     | 웨이블릿으로 변환된 다중 성분             |
| 잡음 처리  | 민감함          | 웨이블릿 변환으로 **노이즈 제거** 가능      |
| 주기성 분석 | 비효율적         | **다양한 시간 스케일의 패턴**을 포착 가능    |
| 시계열 예측 | 기본 커널만으로는 한계 | 웨이블릿 성분별 특징이 반영되어 **정확도 개선** |
| 학습 복잡도 | 보통           | 웨이블릿 단계가 추가되어 **복잡도 증가**     |

---

# ✅ 장점

* **시계열 데이터**에서 성능 우수
* 노이즈 제거로 **일반화 성능 향상**
* 웨이블릿의 다중 스케일 분석 → **다양한 패턴** 인식 가능
* 비선형 회귀 문제에 적합 (SVM의 커널 기능 활용)

---

# ⚠️ 단점

* **모델 복잡도 증가** (전처리 + SVM 학습)
* 하이퍼파라미터 많음: 웨이블릿 종류, 레벨, SVM 커널, C, ε 등
* 해석력 낮음 (변환 + 커널 모델 조합)

---

# 🔬 실전 적용 분야

* 주가, 에너지 수요 등 **시계열 예측**
* **기후/환경 센서 데이터**
* \*\*의료 시계열 (심전도 등)\*\*의 패턴 탐지
* **노이즈 많은 공학적 신호 처리**

---

# 📌 예시 파이프라인 (Python 기반)

```python
import pywt
from sklearn.svm import SVR
import numpy as np

# 1. 웨이블릿 변환 (예: Haar 웨이블릿)
coeffs = pywt.wavedec(signal, wavelet='haar', level=3)
features = np.concatenate(coeffs)  # 모든 성분 합쳐서 특성화

# 2. SVM 회귀 모델 학습
model = SVR(kernel='rbf', C=1.0, epsilon=0.1)
model.fit(X_train, y_train)

# 3. 예측
y_pred = model.predict(X_test)
```

---

# 🧩 결론

**Wavelet + SVM 회귀**는:

* **웨이블릿이 데이터 구조를 정제하고**
* **SVM이 복잡한 회귀 경계를 학습하는**

이중 전략으로 **시계열 회귀에 매우 효과적인 모델링 방식**입니다.
학습 비용은 더 들지만 **잡음 제거, 패턴 분해, 고정밀 예측**이 중요한 도메인에서 강력한 선택입니다.
