#  SVM의 핵심 개념
SVM은 데이터를 분리하는 "최적의 경계선(초평면)"을 찾는 것이 목표입니다.

🔹 초평면(Hyperplane)
데이터를 가장 잘 나누는 경계선

2차원에선 직선, 3차원 이상에선 평면 혹은 초평면이라고 부름
고차원, 비선형 문제에도 강력한 해결력

🔹 서포트 벡터(Support Vectors)
결정 경계와 가장 가까운 데이터 포인트

이 포인트들이 초평면을 결정함

🔹 마진(Margin)
서포트 벡터와 초평면 사이의 거리

SVM은 마진이 최대가 되도록 초평면을 설정 (즉, 가장 여유 있는 분리를 추구)

| 특징              | 설명                                     |
| --------------- | -------------------------------------- |
| **고차원 데이터에 강함** | 텍스트 분류, 이미지 분류 등 차원이 높은 문제에 효과적        |
| **과적합 방지**      | 마진 최대화를 통해 일반화 성능 우수                   |
| **커널 함수 사용 가능** | 비선형 분류도 가능하게 해 줌 (ex. RBF, Polynomial) |


In [18]:
import numpy as np
import pandas as pd
import sklearn

from sklearn import svm
from sklearn.model_selection import train_test_split

df = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/titanic.csv")

d_mean = df['Age'].mean()
df['Age'].fillna(d_mean, inplace = True)

d_mode = df["Embarked"].mode()[0]
df["Embarked"].fillna(d_mode,inplace=True)

df["Family"] =df["SibSp"]+ df["Parch"]

onehot_sex = pd.get_dummies(df["Sex"])
df = pd.concat([df,onehot_sex],axis=1)
onehot_embarked = pd.get_dummies(df["Embarked"])
df = pd.concat([df,onehot_embarked],axis=1)

X= df[["Pclass",'Age','Fare','Family','female','male','C','Q', 'S']]
y= df['Survived']

X_train,X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)

#sv = svm.SVC(kernel='rbf')
sv= svm.SVC(kernel= 'linear',gamma=0.1)
#sv = svm.SVC(kernel='rbf',gamma=0.1)

sv.fit(X_train,y_train)

pred = sv.predict(X_test)

from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test,pred)
print(acc)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(d_mean, inplace = True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Embarked"].fillna(d_mode,inplace=True)


0.7988826815642458


## 하이퍼 파라미터

| 하이퍼파라미터    | 설명                                                 |
| ---------- | -------------------------------------------------- |
| **C**      | 마진 최대화 vs 오차 허용의 균형. **작을수록 마진 우선, 클수록 오차 최소화 우선** |
| **gamma**  | 결정 경계의 곡률을 조정. **작으면 완만, 크면 복잡**한 경계 생성            |
| **kernel** | 데이터 분리를 위한 커널 함수 선택 (선형, RBF, 다항 등)                |


✅ 가우시안 커널(rbf)이란?
데이터를 고차원으로 매핑하여 비선형 데이터를 선형적으로 분리 가능하게 만드는 함수입니다.

SVM은 본래 선형 분류 모델이지만, **커널 트릭(kernel trick)**을 이용하면 입력 데이터를 고차원 공간으로 변환해 비선형 문제도 해결할 수 있어요. 이때 많이 쓰는 것이 가우시안 커널입니다.



# SVM 핵심 요약
## ✅ 1. SVM은 분류 문제에 사용하는 알고리즘
선형 분류 문제뿐만 아니라, 비선형 분류 문제에도 활용 가능

지도학습(Supervised Learning) 방식

## ✅ 2. 선형 분류:
데이터가 직선(또는 평면)으로 나뉠 수 있을 때

SVM은 **마진(margin)**이 최대가 되도록 초평면(hyperplane)을 찾아 분류

## ✅ 3. 비선형 분류:
데이터가 선형적으로 나뉘지 않는 경우
→ 그대로는 분류 불가

## ✅ 4. **커널 트릭(Kernel Trick)**을 활용
데이터를 **고차원으로 매핑(변환)**하여 선형적으로 분류 가능하게 만듦

실제로 고차원 계산을 하지 않고도, 커널 함수를 통해 결과를 계산

## ✅ 5. 대표적인 커널 함수
선형 커널:	선형 분류용
다항식 커널:	비선형, 다항식 경계
가우시안 커널 (RBF):	비선형, 고차원 공간으로 매핑해서 복잡한 결정 경계 가능

#  정리된 이해 ✔️
SVM은 분류 문제에서 사용되며,
선형 데이터는 최적의 초평면으로 분류하고,
비선형 데이터는 커널 트릭으로 고차원 공간에서 선형 분류가 가능하도록 만든다.