#**0. 라이브러리 설치**

In [None]:
!pip install scikit-learn
!pip install matplotlib
!pip install pandas

#**1. 라이브러리 import**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.inspection import DecisionBoundaryDisplay

#**2. 데이터 생성 (수정)**

In [None]:
# X, Y 데이터 생성
np.random.seed(0)
sample_num=50
X = np.r_[ [-2,-2]+np.random.randn(sample_num, 2) , [2,2]+ np.random.randn(sample_num, 2)]  #추후 수정 필요
Y = np.array([0] * sample_num + [1] * sample_num)
#X, Y = make_blobs(n_samples=40, centers=2, random_state=6)

In [None]:
# 산점도 그리기
plt.figure(figsize=(8, 6))
plt.scatter(X[Y == 0, 0], X[Y == 0, 1], color='red', label='Class 0')
plt.scatter(X[Y == 1, 0], X[Y == 1, 1], color='blue', label='Class 1')

# 그래프 제목과 축 라벨 추가
plt.title("Scatter plot of X with Y labels")
plt.xlabel("X")
plt.ylabel("Y")

# 범례 추가
plt.legend()

# 그래프 출력
plt.show()


#**3. SVM 모델 학습 및 시각화**

In [None]:
def plot_SVM(model):
    # 모델 학습
    # 그래프 생성
    plt.figure(figsize=(10, 8))
    ax = plt.gca()  # 현재의 축 가져오기

    # 결정 경계 시각화 (DecisionBoundaryDisplay 이용)
    DecisionBoundaryDisplay.from_estimator(
        model,
        X,
        plot_method="contour",
        colors="k",
        levels=[-1, 0, 1],  # -1: 마진 하단, 0: 결정 경계, 1: 마진 상단
        linestyles=["--", "-", "--"],
        ax=ax
    )

    # 각 결정 경계와 마진에 대한 선을 레이블로 표시 (범례 추가용)
    decision_boundary_line = plt.Line2D([], [], color='black', linestyle='-', label='Decision Boundary')
    margin_lines = plt.Line2D([], [], color='black', linestyle='--', label='Margin')

    # 데이터 포인트 시각화 (Y값에 따라 색상 지정)
    plt.scatter(X[:, 0], X[:, 1], c=Y, cmap='bwr', edgecolors="k")

    # 서포트 벡터 강조
    plt.scatter(
        model.support_vectors_[:, 0],
        model.support_vectors_[:, 1],
        s=100,
        facecolors="none",
        edgecolors="k",
        label='Support Vectors'
    )

    # 축 라벨 추가
    plt.xlabel("X")
    plt.ylabel("Y")

    # 제목 추가
    plt.title(f"SVM_Decision Boundary with Support Vectors")

    # 범례 추가 (결정 경계와 마진을 포함)
    plt.legend(handles=[decision_boundary_line, margin_lines, plt.Line2D([], [], marker='o', color='w', markerfacecolor='k', markeredgecolor='k', label='Support Vectors')])

    # 그래프 출력
    plt.show()


#**모델 생성 및 시각화(실습)**

In [None]:
# 모델 생성 및 시각화
C = 1
model = ### 빈칸을 채우세요 ### 
model.fit(X, Y)
plot_SVM(model)

In [None]:
model.get_params()

#**Non linear SVM :  polynoimal, rbf, and sigmoid(실습)**

In [None]:
# 모델 생성 및 시각화
C = 10
model = ### 빈칸을 채우세요 ### 
model.fit(X, Y)
plot_SVM(model)

#**Hyperparameter tuning plot**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.inspection import DecisionBoundaryDisplay

# 데이터 생성
np.random.seed(0)
sample_num = 50
X = np.r_[ [-1, 0] + np.random.randn(sample_num, 2), [2, 2] + np.random.randn(sample_num, 2) ]
Y = np.array([0] * sample_num + [1] * sample_num)

# 하이퍼파라미터 설정
C_values = [0.01, 1, 100]  # C 값들
kernels = ['linear', 'rbf', 'poly', 'sigmoid']  # 다양한 커널
gammas = ['scale', 'auto', 0.1]  # gamma 값들
degrees = [2, 3, 4]  # 다항식 커널을 위한 degree
coef0s = [0, 1]  # 다항식과 시그모이드 커널을 위한 coef0

# 모델과 경계선을 시각화하는 함수
def plot_HTSVM(ax, model, X, Y, title):
    model.fit(X, Y)

    # 결정 경계 시각화
    DecisionBoundaryDisplay.from_estimator(
        model,
        X,
        plot_method="contour",
        colors="k",
        levels=[-1, 0, 1],
        linestyles=["--", "-", "--"],
        ax=ax
    )

    # 데이터 포인트 시각화
    ax.scatter(X[:, 0], X[:, 1], c=Y, cmap='bwr', edgecolors="k")

    # 서포트 벡터 시각화
    ax.scatter(
        model.support_vectors_[:, 0],
        model.support_vectors_[:, 1],
        s=100,
        facecolors="none",
        edgecolors="k",
        label='Support Vectors'
    )

    ax.set_title(title)

# 시각화를 위한 figure 설정
fig, axes = plt.subplots(len(C_values), len(kernels), figsize=(15, 12))
plt.subplots_adjust(hspace=0.5)

# SVM 모델을 다양한 커널과 C값, gamma값, degree, coef0 값으로 학습 및 시각화
for i, C in enumerate(C_values):
    for j, kernel in enumerate(kernels):
        # 각 커널에 맞는 하이퍼파라미터 설정
        if kernel == 'linear':
            model = svm.SVC(kernel=kernel, C=C)
            title = f'Kernel: {kernel}, C: {C}'
        elif kernel == 'rbf':
            model = svm.SVC(kernel=kernel, C=C, gamma=gammas[i % len(gammas)])
            title = f'Kernel: {kernel}, C: {C}, Gamma: {gammas[i % len(gammas)]}'
        elif kernel == 'poly':
            model = svm.SVC(kernel=kernel, C=C, degree=degrees[i % len(degrees)], coef0=coef0s[i % len(coef0s)])
            title = f'Kernel: {kernel}, C: {C}, Degree: {degrees[i % len(degrees)]}, Coef0: {coef0s[i % len(coef0s)]}'
        elif kernel == 'sigmoid':
            model = svm.SVC(kernel=kernel, C=C, coef0=coef0s[i % len(coef0s)])
            title = f'Kernel: {kernel}, C: {C}, Coef0: {coef0s[i % len(coef0s)]}'

        # 각 모델의 결정 경계와 서포트 벡터를 시각화
        plot_HTSVM(axes[i, j], model, X, Y, title)

# 그래프 출력
plt.show()


#**Kaggle 예제 : Heart disase prediction using SVM**

In [None]:
# 라이브러리 및 데이터 import

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,classification_report
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
import pandas as pd

#Loading the CSV file
df = pd.read_csv('./data/heart.csv')
df.head()

In [None]:
#Preparing the dataset for training
df=pd.###빈칸을 채우세요###  # 원-핫 인코딩 : 범주형 데이터를 숫자로 변환하는 방법
X = df.drop('HeartDisease', axis=1)
y = df['HeartDisease']
df.head()

In [None]:
print(X)
print(y)

In [None]:
#Train-Test Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=3)

In [None]:
#Fitting the model on SVC with default parameters
model_svc = SVC()
model_svc.fit(X_train,y_train)


In [None]:
#Evaluationg the trained model
pred_svc = model_svc.predict(X_test)
accuracy_score(y_test,pred_svc)

In [None]:
#Building classification report
print(classification_report(y_test,pred_svc))

In [None]:
#데이터 표준화

In [None]:
#Scaling the features using pipeline
pipeline = Pipeline([
            ('std_scaler',StandardScaler()),
                    ])
scaled_X_train = pipeline.fit_transform(X_train)
scaled_X_test = pipeline.transform(X_test)

#Fitting the model on SVC with default parameters
model_svc = SVC()
model_svc.fit(scaled_X_train,y_train)
#Calculating predictions, and accuracy score
pred_svc = model_svc.predict(scaled_X_test)
accuracy_score(y_test,pred_svc)

In [None]:
#Building classification report
print(classification_report(y_test,pred_svc))

#**Hyperparamter tuning using Gridsearch**

In [None]:
svm = SVC()
# param_grid = {'C':[0.01,0.05,0.1,1,10, 100, 1000],'kernel':['linear','rbf'], 'gamma':['scale','auto'] }
param_grid = {'C': [0.1, 1, 10, 100, 1000],
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
              'kernel': ['rbf','linear']}
grid = GridSearchCV(svm,param_grid)

In [None]:
#Fitting the model
grid.fit(scaled_X_train,y_train)

In [None]:
#Calculating the accuracy of tuned model
grid_svc = grid.predict(scaled_X_test)
accuracy_score(y_test,grid_svc)

In [None]:
print(grid.best_params_)
print(grid.best_estimator_.get_params())

In [None]:
#Classification report for the tuned model
print(classification_report(y_test,grid_svc))


#**Multi-class classification**

In [None]:
np.random.seed(0)
sample_num=100
X = np.r_[ [-2 ,4]+np.random.randn(sample_num, 2) , [2,2]+ np.random.randn(sample_num, 2),[0,-1]+ np.random.randn(sample_num, 2)]
Y = np.array([0] * sample_num + [1] * sample_num+ [2] * sample_num)

# 산점도 그리기
plt.figure(figsize=(8, 6))
plt.scatter(X[Y == 0, 0], X[Y == 0, 1], color='red', label='Class 0')
plt.scatter(X[Y == 1, 0], X[Y == 1, 1], color='blue', label='Class 1')
plt.scatter(X[Y == 2, 0], X[Y == 2, 1], color='green', label='Class 2')

# 그래프 제목과 축 라벨 추가
plt.title("Scatter plot of X with Y labels")
plt.xlabel("X")
plt.ylabel("Y")

# 범례 추가
plt.legend()

# 그래프 출력
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# 학습 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

# 선형 커널을 사용하는 SVM 모델 생성 (기본적으로 OVR 방식 사용)
model = ### 빈칸을 캐우세요 ###
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 정확도 출력
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# 데이터 및 결정 경계 시각화
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='rainbow', edgecolors='k')
plt.title("Training data")
plt.show()

# 데이터 및 결정 경계 시각화
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap='rainbow', edgecolors='k')
plt.title("test data")
plt.show()

# Support vector regression (SVR)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn.svm import SVR

In [None]:
X = np.sort(5 * np.random.rand(40, 1), axis=0)
y = np.sin(X).ravel()

# add noise to targets
y[::5] += 3 * (0.5 - np.random.rand(8))


# 산점도 그리기
plt.figure(figsize=(8, 6))
plt.scatter(X, y, color='blue')

# 그래프 제목과 축 라벨 추가
plt.title("Scatter plot of X with Y")
plt.xlabel("X")
plt.ylabel("Y")

# 범례 추가
plt.legend()

# 그래프 출력
plt.show()


In [None]:
svr_rbf = SVR(kernel="rbf", C=100, gamma=0.1, epsilon=0.1)
svr_lin = SVR(kernel="linear", C=100, gamma="auto")
svr_poly = SVR(kernel="poly", C=100, gamma="auto", degree=3, epsilon=0.1, coef0=1)

In [None]:
lw = 2

svrs = [svr_rbf, svr_lin, svr_poly]
kernel_label = ["RBF", "Linear", "Polynomial"]
model_color = ["m", "c", "g"]

fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(15, 10), sharey=True)
for ix, svr in enumerate(svrs):
    axes[ix].plot(
        X,
        svr.fit(X, y).predict(X),
        color=model_color[ix],
        lw=lw,
        label="{} model".format(kernel_label[ix]),
    )
    axes[ix].scatter(
        X[svr.support_],
        y[svr.support_],
        facecolor="none",
        edgecolor=model_color[ix],
        s=50,
        label="{} support vectors".format(kernel_label[ix]),
    )
    axes[ix].scatter(
        X[np.setdiff1d(np.arange(len(X)), svr.support_)],
        y[np.setdiff1d(np.arange(len(X)), svr.support_)],
        facecolor="none",
        edgecolor="k",
        s=50,
        label="other training data",
    )
    axes[ix].legend(
        loc="upper center",
        bbox_to_anchor=(0.5, 1.1),
        ncol=1,
        fancybox=True,
        shadow=True,
    )

fig.text(0.5, 0.04, "data", ha="center", va="center")
fig.text(0.06, 0.5, "target", ha="center", va="center", rotation="vertical")
fig.suptitle("Support Vector Regression", fontsize=14)
plt.show()