<a href="https://colab.research.google.com/github/CodeByJJY/AIByJJY/blob/main/SINSA/Ch5/task/task3_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **필요한 라이브러리 임포트**

In [3]:
import pandas as pd
import numpy as np
import time
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.svm import SVC, LinearSVC
from sklearn.metrics import accuracy_score

# **데이터 로드**

In [4]:
data = pd.read_csv("data.csv")

# **데이터 전처리**

In [5]:
X = data.drop(["id", "diagnosis", "Unnamed: 32"], axis=1)  # 불필요한 컬럼 제거
y = data["diagnosis"].map({'M': 1, 'B': 0})  # M(악성)은 1, B(양성)은 0으로 변환

# **Dataset을 train_set와 test_set으로 구분**

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# **데이터 스케일링(표준화)**

In [7]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# **5차 다항식 변환**

In [8]:
poly_features = PolynomialFeatures(degree=5)
X_train_poly = poly_features.fit_transform(X_train_scaled)
X_test_poly = poly_features.transform(X_test_scaled)

# **5차 다항식 변환된 feature으로 선형 SVC 학습**

In [9]:
start_time = time.time()
linear_svc = LinearSVC(max_iter=10000)
linear_svc.fit(X_train_poly, y_train)
linear_svc_train_time = time.time() - start_time

# **5차 다항식 커널 SVC 학습**

In [10]:
start_time = time.time()
poly_svc = SVC(kernel='poly', degree=5, C=1, random_state=42)
poly_svc.fit(X_train_scaled, y_train)  # 커널 트릭은 원본 피처에 대해 바로 적용
poly_svc_train_time = time.time() - start_time

# **모델 성능 평가**

In [11]:
linear_svc_pred = linear_svc.predict(X_test_poly)
poly_svc_pred = poly_svc.predict(X_test_scaled)

linear_svc_accuracy = accuracy_score(y_test, linear_svc_pred)
poly_svc_accuracy = accuracy_score(y_test, poly_svc_pred)

# **결과 출력 및 분석**

In [12]:
print(f"Linear SVC 학습 시간: {linear_svc_train_time:.4f}초")
print(f"Polynomial Kernel SVC 학습 시간: {poly_svc_train_time:.4f}초")
print(f"Linear SVC 정확도: {linear_svc_accuracy:.4f}")
print(f"Polynomial Kernel SVC 정확도: {poly_svc_accuracy:.4f}")

# 7. 속도 차이의 이유
# Linear SVC는 다항식으로 변환된 고차원의 피처들을 직접 사용하여 학습하지만,
# Polynomial Kernel SVC는 커널 트릭을 통해 계산 복잡도를 줄이면서 학습합니다.
# 이로 인해 Polynomial Kernel SVC가 더 효율적일 수 있지만,
# 실제 데이터셋의 크기와 차원에 따라 결과는 달라질 수 있습니다.

Linear SVC 학습 시간: 7.7397초
Polynomial Kernel SVC 학습 시간: 0.0087초
Linear SVC 정확도: 0.9357
Polynomial Kernel SVC 정확도: 0.8421
