### 5장_연습 문제 10번
#OVA(One-Versus-All) 방식은 기본적으로 SVC가 자동으로 처리함(기본값)
#OVA란? 다중 클래스를 이진 분류기 여러 개를 사용하여 분류하는 방식 중 하나이다. 하나의 클래스를 나머지 모든 클래스로부터 구별한다.

In [9]:
from sklearn.datasets import load_wine
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

#데이터셋 가져오기
wine = load_wine()
X, y = wine.data, wine.target

# 훈련데이터와 학습데이터로 나누기 (80% 훈련, 20% 학습)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# SVM 분류기 모델 만들기
kernel_svm_wine = make_pipeline(StandardScaler(), SVC(kernel="linear", degree=3, coef0=1, C=1))

# 훈련
kernel_svm_wine.fit(X_train, y_train)

# 예측
y_pred = kernel_svm_wine.predict(X_test)

# 정확도
accuracy = accuracy_score(y_test, y_pred)
print(f"Test Accuracy: {accuracy:.4f}")



Test Accuracy: 0.9444


### 5장_연습 문제 9번
정확도를 비교해보면 모두 비슷한 방식으로 학습되었다는걸 알 수 있음

In [8]:

#유방암 데이터(양성인지 음성인지 선형적으로 분리 가능)
from sklearn.datasets import load_breast_cancer
from sklearn.svm import LinearSVC, SVC
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 데이터 불러오기
data = load_breast_cancer()
X, y = data.data, data.target

# 훈련 데이터와 테스트 데이터로 분리 (80% 훈련, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# LinearSVC 모델
svm_clf = make_pipeline(StandardScaler(), LinearSVC(C=1, random_state=42, max_iter=5000))
svm_clf.fit(X_train, y_train)
y_pred_svm = svm_clf.predict(X_test)
acc_svm = accuracy_score(y_test, y_pred_svm)

# SVC(kernel="linear") 모델
svc_clf = make_pipeline(StandardScaler(), SVC(kernel="linear", C=1, random_state=42))
svc_clf.fit(X_train, y_train)
y_pred_svc = svc_clf.predict(X_test)
acc_svc = accuracy_score(y_test, y_pred_svc)

# SGDClassifier(loss="hinge") 모델
#확률적 경사 하강법(Stochastic Gradient Descent, SGD)을 사용한 선형 SVM
# 데이터가 클 때는 SGDClassifier가 더 빠름.
sgd_clf = make_pipeline(StandardScaler(), SGDClassifier(loss="hinge", random_state=42, max_iter=5000, tol=1e-3))
sgd_clf.fit(X_train, y_train)
y_pred_sgd = sgd_clf.predict(X_test)
acc_sgd = accuracy_score(y_test, y_pred_sgd)

# 결과 출력
print(f"LinearSVC 정확도: {acc_svm:.4f}")
print(f"SVC (linear) 정확도: {acc_svc:.4f}")
print(f"SGDClassifier 정확도: {acc_sgd:.4f}")



LinearSVC 정확도: 0.9649
SVC (linear) 정확도: 0.9737
SGDClassifier 정확도: 0.9649
