# 서포트벡터머신 (SVM) 실습

## 개요
- 대부분의 머신러닝 알고리즘은 평면에 선을 긋는다
- 데이터에 따라서는 평면에 선을 못긋는 경우에 수학자들이 차원을 분리시켜서 평면의 다차원공간으로 보내서 차원간에 선을 긋는다
- 스케일링의 중요성을 비교해본다

## 사용 데이터
- 유방암 데이터셋 (Breast Cancer Dataset)
- 스케일링 전후 성능 비교


In [3]:
# 필요한 라이브러리 임포트
from sklearn.datasets import load_breast_cancer

# 유방암 데이터셋 로딩 (Bunch타입)
cancer = load_breast_cancer()
print("데이터셋 키:", cancer.keys())
X = cancer.data  # 특성 데이터
y = cancer.target  # 타겟 데이터

print(f"특성 데이터 shape: {X.shape}")
print(f"타겟 데이터 shape: {y.shape}")
print(f"특성 이름: {cancer.feature_names[:5]}...")  # 처음 5개만 출력

데이터셋 키: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
특성 데이터 shape: (569, 30)
타겟 데이터 shape: (569,)
특성 이름: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness']...


## 데이터 전처리 - 스케일링


In [4]:
# 스케일링을 위한 라이브러리 임포트
from sklearn.preprocessing import StandardScaler

# StandardScaler로 데이터 스케일링
ss = StandardScaler()  # 객체 생성 
X_scaled = ss.fit_transform(X)  # 학습하고 바로 변경된값 반환 

print("원본 데이터의 첫 번째 샘플 (일부):")
print(X[0][:5])
print("스케일링된 데이터의 첫 번째 샘플 (일부):")
print(X_scaled[0][:5])

원본 데이터의 첫 번째 샘플 (일부):
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01]
스케일링된 데이터의 첫 번째 샘플 (일부):
[ 1.09706398 -2.07333501  1.26993369  0.9843749   1.56846633]


## 데이터 분할 및 로지스틱 회귀 모델


In [8]:
# 데이터 분할
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# 로지스틱 회귀 모델 (분류) - 원본 데이터
from sklearn.linear_model import LogisticRegression
print("-------- 로지스틱 회귀 (원본 데이터) --------------")
model = LogisticRegression()
model.fit(X_train, y_train)
print("훈련셋 정확도:", model.score(X_train, y_train))
print("테스트셋 정확도:", model.score(X_test, y_test))

-------- 로지스틱 회귀 (원본 데이터) --------------
훈련셋 정확도: 0.9460093896713615
테스트셋 정확도: 0.9440559440559441


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=100).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [9]:
print("\n-------- 로지스틱 회귀 (max_iter 증가) --------------")
# 해결책 1: max_iter 매개변수 늘리기
model_iter = LogisticRegression(max_iter=1000)  # 기본값 100에서 1000으로 증가
model_iter.fit(X_train, y_train)
print("훈련셋 정확도:", model_iter.score(X_train, y_train))
print("테스트셋 정확도:", model_iter.score(X_test, y_test))


-------- 로지스틱 회귀 (max_iter 증가) --------------
훈련셋 정확도: 0.9647887323943662
테스트셋 정확도: 0.958041958041958


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=1000).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [10]:
print("\n-------- 로지스틱 회귀 (스케일링된 데이터) --------------")
# 해결책 2: 스케일링된 데이터 사용
X_train_scaled, X_test_scaled, y_train, y_test = train_test_split(X_scaled, y, random_state=0)
model_scaled = LogisticRegression()
model_scaled.fit(X_train_scaled, y_train)
print("훈련셋 정확도:", model_scaled.score(X_train_scaled, y_train))
print("테스트셋 정확도:", model_scaled.score(X_test_scaled, y_test))


-------- 로지스틱 회귀 (스케일링된 데이터) --------------
훈련셋 정확도: 0.9906103286384976
테스트셋 정확도: 0.965034965034965


## 서포트벡터머신 (스케일링 없이)


In [6]:
# 서포트벡터머신 모델 (분류)
from sklearn.svm import SVC
svm_model = SVC()
svm_model.fit(X_train, y_train)

print("-------- 스케일링 안한 서포트벡터머신 ------------")
print("훈련셋 정확도:", svm_model.score(X_train, y_train))
print("테스트셋 정확도:", svm_model.score(X_test, y_test))

-------- 스케일링 안한 서포트벡터머신 ------------
훈련셋 정확도: 0.903755868544601
테스트셋 정확도: 0.9370629370629371


## 서포트벡터머신 (스케일링 적용)


In [7]:
# 스케일링된 데이터로 데이터 분할
print("-------- 스케일링 적용 ----------")
X_train_scaled, X_test_scaled, y_train_scaled, y_test_scaled = train_test_split(X_scaled, y, random_state=1)

# 스케일링된 데이터로 SVM 모델 학습
svm_model_scaled = SVC()
svm_model_scaled.fit(X_train_scaled, y_train_scaled)

print("-------- 스케일된 서포트벡터머신 ------------")
print("훈련셋 정확도:", svm_model_scaled.score(X_train_scaled, y_train_scaled))
print("테스트셋 정확도:", svm_model_scaled.score(X_test_scaled, y_test_scaled))

-------- 스케일링 적용 ----------
-------- 스케일된 서포트벡터머신 ------------
훈련셋 정확도: 0.9906103286384976
테스트셋 정확도: 0.965034965034965


## 결론

### 로지스틱 회귀의 수렴 문제 해결
- **문제**: ConvergenceWarning - 100번 반복 후에도 수렴하지 못함
- **해결책 1**: `max_iter` 매개변수 증가 (100 → 1000)
- **해결책 2**: 데이터 스케일링 적용
- **권장사항**: 스케일링된 데이터를 사용하는 것이 가장 좋은 방법

### 스케일링의 중요성
- **로지스틱 회귀**: 
  - 스케일링에 상대적으로 덜 민감하지만, 수렴 속도에 영향
  - 스케일링 적용 시 더 빠른 수렴과 안정적인 학습
- **서포트벡터머신**: 스케일링에 매우 민감
  - 스케일링 전: 낮은 성능 (90.4% → 93.7%)
  - 스케일링 후: 큰 성능 향상 (99.1% → 96.5%)

### 서포트벡터머신의 특징
- 대부분의 머신러닝 알고리즘은 평면에 선을 긋는다
- 데이터에 따라서는 평면에 선을 못긋는 경우가 있다
- 이때 수학자들이 차원을 분리시켜서 다차원공간으로 보내서 차원간에 선을 긋는다
- **스케일링이 반드시 필요한 알고리즘!**

### 실무에서의 권장사항
1. **항상 데이터 스케일링을 먼저 적용**
2. **로지스틱 회귀**: StandardScaler 사용으로 수렴 속도 개선
3. **SVM**: 스케일링 없이는 제대로 작동하지 않음
4. **경고 메시지 무시하지 말고 적절한 해결책 적용**
