- 입력 데이터의 표현 형태에 매우 민감한 머신러닝 알고리즘이 많음
- 직접 데이터의 스케일을 조정하고 특성을 연결하는 것부터 시작해서 3장에서처럼 비지도 학습으로 특성을 만들기까지 함
- 따라서 대부분의 머신러닝 애플리케이션은 하나의 알고리즘으로 이뤄져 있지 않고, 여러 단계의 처리 과정과 머신러닝 모델이 연결되어 있음
- 데이터 변환 과정과 머신러닝 모델을 쉽게 연결해주는 Pipeline 클래스를 다룸
- Pipeline과 GridSearchCV를 함께 사용하여 각 처리 단계에서 필요한 매개변수 탐색을 동시에 수행할 것
- 모델 체인의 좋은 예로, cancer 데이터셋을 MinMaxScaler로 전처리를 해서 커널 SVM의 성능을 크게 향상시켰음

In [1]:
# 데이터를 분할하고 최솟값, 최댓값을 찾아 데이터의 스케일을 바꾸고
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# 데이터 적재와 분할
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)

# 훈련 데이터의 최솟값, 최댓값을 계산
scaler = MinMaxScaler().fit(X_train)

# 훈련 데이터의 스케일을 조정
X_train_scaled = scaler.transform(X_train)

svm = SVC()
# 스케일 조정된 훈련데이터에 SVM을 학습시킴
svm.fit(X_train_scaled, y_train)
# 테스트 데이터의 스케일을 조정하고 점수를 계산
X_test_scaled = scaler.transform(X_test)
print("테스트 점수: {:.2f}".format(svm.score(X_test_scaled, y_test)))

테스트 점수: 0.97


# 1. 데이터 전처리와 매개변수 선택
- GridSearchCV를 사용해서 더 좋은 SVC 매개변수를 찾으려 함

In [4]:
from sklearn.model_selection import GridSearchCV
# 이 코드는 예를 위한 것. 실제로 사용하지 말 것
param_grid = {"C": [0.001, 0.01, 0., 1, 10, 100], "gamma": [0.001, 0.01, 0., 1, 10, 100]}
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=5)
grid.fit(X_train_scaled, y_train)
print("최상의 교차 검증 정확도: {:.2f}".format(grid.best_score_))
print("테스트 점수: {:.2f}".format(grid.score(X_test_scaled, y_test)))
print("최적의 매개변수: ", grid.best_params_)

최상의 교차 검증 정확도: 0.98
테스트 점수: 0.97
최적의 매개변수:  {'C': 1, 'gamma': 1}


30 fits failed out of a total of 180.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
30 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Python311\Lib\site-packages\sklearn\model_selection\_validation.py", line 729, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Python311\Lib\site-packages\sklearn\base.py", line 1145, in wrapper
    estimator._validate_params()
  File "c:\Python311\Lib\site-packages\sklearn\base.py", line 638, in _validate_params
    validate_parameter_constraints(
  File "c:\Python311\Lib\site-packages\sklearn\utils\_param_validation.py", line 96, in validate_parameter_constraints
    raise InvalidParameterError(
sklearn.utils._param_validation.InvalidP

- 