# BIG DATA ANALYTICS: pipline을 활용한 교차검증 
- scikit learn의 pipeline을 활용하여, 교차검증시 정보유출을 방지해보도록 하겠습니다
---

In [None]:
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [None]:
# 데이터 적재
cancer = load_breast_cancer()

cancer


## 1. 스케일링 없이 테스트

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
cancer.data, cancer.target, random_state=0)

svm = SVC()
svm.fit(X_train, y_train)
print("테스트 점수: {:.2f}".format(svm.score(X_test, y_test)))

## 2. 스케일링을 미리 적용하고 테스트
- 올바르지 않은 방법

In [None]:
scaled_cancer_data = MinMaxScaler().fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(
scaled_cancer_data, cancer.target, random_state=0)

svm = SVC()
svm.fit(X_train, y_train)
print("테스트 점수: {:.2f}".format(svm.score(X_test, y_test)))

## 3. 데이터 분리후 스케일링 적용

In [None]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, random_satate=0)

# 훈련 데이터의 최솟값, 최댓값을 계산합니다
scaler = MinMaxScaler().fit(X_train)

# 훈련 데이터의 스케일을 조정합니다
X_train_scaled = scaler.transform(X_train)

svm = SVC()
# 스케일 조정된 훈련데이터에 SVM을 학습시킵니다
svm.fit(X_train_scaled, y_train)
# 테스트 데이터의 스케일을 조정하고 점수를 계산합니다
X_test_scaled = scaler.transform(X_test)
print("테스트 점수: {:.2f}".format(svm.score(X_test_scaled, y_test)))

## 4. 교차 검증을 스케일링 적용된 상태로 실행
- 올바르지 않은 방법

In [None]:
from sklearn.model_selection import cross_val_score
import numpy as np



svc = SVC()
print("교차 검증 점수 (전체 스케일링): {:.2f}".format(
      np.mean(cross_val_score(svc, X_train_scaled, y_train, cv=5))))

## 5. 파이프라인을 활용하여, 스케일링과 모델 부분을 연결

In [None]:
from sklearn.pipeline import Pipeline
pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])


In [None]:
pipe.fit(X_train, y_train)

In [None]:
print("테스트 점수: {:.2f}".format(pipe.score(X_test, y_test)))


## 6. 파이프라인을 활용하여, 훈련폴드와 검증폴더의 스케일링 분리

In [None]:
pipe = Pipeline([("scaler", MinMaxScaler()),
                 ("svm", SVC())])
print("교차 검증 점수 (파이프라인): {:.2f}".format(
      np.mean(cross_val_score(pipe, X_train, y_train, cv=5))))


## Q. 연습

In [None]:
from sklearn.datasets import load_boston
data = load_boston()
print(data)
X, y = data.data, data.target

In [None]:
from sklearn.neighbors import KNeighborsRegressor

X_scaled= MinMaxScaler().fit_transform(X)
X_scaled

In [None]:
#올바르지 않은 방법
from sklearn.model_selection import cross_val_score

print("교차 검증 점수 (KNN): {:.2f}".format(
      np.mean(cross_val_score(KNeighborsRegressor(n_neighbors=3), X_scaled, y, cv=5))))


In [None]:
#pipeline을 활용하여 올바른 방법을 적용해주세요!
#6번의 코드를 복사하여 수정해주세요!
#TODO
