# pipeline

In [13]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

## 붓꽃 데이터 준비
iris = load_iris() 
X = iris.data
y = iris.target

mypipe= make_pipeline(SelectKBest(f_classif, k=2),
                         StandardScaler(),
                         DecisionTreeClassifier(max_depth=3))

mypipe.fit(X, y) ## 모형 학습
print(mypipe.predict(X)[:3]) ## 예측
print(mypipe.score(X, y)) ## 성능 평가


[0 0 0]
0.9733333333333334


In [14]:
mypipe[0].get

# model looping

# GridsearchCV

[예제1](https://zephyrus1111.tistory.com/255)

In [18]:
import numpy as np 
from sklearn.svm import SVR
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split 

np.random.seed(100) ## GridSearchCV 결과 재생성 시드
## 붓꽃 데이터 로드
iris = load_iris() 
## 훈련 데이터와 학습 데이터 분리 

X_train, X_test, y_train, y_test = train_test_split(iris.data[:,:5], iris.target, test_size=0.3) 
## 모형 클래스 생성
my_svr = SVR() 

## Grid Search 적용 파라미터
kernel_list = ['linear', 'rbf']
C_list = np.arange(1, 3, 0.1)
## parameter 키는 svr.get_params().keys()를 통해 확인 
print(my_svr.get_params().keys())
parameters = {'kernel':kernel_list, 'C':C_list}  

## Grid Search 수행
reg = GridSearchCV(my_svr, parameters, cv=5)
reg.fit(X_train, y_train)

print('최적 파라미터 값 : ', reg.best_params_)
print('점수 : ', reg.best_score_)

dict_keys(['C', 'cache_size', 'coef0', 'degree', 'epsilon', 'gamma', 'kernel', 'max_iter', 'shrinking', 'tol', 'verbose'])
최적 파라미터 값 :  {'C': 2.9000000000000017, 'kernel': 'rbf'}
점수 :  0.9250676833622636


In [19]:
final_reg = SVR(C=reg.best_params_['C'],kernel=reg.best_params_['kernel'])
final_reg.fit(X_train, y_train)
final_reg.score(X_test, y_test)

0.967223618440653

In [26]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

## 훈련 데이터와 학습 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris.data[:,:3], iris.target, test_size=0.3)

## Pipeline 클래스 생성
myPipe = Pipeline([('Scaler', StandardScaler()), 
                   ('SVR', SVR())])

## Grid Search 적용 파라미터
C_list = [0.1, 0.5, 1, 2, 5, 10]
## parameter 키는 pipeline.get_params().keys()를 통해 확인
parameters = {'SVR__C':C_list} ## "Pipeline의 작업명 +__+ 모형 클래스의 파라미터" 

## Grid Search 수행
reg = GridSearchCV(myPipe, parameters, cv=5)
reg.fit(X_train, y_train)

In [27]:
print('최적 파라미터 값 : ', reg.best_params_)
print('점수 : ', reg.best_score_) 

final_reg = SVR(C=reg.best_params_['SVR__C'])
final_reg.fit(X_train, y_train)
print('최종 모형 성능 : ', final_reg.score(X_test, y_test))

최적 파라미터 값 :  {'SVR__C': 5}
점수 :  0.9022874324291553
최종 모형 성능 :  0.9188056038997419
