In [8]:
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# 데이터 준비 

In [2]:
cancer = load_breast_cancer()

In [3]:
type(cancer)

sklearn.utils._bunch.Bunch

- Bunch : 싸이킷런에서 제공해주는 기본 데이터셋 load 

In [5]:
# 즉, (컬럼)독립변수가 30개 
cancer['data'].shape

(569, 30)

In [6]:
cancer['data'][0]

array([1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
       3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
       8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
       3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
       1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01])

In [7]:
cancer['target'][:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
np.unique(cancer['target'], return_counts= True)

(array([0, 1]), array([212, 357], dtype=int64))

- target 종속변수
    - 0 : 악성 (건강에 해로움)
    - 1 : 양성 (건강과 상관 무) 

In [11]:
# column 명 
cancer['feature_names'], len(cancer['feature_names'])

(array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
        'mean smoothness', 'mean compactness', 'mean concavity',
        'mean concave points', 'mean symmetry', 'mean fractal dimension',
        'radius error', 'texture error', 'perimeter error', 'area error',
        'smoothness error', 'compactness error', 'concavity error',
        'concave points error', 'symmetry error',
        'fractal dimension error', 'worst radius', 'worst texture',
        'worst perimeter', 'worst area', 'worst smoothness',
        'worst compactness', 'worst concavity', 'worst concave points',
        'worst symmetry', 'worst fractal dimension'], dtype='<U23'),
 30)

In [12]:
# malignant 악성 / benign : 양성 
cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

# 데이터 분할 

In [13]:
# x: cancer.data, y: cancer.target
x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target,
                                                    test_size= 0.25,stratify= cancer.target,
                                                   random_state= 11)

In [14]:
# 훈련 426개, 테스트 143개 데이터 
len(x_train), len(x_test)

(426, 143)

# 모델 학습 

In [15]:
# clf : classifier 
clf = SVC()
clf.fit(x_train, y_train)

In [16]:
pred = clf.predict(x_test)

In [17]:
accuracy_score(y_test, pred)

0.9440559440559441

## 최적화

In [18]:
mm = MinMaxScaler()
scaled_train = mm.fit_transform(x_train)
scaled_test = mm.transform(x_test)

In [20]:
clf2 = SVC()
clf2.fit(scaled_train, y_train)

In [21]:
clf2.score(scaled_test, y_test)

0.958041958041958

# 하이퍼파라미터 튜닝 

- 머신러닝 모형이 완성되고 나서 매개변수 최적화를 통해서 예측성능을 더 극대화 

In [22]:
param_grid = {"C" : [0.001, 0.01, 0.1, 1, 10, 100, 1000],
              "gamma" : [0.001, 0.01, 0.1, 1,10, 100, 1000 ]}

In [23]:
# gamma 기본 값 scale 
grid = GridSearchCV(SVC(random_state=11), param_grid = param_grid, cv = 5, n_jobs=-1)

In [24]:
grid.fit(scaled_train, y_train)

In [25]:
grid.best_score_

0.9812311901504789

In [26]:
grid.best_params_

{'C': 1, 'gamma': 1}

In [27]:
grid.score(scaled_test, y_test)

0.951048951048951

# 파이프라인 구축

- 여러 알고리즘을 비교
- 전체 공정을 시퀀스로 연결하여 구성 

## 파이프라인 구축 예

- case1 : 표준 방법
    - 작업 순서를 나열하고, 이름을 각각 부여
    - 후보가 유력한 알고리즘과 전처리기를 배치 

In [33]:
# scaler 걍 이름붙인거, 아무이름 갖다 써도 됨 
# SVC 분류기 
# 클래스를 쓺 
pipe = Pipeline([("scaler", MinMaxScaler()),
                ("classifier", SVC(random_state=11))])

In [34]:
pipe

- case2 : 간소화 방법
    - 이름을 부여하지 않고 자동으로 부여됨 

In [35]:
# 자동부여 / 스케일러 이름을 안붙이니까 자기가 minmaxscaler 알아서 붙임 
# make_pipeline 함수를 씀
pipe_sim = make_pipeline(MinMaxScaler(), SVC())
pipe_sim

# 파이프라인 적용

In [36]:
pipe = Pipeline([('preprocessing', StandardScaler()),
                 ('classifier', SVC(random_state=11))])

In [37]:
pipe

- SVC
    1. minmax
    2. standard 
    
- SVC의 C 와 gamma 값을 어떻게 할 것 인지 

In [38]:
# 하이퍼 파라미터 정의 
param_grid = [
    {
        "classifier" : [SVC(random_state=11)],
        "preprocessing" : [StandardScaler(), MinMaxScaler()],
        # 이름__파라미터명 => 해당 알고리즘에 적용되는 파라미터 
        "classifier__C" : [0.001, 0.01,0.1, 1, 10, 100],
        "classifier__gamma" : [0.001, 0.01,0.1, 1, 10, 100]
    },
    {
        "classifier" : [RandomForestClassifier(random_state=11)],
        "preprocessing" :[None],
        "classifier__max_features" : [1, 2, 3]
    }
]

In [39]:
# 결합(파이프라인, 하이퍼파라미터 튜닝)
grid = GridSearchCV(pipe, param_grid, cv = 5, n_jobs= -1)

In [40]:
grid.fit(x_train, y_train)

In [41]:
grid.best_score_

0.9812311901504789

In [42]:
grid.best_params_

{'classifier': SVC(C=10, gamma=0.1, random_state=11),
 'classifier__C': 10,
 'classifier__gamma': 0.1,
 'preprocessing': MinMaxScaler()}

In [43]:
grid.score(x_test, y_test)

0.958041958041958