# Sklearn

## pipeline
Pipeline可以將許多算法模型串聯起來，可以用於<font color=red>把多個estimators級聯成一個estimator</font>，比如將特徵提取、歸一化、分類組織在一起形成一個典型的機器學習問題工作流。\
Pipleline中最後一個之外的所有estimators都必須是變換器（transformers），最後一個estimator可以是任意類型（transformer，classifier，regresser）,如果最後一個estimator是個分類器，則整個pipeline就可以作為分類器使用，如果最後一個estimator是個聚類器，則整個pipeline就可以作為聚類器使用。\
主要帶來兩點好處：
1.  直接調用fit和predict方法來對pipeline中的所有算法模型進行訓練和預測。
2.  可以結合grid search對參數進行選擇

[參考網址](https://blog.csdn.net/qq_41598851/article/details/80957893)

#### 使用方法
通過steps參數，設定數據處理流程。格式為('key','value')，key是自己為這一step設定的名稱，value是對應的處理類。最後通過list將這些step傳入。前n-1個step中的類都必須有transform函數，最後一步可有可無，一般最後一步為模型。使用最簡單的iris數據集來舉例：

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
iris = load_iris()
pipe = Pipeline(steps = [('pca',PCA()),('svc',SVC())])
pipe.fit(iris.data,iris.target)

In [2]:
pipe.predict(iris.data)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

#### make_pipeline
make_pipeline它是Pipeline類的簡單實現，只需傳入每個step的類實例即可，不需自己命名，自動將類的小寫設為該step的名:

In [3]:
from sklearn.linear_model import ElasticNet, Lasso, BayesianRidge, LassoLarsIC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import RobustScaler #用來處理離群值
make_pipeline(RobustScaler(),Lasso(alpha = 0.0005, random_state = 1))

In [4]:
p = make_pipeline(RobustScaler(),Lasso(alpha = 0.0005, random_state = 1))
p.set_params(lasso__alpha=0.0001)
#p.fit
#p.predict

## Polynomialfeatures
它是使用多項式的方法來進行的，如果有a，b兩個特徵，那麼它的2次多項式為 $（1,a,b,a^2,ab, b^2）$ ，這個多項式的形式是使用poly的效果。

[參考網址](https://blog.csdn.net/hushenming3/article/details/80500364)

### PolynomialFeatures有三個參數

*   degree：控制多項式的度

*   interaction_only： 默認為False，如果指定為True，那麼就不會有特徵自己和自己結合的項，上面的二次項中沒有$a^2$和$b^2$。

*   include_bias：默認為True。如果為True的話，那麼就會有上面的 1那一項(常數項)。

##### 例子

In [9]:
#eg1 : interaction_only=False
from sklearn.preprocessing import PolynomialFeatures
c = [[5,10]]    #c=[[a,b]],這裡要注意a的shape，如果是list形式，則將a.shape=-1,1
pl = PolynomialFeatures()
b = pl.fit_transform(c)
b

array([[  1.,   5.,  10.,  25.,  50., 100.]])

In [10]:
#eg2 : interaction_only=True
from sklearn.preprocessing import PolynomialFeatures
c=[[5,10]]
pl=PolynomialFeatures(interaction_only=True)
b=pl.fit_transform(c)
b

array([[ 1.,  5., 10., 50.]])

In [25]:
#eg3 : degree = 3
from sklearn.preprocessing import PolynomialFeatures
c = [[5,10]]    #c=[[a,b]],這裡要注意a的shape，如果是list形式，則將a.shape=-1,1
pl = PolynomialFeatures(degree = 3)
b = pl.fit_transform(c)
b

array([[   1.,    5.,   10.,   25.,   50.,  100.,  125.,  250.,  500.,
        1000.]])

In [28]:
#eg4 : 三個樣本,兩個參數
from sklearn.preprocessing import PolynomialFeatures
c=[[2,3],[3,4],[4,5]] #[sample1,sample2,sample3]
pl=PolynomialFeatures()
b=pl.fit_transform(c)
b

array([[ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  3.,  4.,  9., 12., 16.],
       [ 1.,  4.,  5., 16., 20., 25.]])