### Nesse capítulo veremos como utilizar pipelines com o scikit-learn. Esse procedimento é usado quando queremos utilizar vários procedimentos nos dados em uma única vez. Por exemplo: Pré-processamento, substituir valores faltantes, usar um modelo de machine learning ou otimizar os hiperparâmetros. Isso pode ser feito mais facilmente com um pipeline que junta todas esses coisas!

In [35]:
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.metrics import precision_score, classification_report
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

In [2]:
dados=pd.read_csv("../dados/diabetes.csv")

In [3]:
dados.head()

Unnamed: 0,pregnancies,glucose,diastolic,triceps,insulin,bmi,dpf,age,diabetes
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [4]:
X=dados.drop(["diabetes"], axis=1)
y=dados["diabetes"]

### Ao invés de fazer a imputação separadamente. Podemos usar juntamente com o modelo em um pipeline do scikit learn. Assim, os dados de teste serão imputados com as informações dos dados de treino. Tornando o processo mais eficiente.

In [5]:
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
logreg = LogisticRegression()

In [6]:
steps = [('imputation', imp),
('logistic_regression', logreg)]

In [7]:
pipeline = Pipeline(steps)

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.3, random_state=42)

In [9]:
pipeline.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Pipeline(steps=[('imputation', SimpleImputer()),
                ('logistic_regression', LogisticRegression())])

In [10]:
y_pred = pipeline.predict(X_test)

In [11]:
precision_score(y_test, y_pred)

0.625

### Pipeline muito parecido com o anterior, agora usando um escalonador nos dados. Todos esses métodos têm as funções de fit e transform.

In [14]:
steps = [('scaler', StandardScaler()),
('knn', KNeighborsClassifier())]

In [15]:
pipeline = Pipeline(steps)

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.2, random_state=21)

In [17]:
knn_scaled = pipeline.fit(X_train, y_train)

In [18]:
y_pred = pipeline.predict(X_test)

In [20]:
precision_score(y_test, y_pred)

0.725

In [21]:
knn_unscaled = KNeighborsClassifier().fit(X_train, y_train)

In [22]:
precision_score(y_test, y_pred)

0.725

### Agora farei uma otimização de hiperparâmetros com validação cruzada usando pipeline. A grande diferença aqui é que em cada iteração da validação cruzada de uma combinação dos hiperparâmetros é realizado o fit dos passos do pipeline nos folds de treino e o transform é realizado no fold de teste.

In [25]:
steps = [("scaler", StandardScaler()),
         ("SVM", SVC())]

In [26]:
pipeline = Pipeline(steps)

In [27]:
parameters = {'SVM__C':[1, 10, 100],
              'SVM__gamma':[0.1, 0.01]}

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=21)

In [31]:
cv = GridSearchCV(pipeline, parameters, scoring="precision")

In [32]:
cv.fit(X_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('scaler', StandardScaler()),
                                       ('SVM', SVC())]),
             param_grid={'SVM__C': [1, 10, 100], 'SVM__gamma': [0.1, 0.01]},
             scoring='precision')

In [33]:
y_pred = cv.predict(X_test)

In [38]:
print("Precision: {}".format(precision_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))
print("Tuned Model Parameters: {}".format(cv.best_params_))

Precision: 0.775
              precision    recall  f1-score   support

           0       0.75      0.90      0.82        94
           1       0.78      0.52      0.62        60

    accuracy                           0.75       154
   macro avg       0.76      0.71      0.72       154
weighted avg       0.76      0.75      0.74       154

Tuned Model Parameters: {'SVM__C': 1, 'SVM__gamma': 0.01}
