## ------------------------------------------------------------------------------------------------------------------------------
## Pipeline com scikit-learn
    https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html
    
## ------------------------------------------------------------------------------------------------------------------------------

### Etapas para seguir para aplicar teste do pipeline

    Passo 1: OneHotEncoding na coluna 'Target'
    Passo 2: Imputando dados faltantes.
    Passo 3: Aplicando função para transformação dos valores das colunas (transformação vai depender do problema, claro :))
    Passo 4: Normalização dos dados
    Passo 5: PCA - Redução de dimensionalidade.
    Passo 6: Aplicando RandomForest para regressão
    Passo 7 (só no teste): Predict utilizando o modelo do PASSO 6 no conjunto de teste.

## ------------------------------------------------------------------------------------------------------------------------------

##### Imports

In [19]:
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split

## Criando dados aleatórios
    3000 mil exemplos
    15 features
    Target foi marcado como 'True' ou 'False'

In [54]:
# Cria um dataset para usar no exemplo
X, y = datasets.make_regression(n_samples=3000, 
                                n_features=15, 
                                random_state=42)
X = pd.DataFrame(X)
X['target'] = X[0].apply(lambda x: 'True' if x > 1 else 'False')
X = X.values

# Separa o conjunto em treino e teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

In [55]:
#visualizando dataframe
#15 features
pd.DataFrame(X_train)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,1.47164,0.991757,-0.34423,0.733616,1.17809,-1.13698,-1.69523,-1.27103,1.55226,0.947653,0.666275,-0.146097,-1.2693,0.109277,1.05817,True
1,-1.5071,-0.0537412,0.22582,0.409958,0.724747,-1.30622,0.0857217,0.807978,0.0684681,-0.159191,0.0724027,-0.97514,0.167059,-0.534998,-1.80709,False
2,-0.617285,-0.618983,0.0362793,-0.487869,-0.00661624,0.0416812,-0.130014,0.45761,0.956549,1.13492,0.251593,-1.37026,1.19073,2.21133,1.7615,False
3,0.463316,0.366236,1.34204,0.437872,0.75808,-0.690075,-0.77701,-0.0228137,-1.32079,0.508193,-0.883723,0.503671,0.830505,1.92863,-0.953525,False
4,-0.878125,0.236992,1.54611,-1.18092,0.958593,-0.370785,-0.390061,0.148021,-0.152797,-1.32024,0.434435,0.979263,2.07793,1.4961,0.181881,False
5,1.53885,0.911262,0.382131,-1.08793,0.493086,0.435683,0.215663,-0.990698,-0.523452,0.319823,-1.82253,-0.544573,-0.579186,1.24097,0.822842,True
6,1.47675,-0.721622,1.84188,0.509931,0.48107,0.786096,0.397266,-0.390752,0.0666698,-0.301332,-0.105485,-2.33801,0.166859,-0.94661,-0.732454,True
7,0.543681,1.09887,1.07016,0.423944,0.365831,0.859173,-1.27231,-0.247118,-0.495628,0.329893,0.0393194,1.36868,-2.40628,0.901518,0.883493,False
8,0.321243,-0.295924,-0.296516,-1.06987,0.243876,-0.847262,-0.0620882,0.212852,0.535836,2.24634,-0.102546,0.277619,0.95951,0.383358,0.865365,False
9,0.178477,1.42886,-0.159362,-0.457848,-0.714681,-0.995148,0.16806,-0.370583,-1.47413,-2.17707,-0.122057,-1.34805,0.52128,-0.181503,0.321679,False


# Manualmente

In [48]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor

#### Para Treino

In [59]:
#PASSO 1: OneHotEncoding NA COLUNA 'TARGET'---------------------------------------------------------------------------
# Cria um objeto para o one hot encoder.
ohe = OneHotEncoder(sparse=False)
# Treina o objeto de one hot encoding no conjunto de treinamento.
train_ohe = ohe.fit_transform(X_train[:, 15].reshape(-1, 1))
# Aplica a coluna no conjunto de treinamento.
X_train_ohe = np.concatenate((train_ohe, X_train[:,:-1]), axis=1)
#PASSO 1_END-----------------------------------------------------------------------------------------------------------


#PASSO 2: IMPUTANDO DADOS FALTANTES------------------------------------------------------------------------------------
# Cria um objeto para imputação de dados faltantes.
imputer = SimpleImputer(strategy='mean') #median #depende do problema
# Treina o objeto de imput no conjunto de treinamento.
X_train_imput = imputer.fit_transform(X_train_ohe) #o X_train é o que já passou pelo OHE do passo 1
#PASSO 2_END-----------------------------------------------------------------------------------------------------------


#PASSO 3: Aplicando função para transformação dos valores das colunas--------------------------------------------------
# Cria um objeto com a função que se deseja aplicar.
transform_func = FunctionTransformer(lambda x: x * 3, validate=True) #Ex: multificar tudo por 3
# Treina o objeto da função no conjunto de treinamento.
X_train_transform = transform_func.fit_transform(X_train_imput) #o X_train é o que já passou pelo imputer do passo 2
#PASSO 3_END-----------------------------------------------------------------------------------------------------------

#PASSO 4: Normalização dos dados---------------------------------------------------------------------------------------
# Cria um objeto para normalização com minimax.
scaler = MinMaxScaler(feature_range=(0, 1))
# Treina o objeto de scaling no conjunto de treinamento.
X_train_scaled = scaler.fit_transform(X_train_transform) #o X_train é o que já passou pelo transform_func do passo 3
#PASSO 3_END-----------------------------------------------------------------------------------------------------------

#PASSO 5: PCA - Redução de dimensionalidade----------------------------------------------------------------------------
# Cria um objeto para aplicação do PCA.
pca = PCA(n_components=5, random_state=42)
# Treina o objeto de pca no conjunto de treinamento.
X_train_pca = pca.fit_transform(X_train_scaled) #o X_train é o que já passou pelo scaler do passo 4
#PASSO 5_END-----------------------------------------------------------------------------------------------------------

#PASSO 6: PCA - Aplicando RandomForest para regressão------------------------------------------------------------------
# Cria o modelo RandomForest.
model = RandomForestRegressor(n_estimators=100, random_state=42)
# Treinamento do modelo com conjunto de treino
model.fit(X_train_pca, y_train) #o X_train é o que já passou pelo pca do passo 5
#PASSO 6_END-----------------------------------------------------------------------------------------------------------

RandomForestRegressor(random_state=42)

#### Para Teste

In [66]:
#Aplica o 'ohe' do PASSO 1 na coluna de teste.---------------------------------------
test_ohe = ohe.transform(X_test[:, 15].reshape(-1, 1))
X_test_ohe = np.concatenate((test_ohe, X_test[:,:-1]), axis=1)

#Aplica o 'imputer' do PASSO 2 na coluna de teste.-----------------------------------
X_test_imput = imputer.transform(X_test_ohe)

# Aplica a função 'transform_func' do PASSO 3 no conjunto de teste-------------------
X_test_transform = transform_func.transform(X_test_imput)

# Aplica o 'scaler' do PASSO 4 no conjunto de teste----------------------------------
X_test_scaled = scaler.transform(X_test_transform)

# Aplica o objeto 'pca' do PASSO 5 no conjunto de teste------------------------------
X_test_pca = pca.transform(X_test_scaled)

# Predict utilizando o modelo do PASSO 6 no conjunto de teste------------------------
y_pred_manual = model.predict(X_test_pca)

#visualizando 5 predicts
y_pred_manual[:5]

array([-97.48333429,  83.90566213,  65.44037195, -50.61913643,
        -4.96672724])

# Com pipeline com sklearn

In [67]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

##### Lembrando os passos:
    Passo 1: OneHotEncoding na coluna 'Target'
    Passo 2: Imputando dados faltantes.
    Passo 3: Aplicando função para transformação dos valores das colunas (transformação vai depender do problema, claro :))
    Passo 4: Normalização dos dados
    Passo 5: PCA - Redução de dimensionalidade.
    Passo 6: Aplicando RandomForest para regressão
    Passo 7 (só no teste): Predict utilizando o modelo do PASSO 6 no conjunto de teste.

#### Para Treino

In [77]:
pipe = Pipeline([
    ('passo1_one_hot_encoding', ColumnTransformer([('one_hot_encoder', OneHotEncoder(), [15]),],remainder='passthrough')),
    ('passo2_imputer', SimpleImputer(strategy='mean')),
    ('passo3_transform_func', FunctionTransformer(lambda x: x * 2, validate=True)),
    ('passo4_scaler', MinMaxScaler(feature_range=(0, 1))),
    ('passo5_pca', PCA(n_components=5, random_state=42)),
    ('passo6_model', RandomForestRegressor(n_estimators=100, random_state=42))
])

# Fit usando pipe (passa por todos os passos setados no pipe)
pipe.fit(X_train, y_train)

Pipeline(steps=[('passo1_one_hot_encoding',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('one_hot_encoder',
                                                  OneHotEncoder(), [15])])),
                ('passo2_imputer', SimpleImputer()),
                ('passo3_transform_func',
                 FunctionTransformer(func=<function <lambda> at 0x0000021D6E0A62F0>,
                                     validate=True)),
                ('passo4_scaler', MinMaxScaler()),
                ('passo5_pca', PCA(n_components=5, random_state=42)),
                ('passo6_model', RandomForestRegressor(random_state=42))])

#### Para Teste

In [78]:
# Predict usando o pipe
y_pred_pipe = pipe.predict(X_test)

#visualizando 5 predicts
y_pred_pipe[:5]

array([-97.48333429,  83.90566213,  65.44037195, -50.61913643,
        -4.96672724])

In [81]:
#não faz sentido score para dados aleatórios
#pipe.score(X_test, y_test)