# O que são Pipelines?
Como já sabemos, para construir um modelo de ML, precisamos separar nossos dados em treino e test, isso não é mistério para ninguêm.
E logo em seguida dessa separação, ai sim fazemos os nossos pre processamentos (tratamentos).
Mas imagina que você tem um processo trabalhoso de tratamento de dados, e ter que fazer isso nos dois conjuntos de dados parece ser bem chato e cansativo.
Por isso temos os pipelines, são conjuntos de instruções que nossos dados passarão, e que serão transformados.

![pipeline](https://miro.medium.com/max/1308/1*3cbyBR99wFWklU6Sy85NEA.png)

In [2]:
from sklearn.pipeline import Pipeline  # vamos usar para fazer o tratamento de dados em colunas específicas
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer  # vamos usar para separar as colunas, fazer o tratamento devido em cada uma, e depois unilas novamente em um único dataset

In [5]:
num_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('min_max', MinMaxScaler())
])

cat_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('oh', OneHotEncoder())
])

In [23]:
import pandas as pd
import numpy as np 

df_train = pd.read_csv('aug_train.csv')
df_test = pd.read_csv('aug_test.csv')

df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2129 entries, 0 to 2128
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   enrollee_id             2129 non-null   int64  
 1   city                    2129 non-null   object 
 2   city_development_index  2129 non-null   float64
 3   gender                  1621 non-null   object 
 4   relevent_experience     2129 non-null   object 
 5   enrolled_university     2098 non-null   object 
 6   education_level         2077 non-null   object 
 7   major_discipline        1817 non-null   object 
 8   experience              2124 non-null   object 
 9   company_size            1507 non-null   object 
 10  company_type            1495 non-null   object 
 11  last_new_job            2089 non-null   object 
 12  training_hours          2129 non-null   int64  
dtypes: float64(1), int64(2), object(10)
memory usage: 216.4+ KB


In [11]:
y = df_train.target
X = df_train.drop('target', axis=1)

cat_cols = [col for col in X.columns if X[col].dtype == 'object']
num_cols = [col for col in X.columns if X[col].dtype == 'int64' or X[col].dtype == 'float64']

In [12]:
transform = ColumnTransformer([
    ('cat_transoform', cat_pipeline, cat_cols),
    ('num_transoform', num_pipeline, num_cols),
])

In [17]:
X_transform = transform.fit_transform(X, y)
print(X_transform)

  (0, 5)	1.0
  (0, 124)	1.0
  (0, 126)	1.0
  (0, 130)	1.0
  (0, 131)	1.0
  (0, 141)	1.0
  (0, 163)	1.0
  (0, 168)	1.0
  (0, 177)	1.0
  (0, 178)	1.0
  (0, 184)	0.2680727403457263
  (0, 185)	0.942115768463074
  (0, 186)	0.1044776119402985
  (1, 77)	1.0
  (1, 124)	1.0
  (1, 127)	1.0
  (1, 130)	1.0
  (1, 131)	1.0
  (1, 141)	1.0
  (1, 148)	1.0
  (1, 168)	1.0
  (1, 177)	1.0
  (1, 182)	1.0
  (1, 184)	0.8905000149794782
  (1, 185)	0.6546906187624749
  :	:
  (19156, 124)	1.0
  (19156, 126)	1.0
  (19156, 130)	1.0
  (19156, 132)	1.0
  (19156, 141)	1.0
  (19156, 162)	1.0
  (19156, 169)	1.0
  (19156, 177)	1.0
  (19156, 179)	1.0
  (19156, 184)	0.1724137931034483
  (19156, 185)	0.7065868263473055
  (19156, 186)	0.2865671641791045
  (19157, 95)	1.0
  (19157, 124)	1.0
  (19157, 127)	1.0
  (19157, 130)	1.0
  (19157, 135)	1.0
  (19157, 141)	1.0
  (19157, 153)	1.0
  (19157, 168)	1.0
  (19157, 177)	1.0
  (19157, 178)	1.0
  (19157, 184)	0.7140118038287546
  (19157, 185)	0.812375249500998
  (19157, 186)	0.37

In [19]:
X_valid = transform.transform(df_test)

In [20]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()
tree.fit(X_transform, y)

In [22]:
pred = tree.predict(X_valid)
pred

array([1., 1., 0., ..., 1., 0., 0.])

In [None]:
from sklearn.metrics import accuracy_score

