# Pipelines + Project flow (minimal)

# Utilidades do Sklearn
- [MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)



- [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)



- [Binarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html)



- [KBinsDiscretizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html)



- [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)



- [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)



- [OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html)



- [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer)


- etc...

## Exec√≠cio
Considere o seguinte dataset com alturas e pesos de algumas pessoas.

In [None]:
import pandas as pd
import numpy as np
data = pd.DataFrame(
    [
        {'gender': 'Male', 'height': 180, 'weight': 82},
        {'gender': 'Female', 'height': np.nan, 'weight': 72},
        {'gender': 'Male', 'height': 170, 'weight': 75},
        {'gender': 'Female', 'height': 165, 'weight': 60},
        {'gender': 'Male', 'height': 177, 'weight': 76},
    ])

test_data = pd.DataFrame(
    [
        {'gender': 'Male', 'height': 170, 'weight': 72},
        {'gender': 'Female', 'height': np.nan, 'weight': 60}
    ]
)

data

In [None]:
test_data

**Tarefas**
1. Transformar a coluna `gender` com `OneHotEncoder`
2. Inserir dados faltantes na coluna `height`
3. Juntar as duas transforma√ß√µes
4. Aplicar as mesmas transforma√ßoes aos dados de teste
5. Criar um modelo linear que preveja o peso de uma pessoa, dados o g√™nero e a altura.
6. Use os dados de teste para estimar a qualidade das predi√ß√µes.

### Transformar a coluna gender com OneHotEncoder

In [None]:
from sklearn.preprocessing import OneHotEncoder



### Inserir dados faltantes na coluna `height`

In [None]:
from sklearn.impute import SimpleImputer


### Juntar as duas transforma√ß√µes

### Criar um modelo linear que preveja o peso de uma pessoa, dados o g√™nero e a altura.


In [None]:
from sklearn.linear_model import LinearRegression



### Use os dados de teste para estimar a qualidade das predi√ß√µes.

In [None]:
# dados teste n√£o transformados


### Aplicar as mesmas transforma√ßoes aos dados de teste
- Por que transformamos os dados de teste?

In [None]:
test_data

In [None]:
# aplicamos s√≥ o m√©todo transform para evitar data leakage (vazamento de dados)



In [None]:
# dados de teste transformados


**Para pensar:** O que houve com a coluna que n√£o foi tradada? Como adicion√°-la ao resultado final?

<details>
    <summary> Depois que pensar, clique aqui! </summary>
        
> Adicionaria as colunas no dataset transformado!

</details> 

**Para pensar:** Quais as vantagens e desvantagens do m√©todo acima? Ele √© escal√°vel?

<details>
    <summary> Depois que pensar, clique aqui! </summary>
        
> Desvatangem: 
>- parece muito mais complicado (d√° muito mais voltas!)
>- n√£o √© escal√°vel: muito trabalho manual
>- por ser manual, sujeito √† erros

> Vantagem:
>- f√°cil de aplicar nos dados de teste (s√≥ fazer .transform())
>- √© "humam-readable" (percept√≠vel, f√°cilmente compreens√≠vel)
    
</details>

## [Column Transformer ](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html)

Refa√ßa o exec√≠cio acima de forma mais 'elegante' (e segura e escal√°vel etc)

### passos 1, 2 e 3 de uma vez s√≥: criar X_treino

In [None]:
from sklearn.compose import ColumnTransformer



### passo 4 de forma beeeeeem mais simple: criar X_teste


### criar o modelo com os dados do ColumnTransformer

In [None]:
X_treino = ?
y_treino = ?

lr = LinearRegression()

lr.fit(X_treino, y_treino) 

### Use os dados de teste para estimar a qualidade das predi√ß√µes.

In [None]:
X_teste = ?
y_teste = ?

y_pred = lr.predict(X_teste)


print('R2 score:', r2_score(y_teste, y_pred))
print('mean square error:', mean_squared_error(y_teste, y_pred))
## note que o resultado √© exatamente igual ao resultado anterior (manual)

**Para pensar:** Ser√° que h√° um jeito elegante de fazer todo o fluxo de ML? üëáüèª

# [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)

**Tarefa:** Refa√ßa o problema acima usando Pipeline. Note as vantagens dessa t√©cnica!

## refazendo passos 1 a 5 com pipeline!

In [None]:
from sklearn.pipeline import Pipeline



## refazendo passo 6 com pipeline!
- note que os dados de teste ainda n√£o foram preprocessados!

In [None]:
y_pred = ?
y_teste = ?

print('R2 score:', r2_score(y_teste, y_pred))
print('mean square error:', mean_squared_error(y_teste, y_pred))
## note que o resultado √© exatamente igual ao resultado anterior (manual)

**Para pensar:** Podemos aplicar mais de uma transforma√ß√£o em cada coluna? üëáüèª

## Pipeline + ColumnTransform
- Refa√ßa o exec√≠cio acima normalizando os dados de altura usando com MinMaxScaler

In [None]:
from sklearn.preprocessing import MinMaxScaler



In [None]:
## passando a vari√°vel 'weight' sem nenhuma transforma√ß√£o!


# Salvando e reutilizando o modelo