# Let's Code - Criação de um pipeline dentro do Sklearn:

<img src="Figures/logo_lets_code.jpeg">


## Na aula de hoje falaremos sobre os seguintes tópicos:

- Motivação
- O que é um pipeline?
- Quais as vantagens de se utilizar um pipeline?
- E o pipeline dentro do contexto de ciência de dados?
    - Feature normalization
    - Feature selection
    - Treinando e avaliando modelos em Pipelines
        - Cross Validation em Pipelines
        - Grid-Search com Pipelines
- O pipeline em aplicação no dia-a-dia do cientista de dados


## Quem irá ministrar a aula de hoje vai ser:

- Lucas Félix
- Formado em ciência da computação pela UFSJ (2018)
- Mestrando em ciência da computação pela UFMG
- Consultor sênior em ciência de dados na Deloitte
- Experiência com: Machine Learning, Otimização, Heurísticas, Data Scrapping, Sistemas de Recomendação, Desenvolvimento de Software


## Motivação:

<img src="Figures/cientista-de-dados.png">
<center><b>Pilares de habilidades de um cientista de dados</b></center>

O cientista de dados é atualmente considerado um unicórnio no mercado (profissional difícil de conseguir especializado em áreas distintas).

Conhecer tudo dentro de todos estes universos é por vezes uma tarefa árdua e distante de maioria dos profissionais. Para facilitar o conhecimento dentro de todo esse universo, bibliotecas auxiliam o profissional a atingir múltiplos objetivos oferecendo maneiras distintas de se fazer um mesma coisa.

Nesta aula iremos focar em uma função dentro da biblioteca Sklearn que permite o profissional entrar dentro das áreas de aprendizado de máquina e na área de programação tradicional de software.

### Qual a necessidade de focar em vários pilares ao mesmo tempo?

Dada a dinamicidade de um projeto de ciência de dados, tanto em termos de requisitos do problema de atuação quanto em termos do time que atua no projeto, desenvolver um código de alta legibilidade (código fácil de ler e entender) e reprodutibilidade (fácil de executar e alcançar resultados) é essencial.

<br>
<br>

<figure class="half" style="display:flex">
    <img style="width:500px" src="Figures/legibilidade.ppm">
    <img style="width:500px" src="Figures/reproductibilidade.jpg">
</figure>
<center><b>Legibilidade e Reproductibilidade são pilares da ciência de dados</b></center>


## O que é um pipeline?


Um pipeline (em tradução livre uma sequência de canos conectados) é uma sequência de funções conectadas que ao final nos dá um resultado esperado. A concepção de um pipeline não está inicialmente ligada com Aprendizado de Máquina e sim com Orientação à Objetos (OO), onde as linguagens desse paradigma permitem a concatenação sequencial de funções.

Considere o exemplo abaixo onde várias funções estão sendo aplicadas sob uma string:

#### Exemplo 1: Implementação sem pipes

In [1]:
string = "O rato roeu a roupa do rei de roma"

# deixa tudo como letra minuscula
string = string.lower()

# substitui a palavra rato por rata
string = string.replace("rato", "rata")

# substitui rei por rainha
string = string.replace("rei", "rainha")

# substitui o por a
string = string.replace("o ", "a ")

# substitui "do" por "da"
string = string.replace("do", "da")

# deixa a primeira letra maiúscula
string = string.capitalize()


#### Como podemos melhorar o código acima?

In [2]:
string = "O rato roeu a roupa do rei de roma"

string = string.lower()

replace = {"rato": "rata", "rei": "rainha", "o ": "a ", "do": "da"}

for original, replacer in replace.items():
    
    string = string.replace(original, replacer)

string = string.capitalize()

#### Exemplo 2: Pipeline em linguagens orientadas a objeto

In [3]:
string = "O rato roeu a roupa do rei de roma"

string.lower().replace("rato", "rata").replace("rei", "rainha").replace("o ", "a ").replace("do", "da").capitalize()

'A rata roeu a roupa da rainha de roma'

In [4]:
def to_str(value):
    
    return str(value) + " é a resposta para tudo"

#### Exemplo 3: Utilizando funções customizadas

In [5]:
string = to_str(42)

# todas as palavras com a primeira letra maiuscula
string = string.title()

# RESPOSTA agora é toda maiúscula
string = string.replace("Resposta", "RESPOSTA")

#### Exemplo 4: Pipeline com funções customizadas

In [6]:
to_str(42).title().replace("Resposta", "RESPOSTA")

'42 É A RESPOSTA Para Tudo'

## Quais as vantagens de se utilizar um pipeline?

Os códigos acima são exemplos básicos da utilização de um pipeline. Dentro de códigos pequenos talvez não seja possível ver tanta a necessidade da utilização de pipes em funções, entretanto, em grandes projetos que exigem muitas linhas de código de dedicação esse tipo de técnica se torna indispensável. <br>

Assim as principais vantagens de se utilizar um pipeline são:

- Aumento na legibilidade de código
- Aumento na reproductibilidade dos resultados


Entretanto, vale ressaltar, que o uso excessivo de pipes pode atrapalhar um pouco na legibilidade. Vai do bom senso do profissional ver até que ponto o uso trás benefícios pra legibilidade do código.

## E o pipeline dentro do contexto de ciência de dados?

O pipeline em aprendizado de máquina foi introduzido pela biblioteca Sklearn com o objetivo de aumentar a legibilidade de código evitando a reutilização execessiva de variáveis. Outro ponto é a reproductibilidade dos experimentos e sistemas que são feitos com base em modelos do Sklearn

<br>

Para colocar tudo isso que nós vimos em prática, vamos passar por um stack completo de operações utilizando o pipeline. As operações que serão realizadas são:

- Feature Normalization
- Feature Selection
- Grid Search
- Cross-Validation

Para este exemplo vamos utilizar os dados do dataset heart disease: <b><a href="https://www.kaggle.com/ronitf/heart-disease-uci">Heart Disease</a></b>. O objetivo neste dataset é se um paciente possui uma doença cardíaca ou não.

In [7]:
import pandas as pd

import numpy as np

In [8]:
df = pd.read_table("Data/heart.csv", sep=',')

In [9]:
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,M,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,M,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,F,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,M,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,F,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,F,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,M,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,M,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,M,0,130,131,0,1,115,1,1.2,1,1,3,0


In [10]:
df.describe()

Unnamed: 0,age,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
mean,54.366337,0.966997,131.623762,246.264026,0.148515,0.528053,149.646865,0.326733,1.039604,1.39934,0.729373,2.313531,0.544554
std,9.082101,1.032052,17.538143,51.830751,0.356198,0.52586,22.905161,0.469794,1.161075,0.616226,1.022606,0.612277,0.498835
min,29.0,0.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,47.5,0.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,2.0,0.0
50%,55.0,1.0,130.0,240.0,0.0,1.0,153.0,0.0,0.8,1.0,0.0,2.0,1.0
75%,61.0,2.0,140.0,274.5,0.0,1.0,166.0,1.0,1.6,2.0,1.0,3.0,1.0
max,77.0,3.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,2.0,4.0,3.0,1.0


Como podemos ver na tabela acima, temos como grande maioria <b>variáveis númericas contínuas</b>, a variável target é o que queremos predizer e a variável <b>sex</b> é uma variável categórica no tipo <b>string</b>.

<br>

<b>Dado que valores muito discrepantes podem ter um impacto muito grande no modelo iremos:</b>

- Normalizar as variáveis contínuas

<b>Dado que modelos do Sklearn só aceitam variáveis númericas temos que:</b>

- Categorizar a variável do tipo string para valor númerico

<b>Dado que nem todas as features auxiliam na predição do modelo:</b>

- Seleção das K melhores features

<b>Dado que temos que garantir a validade estatística dos nossos algoritmos:</b>

- K-Fold

<b>Dado que temos que queremos ter o melhor algoritmo possível:</b>

- GridSearch

Primeiramente vamos importar a função de <b>Pipeline</b> do sklearn.

<img src="Figures/cross_validation.png">
<center><b>Relembrando: Validação Cruzada</b></center>


<img src="Figures/f1.jpeg">
<center><b>Relembrando: F1-Score</b></center>


<img src="Figures/Precisão_e_revocação.png" weidth=400 heigth=400>
<center><b>Relembrando: F1-Score</b></center>

In [11]:
from sklearn.pipeline import Pipeline

<b>Operações que serão aplicadas sobre os dados</b>

In [12]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_validate
from sklearn.metrics import make_scorer
from sklearn.metrics import f1_score
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, mutual_info_classif

In [13]:
from sklearn.ensemble import RandomForestClassifier

<b>Sem a utilização de pipelines</b>

In [14]:
df_aux = df.copy()

imputer = SimpleImputer(strategy='most_frequent')

all_columns = list(df_aux.drop(['target'], axis=1).columns)

df_aux[all_columns] = imputer.fit_transform(df_aux[all_columns])

encoding = LabelEncoder()

df_aux['sex'] = encoding.fit_transform(df_aux['sex'])

normalization = StandardScaler()

df_aux[all_columns] = normalization.fit_transform(df_aux.drop(['target'], axis=1))

model = RandomForestClassifier()

# # definindo 5 folds em que os dados vão ser divididos
kfold = KFold(n_splits=5, shuffle=True)

# # Realiza a valiação cruzada dos resultados e 
# # nos dá como retorno os resultados de cada um dos folds
scoring = make_scorer(f1_score)

results = cross_validate(model, X=df_aux.drop(['target'], axis=1), y=df_aux['target'], cv=kfold, scoring=scoring)

In [15]:
"F1-Score - Mean: ", np.mean(results['test_score']), " Std. Dev ", np.std(results['test_score'])

('F1-Score - Mean: ', 0.8472722123988522, ' Std. Dev ', 0.023585682366102815)

<b>Modelo simples sem a variável sexo</b>

In [16]:
# criando o pipeline

# cada passo é declarado como um dupla
# o primeiro valor descreve qual operação será aplicada
# o segundo valor possui a função que vai ser aplicada sobre os dados
# vale ressaltar que o segundo valor pode ser uma função personalizada
# desde que o modelo possua as funções fit, transform


df_aux = df.drop(['sex'], axis=1)

model = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('normalization', StandardScaler()),
    ('model', RandomForestClassifier())
])


# definindo 5 folds em que os dados vão ser divididos
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Realiza a valiação cruzada dos resultados e 
# nos dá como retorno os resultados de cada um dos folds
scoring = make_scorer(f1_score)

results = cross_validate(model, X=df_aux.drop(['target'], axis=1), y=df_aux['target'], cv=kfold, scoring=scoring)

In [17]:
"F1-Score - Mean: ", np.mean(results['test_score']), " Std. Dev ", np.std(results['test_score'])

('F1-Score - Mean: ', 0.8347316915504699, ' Std. Dev ', 0.02905851075121019)

<b>Modelo simples com a variável sexo</b>

In [18]:
imputer = Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent'))])

encoding = Pipeline(steps=[('encoding', OneHotEncoder())])

normalization = Pipeline(steps=[('normalization', StandardScaler())])

pre_processing = ColumnTransformer(transformers=[
                                                    ('cat', encoding, ['sex']),
                                                    ('normalization', normalization, list(df.drop(['sex', 'target'], axis=1).columns)),
                                                    ('imputer', imputer, list(df.drop(['sex', 'target'], axis=1).columns))
                                                ])

model = Pipeline(steps=[
    ('pre processing', pre_processing),
    ('model', RandomForestClassifier())
])


# definindo 5 folds em que os dados vão ser divididos
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Realiza a valiação cruzada dos resultados e 
# nos dá como retorno os resultados de cada um dos folds
scoring = make_scorer(f1_score)

results = cross_validate(model, X=df.drop(['target'], axis=1), y=df['target'], cv=kfold, scoring=scoring)

In [19]:
"F1-Score - Mean: ", np.mean(results['test_score']), " Std. Dev ", np.std(results['test_score'])

('F1-Score - Mean: ', 0.8301304358723713, ' Std. Dev ', 0.019072280231658044)

## Feature selection em pipelines

In [20]:
imputer = Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent'))])

encoding = Pipeline(steps=[('encoding', OneHotEncoder())])

normalization = Pipeline(steps=[('normalization', StandardScaler())])

pre_processing = ColumnTransformer(transformers=[
                                                    ('cat', encoding, ['sex']),
                                                    ('normalization', normalization, list(df.drop(['sex', 'target'], axis=1).columns)),
                                                    ('imputer', imputer, list(df.drop(['sex', 'target'], axis=1).columns))
                                                ])

model = Pipeline(steps=[
    ('pre processing', pre_processing),
    ('feature-selection', SelectKBest(mutual_info_classif, k = 10)),
    ('model', RandomForestClassifier())
])


# definindo 5 folds em que os dados vão ser divididos
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Realiza a valiação cruzada dos resultados e 
# nos dá como retorno os resultados de cada um dos folds
scoring = make_scorer(f1_score)

results = cross_validate(model, X=df.drop(['target'], axis=1), y=df['target'], cv=kfold, scoring=scoring)

In [21]:
"F1-Score - Mean: ", np.mean(results['test_score']), " Std. Dev ", np.std(results['test_score'])

('F1-Score - Mean: ', 0.8196961518719321, ' Std. Dev ', 0.030279095740504622)

In [22]:
from sklearn.model_selection import GridSearchCV

### Grid Search com pipelines

In [23]:
model = Pipeline(steps=[
    ('pre processing', pre_processing),
    ('feature-selection', SelectKBest(mutual_info_classif, k = 10)),
    ('model', RandomForestClassifier())
])

# Parâmetros que serão explorados
parameters = {'model__max_depth': [3, 4, 5], 'model__criterion': ['gini', 'entropy'],
              'model__n_estimators': [50, 100, 200]}

# Identifica os melhores parâmetros
grid = GridSearchCV(model, param_grid=parameters, cv=kfold, n_jobs=-1)

grid.fit(X=df.drop(['target'], axis=1), y=df['target'])

# os melhores parâmetros
grid.best_params_

{'model__criterion': 'gini', 'model__max_depth': 3, 'model__n_estimators': 200}

## O pipeline em aplicação no dia-a-dia do cientista de dados:

No dia-a-dia do cientista de dados os datasets apresentam muito mais problemas do que estes que foram apresentados aqui:

- Valores faltantes
- Colunas que não se sabe o significado
- Colunas que possuem valores similares
- Valores muito fora do range de distribuição da variável

Então, a gama de operações a serem utilizadas no pipeline só aumenta. Além disso, nem sempre ao pegarmos um dataset sabemos todas as operações que serão aplicadas. 

A utilização de um pipeline até mesmo antes de definir todo o stack de operações que vão ser aplicadas em um dataset deixa o seu código mais organizado e melhor de ser reproduzido antes de entrar em produção. Isso faz também que o profissional ganhe tempo, já passando as operações de maneira organizada, sem precisar fazer uma refatoração do código antes de coloca-lo em produção.

<img src="Figures/cd-pipelines.png" width=400 heigth=400>
<center><b>A utilização de técnicas de pipeline auxiliam o cientista de dados até um código mais sucinto e limpo,<br> facilitando a produtização do código</b></center>

## Resumo de tudo que vimos hoje: Pipeline


- Para que serve
- Como este foi adaptado do paradigma de programação orientado à objetos
- <b>Como utilizar um pipeline no sklearn</b>
    - Normalizar variáveis
    - Categorizar variáveis
    - Seleção de variáveis
    - Validação estatística dos resultados
    - Seleção de parâmetros pelo modelo
- <b>As vantagens do pipeline são:</b>
     - Legibilidade
     - Reproductibilidade

## Para saber mais:

Legibilidade:
<a href="https://medium.com/@emerson_pereira/lint-o-que-%C3%A9-isso-afinal-83b3dc0dec59">Lint. O que é isso afinal?</a><br>

Reproductibilidade:
<a href="https://www.pollingdata.com.br/2019/09/o-que-quer-dizer-reprodutibilidade-na-ciencia/">O que quer dizer reproductibilidade na ciência?</a><br>

## Referências:


<a href="https://medium.com/data-hackers/como-usar-pipelines-no-scikit-learn-1398a4cc6ae9">Como usar pipelines no scikit-learn</a><br>
<a href="https://scikit-learn.org/stable/modules/compose.html">Pipelines and composite estimators</a><br>
<a href="https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html">Sklearn pipeline</a><br>
<a href="https://medium.com/@GouthamPeri/pipeline-with-tuning-scikit-learn-b2789dca9dc2#:~:text=Pipelines%20can%20be%20used%20for,unnecessary%20or%20least%20important%20features.&text=This%20can%20be%20used%20with,importance's%20sorted%20in%20decreasing%20order.">Pipeline for feature selection</a><br>


