    """
    ---------------------------------------------------
    ----- TÓPICO: Machine Learning - Transformers -----
    ---------------------------------------------------
    Arquivo de testes para validar as implementações
    presentes no módulo ml do pacote bebop

    Sumário
    -----------------------------------
    1. Pipelines
    -----------------------------------
    """

# Machine Learning - Transformers

O objetivo desse notebook é propor implementações utilizando os componentes de Machine Learning desenvolvidos no módulo `transformers.py`. Em geral, as classes desenvolvidas visam facilitar a construção de _Pipelines_ de pré processamento de dados em projetos atrelados a construção de modelos, sendo responsáveis por proporcionar as principais operações em fluxos do tipo. Entre as classes implementadas, é possível listar:
    

    ColsFormatting()
    FeatureSelection()
    TargetDefinition()
    DropDuplicates()
    SplitData()
    DummiesEncoding()
    FillNullData()
    DropNullData()
    TopFeaturesSelector()

___
- _Preparação Inicial_
___

In [7]:
# Importando bibliotecas
import pandas as pd 
from sklearn.pipeline import Pipeline

In [2]:
!pip install ../../dist/bebop-0.0.1-py3-none-any.whl



In [8]:
# Lendo base de dados
raw_data = pd.read_csv('../titanic_data/titanic.csv')
print(raw_data.shape)
raw_data.head()

(1309, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


___
* _ColsFormatting()_ 
___

A aplicação do método `fit_transform()` da classe `ColsFormatting()` permite uma transformação básica na nomenclatura das colunas do DataFrame. Com isso, é possível proporcionar uma padronização no desenvolvimento de projetos a partir do alinhamento do código para as referências colunas geradas.

In [9]:
# Importando classe
from ml.transformers import ColsFormatting

# Instanciando objeto
formatter = ColsFormatting()

# Transformando DataFrame
print(f'Colunas do arquivo raw: {list(raw_data.columns)}')
df_cols_form = formatter.fit_transform(raw_data)

# Verificando resultado
print(f'Colunas após formatação: {list(df_cols_form.columns)}')
df_cols_form.head()

Colunas do arquivo raw: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
Colunas após formatação: ['passengerid', 'survived', 'pclass', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket', 'fare', 'cabin', 'embarked']


Unnamed: 0,passengerid,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


_Aplicação:_

Na prática, a classe `ColsFormatting()` pode ser utilizada em pipelines de pré processamento ou de pós leitura dos dados.

___
* _FeatureSelection()_
___

Ao aplicar o método `fit_transform()` da classe `FeatureSelection()`, é possível aplicar o processo de seleção de features em uma base de dados lida. Com isso, é possível automatizar o processo de filtragem de colunas de bases brutas, eliminando colunas chaves e mantendo apenas features relevantes para um possível model de Machine Learning a ser desenvolvido ou aplicado.

In [10]:
# Importando classe
from ml.transformers import FeatureSelection

# Instanciando objeto
features = ['survived', 'name', 'sex', 'age']
selector = FeatureSelection(features=features)

# Transformando base
df_selected = selector.fit_transform(raw_data)

# Visualizando resultado
print(f'Features após a seleção: {list(df_selected.columns)}')
df_selected.head()

Features após a seleção: ['survived', 'name', 'sex', 'age']


Unnamed: 0,survived,name,sex,age
0,0.0,"Braund, Mr. Owen Harris",male,22.0
1,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,1.0,"Heikkinen, Miss. Laina",female,26.0
3,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,0.0,"Allen, Mr. William Henry",male,35.0


_Aplicação:_ 

Na prática, o transformador `FeatureSelection()` pode ser usado em pipelines iniciais de pré processamento ou de póś leitura dos dados.

___
* _TargetDefinition()_
___

Ao aplicar o método `fit_transform()` da classe `TargetDefinition()`, é possível aplicar um processo de transformação nas entradas de uma coluna `target`, modificando entradas categóricas para entradas numéricas de acordo com a informação da classe positiva do modelo.

In [11]:
# Importando classe
from ml.transformers import TargetDefinition

# Instanciando objeto
target_def = TargetDefinition(target_col='survived', pos_class=1.0)

# Transformando DataFrame
df_target_def = target_def.fit_transform(raw_data)

# Visualizando resultado
print(f'Primeiros elementos da classe target original (survived): {raw_data.head()["survived"].values}')
print(f'Primeiros elementos da classe target resutante (target): {df_target_def.head()["target"].values}')
df_target_def.head()

Primeiros elementos da classe target original (survived): [0. 1. 1. 1. 0.]
Primeiros elementos da classe target resutante (target): [0 1 1 1 0]


Unnamed: 0,passengerid,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,target
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


_Aplicação:_ 

Na prática, o transformador `TargetDefinition()` pode ser usado em pipelines iniciais de pré processamento ou de póś leitura dos dados.

___
* _DropDuplicates()_
___

O método `fit_transform()` da classe `DropDuplicates()` remove das duplicatas de uma base de dados fornecida.

In [15]:
# Importando classe
from ml.transformers import DropDuplicates

# Instanciando objeto
dup_dropper = DropDuplicates()

# Executando função
df_nodup = dup_dropper.fit_transform(raw_data)
print(f'Volumetria antes da remoção de duplicatas: {len(raw_data)}')
print(f'Volumetria após a remoção das duplicatas: {len(df_nodup)}')
print(f'Quantidade de dados duplicatos na base original: {raw_data.duplicated().sum()}')

Volumetria antes da remoção de duplicatas: 1309
Volumetria após a remoção das duplicatas: 1309
Quantidade de dados duplicatos na base original: 0


_Aplicação:_ 

Na prática, o transformador `DropDuplicates()` pode ser usado em pipelines iniciais de pré processamento ou de póś leitura dos dados.

___
* _SplitData()_ 
___

Ao executar o método `fit_transform()` da classe `SplitData()`, é feita a separação de uma base de dados em dados de treino e teste. Na prática, esse transformador pode ser utilizado como um último passo dentro de um pipeline de pré processamento ou de pós leitura, sendo este o responsável por gerar as bases X_train, X_test, y_train e y_test para a modelagem subsequente.

In [17]:
# Importando classe
from ml.transformers import SplitData

# Instanciando objeto
splitter = SplitData(target='survived', test_size=.20, random_state=42)

# Transformando dados
X_train, X_test, y_train, y_test = splitter.fit_transform(raw_data)
print(f'Volumetria de X_train: {X_train.shape}')
print(f'Volumetria de X_test: {X_test.shape}')
print(f'Volumetria de y_train: {y_train.shape}')
print(f'Volumetria de y_test: {y_test.shape}')

Volumetria de X_train: (1047, 12)
Volumetria de X_test: (262, 12)
Volumetria de y_train: (1047,)
Volumetria de y_test: (262,)


_Aplicação:_ 

Como mencionado acima, a classe `SplitData()` pode ser utilizada como um último em um fluxo de pós leitura da base origem. Considerando que este pipeline de pós leitura irá contemplar transformadores cujo contexto de aplicação está relacionado a base como um todo (sem a separação em treino e teste), `SplitData()` atua como uma finalização do pipe, sendo o primeiro passo para a construção de pipelines subsequentes de data prep.

___
* _DummiesEncoding()_ 
___

A classe `DummiesEncoding()`, a partir do seu método herdado `fit_transform()`, permite com que seja aplicado o processo de encoding em variáveis categóricas de uma base de dados lida. Seu funcionamento é baseado na aplicação do método `get_dummies()` do pandas e seu contexto de utilização está relacionado a pipelines categóricos.

In [24]:
# Importando classe
from ml.transformers import DummiesEncoding

# Separando dados categóricos
cat_attribs = [col for col, dtype in raw_data.dtypes.items() if (dtype == 'object') and (col not in ['name', 'ticket', 'cabin'])]
df_cat = raw_data[cat_attribs]

# Instanciando classe
encoder = DummiesEncoding(dummy_na=True)
df_encoded = encoder.fit_transform(df_cat)

# Retornando features após o encoding e visualizando o resultado
encoded_features = encoder.features_after_encoding
print(f'Features categóricas consideradas: {cat_attribs}')
print(f'Features após o encoding: {encoded_features}')
df_encoded.head()

Features categóricas consideradas: ['sex', 'embarked']
Features após o encoding: ['sex_female', 'sex_male', 'sex_nan', 'embarked_C', 'embarked_Q', 'embarked_S', 'embarked_nan']


Unnamed: 0,sex_female,sex_male,sex_nan,embarked_C,embarked_Q,embarked_S,embarked_nan
0,0,1,0,0,0,1,0
1,1,0,0,1,0,0,0
2,1,0,0,0,0,1,0
3,1,0,0,0,0,1,0
4,0,1,0,0,0,1,0


_Aplicação:_

Assim como mencionado acima, o transformador `DummiesEncoding()` pode ser aplicado em um pipeline de preparação de dados categóricos.

___
* _FillNullData()_ 
___ 

Ao executar o método `fit_transform()` da classe `FillNullData()`, os dados nulos do conjunto de variáveis definidas nos atributos da classe são preenchidos com um indicador numérico também definido por um dos atributos da classe.

In [30]:
# Importando classe
from ml.transformers import FillNullData

# Filtrando dados numéricos
num_attribs = [col for col, dtype in raw_data.dtypes.items() if (dtype != 'object') and (col != 'survived')]
df_num = raw_data[num_attribs]
print(f'Dados nulos:\n{df_num.isnull().sum()}')

# Aplicando preenchimento dos nulos
null_filler = FillNullData(cols_to_fill=['age', 'fare'], value_fill=0)
df_filled = null_filler.fit_transform(df_num)
print(f'\nDados nulos após a transformação:\n{df_filled.isnull().sum()}')

Dados nulos:
passengerid      0
pclass           0
age            263
sibsp            0
parch            0
fare             1
target           0
dtype: int64

Dados nulos após a transformação:
passengerid    0
pclass         0
age            0
sibsp          0
parch          0
fare           0
target         0
dtype: int64


_Aplicação:_ 

A classe `FillNullData()` pode ser utilizada como um dos blocos fundamentais em um pipeline numérico de preparação dos dados.

___
* _DropNullData()_ 
___

A classe `DropNullData()` abre a possibilidade de eliminação dos dados nulos de uma base de dados fornecida

In [32]:
# Importando classe
from ml.transformers import DropNullData

# Filtrando dados numéricos
num_attribs = [col for col, dtype in raw_data.dtypes.items() if (dtype != 'object') and (col != 'survived')]
df_num = raw_data[num_attribs]
print(f'Dados nulos:\n{df_num.isnull().sum()}')

# Aplicando drop dos nulos
null_dropper = DropNullData(cols_dropna=['age', 'fare'])
df_drop = null_dropper.fit_transform(df_num)
print(f'\nDados nulos após a transformação:\n{df_drop.isnull().sum()}')

Dados nulos:
passengerid      0
pclass           0
age            263
sibsp            0
parch            0
fare             1
target           0
dtype: int64

Dados nulos após a transformação:
passengerid      0
pclass           0
age            264
sibsp            0
parch            0
fare           264
target           0
dtype: int64


___
* _TopFeatureSelector()_ 
___

A classe `TopFeaureSelector()` permite, a partir da execução de seu método `fit_transform()`, a seleção dinâmica de features de uma base a partir de um set de `feature importances` previamente passado como input. A ideia dessa classe é aplicar uma filtragem das features mais importantes de uma base, dado o resultado prévio de um modelo de Machine Learning já treinado. Dessa forma, é possível adicionar esse transformador a um pipeline final de prep e modelagem, aplicando a seleção de features como um último passo desse fluxo de modo a utilizar apenas as variáveis mais importantes consideradas por um modelo.

In [45]:
# Importando classe
from ml.transformers import TopFeatureSelector
import numpy as np

# Criando feature importances fake
features = list(raw_data.drop('survived', axis=1).columns)
importances = [np.random.randint(1, 10) for i in range(len(features))]
feature_importances = pd.DataFrame(zip(features, importances))

# Instanciando classe
top_selector = TopFeatureSelector(feature_importance=feature_importances, k=5)
df_top_features = top_selector.fit_transform(raw_data)

ValueError: kth(=-3) out of bounds (2)

In [52]:
indices = np.sort(np.argpartition(np.array(feature_importances[0]), -5)[-5:])
indices

array([ 1,  3,  5,  7, 11])

In [53]:
raw_data[:, indices]

TypeError: '(slice(None, None, None), array([ 1,  3,  5,  7, 11]))' is an invalid key

## Pipeline de Pós Leitura

Nessa sessão, será construído um Pipeline de pós leitura dos dados utilizado para aplicar transformações iniciais em uma base dados recém importada.

In [58]:
# Importando bibliotecas
from sklearn.pipeline import Pipeline
from ml.transformers import ColsFormatting, FeatureSelection, TargetDefinition, DropDuplicates, SplitData
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer

# Lendo dados
df = pd.read_csv('../titanic_data/titanic.csv')
features = ['passengerid', 'survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']

# Construindo pipeline de pós leitura
initial_pipeline = Pipeline([
    ('formatter', ColsFormatting()),
    ('selector', FeatureSelection(features=features)),
    ('target_generator', TargetDefinition(target_col='survived', pos_class=1.0)),
    ('dup_dropper', DropDuplicates()),
    ('splitter', SplitData(target='target'))
])

# Executando pipeline
X_train, X_test, y_train, y_test = initial_pipeline.fit_transform(raw_data)
print('Visualizando X_train')
X_train.head()

Visualizando X_train


Unnamed: 0,passengerid,pclass,sex,age,sibsp,parch,fare,embarked
772,773,2,female,57.0,0,0,10.5,S
543,544,2,male,32.0,1,0,26.0,S
289,290,3,female,22.0,0,0,7.75,Q
10,11,3,female,4.0,1,1,16.7,S
147,148,3,female,9.0,2,2,34.375,S


## Pipelines de DataPrep

Após a implementação de um pipeline initial de transformação, é possível construir pipelines específicos para dados numéricos e categóricos.

In [63]:
# Separando dados numéricos e categóricos
num_attribs = [col for col, dtype in X_train.dtypes.items() if dtype != 'object']
cat_attribs = [col for col, dtype in X_train.dtypes.items() if dtype == 'object']

# Construindo pipeline numérico
num_pipeline = Pipeline([
    ('null_filler', FillNullData(value_fill=0)),
    ('scaler', StandardScaler())
])

# Construindo pipeline categórico
cat_pipeline = Pipeline([
    ('encoder', DummiesEncoding())
])

# Unindo pipelines
full_pipeline = ColumnTransformer([
    ('num', num_pipeline, num_attribs),
    ('cat', cat_pipeline, cat_attribs)
])

# Aplicando pipeline pros dados de treino e teste
X_train_prep = full_pipeline.fit_transform(X_train)
X_test_prep = full_pipeline.fit_transform(X_test)