In [1]:
# General
import os
import sys
import funcy as fp

# Visualization / Presentation
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.core.display import HTML, display

import mlflow
from mlflow.tracking import MlflowClient
import pandas as pd

# Carregar, além de atualizar frequentemente, código personalizado disponível em ../src
%load_ext autoreload 
%autoreload 2
sys.path.append(os.path.abspath(os.path.pardir))
from src import settings
from src.utils.notebooks import display_side_by_side

# Configurações para a exibição de conteúdo do Pandas e das bibliotecas gráficas
%matplotlib inline 
sns.set(rc={'figure.figsize':(25,10)})
pd.set_option('display.max_rows', None)
pd.set_option("display.max_columns", None)
pd.set_option('max_colwidth', 150)

## Introdução

Este notebook tem como objetivo permitir o registro visual dos experimentos feitos e oferecer um modo de recuperar um experimento e analisar os resultados em mais detalhes.
Os princípios usados para recuperar o modelo e as funções de pré-processamento usadas aqui também podem ser usadas para "produtizar" o classificador e o recomendador -- com as ressalvas já feitas anteriormente sobre modos melhores de implementar o pipeline para o ambiente de produção e para os modos de processamento unitário ou em lote.

## Recuperação do melhor resultado

A seguir, considerando o primeiro experimento feito, recupera-se o melhor resultado a partir da métrica do F1 médio entre as categorias.

In [2]:
EXPERIMENT_ID = '0'

mlflow_client = MlflowClient()

best_experiments_result = [
    mlflow.search_runs(experiment_ids=[experiment_id], 
                       max_results=100, 
                       order_by=['metrics.F1 DESC'], 
                       filter_string='attributes.status="FINISHED"')
    for experiment_id in [EXPERIMENT_ID]
]

best_results = pd.concat(best_experiments_result, axis=0)

Dada uma execução, tem-se a lista de resultados individuais dos modelos e a execução agregadora, sem nome de modelo (*arams.model_name*), que mantém as informações do experimento como um todo (e.g., funções e parâmetros de pré-processamento).

In [3]:
columns_to_show = ['experiment_name', 'tags.mlflow.runName', 'run_id', 'experiment_id', 'params.model_name',
                   'metrics.f1', 'metrics.precision', 'metrics.recall', 'metrics.training_time']

(best_results
 .assign(experiment_name=lambda f: f['experiment_id'].apply(lambda id: mlflow_client.get_experiment(id).name))
 [columns_to_show] 
 .head()
)

Unnamed: 0,experiment_name,tags.mlflow.runName,run_id,experiment_id,params.model_name,metrics.f1,metrics.precision,metrics.recall,metrics.training_time
0,01_SupervisedClassification,01_0_Structuring_CB,0b8f07fc470f489d9acc0b3654d13786,0,CB,0.744652,0.724857,0.771487,14.142575
1,01_SupervisedClassification,01_0_Structuring_MLP,16b0a173b86a4a62a0ee3dfa72d2d6d3,0,MLP,0.790611,0.816948,0.772066,49.499269
2,01_SupervisedClassification,Structuring,3c892352c2514694bd516df8342949b4,0,,0.790611,0.816948,0.772066,


## Restauração de Experimentos

A partir da escolha de uma execução individual, é possível restaurar os elementos utilizados na experimentação para aplicá-los aos dados.

In [4]:
# Restaura o experimento pelo maior valor de F1 Médio (entre as classes)
best_experiments_results = mlflow.search_runs(experiment_ids=[EXPERIMENT_ID], max_results=100, order_by=['metrics.f1 DESC'], filter_string='attributes.status="FINISHED"')
best_experiment = (best_experiments_results
 .loc[lambda f: ~f['params.model_name'].isna()]
 .sort_values(by='metrics.f1', ascending=False)
 .drop_duplicates(['params.model_name'])
 .loc[lambda f: f['params.model_name'] == 'CB']
 .iloc[0]
)

# Recupera o ID do artefato para recuperar modelos e recursos persistidos para o experimento
artifact_uri = best_experiment["artifact_uri"]

# Mostra as principais informações da execução
display(HTML('<h4>Melhor resultado:</h4>'))
for name, key in [('Run ID', 'run_id'),
                  ('Model Name', 'params.model_name'),
                  ('Average F1', 'metrics.f1'),
                  ('Average Precision', 'metrics.precision'),
                  ('Average Recall', 'metrics.recall'),
                 ]:
    display(HTML(f'<li><strong>{name}</strong>: {best_experiment[key]}</li>'))

# Recupera o pacote de funções e parâmetros de pré-processamento dos dados
preprocessing_model_path = os.path.join(best_experiment['artifact_uri']
                                        .replace(best_experiment['run_id'],
                                                 best_experiment['tags.mlflow.parentRunId']),
                                        'log',
                                        'preprocessing_model')
preprocessing_model = mlflow.pyfunc.load_model(preprocessing_model_path)

# Recupera o modelo treinado
model = mlflow.sklearn.load_model(f'{artifact_uri}/model')

# Recupera o Label Encoder, caso seja preciso avaliar o modelo
label_encoder_path = os.path.join(best_experiment['artifact_uri'].replace(best_experiment['run_id'], best_experiment['tags.mlflow.parentRunId']), 'label_encoder')
label_encoder_model = mlflow.sklearn.load_model(label_encoder_path)

Para validar o funcionamento da restauração do modelo, parte dos dados de treinamento são recuperados para uma avaliação.

In [5]:
columns_to_read = ['title', 'concatenated_tags', 'price', 'weight', 'express_delivery', 'minimum_quantity', 'category', 'creation_date']
frame = (pd
         .read_csv(os.path.join(settings.DATA_PATH, 'interim', 'training.csv'), usecols=columns_to_read)
         .head(5)         
        )

Tendo os dados, é possível reprocessar *labels*, *features* e fazer a inferência.

In [6]:
# Processa os dados para inferência
features = preprocessing_model.predict(frame)

# Realiza a inferência
frame['pred'] = model.predict(features)

# Codificar labels
frame['label'] = label_encoder_model.transform(frame.category)

display_side_by_side([frame, 
                      pd.DataFrame(features).describe().T.head(10)], 
                     ['Dados Recuperados e Predição', 
                      f'Features (10 de {features.shape[1]})'])



Unnamed: 0,title,concatenated_tags,creation_date,price,weight,express_delivery,minimum_quantity,category,pred,label
0,Mandala Espírito Santo,mandala mdf,2015-11-14 19:42:12,171.89,1200.0,1,4,Decoração,2,2
1,Cartão de Visita,cartao visita panfletos tag adesivos copos long drink canecas,2018-04-04 20:55:07,77.67,8.0,1,5,Papel e Cia,5,5
2,Jogo de Lençol Berço Estampado,t jogo lencol menino lencol berco,2017-02-27 13:26:03,118.770004,0.0,1,1,Bebê,0,0
3,ADESIVO BOX DE BANHEIRO,adesivo box banheiro,2017-05-09 13:18:38,191.81,507.0,1,6,Decoração,2,2
4,Álbum de figurinhas dia dos pais,albuns figurinhas pai lucas album fotos,2018-07-11 10:41:33,49.97,208.0,1,1,Lembrancinhas,5,3

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
0,5.0,-0.021762,0.015148,-0.045109,-0.027159,-0.018868,-0.009626,-0.00805
1,5.0,-0.026642,0.022966,-0.064399,-0.027053,-0.025398,-0.008805,-0.007556
2,5.0,0.040821,0.015756,0.01779,0.034957,0.04199,0.050078,0.059289
3,5.0,0.011463,0.039746,-0.0289,-0.021121,0.000627,0.05267,0.054038
4,5.0,-0.017058,0.024976,-0.058263,-0.017072,-0.010601,-0.008376,0.009024
5,5.0,-0.057656,0.027294,-0.087338,-0.075741,-0.057901,-0.051248,-0.016055
6,5.0,0.003555,0.049323,-0.054422,-0.011843,-0.004464,0.007132,0.081371
7,5.0,-0.016548,0.020432,-0.047024,-0.024877,-0.014244,0.001375,0.002031
8,5.0,-0.017772,0.037948,-0.084045,-0.011826,-0.006353,0.004872,0.00849
9,5.0,-0.051076,0.039352,-0.114914,-0.058637,-0.036975,-0.032951,-0.011903
