In [24]:
import os
import warnings
import sys

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
from sklearn import linear_model, preprocessing, metrics, model_selection
import mlflow
import mlflow.sklearn
from mlflow.models.signature import infer_signature
from mlflow.tracking import MlflowClient
from sklearn.metrics import f1_score
from sklearn.metrics import log_loss
from pycaret.classification import *
import pycaret.classification as pc

import seaborn as sn

if 'inline_rc' not in dir():
    inline_rc = dict(mpl.rcParams)

SEED = 7
np.random.seed(SEED)

AttributeError: module 'numpy' has no attribute 'ndarray'

In [None]:
mpl.rcParams.update(inline_rc)
font = {'family' : 'normal',
        'weight' : 'normal',
        'size'   : 15}
mpl.rc('font', **font)
lines = {'linewidth' : 2}
mpl.rc('lines', **lines)

In [164]:
registered_model_name = 'modelo_projeto_kobe'
min_precision = 0.75
model_version = -1 # recuperar a ultima versao
nexamples = 6

Diagrama do Pipeline do Projeto

https://github.com/cassiobcosta/Kobe/blob/main/Apresenta%C3%A7%C3%A3o1.jpg
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Apresenta%C3%A7%C3%A3o1.jpg >

Neste momento torna-se necessário variar os pipelines de forma que poderemos aproveitar os dados estruturados para avaliar e verificar se os experimentos foram bem feitos e se pode haver uma melhoria nos dados descritos.

Para isso é preciso criar um pipeline para ter um referencial dos modelos criados e guardar os dados dos modelos. Podemos ter os artefatos,métricas e parametros utilizados e testar diferentes modelos para achar o melhor modelo para validar os dados e utilizá-los da melhor maneira.

É possível através deste pipeline separarmos o que será utilizado em desenvolvimento e em seguida colocar em produção os dados utilizados.

Após a validação dos modelos colocados em desenvolvimento, pode ser colocado o modelo em produção para que possa ser utilizado nas APIs selecionadas

Inicio dos Pipelines

In [165]:
# Para usar o sqlite como repositorio
mlflow.set_tracking_uri("sqlite:///mlruns.db")
#sqlite:///mlruns.db
experiment_name = 'Projeto Kobe Bryant'
experiment = mlflow.get_experiment_by_name(experiment_name)
if experiment is None:
    experiment_id = mlflow.create_experiment(experiment_name)
    experiment = mlflow.get_experiment(experiment_id)
experiment_id = experiment.experiment_id

MlflowException: (sqlite3.OperationalError) no such table: experiments
[SQL: SELECT experiments.experiment_id AS experiments_experiment_id, experiments.name AS experiments_name, experiments.artifact_location AS experiments_artifact_location, experiments.lifecycle_stage AS experiments_lifecycle_stage 
FROM experiments 
WHERE experiments.name = ? AND experiments.lifecycle_stage IN (?, ?)]
[parameters: ('Projeto Kobe Bryant', 'active', 'deleted')]
(Background on this error at: https://sqlalche.me/e/14/e3q8)

Pipeline para a Preparação dos Dados Kobe Bryant

In [154]:
# COLOCAR RUN DE LEITURA DE DADOS
# PARAMETROS: top_features,
# METRICS: SHAPE de cada base de dados
# ARTIFACTS: nenhum

with mlflow.start_run(experiment_id=experiment_id, run_name = 'PreparacaoDados'):
    df_kobe = pd.read_csv('kobe_dataset.csv',sep=',')
    kobe_target_col = 'shot_made_flag'
    df_kobe_2p = df_kobe[df_kobe['shot_type'] == '2PT Field Goal']
    df_kobe_3p = df_kobe[df_kobe['shot_type'] == '3PT Field Goal']
    df_kobe_2p = df_kobe_2p[['lat','lon','minutes_remaining','period', 'playoffs','shot_distance','shot_made_flag']]
    df_kobe_3p = df_kobe_3p[['lat','lon','minutes_remaining','period', 'playoffs','shot_distance','shot_made_flag']]
    df_kobe_2p = df_kobe_2p.dropna()
    df_kobe_3p = df_kobe_3p.dropna()
    test_size = 0.2
    
    # Separar parte para compor a base de operacao
    xtrain, data_operation, ytrain, ytest = model_selection.train_test_split(df_kobe_2p, 
                                                                            df_kobe_2p[kobe_target_col],
                                                                            test_size=test_size)
    
    data_novelty = df_kobe_3p.copy()

    xtrain.to_parquet('Data/Processed/data_filtered.parquet')
    data_operation.to_parquet('Data/Processed/base_8020.parquet')
    data_novelty.to_parquet('Data/Processed/base_kobe_novidade.parquet')

    # LOG DE PARAMETROS DO MODELO
    mlflow.log_param("test_size", test_size)

    # LOG DE METRICAS GLOBAIS
    mlflow.log_metric("data_dev", df_kobe_2p.shape[0])
    mlflow.log_metric("data_operation", data_operation.shape[0])
   
    
mlflow.end_run()

print('** Bases de Dados **')
print(f'xtrain {xtrain.shape}')
print(f'data_operation {data_operation.shape}')
print(f'Columns: {df_kobe_2p.columns}')

** Bases de Dados **
xtrain (16228, 7)
data_operation (4057, 7)
Columns: Index(['lat', 'lon', 'minutes_remaining', 'period', 'playoffs',
       'shot_distance', 'shot_made_flag'],
      dtype='object')


In [156]:
df_kobe['shot_type'].value_counts()

2PT Field Goal    24271
3PT Field Goal     6426
Name: shot_type, dtype: int64

Pipeline para os Treinamentos dos Dados Kobe Bryant
IMPORTANCIA DAS FERRAMENTAS NO TREINAMENTO

Streamlit - Pode ser utilizado para a criação dos Dashboards

MLFlow - É utilizado para registrar os experimentos e treinamentos da base dos dados além de salvar artefatos, parametros e métricas

PyCaret - Verifica o melhor modelo da base através dos parametros a serem utilizados, gera os artefatos e além das bases treinados

Scikit-Learn - É utiliado para calcular as métricas geradas no treinamento

Pipeline para o Treinamento

In [137]:
# COLOCAR RUN DE TREINAMENTO DE MODELOS
# PARAMETROS: fold_strategy, fold, model_name, registered_model_name, cross_validation
# METRICS: auto sklearn
# ARTIFACTS: plots

with mlflow.start_run(experiment_id=experiment_id, run_name = 'Treinamento'):
    
    models = ['rf','lr']
    probability_threshold = 0.5
    cross_validation = True
    fold_strategy = 'stratifiedkfold',
    fold = 10

    # train/test
    s = pc.setup(data = df_kobe_2p, 
                 target = kobe_target_col,
                 train_size=0.8,
                 silent = True,
                 fold_strategy = 'stratifiedkfold',
                 fold = fold,
                 log_experiment = True, 
                 experiment_name = experiment_name, 
                 log_plots = True,
                 verbose=False
                )
    
    add_metric('logloss', 'Log Loss', log_loss, greater_is_better = False)
    bestmodels = pc.compare_models(include = models, sort='f1',n_select=2)
    
    # Log do run, e nao do modelo respectivo
    classification_plots = [ 'auc','pr','confusion_matrix',
    #                          'error', 'class_report', 
                            'threshold',
                             'learning','vc','feature',
                           ]
    for plot_type in classification_plots:
        print('=> Aplicando plot ', plot_type)
        try:
            artifact = pc.plot_model(bestmodels[0], plot=plot_type, save=True, use_train_data=False)
            mlflow.log_artifact(artifact)
        except:
            print('=> Nao possivel plotar: ', plot_type )
            continue

    pred_holdout = pc.predict_model(bestmodels[0])
    pred_holdout_sec = pc.predict_model(bestmodels[1])
    mlflow.log_metrics({"log loss Arvore":  log_loss(ytest, pred_holdout['Label']),
                       "f1 Arvore": f1_score(ytest, pred_holdout['Label'].astype(float)),
                       })
    
    mlflow.log_metrics({"log loss LR":  log_loss(ytest, pred_holdout_sec['Label']),
                       "f1 LR": f1_score(ytest, pred_holdout_sec['Label'].astype(float)),
                       })
    
    pc.save_model(bestmodels[0], f'Data/Modeling/{registered_model_name}') 
    # Carrega novamente o pipeline + bestmode
    model_pipe = pc.load_model(f'Data/Modeling/{registered_model_name}')


mlflow.end_run()

INFO  [logs] PyCaret Supervised Module
INFO  [logs] ML Usecase: classification
INFO  [logs] version 2.3.10
INFO  [logs] Initializing setup()
INFO  [logs] setup(target=shot_made_flag, ml_usecase=classification, available_plots={'parameter': 'Hyperparameters', 'auc': 'AUC', 'confusion_matrix': 'Confusion Matrix', 'threshold': 'Threshold', 'pr': 'Precision Recall', 'error': 'Prediction Error', 'class_report': 'Class Report', 'rfe': 'Feature Selection', 'learning': 'Learning Curve', 'manifold': 'Manifold Learning', 'calibration': 'Calibration Curve', 'vc': 'Validation Curve', 'dimension': 'Dimensions', 'feature': 'Feature Importance', 'feature_all': 'Feature Importance (All)', 'boundary': 'Decision Boundary', 'lift': 'Lift Chart', 'gain': 'Gain Chart', 'tree': 'Decision Tree', 'ks': 'KS Statistic Plot'}, train_size=0.8, test_data=None, preprocess=True, imputation_type=simple, iterative_imputation_iters=5, categorical_features=None, categorical_imputation=constant, categorical_iterative_imp

NameError: name 'model_name' is not defined

In [None]:
bestmodels[0]

# Artefatos

# AUC
https://github.com/cassiobcosta/Kobe/blob/main/AUC.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/AUC.png >
# Matriz de confusão
https://github.com/cassiobcosta/Kobe/blob/main/Confusion%20Matrix.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Confusion%20Matrix.png>
# Feature Importance
https://github.com/cassiobcosta/Kobe/blob/main/Feature%20Importance.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Feature%20Importance.png>
# Curva de aprendizado
https://github.com/cassiobcosta/Kobe/blob/main/Learning%20Curve.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Learning%20Curve.png>
# Precision Recall
https://github.com/cassiobcosta/Kobe/blob/main/Precision%20Recall.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Precision%20Recall.png>
# Threshold
https://github.com/cassiobcosta/Kobe/blob/main/Threshold.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Threshold.png>
# Threshold
https://github.com/cassiobcosta/Kobe/blob/main/Validation%20Curve.png
<img src = https://github.com/cassiobcosta/Kobe/blob/main/Validation%20Curve.png >

Pipeline para os Rastreamento dos Dados Kobe Bryant
IMPORTANCIA DAS FERRAMENTAS NO RASTREAMENTO

MLFlow - É utilizado para a criação de APIs e a criação dos modelos desenvolvidos para o log, além disso é possivel utilizar através da API para outras bases

PyCaret - É utilizado para buscar as configurações dos dados que foram registrados nas etapas anteriores

Servir Dados do Modelo

In [90]:
from mlflow.tracking import MlflowClient
mlflow.set_tracking_uri("sqlite:///mlruns.db")
#sqlite:///mlruns.db
registered_model_name = registered_model_name
model_version = -1 # recuperar a ultima versao
nexamples = 6

In [91]:
# Assinatura do Modelo Inferida pelo MLFlow
model_features = list(df_kobe_3p.drop(kobe_target_col, axis=1).columns)
inf_signature = infer_signature(df_kobe_3p[model_features], model_pipe.predict(df_kobe_3p))
# Exemplo de entrada para o MLmodel
input_example = {x: df_kobe_3p[x].values[:nexamples] for x in model_features}
# Log do pipeline de modelagem do sklearn e registrar como uma nova versao

In [92]:
# Log do pipeline de modelagem do sklearn e registrar como uma nova versao
mlflow.sklearn.log_model(
     sk_model=model_pipe,
     artifact_path="sklearn-model",
     registered_model_name=registered_model_name,
     signature = inf_signature,
     input_example = input_example
 )
# Criacao do cliente do servico MLFlow e atualizacao versao modelo
client = MlflowClient()
if model_version == -1:
    model_version = client.get_latest_versions(registered_model_name)[-1].version
# Registrar o modelo como staging
client.transition_model_version_stage(
     name=registered_model_name,
     version=model_version, # Verificar com usuario qual versao
     stage="Staging"
)
mlflow.end_run()

Registered model 'modelo_projeto' already exists. Creating a new version of this model...
2022/10/01 11:56:39 INFO mlflow.tracking._model_registry.client: Waiting up to 300 seconds for model version to finish creation.                     Model name: modelo_projeto, version 3
Created version '3' of model 'modelo_projeto'.


In [95]:
import os
os.environ['MLFLOW_TRACKING_URI'] = 'sqlite:///mlruns.db'

!mlflow models serve -m "models:/modelo_projeto_kobe/Staging" --no-conda -p 5000

  value = self.callback(ctx, self, value)
Traceback (most recent call last):
  File "C:\Users\cassio.costa\Anaconda3\envs\Projeto\Scripts\mlflow-script.py", line 10, in <module>
    sys.exit(cli())
  File "C:\Users\cassio.costa\AppData\Roaming\Python\Python38\site-packages\click\core.py", line 1130, in __call__
    return self.main(*args, **kwargs)
  File "C:\Users\cassio.costa\AppData\Roaming\Python\Python38\site-packages\click\core.py", line 1055, in main
    rv = self.invoke(ctx)
  File "C:\Users\cassio.costa\AppData\Roaming\Python\Python38\site-packages\click\core.py", line 1657, in invoke
    return _process_result(sub_ctx.command.invoke(sub_ctx))
  File "C:\Users\cassio.costa\AppData\Roaming\Python\Python38\site-packages\click\core.py", line 1657, in invoke
    return _process_result(sub_ctx.command.invoke(sub_ctx))
  File "C:\Users\cassio.costa\AppData\Roaming\Python\Python38\site-packages\click\core.py", line 1404, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  

In [38]:
import requests
host = 'localhost'
port = '5000'
url = f'http://127.0.0.1'
headers = {'Content-Type': 'application/json'}

http_data = data_operation.drop(kobe_target_col,axis=1).to_json(orient='split')
r = requests.post(url=url, headers=headers, data=http_data)
data_operation.loc[:, 'operation_label'] = pd.read_json(r.text).values[:,0]
data_operation.to_parquet('Data/Modeling/modelo_kobe_operacao.parquet')

ConnectionError: HTTPConnectionPool(host='127.0.0.1', port=80): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000002AC2ABACBB0>: Failed to establish a new connection: [WinError 10061] Nenhuma conexão pôde ser feita porque a máquina de destino as recusou ativamente'))

In [None]:
print(metrics.classification_report(data_operation[kobe_target_col], data_operation['operation_label']))

Consumir o Serviço do Kobe Bryant

In [None]:
!curl http://localhost:5000/invocations -X POST -H "Content-Type:application/json; format=pandas-split" --data "{\"columns\":[\"lat\", \"lon\", \"minutes_remaining\", \"period\",\"playoffs\",\"shot_distance\"],\"data\":[[35.9913,-120.3178,8,4,0,7],[33.9703,-118.2908,11,3,0,7]]}"

In [None]:
http_data = df_kobe_3p.drop(kobe_target_col,axis=1).to_json(orient='split')
r = requests.post(url=url, headers=headers, data=http_data)

In [None]:
df_kobe_3p.loc[:, 'operation_label'] = pd.read_json(r.text).values[:,0]

print(metrics.classification_report(df_kobe_3p[kobe_target_col], df_kobe_3p['operation_label']))

In [None]:
df_kobe_3p[kobe_target_col].value_counts()

In [None]:
df_kobe_3p['operation_label'].value_counts()

In [None]:
import requests
host = 'localhost'
port = '5000'
url = f'http://{host}:{port}/invocations'
headers = {'Content-Type': 'application/json'}

http_data = data_operation.drop(kobe_target_col,axis=1).to_json(orient='split')
r = requests.post(url=url, headers=headers, data=http_data)

In [None]:
!curl http://localhost:5000/invocations -X POST -H "Content-Type:application/json; format=pandas-split" --data "{\"columns\":[\"lat\", \"lon\", \"minutes_remaining\", \"period\",\"playoffs\",\"shot_distance\"],\"data\":[[35.9913,-120.3178,8,4,0,7],[33.9703,-118.2908,11,3,0,7]]}"

In [None]:
df_kobe_3p['operation_label'].value_counts()

Pipeline para os Monitoramento dos Dados Kobe Bryant
IMPORTANCIA DAS FERRAMENTAS NO MONITORAMENTO

MLFlow - É utilizado para registrar os experimentos e treinamentos da base dos dados para comparar na aprovação dos dados e recuperar os dados do modelo. Além de gravar os dados colocados no modelo

PyCaret - Auxilia para fazer a predição dos modelos resgatados pelo Mlflow além das configurações utilizadas nos modelos.

Scikit-Learn - É utilizado para fazer os calculos das métricas dos modelos selecionados

Aprovação dos Modelos

In [None]:
min_accuracy = 0.5
model_version = -1 # recuperar a ultima versao

In [None]:
# COLOCAR RUN APROVACAO DE MODELO
# PARAMETROS: min_accuracy
# METRICS: new_version, accuracy
# ARTIFACTS: None


with mlflow.start_run(experiment_id=experiment_id, run_name = 'AprovacaoModelo'):
    pred_holdout = pc.predict_model(bestmodel[0])
    acc = metrics.accuracy_score(pred_holdout[kobe_target_col], pred_holdout['Label'])
    if acc > min_precision:
        print(f'=> Aceito o modelo com precisão {acc} (min: {min_accuracy})')
        pred_holdout.to_parquet('../Data/Processed/modelo_kobe_teste.parquet')
        # Assinatura do Modelo Inferida pelo MLFlow
        model_features = list(df_kobe.drop(kobe_target_col, axis=1).columns)
        inf_signature = infer_signature(df_kobe[model_features], model_pipe.predict(df_kobe))
        # Exemplo de entrada para o MLmodel
        input_example = {x: df_kobe[x].values[:nexamples] for x in model_features}
        # Log do pipeline de modelagem do sklearn e registrar como uma nova versao
        mlflow.sklearn.log_model(
            sk_model=model_pipe,
            artifact_path="sklearn-model",
            registered_model_name=registered_model_name,
            signature = inf_signature,
            input_example = input_example
        )
        # Criacao do cliente do servico MLFlow e atualizacao versao modelo
        client = MlflowClient()
        if model_version == -1:
            model_version = client.get_latest_versions(registered_model_name)[-1].version
        # Registrar o modelo como staging
        client.transition_model_version_stage(
            name=registered_model_name,
            version=model_version, # Verificar com usuario qual versao
            stage="Staging"
        )
    else:
        print(f'=> Rejeitado o modelo com precisão {acc} (min: {min_accuracy})')

    # LOG DE PARAMETROS DO MODELO
    mlflow.log_param("precisao_minima", min_accuracy)

    # LOG DE METRICAS GLOBAIS
    mlflow.log_metric("new_version", model_version)
    mlflow.log_metric("accuracy", acc)

mlflow.end_run()

Revalidacao de Amostras para Monitoramento

In [None]:
# COLOCAR RUN REVALIDACAO
# PARAMETROS: min_samples_control
# METRICS: matriz de confusao
# ARTIFACTS:


# Utilizacao da amostra de controle, que teria sido reavaliada por especialistas
min_samples_control = 150

with mlflow.start_run(experiment_id=experiment_id, run_name = 'RevalidacaoOperacao'):

    data_operation = pd.read_parquet('../Data/Modeling/modelo_kobe_operacao.parquet')

    data_control = data_operation.sample(min_samples_control, random_state=SEED)
    data_control.to_parquet('../Data/Processed/modelo_kobe_controle.parquet')

    print('== DADOS DE CONTROLE ==')
    print(metrics.classification_report(data_control[kobe_target_col], data_control['operation_label']))
    
    # LOG DE PARAMETROS DO MODELO
    mlflow.log_param("min_samples_control", min_samples_control)

    # LOG DE METRICAS GLOBAIS
    cm = metrics.confusion_matrix(data_control[kobe_target_col], data_control['operation_label'])
    specificity = cm[0,0] / cm.sum(axis=1)[0]
    sensibility = cm[1,1] / cm.sum(axis=1)[1]
    precision   = cm[1,1] / cm.sum(axis=0)[1]
    mlflow.log_metric("Especificidade", specificity)
    mlflow.log_metric("Sensibilidade", sensibility)
    mlflow.log_metric("Precisao", precision)

mlflow.end_run()

Alarme de Desvio

In [None]:
# reset matplotlib

mpl.rcParams.update(inline_rc)
font = {'family' : 'normal',
        'weight' : 'normal',
        'size'   : 14}
mpl.rc('font', **font)
lines = {'linewidth' : 3}
mpl.rc('lines', **lines)

def data_drift_alarm(var_name, dev_data, data_test, data_control):    
    sn.kdeplot(dev_data[var_name], label='Desenvolvimento')
    sn.kdeplot(data_test[var_name], label='Teste')
    sn.kdeplot(data_control[var_name], label='Monitoramento')
    plt.grid()
    plt.legend(loc='best')
    plt.title(f'Distribuição Variável {var_name}')
    plt.ylabel('Distancia')
    plt.xlabel(f'Unidade de {var_name}')
    plt.tight_layout()

Alarme de Retreinamento

In [None]:
def alarm(data_monitoring, testset, min_eff_alarm):
    cm = metrics.confusion_matrix(data_monitoring[kobe_target_col], data_monitoring['operation_label'])
    specificity_m = cm[0,0] / cm.sum(axis=1)[0]
    sensibility_m = cm[1,1] / cm.sum(axis=1)[1]
    precision_m   = cm[1,1] / cm.sum(axis=0)[1]

    cm = metrics.confusion_matrix(testset[kobe_target_col], testset['Label'])
    specificity_t = cm[0,0] / cm.sum(axis=1)[0]
    sensibility_t = cm[1,1] / cm.sum(axis=1)[1]
    precision_t   = cm[1,1] / cm.sum(axis=0)[1]

    retrain = False
    for name, metric_m, metric_t in zip(['especificidade', 'sensibilidade', 'precisao'],
                                        [specificity_m, sensibility_m, precision_m],
                                        [specificity_t, sensibility_t, precision_t]):
        
        print(f'\t=> {name} de teste {metric_t} e de controle {metric_m}')
        if (metric_t-metric_m)/metric_t > min_eff_alarm:
            print(f'\t=> MODELO OPERANDO FORA DO ESPERADO')
            retrain = True
        else:
            print(f'\t=> MODELO OPERANDO DENTRO DO ESPERADO')
           
        
    return (retrain, [specificity_m, sensibility_m, precision_m],
                                        [specificity_t, sensibility_t, precision_t] ) 

Monitoramento Base Operação


In [None]:
# COLOCAR RUN MONITORAMENTO OPERACAO
# PARAMETROS: min_eff_alarm
# METRICS: metricas avaliadas e de referencia
# ARTIFACTS:

print('== ALARME DE RETREINAMENTO - BASE CONTROLE ==')
# 10% de desvio aceitavel na metrica. Deve ser estimado pelo conjunto de validacao cruzada. 
min_eff_alarm = 0.1 

with mlflow.start_run(experiment_id=experiment_id, run_name = 'MonitoramentoOperacao'):
    data_control = pd.read_parquet('../Data/Processed/modelo_kobe_controle.parquet')
    
    (retrain, [specificity_m, sensibility_m, precision_m],
              [specificity_t, sensibility_t, precision_t] ) = alarm(data_control, pred_holdout, min_eff_alarm)
    if retrain:
        print('==> RETREINAMENTO NECESSARIO')
    else:
        print('==> RETREINAMENTO NAO NECESSARIO')
    # LOG DE PARAMETROS DO MODELO
    mlflow.log_param("min_eff_alarm", min_eff_alarm)

    # LOG DE METRICAS GLOBAIS
    mlflow.log_metric("Alarme Retreino", float(retrain))
    mlflow.log_metric("Especificidade Controle", specificity_m)
    mlflow.log_metric("Sensibilidade Controle", sensibility_m)
    mlflow.log_metric("Precisao Controle", precision_m)
    mlflow.log_metric("Especificidade Teste", specificity_t)
    mlflow.log_metric("Sensibilidade Teste", sensibility_t)
    mlflow.log_metric("Precisao Teste", precision_t)
    
    # LOG ARTEFATO
    var_name = 'shot_distance' # 'alcohol'
    data_drift_alarm(var_name, df_kobe, pred_holdout, data_control)
    plot_path = f'monitor_datadrift_{var_name}.png'
    plt.savefig(plot_path)
    mlflow.log_artifact(plot_path)
    

mlflow.end_run()

Pipeline para a Atualização dos Dados Kobe Bryant
IMPORTANCIA DAS FERRAMENTAS NA ATUALIZAÇÃO

MLFlow - É utilizado para a criação de APIs e a criação dos modelos desenvolvidos para o log, além disso é possivel utilizar através da API para outras bases

PyCaret - Criação de artefatos e grava parametros e metricas

Scikit-Learn - Faz o carregamento do modelo dos dados gravados no Mlflow

Monitoramento Base de Novidade

In [None]:
# COLOCAR RUN MONITORAMENTO NOVIDADE
# PARAMETROS: min_eff_alarm
# METRICS: metricas avaliadas e de referencia
# ARTIFACTS:

print('== ALARME DE RETREINAMENTO - BASE NOVIDADE ==')
# 10% de desvio aceitavel na metrica. Deve ser estimado pelo conjunto de validacao cruzada. 
min_eff_alarm = 0.1 

with mlflow.start_run(experiment_id=experiment_id, run_name = 'MonitoramentoNovidade'):

    model_uri = f"models:/modelo_kobe/Staging"
    loaded_model = mlflow.sklearn.load_model(model_uri)
    data_novelty = pd.read_parquet('../Data/Processed/base_kobe_novidade.parquet')
    data_novelty.loc[:, 'operation_label'] = loaded_model.predict(data_novelty)
    
    (retrain, [specificity_m, sensibility_m, precision_m],
              [specificity_t, sensibility_t, precision_t] ) = alarm(data_novelty, pred_holdout, min_eff_alarm)
    if retrain:
        print('==> RETREINAMENTO NECESSARIO')
    else:
        print('==> RETREINAMENTO NAO NECESSARIO')
    # LOG DE PARAMETROS DO MODELO
    mlflow.log_param("min_eff_alarm", min_eff_alarm)

    # LOG DE METRICAS GLOBAIS
    mlflow.log_metric("Alarme Retreino", float(retrain))
    mlflow.log_metric("Especificidade Controle", specificity_m)
    mlflow.log_metric("Sensibilidade Controle", sensibility_m)
    mlflow.log_metric("Precisao Controle", precision_m)
    mlflow.log_metric("Especificidade Teste", specificity_t)
    mlflow.log_metric("Sensibilidade Teste", sensibility_t)
    mlflow.log_metric("Precisao Teste", precision_t)
    # LOG ARTEFATO
    var_name = 'shot_distance' # 'alcohol'
    data_drift_alarm(var_name, df_kobe, pred_holdout, data_novelty)
    plot_path = f'novidade_datadrift_{var_name}.png'
    plt.savefig(plot_path)
    mlflow.log_artifact(plot_path)

mlflow.end_run()  

Pipeline para o Provisionamento dos Dados Kobe Bryant
IMPORTANCIA DAS FERRAMENTAS NO PROVISIONAMENTO

MLFlow - É utilizado para a transição do modelo para a produção


In [None]:
# Log do pipeline de modelagem do sklearn e registrar como uma nova versao
mlflow.sklearn.log_model(
     sk_model=model_pipe,
     artifact_path="sklearn-model",
     registered_model_name=registered_model_name,
     signature = inf_signature,
     input_example = input_example
 )
# Criacao do cliente do servico MLFlow e atualizacao versao modelo
client = MlflowClient()
if model_version == -1:
    model_version = client.get_latest_versions(registered_model_name).version
# Registrar o modelo como staging
client.transition_model_version_stage(
     name=registered_model_name,
     version=client.get_latest_versions(registered_model_name).version, # Verificar com usuario qual versao
     stage="Production"
)
mlflow.end_run()

Questão 3) O objetivo de uma pipeline é automatizar o processo de entrega de software em produção de forma rápida, ao mesmo tempo garantindo sua estabilidade, qualidade e resiliência

Questão 4) MLflow é uma ferramenta de ciclo de vida de aprendizado de máquina de código aberto, que facilita o gerenciamento do fluxo de trabalho para treinamento, rastreamento e produção de modelos de machine learning. Ele foi organizado para funcionar com as bibliotecas e estruturas de aprendizado de máquina mais recentes e utilizadas no mercado atualmente.

O Streamlit é uma biblioteca Python de código aberto que auxilia equipes de aprendizado de máquina e ciência de dados a criarem e compartilharem aplicativos Web personalizados sem a necessidade de conhecer ferramentas de front-end ou de deploy de aplicações

PyCaret é uma biblioteca do Python que permite que você faça todo o ciclo da criação de um modelo de Machine Learning com poucas linhas de código.

O scikit-learn é uma biblioteca da linguagem Python desenvolvida especificamente para aplicação prática de machine learning.

Questão 8)
a. O modelo não é aderente a nova base, pois já no treinamento na base de 2 pontos ele não apresentou uma boa preformance. Além disso, outras variaveis ajudam no desenpenho do modelo. As variáveis latitude e longitude representam a posição em que foi jogada a bola, quanto mais longe mais dificil é acertar a cesta.

