### Apresentação 

Notebook destinado ao estudo de drifit, fenômeno relativo à mudança nos dados que podem afetar a capacidade preditiva dos modelos de ML. Assim como na realidade em que as coisas mudam - devir - o mesmo se dá com os dados, os quais podem se associar a dois principais tipos de mudança : 

* data drifit 

Relativo à mudanças estatísticas, quer seja relacionadas à distribuição dos dados na porção das features P(X), quer seja relativo às labels P(Y). Por exemplo, imagine se criaram-se um modelo para prever a probabilidade de um cliente comprar ou não comprar um produto. Esse modelo foi treinado com pessoas com faixas etárias entre 40 e 50. Contudo, pessos de faixas etárias menores passam a utilizar bastante o sistema, afetando a sua qualidade de inferência, dado que os valores das features mudou - isto é, a idade dos usuários. 

* concept drifit

Relativo à mudança na relação íntima das features em relação às labels. P(Y|X) foi alterada. Por exemplo, pode-se pensar num cenário em que existe um modelo para prever a probabilidade de compras onlines feitas por um usuário. Contudo, ocorre a época de black friday - ou algo similar - de modo que a relação entre as features e as labels, para o que antes se apresentava de forma linear é alterado para uma disposição exponencial. Nota-se que a relação entre os dados se alterou, P(Y|X) foi alterado. 

Compreendido o que pode ser o fenômeno de data/concept drifit, é importante que consiga-se identificá-los em cenário de produção, para que os modelos possam ser ajustados novamente, para que não ofereçam respostas imprecisas. Tal capacidade é essencial pensando em termos de aplicações baseadas em ML, principalmente se é concebido a possibilidade de prover um cenário de retreinamentos automatizados, assim que a percepção de drifit é compreendida pelo sistema. 

### Librarys

In [1]:
import alibi

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

from alibi_detect.cd import TabularDrift

#### Carregando o dataset

In [7]:
wine_data = load_wine()

#### Separando os dados

Aqui estarei segmentando os dados em teste - relativo à predição - e em referência, utilizado para compreender a presença de drifit. 

In [10]:
feature_names = wine_data.feature_names

X, y = wine_data.data, wine_data.target

X_ref, X_test, y_ref, y_test = train_test_split(X, y, test_size=0.50, random_state=19)

#### Verificando a presença de drifit

In [None]:
# TabularDrifit é a classe que realiza o cálculo para saber se houve
# ou não drifit. Existem outros argumentos que a ela podem ser informados,
# mas estou informando aqui apenas as features de referência e o valor-p, 
# utilizado para me prover uma análise da ocorrência do fenômeno estudado 
# com 95% de confiança. 

"""
Imagino que por debaixo dos panos a classe realiza um teste de hipótese para
verificar se tanto X_ref quanto X_test fazem parte da mesma distribuição, de 
modo que é por meio do valor-p que é identificado se Ho é válido ou não. 
"""

data = TabularDrift(x_ref=X_ref, p_val=.05)
preds = data.predict(X_test)



In [None]:
# Como pode ser visto, não há drifit. 

labels = ["No", "Yes"]
print('Drift: {}'.format(labels[preds['data']['is_drift']]))

Drift: No


#### Simulando a presença de drifit

In [None]:
# Aqui estou alterando os valores dos dados - em features - em relação ao 
# que, então, havia produzindo drifit. 

X_test_call_error = 1.1*X_test

preds = data.predict(X_test_call_error)
print('Drift: {}'.format(labels[preds['data']['is_drift']]))


Drift: Yes


Importante salientar que a técnica utilizada é uma detre as possíveis, de modo que o monitoramento da ocorrência de drifit poderia incidir por meio de métricas como MSE, acurácia, precision e assim por diante. 