#**DataOps - Parte 1**

## **Aplicação**: detecção de data drift em um dataset

Data Drift é um fenômeno em que os dados usados para treinar um modelo de ML mudam com o tempo. Isso pode levar a uma diminuição nas métricas do modelo, uma vez que o modelo pode não ser mais capaz de generalizar bem para novos dados. Em outras palavras, o Data Drift ocorre quando os dados de entrada do modelo mudam ao longo do tempo, o que pode afetar a precisão e a eficácia do modelo. Para lidar com o Data Drift, é importante monitorar os dados usados para treinar os modelos, atualizar os dados regularmente e, se necessário, refazer os modelos completamente.

Existem dois tipos de Drift: Data Drift e Concept Drift.

- **Data Drift**: É um fenômeno em que os dados usados para treinar um modelo de Machine Learning mudam com o tempo. Isso pode levar a uma diminuição nas métricas do modelo, uma vez que o modelo pode não ser mais capaz de generalizar bem para novos dados.
- **Concept Drift**: É um fenômeno em que a relação entre os dados e a variável alvo muda com o tempo. Isso pode levar a uma diminuição na precisão do modelo, uma vez que o modelo pode não ser mais capaz de capturar a relação entre os dados e a variável alvo de forma eficaz. O Concept Drift pode ser resolvido refazendo o modelo.

Existem diferentes abordagens para lidar com cada tipo de Drift:

- **Data Drift**: é importante monitorar os dados usados para treinar os modelos, atualizar os dados regularmente e, se necessário, refazer os modelos completamente. A atualização dos dados pode ser feita por meio de técnicas como reamostragem, reequilíbrio de classes e reajuste de pesos.
- **Concept Drift**: é importante refazer o modelo completamente. Isso pode envolver a coleta de novos dados, a redefinição das variáveis de entrada e a redefinição da variável alvo. É importante lembrar que o Concept Drift pode ser um sinal de que o modelo precisa ser atualizado ou que a estratégia de negócios da empresa mudou. Portanto, é importante avaliar cuidadosamente a causa do Concept Drift antes de refazer o modelo


## Instalando o pacote

In [7]:
!pip install evidently -q

In [8]:
import pandas as pd
fetal_health = pd.read_csv('https://raw.githubusercontent.com/renansantosmendes/lectures-cdas-2023/master/fetal_health_reduced.csv')

# Evidently
### Importando as bibliotecas

In [9]:
import pandas as pd

from sklearn import datasets

from evidently.test_suite import TestSuite
from evidently.test_preset import DataStabilityTestPreset
from evidently.report import Report
from evidently.metric_preset import DataDriftPreset

## **Executando teste para data drift**

A classe DataDriftPreset do pacote Evidently é uma classe que fornece presets para testes de drift de dados. Estes presets são conjuntos de configurações que podem ser usados para executar testes de dirft de dados sem precisar definir todas as configurações manualmente.

Os presets estão disponíveis para uma variedade de tipos de testes de drifts de dados, incluindo:

- **Testes de drifts de distribuição**: esses testes verificam se a distribuição de dados muda ao longo do tempo.
- **Testes de drifts de outliers**: esses testes verificam se o número de outliers em seus dados muda ao longo do tempo.
- **Testes de drifts de correlação**: esses testes verificam se as correlações entre as variáveis em seus dados mudam ao longo do tempo.

Para usar um preset, basta criar uma instância da classe DataDriftPreset e passar o tipo de teste de drifts que deseja executar.

Os testes estatísticos usados na classe DataDriftPreset:

- **Testes de deriva de distribuição**:
  - **Teste de Kolmogorov-Smirnov**: Este teste compara as distribuições de duas amostras para detectar diferenças significativas.
  - **Teste de Jarque-Bera**: Este teste compara as distribuições de duas amostras para detectar assimetria e curtose.
  - **Teste de Shapiro-Wilk**: Este teste compara as distribuições de duas amostras para detectar normalidade.
- **Testes de drift de outliers**:
  - **Teste de Tukey**: Este teste identifica outliers em uma amostra usando um intervalo de confiança.
  - **Teste de Grubbs**: Este teste identifica outliers em uma amostra usando um teste de hipótese.
  - **Teste de Dixon**: Este teste identifica outliers em uma amostra usando uma equação.
- **Testes de drift de correlação**:
  - **Teste de Kendall**: Este teste mede a correlação entre duas variáveis usando uma medida não paramétrica.
  - **Teste de Spearman**: Este teste mede a correlação entre duas variáveis usando uma medida não paramétrica.
  - **Teste de Pearson**: Este teste mede a correlação entre duas variáveis usando uma medida paramétrica.

Os presets da classe DataDriftPreset também usam métodos visuais para detectar deriva de dados. Por exemplo, os presets podem usar gráficos de dispersão para comparar as distribuições de duas amostras.

In [36]:
reference_data = fetal_health.iloc[:60]
current_data = fetal_health.iloc[200:260]

In [35]:
data_drift_report = Report(metrics=[
    DataDriftPreset(),

])

data_drift_report.run(current_data=current_data,
                      reference_data=reference_data,
                      column_mapping=None)
data_drift_report

Output hidden; open in https://colab.research.google.com to view.

#**DataOps - Parte 2**

In [12]:
data_drift_report.as_dict().get('metrics')[0].get('result').get('dataset_drift')

False

In [13]:
import requests

In [None]:
def request_train():
  user = 'renansantosmendes'
  repos = 'mlops-ead'
  url=f"https://api.github.com/repos/{user}/{repos}/dispatches"

  headers = {
      "X-GitHub-Api-Version": "2022-11-28",
      "Accept": "application/vnd.github+json",
      "Authorization" : ""
  }

  body = {
      "event_type": "webhook"
      }

  response = requests.post(url, json=body, headers=headers)

  if response.status_code >= 200 and response.status_code < 300:
      print('Requisição bem-sucedida!')
  else:
      print('Erro na requisição:')
      print('Status code:', response.status_code)
      print('Resposta:', response.text)

In [22]:
has_drift = data_drift_report.as_dict().get('metrics')[0].get('result').get('dataset_drift')

if has_drift:
  print('Datadrift detectado')
  request_train()
else:
  print('Datadrift não detectado')

Datadrift não detectado


In [25]:
request_train()

Requisição bem-sucedida!
