# **CULTURA E PRÁTICA EM DATAOPS E MLOPS**
# **Prática - DataOps**
**Autor**: Renan Santos Mendes

**Email**: renansantosmendes@gmail.com

**Data da atualização**: 08/06/2025

**Descrição**: Este notebook apresenta uma aplicação de Data Drift usando o pacote Evidently

#**Parte 1**

## **Aplicação**: detecção de data drift em um dataset

Data Drift é um fenômeno em que os dados usados para treinar um modelo de ML mudam com o tempo. Isso pode levar a uma diminuição nas métricas do modelo, uma vez que o modelo pode não ser mais capaz de generalizar bem para novos dados. Em outras palavras, o Data Drift ocorre quando os dados de entrada do modelo mudam ao longo do tempo, o que pode afetar a precisão e a eficácia do modelo. Para lidar com o Data Drift, é importante monitorar os dados usados para treinar os modelos, atualizar os dados regularmente e, se necessário, refazer os modelos completamente.

Existem dois tipos de Drift: Data Drift e Concept Drift.

- **Data Drift**: É um fenômeno em que os dados usados para treinar um modelo de Machine Learning mudam com o tempo. Isso pode levar a uma diminuição nas métricas do modelo, uma vez que o modelo pode não ser mais capaz de generalizar bem para novos dados.
- **Concept Drift**: É um fenômeno em que a relação entre os dados e a variável alvo muda com o tempo. Isso pode levar a uma diminuição na precisão do modelo, uma vez que o modelo pode não ser mais capaz de capturar a relação entre os dados e a variável alvo de forma eficaz. O Concept Drift pode ser resolvido refazendo o modelo.

Existem diferentes abordagens para lidar com cada tipo de Drift:

- **Data Drift**: é importante monitorar os dados usados para treinar os modelos, atualizar os dados regularmente e, se necessário, refazer os modelos completamente. A atualização dos dados pode ser feita por meio de técnicas como reamostragem, reequilíbrio de classes e reajuste de pesos.
- **Concept Drift**: é importante refazer o modelo completamente. Isso pode envolver a coleta de novos dados, a redefinição das variáveis de entrada e a redefinição da variável alvo. É importante lembrar que o Concept Drift pode ser um sinal de que o modelo precisa ser atualizado ou que a estratégia de negócios da empresa mudou. Portanto, é importante avaliar cuidadosamente a causa do Concept Drift antes de refazer o modelo


## **Instalando o pacote**

In [None]:
%%capture
!pip install evidently

## **Carregando os pacotes necessários na prática**

**Explicação**: Aqui são importados os pacotes necessários para a análise, incluindo `pandas` para manipulação de dados, `requests` para realizar requisições HTTP, e o pacote `Evidently` para geração de relatórios sobre Data Drift. A linha `warnings.filterwarnings` é usada para ignorar avisos específicos do NumPy durante a execução.


In [None]:
import requests
import warnings
import pandas as pd

from sklearn import datasets

from evidently import Report
from evidently.presets import DataDriftPreset


warnings.filterwarnings(
    action="ignore",
    category=RuntimeWarning,
                        module="numpy")

## **Leitura do arquivo**

A próxima célula faz a leitura diretamente do arquivo .csv disponível na url pública.

**Importante**: esse comando poderia ser alterado para fazer a leitura de qualquer dataset, seja ele em outra url pública ou uma leitura de uma tabela disponibilizada pelos times de dados

In [None]:
fetal_health = pd.read_csv('https://raw.githubusercontent.com/renansantosmendes/lectures-cdas-2023/master/fetal_health_reduced.csv')

In [None]:
fetal_health.head()

# Evidently

## **Executando teste para data drift**

A classe DataDriftPreset do pacote Evidently é uma classe que fornece presets para testes de drift de dados. Estes presets são conjuntos de configurações que podem ser usados para executar testes de dirft de dados sem precisar definir todas as configurações manualmente.

Os presets estão disponíveis para uma variedade de tipos de testes de drifts de dados, incluindo:

- **Testes de drifts de distribuição**: esses testes verificam se a distribuição de dados muda ao longo do tempo.
- **Testes de drifts de outliers**: esses testes verificam se o número de outliers em seus dados muda ao longo do tempo.
- **Testes de drifts de correlação**: esses testes verificam se as correlações entre as variáveis em seus dados mudam ao longo do tempo.

Para usar um preset, basta criar uma instância da classe DataDriftPreset e passar o tipo de teste de drifts que deseja executar.

Os testes estatísticos usados na classe DataDriftPreset:

- **Testes de deriva de distribuição**:
  - **Teste de Kolmogorov-Smirnov**: Este teste compara as distribuições de duas amostras para detectar diferenças significativas.
  - **Teste de Jarque-Bera**: Este teste compara as distribuições de duas amostras para detectar assimetria e curtose.
  - **Teste de Shapiro-Wilk**: Este teste compara as distribuições de duas amostras para detectar normalidade.
- **Testes de drift de outliers**:
  - **Teste de Tukey**: Este teste identifica outliers em uma amostra usando um intervalo de confiança.
  - **Teste de Grubbs**: Este teste identifica outliers em uma amostra usando um teste de hipótese.
  - **Teste de Dixon**: Este teste identifica outliers em uma amostra usando uma equação.
- **Testes de drift de correlação**:
  - **Teste de Kendall**: Este teste mede a correlação entre duas variáveis usando uma medida não paramétrica.
  - **Teste de Spearman**: Este teste mede a correlação entre duas variáveis usando uma medida não paramétrica.
  - **Teste de Pearson**: Este teste mede a correlação entre duas variáveis usando uma medida paramétrica.

Os presets da classe DataDriftPreset também usam métodos visuais para detectar deriva de dados. Por exemplo, os presets podem usar gráficos de dispersão para comparar as distribuições de duas amostras.

### Criando dois conjuntos de dados para comparação

Na célula a seguir, dois conjuntos de dados são criados:
- reference_data: é o dataset base, muitas vezes usado para treinar um modelo
- current_data: é o novo dataset, usado para comparar com o dataset base

In [None]:
reference_data = fetal_health.iloc[:60]
current_data = fetal_health.iloc[1000:1100]

## **Criação do Relatório (Report)**
Um relatório de Data Drift é criado utilizando a classe `Report` do Evidently, e é configurado para incluir as métricas fornecidas pelo preset `DataDriftPreset`.


In [None]:
data_drift_report = Report(
    metrics=[DataDriftPreset()],
    include_tests="True"
    )

## **Execução dos testes estatísticos comparando os dois conjuntos de dados**

In [None]:
data_drift_result = data_drift_report.run(
    current_data=current_data,
    reference_data=reference_data
    )

data_drift_result

#**Parte 2**

O objetivo é executar um teste para detectar **data drift** utilizando as ferramentas providenciadas pela biblioteca Evidently. Utilizando a classe `Report` do pacote Evidently, o usuário executa metas e testes de drift nos dados, utilizando roteiros estatísticos e visuais para auxiliar na detecção de drift. Após a execução do teste, o resultado é avaliado. Se for identificado que o drift foi detectado, o notebook aciona uma função que envia uma requisição POST para um endpoint do GitHub.

Esse endpoint pode ser usado para acionar um processo, como por exemplo, iniciar uma atualização do modelo, uma prática comum em ambientes de DataOps e MLOps, onde as operações precisam ser automatizadas em resposta a alterações nos dados.


In [None]:
data_drift_result.dict().get('tests')[0].get('status').value

Esta linha verifica se o primeiro teste de Data Drift falhou, o que indica que foi detectada uma mudança nos dados.

In [None]:
data_drift_result.dict().get('tests')[0].get('status').value == 'FAIL'

##**Criação da Função para chamar o treino**
Define uma função chamada `request_train` que, ao ser chamada, faz uma requisição POST a um endpoint do GitHub para disparar um workflow. Essa função é usada na lógica de verificação de detecção de Data Drift.


In [None]:
def request_train() -> None:
    """
    Sends a POST request to a GitHub repository dispatch endpoint to trigger a workflow.

    This function constructs the necessary URL, headers, and body for a GitHub
    repository dispatch request. It then sends the request using the 'requests'
    library.

    Returns:
        None: The function does not return a value but prints a message indicating
              the success or failure of the request.
    """
    user = 'renansantosmendes'
    repos = 'mlops-ead'
    url=f"https://api.github.com/repos/{user}/{repos}/dispatches"

    headers = {
        "X-GitHub-Api-Version": "2022-11-28",
        "Accept": "application/vnd.github+json",
        "Authorization" : "token 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"
    }

    body = {
        "event_type": "webhook"
        }

    response = requests.post(url, json=body, headers=headers)

    if response.status_code >= 200 and response.status_code < 300:
        print('Requisição bem-sucedida!')
    else:
        print('Erro na requisição:')
        print('Status code:', response.status_code)
        print('Resposta:', response.text)

Esta linha verifica se o primeiro teste de Data Drift falhou, o que indica que foi detectada uma mudança nos dados. O resultado é armazenado na variável `has_drift`.

In [None]:
has_drift = data_drift_result.dict().get('tests')[0].get('status').value == 'FAIL'

In [None]:
has_drift

 Esta condição avalia o resultado do teste de Data Drift. Se foi detectado um Data Drift (ou seja, `has_drift` é verdadeiro), uma mensagem é impressa e a função `request_train` é chamada para atualizar o modelo. Caso contrário, uma mensagem informando que não houve Data Drift é exibida.

In [None]:
if has_drift:
  print('Datadrift detectado')
  request_train()
else:
  print('Datadrift não detectado')