# 1. A solução criada nesse projeto deve ser disponibilizada em repositório git e disponibilizada em servidor de repositórios (Github (recomendado), Bitbucket ou Gitlab). O projeto deve obedecer o Framework TDSP da Microsoft. Todos os artefatos produzidos deverão conter informações referentes a esse projeto (não serão aceitos documentos vazios ou fora de contexto). Escreva o link para seu repositório. 
---
## Configuração do Repositório do Projeto

Este documento descreve a configuração do repositório do projeto de machine learning para prever os arremessos de Kobe Bryant. O repositório foi criado em uma plataforma de controle de versão e hospedagem de código, como GitHub, Bitbucket ou Gitlab, conforme recomendado.

## Detalhes do Repositório

- **Nome do Projeto**: Projeto Final de Curso - Eng. ML INFNET
- **Plataforma de Hospedagem**: GitHub
- **Link para o Repositório**: [[Link para o Repositório](https://github.com/MarceloFullStack/Projeto-Final-de-Curso---Eng.-ML.git)]
- **Framework TDSP**: O projeto foi estruturado e gerenciado seguindo as diretrizes do Team Data Science Process (TDSP) da Microsoft.

## Estrutura do Repositório

O repositório do projeto segue uma estrutura organizada de diretórios e arquivos, conforme recomendado pelo TDSP:

- **Data**: Armazena os dados brutos e processados utilizados no projeto.
- **Docs**: Contém a documentação do projeto, incluindo documentos de entendimento do negócio, carta do projeto e descrições dos artefatos.
- **Code**: Contém os scripts e códigos-fonte do projeto, incluindo aqueles relacionados à preparação de dados, treinamento de modelos e avaliação.
- **Notebooks**: Armazena os notebooks Jupyter utilizados para análise exploratória e desenvolvimento de modelos.
- **Models**: Contém os modelos treinados e quaisquer artefatos relacionados à implantação e operação do modelo.
- **README.md**: Fornece uma visão geral do projeto e instruções para configurar e executar o projeto localmente.
- **requirements.txt**: Lista de todas as dependências e bibliotecas necessárias para executar o projeto.

## Como Acessar o Repositório

Para acessar o repositório do projeto, siga o link fornecido abaixo:

 [[Link para o Repositório](https://github.com/MarceloFullStack/Projeto-Final-de-Curso---Eng.-ML.git)]

## Conclusão

A configuração do repositório do projeto é fundamental para garantir a colaboração eficiente, o controle de versão adequado e a organização dos artefatos do projeto. O uso do Framework TDSP da Microsoft orientou a estruturação e gerenciamento do projeto, garantindo sua conformidade com as melhores práticas de ciência de dados.


---


# 2. Iremos desenvolver um preditor de arremessos usando duas abordagens (regressão e classificação) para prever se o "Black Mamba" (apelido de Kobe) acertou ou errou a cesta. Para começar o desenvolvimento, desenhe um diagrama que demonstra todas as etapas necessárias em um projeto de inteligência artificial desde a aquisição de dados, passando pela criação dos modelos, indo até a operação do modelo.'
---
## Diagrama do Fluxo de Desenvolvimento de Machine Learning

Este documento descreve as etapas ilustradas no diagrama de fluxo do meu projeto de machine learning para prever os resultados dos arremessos do Kobe Bryant. O diagrama foi desenhado para mapear visualmente cada fase do projeto, desde a inicialização até a operação do modelo.

![Fluxo de Desenvolvimento de Machine Learning](../images/diagram.png)

## Descrição das Etapas

1. **Criação do Repositório no GitHub**: Iniciei o projeto criando um repositório no GitHub, o que estabelece a base para o controle de versão e colaboração.

2. **Disponibilização do Repositório**: Tornei o repositório público, permitindo que outros colaboradores e partes interessadas acessassem e contribuíssem para o projeto.

3. **Adesão ao Framework TDSP**: Implementei o projeto seguindo o Team Data Science Process, uma metodologia estruturada fornecida pela Microsoft para desenvolvimento de projetos de ciência de dados.

4. **Estruturação do Projeto**: Organizei o projeto em diretórios e arquivos conforme as convenções do TDSP, garantindo clareza e uma gestão eficiente dos artefatos do projeto.

5. **Início do Projeto de IA**: Com o repositório e a estrutura prontos, dei início ao desenvolvimento efetivo do projeto de inteligência artificial.

6. **Definição das Etapas do Projeto**: Esquematizei todas as etapas do projeto, planejando cada fase desde a aquisição de dados até a operação do modelo em produção.

7. **Aquisição de Dados**: Baixei os dados dos arremessos de Kobe Bryant para análise, conforme sugerido no PDF do projeto.

8. **Preparação dos Dados**: Realizei o pré-processamento dos dados para limpeza, filtragem e preparação para os algoritmos de machine learning.

9. **Criação dos Modelos (Regressão e Classificação)**: Desenvolvi modelos usando técnicas de regressão e classificação para prever os resultados dos arremessos.

10. **Avaliação dos Modelos**: Após o treinamento, avaliei os modelos com base em métricas apropriadas para determinar sua performance e eficácia.

11. **Operação do Modelo**: Com um modelo selecionado, passei para a fase de operação, onde o modelo está pronto para ser utilizado em um ambiente produtivo.

12. **Monitoramento e Ajustes**: Na última fase, assegurei o monitoramento contínuo do modelo e realizei ajustes conforme necessário para manter sua acurácia e confiabilidade.

## Conclusão

O diagrama e as etapas documentadas aqui representam o ciclo de vida completo do projeto de machine learning, destacando a importância de cada fase no desenvolvimento de um sistema de IA eficiente e robusto.

---

# 3. Descreva a importância de implementar pipelines de desenvolvimento e produção numa solução de aprendizado de máquinas.
---
## A Importância dos Pipelines de Desenvolvimento e Produção em Machine Learning

Na engenharia de machine learning, pipelines de desenvolvimento e produção são essenciais para a transição eficiente de modelos experimentais para aplicações em tempo real. Eles não apenas facilitam a gestão do ciclo de vida do modelo, mas também garantem que os insights gerados durante a fase de pesquisa possam ser aplicados de forma confiável e escalável no mundo real. Abaixo, destacamos a importância desses pipelines:

## Automação e Eficiência

Pipelines automatizados reduzem a necessidade de intervenção manual em tarefas repetitivas, como treinamento de modelos, validação e deploy. Isso aumenta a eficiência do processo de desenvolvimento, permitindo que equipes se concentrem em tarefas mais estratégicas, como aprimoramento de algoritmos e inovação.

## Consistência e Reprodutibilidade

Implementar pipelines assegura que cada passo, do pré-processamento de dados ao treinamento e validação de modelos, seja realizado de maneira consistente. Isso é crucial para a reprodutibilidade dos resultados, um pilar fundamental na ciência de dados, pois garante que os modelos possam ser reconstruídos ou atualizados sem desvios ou erros decorrentes de variações no processo.

## Rastreamento e Monitoramento

Pipelines bem estruturados facilitam o rastreamento de experimentos e o monitoramento de modelos em produção. Isso inclui o registro automático de métricas, parâmetros e artefatos, bem como a detecção precoce de problemas de desempenho ou deriva de dados, permitindo intervenções rápidas e informadas.

## Deploy Ágil

O pipeline de produção permite uma transição suave de modelos do ambiente de desenvolvimento para o de produção, reduzindo significativamente o tempo de deploy. Isso é essencial em ambientes empresariais, onde a capacidade de responder rapidamente a mudanças de mercado ou necessidades operacionais pode ser um diferencial competitivo.

## Escalabilidade

Pipelines facilitam a escalabilidade das soluções de machine learning, permitindo que modelos sejam treinados com grandes volumes de dados e servidos a um número crescente de usuários sem perda de performance. Isso é alcançado através da automação de tarefas como balanceamento de carga, alocação de recursos e otimização de consultas.

## Conclusão

Pipelines de desenvolvimento e produção em machine learning são fundamentais para a criação de soluções robustas, escaláveis e facilmente gerenciáveis. Eles representam a espinha dorsal do processo de entrega de valor a partir de dados, transformando experimentos científicos em aplicações práticas que impulsionam a inovação e o sucesso empresarial.

---

# 4. Como as ferramentas Streamlit, MLFlow, PyCaret e Scikit-Learn auxiliam na construção dos pipelines descritos anteriormente? A resposta deve abranger os seguintes aspectos:
---
## Contribuições de Ferramentas em Pipelines de Machine Learning

## a. Rastreamento de Experimentos

- **MLFlow:** Permite aos cientistas de dados registrar, comparar e monitorar todas as fases dos experimentos de machine learning. Com MLFlow, é possível rastrear parâmetros, métricas e artefatos de modelos, facilitando a identificação da melhor configuração de modelo.
- **PyCaret:** Integrado com MLFlow, PyCaret ajuda a simplificar o rastreamento de experimentos automatizando a comparação de diferentes modelos e suas configurações.

## b. Funções de Treinamento

- **PyCaret:** Oferece um ambiente de alto nível para automação do fluxo de trabalho de machine learning, incluindo pré-processamento de dados, seleção e treinamento de modelos, e otimização de hiperparâmetros, tudo com mínima codificação.
- **Scikit-Learn:** Biblioteca essencial para a construção de pipelines de dados e modelos, facilitando a experimentação e o treinamento de modelos de machine learning com seu conjunto extensivo de algoritmos e ferramentas de pré-processamento.

## c. Monitoramento da Saúde do Modelo

- **MLFlow:** Além de rastrear experimentos, MLFlow suporta o monitoramento da saúde dos modelos em produção, registrando métricas de desempenho ao longo do tempo e alertando para possíveis degradações.

## d. Atualização de Modelo

- **MLFlow:** Facilita a gestão do ciclo de vida dos modelos, incluindo a atualização de modelos em produção. Com MLFlow, é possível versionar modelos, testar novas versões em ambientes de staging e promovê-los para produção com confiança.
- **Scikit-Learn:** A estrutura de pipeline do Scikit-Learn permite ajustes e refinamentos fáceis em modelos, tornando a atualização de modelos mais eficiente ao incorporar novos dados ou ajustar hiperparâmetros.

## e. Provisionamento (Deployment)

- **Streamlit:** Ideal para o rápido desenvolvimento de aplicações web que permitem a interação dos usuários com modelos de machine learning. Streamlit pode servir como uma ferramenta de provisionamento para protótipos e MVPs, disponibilizando insights de modelos para não especialistas.
- **MLFlow:** Oferece suporte ao deployment de modelos, integrando-se com diversas plataformas de hospedagem e servindo modelos através de APIs REST, facilitando o acesso a previsões de modelos por aplicativos e serviços.

# 5. Com base no diagrama realizado na questão 2, aponte os artefatos que serão criados ao longo de um projeto. Para cada artefato, indique qual seu objetivo.
---

## Artefatos do Projeto de Machine Learning

Este documento lista e descreve os artefatos gerados em cada etapa do desenvolvimento do projeto de machine learning para predição dos arremessos de Kobe Bryant. Os artefatos são os produtos tangíveis ou entregáveis criados durante o ciclo de vida do projeto.

## Artefatos e Seus Objetivos

### Etapa de Aquisição de Dados
- **data.csv** (em `./Data/raw/`): Dataset cru contendo os registros de arremessos de Kobe Bryant. O objetivo é fornecer os dados brutos que alimentarão o processo de análise e modelagem.

### Etapa de Preparação dos Dados
- **data_filtered.parquet** (em `./Data/processed/`): Dataset pré-processado e filtrado pronto para ser utilizado na modelagem. Este artefato é essencial para garantir que o modelo seja treinado com dados limpos e relevantes.

### Etapa de Análise Exploratória
- **eml.ipynb** (em `./Notebooks/`): Jupyter Notebook contendo a análise exploratória dos dados. O objetivo é entender as características dos dados, incluindo a distribuição das variáveis e a relação entre eles.

### Etapa de Modelagem
- **model_training.py** (em `./Code/`): Script de treinamento dos modelos. Serve para desenvolver e treinar os modelos de machine learning com base nos dados preparados.
- **model_evaluation.py** (em `./Code/`): Script para avaliação dos modelos treinados. Seu objetivo é medir a performance dos modelos e selecionar o melhor para a operação.

### Etapa de Operação do Modelo
- **streamlit_dashboard.py** (em `./Code/`): Aplicativo Streamlit que serve como interface para interagir com o modelo treinado. O objetivo é permitir que usuários finais realizem previsões e explorem os resultados do modelo.

### Artefatos de Documentação
- **business_understanding.md**, **project_charter.md**, **3-importance_of_pipelines.md**, **4-tools_in_ml_pipelines.md**, **2-workflow_diagram.md** (todos em `./Docs/`): Conjunto de documentos que fornecem uma compreensão aprofundada do projeto, seu contexto, e a metodologia utilizada. O objetivo é documentar o projeto de forma abrangente para que todas as partes interessadas possam compreender as decisões e processos implementados.

### Outros Artefatos
- **README.md**: Fornece uma visão geral e instruções para navegação e uso do repositório.
- **requirements.txt**: Lista todas as bibliotecas e suas versões necessárias para reproduzir o ambiente de desenvolvimento do projeto.
- **.vscode/settings.json**: Configurações do editor de código para manter a consistência no desenvolvimento.

## Conclusão

Cada artefato é um componente crítico no ciclo de vida do projeto, ajudando a transição de uma fase para a próxima e garantindo que os resultados sejam reprodutíveis e escaláveis. A criação desses artefatos assegura que o projeto possa ser auditado, compreendido e utilizado por qualquer pessoa com interesse nele.


---

# 6.Implemente o pipeline de processamento de dados com o mlflow, rodada (run) com o nome "PreparacaoDados":


In [6]:
import mlflow
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss
from sklearn.linear_model import LogisticRegression

# Iniciando o experimento com MLflow
mlflow.set_experiment("PreparacaoDados")

# Carregando os dados
# a. O dataset está localizado em "/Data/kobe_dataset.csv"
df = pd.read_csv("../Data/raw/kobe_dataset.csv")

# b. Filtragem dos dados para remover linhas com valores faltantes e filtrar por 'shot_type'
df_filtrado = df.dropna(subset=['lat', 'lon', 'minutes_remaining', 'period', 'playoffs', 'shot_distance', 'shot_made_flag'])
df_filtrado = df_filtrado[df_filtrado['shot_type'] == '2PT Field Goal']
df_filtrado = df_filtrado[['lat', 'lon', 'minutes_remaining', 'period', 'playoffs', 'shot_distance', 'shot_made_flag']]


# Salvando o dataset filtrado
df_filtrado.to_parquet("../Data/processed/data_filtered.parquet")

# c. Separando os dados em conjuntos de treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(
    df_filtrado.drop('shot_made_flag', axis=1), 
    df_filtrado['shot_made_flag'], 
    test_size=0.2, 
    stratify=df_filtrado['shot_made_flag'], 
    random_state=42
)

# Salvando os datasets de treino e teste
X_train.join(y_train).to_parquet("../Data/operalization/base_train.parquet")
X_test.join(y_test).to_parquet("../Data/operalization/base_test.parquet")

# Iniciando uma run no MLflow para registrar parâmetros e métricas
with mlflow.start_run(run_name="PreparacaoDados"):
    # d. Registrando os parâmetros
    mlflow.log_param("percentual_teste", 20)
    
    # Registrando as métricas (tamanho de cada base de dados)
    mlflow.log_metric("tamanho_base_treino", len(X_train))
    mlflow.log_metric("tamanho_base_teste", len(X_test))

    # Treinando o modelo de Regressão Logística
    modelo = LogisticRegression()
    modelo.fit(X_train, y_train)

    # Realizando predições no conjunto de teste
    y_pred = modelo.predict(X_test)
    y_proba = modelo.predict_proba(X_test)

    # Calculando e registrando métricas de desempenho
    mlflow.log_metric("accuracy", accuracy_score(y_test, y_pred))
    mlflow.log_metric("log_loss", log_loss(y_test, y_proba))

    # Salvando o modelo
    mlflow.sklearn.log_model(modelo, "modelo_logistic_regression")


![image.png](attachment:image.png)

---

# 7. Implementar o pipeline de treinamento do modelo com o Mlflow usando o nome "Treinamento"


In [7]:
import pandas as pd
from pycaret.classification import setup, create_model, predict_model, save_model
import mlflow
from sklearn.metrics import log_loss, f1_score

# Carregando os dados
# Carrega os datasets de treinamento e teste previamente preparados e separados.
train_data = pd.read_parquet("../Data/operalization/base_train.parquet")
test_data = pd.read_parquet("../Data/operalization/base_test.parquet")

# Iniciando o experimento no MLflow
# Configura um novo experimento no MLflow com o nome "Treinamento" para registrar os runs.
mlflow.set_experiment("Treinamento")

# Iniciando um run no MLflow
# Inicia um novo run no experimento "Treinamento" para registrar as atividades de treinamento.
with mlflow.start_run(run_name="Treinamento"):
    # Configurando o PyCaret
    # Inicializa o ambiente do PyCaret com os dados de treinamento, especificando a coluna alvo e o ID de sessão para reprodutibilidade.
    setup(data=train_data, target='shot_made_flag', session_id=123, preprocess=True)

    # a. Treinando o modelo de regressão logística
    # Treina um modelo de regressão logística usando a biblioteca PyCaret.
    lr_model = create_model('lr')
    
    # Realizando predições no conjunto de teste
    # Usa o modelo treinado para fazer predições no conjunto de dados de teste.
    lr_predictions = predict_model(lr_model, data=test_data)
    
    # b. Calculando log loss para o modelo de regressão logística
    # Calcula e registra a métrica log loss do modelo de regressão logística no MLflow.
    mlflow.log_metric("log_loss_lr", log_loss(test_data['shot_made_flag'], lr_predictions['prediction_score']))
    
    # b. Calculando e registrando F1 score para o modelo de regressão logística
    # Calcula e registra a métrica F1 score do modelo de regressão logística no MLflow.
    mlflow.log_metric("f1_score_lr", f1_score(test_data['shot_made_flag'], lr_predictions['prediction_label']))

    # c. Treinando um modelo de classificação RandomForest
    # Treina um modelo de classificação usando RandomForest no PyCaret. RandomForest é escolhido pela sua robustez e capacidade de lidar com overfitting.
    rf_model = create_model('rf')
    rf_predictions = predict_model(rf_model, data=test_data)
    
    # d. Calculando e registrando log loss para o modelo de classificação RandomForest
    # Calcula e registra a métrica log loss do modelo RandomForest no MLflow.
    mlflow.log_metric("log_loss_rf", log_loss(test_data['shot_made_flag'], rf_predictions['prediction_score']))
    
    # d. Calculando e registrando F1 score para o modelo de classificação RandomForest
    # Calcula e registra a métrica F1 score do modelo RandomForest no MLflow.
    mlflow.log_metric("f1_score_rf", f1_score(test_data['shot_made_flag'], rf_predictions['prediction_label']))

    # Salvando os modelos
    # Salva os modelos treinados de regressão logística e RandomForest para uso futuro.
    save_model(lr_model, '../Models/lr_model_final')
    save_model(rf_model, '../Models/rf_model_final')
    
    # Salvando o modelo
    mlflow.sklearn.log_model(rf_model, "modelo_random_forest")
    mlflow.sklearn.log_model(lr_model, "modelo_logistic_regression")


Unnamed: 0,Description,Value
0,Session id,123
1,Target,shot_made_flag
2,Target type,Binary
3,Original data shape,"(16228, 7)"
4,Transformed data shape,"(16228, 7)"
5,Transformed train set shape,"(11359, 7)"
6,Transformed test set shape,"(4869, 7)"
7,Numeric features,6
8,Preprocess,True
9,Imputation type,simple


Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.5827,0.6132,0.4815,0.5749,0.5241,0.1578,0.1597
1,0.5731,0.5971,0.4926,0.5597,0.524,0.1398,0.1408
2,0.5634,0.6087,0.4963,0.5467,0.5203,0.1214,0.1219
3,0.5625,0.5855,0.476,0.5478,0.5094,0.1181,0.1191
4,0.5651,0.5791,0.4631,0.5529,0.504,0.1222,0.1237
5,0.6109,0.6517,0.5258,0.6064,0.5632,0.2156,0.2174
6,0.581,0.5754,0.4871,0.5714,0.5259,0.1548,0.1563
7,0.588,0.6075,0.4899,0.5821,0.532,0.1689,0.1709
8,0.5863,0.5947,0.5138,0.5753,0.5428,0.1672,0.1681
9,0.5859,0.6043,0.5092,0.575,0.5401,0.166,0.167


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Logistic Regression,0.5721,0.5942,0.4729,0.5616,0.5135,0.1366,0.1382


Unnamed: 0_level_0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.5625,0.5775,0.524,0.543,0.5333,0.1218,0.1219
1,0.5739,0.586,0.5554,0.5533,0.5543,0.1462,0.1462
2,0.5528,0.5809,0.5332,0.5312,0.5322,0.1039,0.1039
3,0.5581,0.5758,0.5351,0.537,0.536,0.1142,0.1142
4,0.5449,0.5632,0.5018,0.5241,0.5127,0.0862,0.0863
5,0.5836,0.6108,0.5351,0.5675,0.5508,0.1634,0.1637
6,0.5519,0.5616,0.5221,0.531,0.5265,0.1013,0.1014
7,0.5713,0.5705,0.5414,0.5526,0.547,0.1402,0.1402
8,0.5414,0.5603,0.5249,0.5201,0.5225,0.0813,0.0813
9,0.5436,0.5612,0.524,0.5221,0.523,0.0855,0.0855


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Random Forest Classifier,0.5477,0.5595,0.4848,0.5287,0.5058,0.0903,0.0906


Transformation Pipeline and Model Successfully Saved
Transformation Pipeline and Model Successfully Saved


![image.png](attachment:image.png)

---

# 8. Registre o modelo de classificação e o disponibilize através do MLFlow através de API. Selecione agora os dados da base de dados original onde shot_type for igual à 3PT Field Goal (será uma nova base de dados) e através da biblioteca requests, aplique o modelo treinado. Publique uma tabela com os resultados obtidos e indique o novo log loss e f1_score.

### subir servidor MLFLOW
```bash
mlflow models serve -m "runs:/9eb8dc908de64f7899284ce5dbf8284a/modelo_random_forest" --no-conda -p 1234
```

In [8]:
import requests
import pandas as pd
from sklearn.metrics import f1_score
import numpy as np
# !mlflow models serve -m "runs:/9eb8dc908de64f7899284ce5dbf8284a/modelo_random_forest" --no-conda -p 1234
# Carregar o dataset original
df = pd.read_csv('../Data/kobe_dataset.csv')

df_filtrado = df.dropna(subset=['lat', 'lon', 'minutes_remaining', 'period', 'playoffs', 'shot_distance', 'shot_made_flag'])
df_filtrado = df_filtrado[['lat', 'lon', 'minutes_remaining', 'period', 'playoffs', 'shot_distance', 'shot_made_flag', 'shot_type']]

# Filtrar para incluir apenas arremessos de 3PT Field Goal
dados_3pt = df_filtrado[df_filtrado['shot_type'] == '3PT Field Goal']

# Selecionar apenas as colunas usadas no treinamento
dados_3pt = dados_3pt[['lat', 'lon', 'minutes_remaining', 'period', 'playoffs', 'shot_distance']]

# Converter os dados filtrados e selecionados para o formato JSON esperado pelo MLflow 2.0
# Utilize o formato 'dataframe_split' ou 'dataframe_records' conforme a preferência
dados_json = dados_3pt.to_json(orient='split')

# Fazer a requisição para a API
response = requests.post(
    'http://127.0.0.1:1234/invocations',
    json={
        "dataframe_split": {
            "columns": dados_3pt.columns.tolist(),
            "data": dados_3pt.values.tolist()
        }
    },
    headers={'Content-Type': 'application/json'}
)

# Verificar a resposta
if response.status_code == 200:
    predicoes = response.json()
    print(predicoes)
else:
    print("Erro ao fazer predição:", response.text)


{'predictions': [1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0

In [9]:
valores_reais = df_filtrado[df_filtrado['shot_type'] == '3PT Field Goal']['shot_made_flag'].values


# Calcular o F1-score com os valores filtrados
f1_sem_nan = f1_score(valores_reais, predicoes['predictions'])

print(f"F1-score: {f1_sem_nan}")

F1-score: 0.27583914921900965


a. **Aderência do Modelo à Nova Base:** Para avaliar se o modelo é aderente à nova base, precisamos considerar o desempenho obtido, como indicado pelo F1-score, e outros indicadores relevantes de qualidade do modelo, como precisão, recall, e AUC (Área sob a Curva ROC). Um F1-score consistentemente baixo pode indicar que o modelo não está capturando bem as nuances dos dados. Isso pode ocorrer por várias razões, incluindo mudanças nos padrões de dados (drift), insuficiência ou irrelevância das variáveis explicativas selecionadas, ou ineficácia do algoritmo de aprendizado de máquina utilizado. Portanto, a aderência do modelo à nova base deve ser questionada e investigada detalhadamente, explorando os pontos mencionados anteriormente.

b. **Monitoramento da Saúde do Modelo:**

- **Com Disponibilidade da Variável Resposta:** O monitoramento ideal ocorre quando temos acesso à variável resposta. Isso permite a aplicação de métricas de performance como precisão, recall, F1-score, e AUC em uma base regular. Além disso, pode-se utilizar técnicas de validação cruzada contínua e monitorar a estabilidade das predições por meio de testes de estabilidade de distribuição, como o teste KS (Kolmogorov-Smirnov), para detectar drifts nos dados.

- **Sem Disponibilidade da Variável Resposta:** Na ausência da variável resposta, o foco deve ser em métricas indiretas e técnicas de monitoramento. Uma abordagem é monitorar a distribuição das variáveis de entrada e das predições, procurando por mudanças significativas que possam indicar drifts. Outra estratégia é a implementação de feedback loops, onde os usuários finais do modelo possam reportar erros ou inconsistências nas predições, servindo como um indicativo qualitativo da performance do modelo.

c. **Estratégias de Retreinamento:**

- **Estratégia Reativa:** O retreinamento reativo é acionado por um declínio observado na performance do modelo, detectado por meio do monitoramento contínuo. Esse declínio pode ser identificado quando a performance cai abaixo de um limiar predeterminado, ou quando mudanças significativas nas distribuições de entrada ou saída são observadas. Nesse cenário, o modelo é reavaliado, e um novo conjunto de dados, possivelmente com novas features ou removendo variáveis obsoletas, é utilizado para atualizar o modelo. O retreinamento reativo é essencialmente uma resposta a sinais de que o modelo atual não está mais alinhado com os dados ou com o fenômeno que está tentando prever.

- **Estratégia Preditiva:** O retreinamento preditivo, por outro lado, é uma abordagem proativa que busca antecipar a necessidade de retreinamento antes que a performance do modelo decline significativamente. Isso pode ser alcançado por meio da análise de tendências nas métricas de performance ao longo do tempo e do monitoramento de mudanças no ambiente externo que possam influenciar o comportamento do modelo. Outra técnica envolve a utilização de modelos de decaimento ou envelhecimento, que automaticamente ajustam a frequência do retreinamento baseado na taxa esperada de mudança nos dados ou no comportamento do fenômeno modelado.

Em suma, a manutenção da saúde do modelo em operação demanda um compromisso contínuo com o monitoramento de sua performance e a aplicação judiciosa de estratégias de retreinamento, seja de maneira reativa ou preditiva. Essa abordagem garante que o modelo permaneça eficaz e relevante diante das mudanças contínuas nos padrões de dados e nas necessidades do negócio.

![image-2.png](attachment:image-2.png)

# Relatório Consolidado do Projeto

## 1. Criação de uma Solução de Streaming de Dados Usando Pipelines

### Estrutura do Projeto Baseada no Framework TDSP
- A estrutura do projeto foi baseada no Framework de Ciência de Dados da Microsoft (TDSP), organizando os artefatos do projeto em diretórios específicos para dados, notebooks, scripts e documentação, facilitando a gestão e a colaboração.

### Diagrama das Etapas do Projeto
- Foi criado um diagrama detalhando todas as etapas necessárias para a criação de modelos de aprendizado de máquina, desde a coleta de dados até a produção, incluindo pré-processamento, treinamento, avaliação e implantação.

### Importância dos Pipelines de Desenvolvimento e Produção
- **Desenvolvimento:** Os pipelines de desenvolvimento são cruciais para garantir a reproducibilidade, a qualidade e a eficiência no desenvolvimento de modelos, automatizando etapas como a seleção de modelos, o treinamento e a validação.
- **Produção:** Os pipelines de produção asseguram a implementação eficiente e confiável dos modelos em ambientes de produção, automatizando o processo de implantação, monitoramento e atualização dos modelos.

## 2. Método de Atualização de Modelos em Produção

### Papel das Ferramentas Utilizadas
- **Streamlit:** Facilita a criação de aplicações web para visualização de dados e interação com os modelos de aprendizado de máquina.
- **MLFlow:** Utilizado para o rastreamento de experimentos, facilitando a comparação de diferentes modelos e configurações, além de gerenciar o ciclo de vida dos modelos em produção.
- **PyCaret:** Biblioteca de AutoML que simplifica a preparação de dados, seleção de modelos, treinamento, otimização e avaliação.
- **Scikit-Learn:** Fornece algoritmos de aprendizado de máquina para o treinamento de modelos, sendo amplamente usado para tarefas de regressão, classificação e clustering.

### Utilização das Ferramentas no Projeto
- Foram empregadas funções de treinamento do Scikit-Learn e PyCaret para a criação dos modelos. O MLFlow foi utilizado para rastrear os experimentos, incluindo métricas e parâmetros. O Streamlit foi usado para implementar um dashboard de monitoramento da operação, facilitando a visualização do desempenho dos modelos em tempo real.

## 3. Preparação de um Modelo para Streaming de Dados

### Processo de Preparação e Seleção de Dados
- Remoção de dados faltantes e seleção das colunas indicadas foram realizadas para garantir a qualidade dos dados. Foram selecionados apenas dados referentes a arremessos de 2 pontos, seguindo as especificações do projeto.

### Treinamento e Avaliação do Modelo
- O treinamento do modelo foi realizado utilizando o PyCaret, com um pipeline de treinamento registrado no MLFlow, incluindo métricas relevantes como Log Loss e F1 Score. Foram criados arquivos para cada fase do processamento, armazenados nas pastas indicadas, e separadas bases para treino e teste.

## 4. Utilização de Algoritmo de AutoML e Monitoramento do Modelo

### Adesão do Modelo à Nova Base de Dados
- A aderência do modelo à nova base de dados foi avaliada, considerando a performance do modelo em termos de métricas como Log Loss e F1 Score. O modelo mostrou ser adaptável, embora requeira monitoramento contínuo e potencial retreinamento para manter sua eficácia.

### Monitoramento e Retreinamento do Modelo
- O monitoramento da saúde do modelo é realizado através de um dashboard no Streamlit, exibindo métricas de desempenho em tempo real e facilitando a identificação de necessidades de retreinamento. Estratégias reativas e preditivas de retreinamento foram descritas para manter a performance do modelo em operação.

Este relatório consolida as etapas realizadas no projeto, demonstrando a aplicação de práticas e ferramentas modernas no desenvolvimento, monitoramento e atualização de modelos de aprendizado de máquina em um contexto de streaming de dados.



# 10- slide final 
 [[Link para o Slide](https://docs.google.com/presentation/d/16aSdbO-yyB1nRDdiHAlqzK2iyBlxJd-Ny5i75yRxZhI/edit?usp=sharing)]