# Part 03: Training Pipeline


## üóíÔ∏è Este notebook est√° dividido em 3 se√ß√µes principais:
1. Feature Selection.
2. Pr√©-processamento de dados.
3. Cria√ß√£o de conjuntos de dados de treinamento.
4. Carregamento dos dados de treinamento.
5. Treinamento do modelo.
6. Registrar o modelo no registro de modelos do Hopsworks.

![02_training-dataset](../../images/02_training-dataset.png)

## üìù Importando os Pacotes

In [None]:
# Importando pacotes
import joblib
import os

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
import xgboost as xgb

from sklearn.metrics import r2_score

# Mutando warnings
import warnings
warnings.filterwarnings('ignore')

---

## üì° Conectando ao Hopsworks Feature Store

In [None]:
# Importando os pacotes
import hopsworks

# Login na Hopsworks
project = hopsworks.login()

# Carregando o Feature Store
fs = project.get_feature_store()

In [None]:
# Recuperando os Feature Groups
citibike_usage_fg = fs.get_or_create_feature_group(
    name="citibike_usage",
    version=1,
)

citibike_stations_info_fg = fs.get_or_create_feature_group(
    name="citibike_stations_info",
    version=1,
)

us_holidays_fg = fs.get_or_create_feature_group(
    name="us_holidays",
    version=1,
)

meteorological_measurements_fg = fs.get_or_create_feature_group(
    name="meteorological_measurements",
    version=1,
)

---

## üñç Cria√ß√£o e Recupera√ß√£o da Feature View

Vamos come√ßar selecionando todas as features que voc√™ deseja incluir para treinamento/infer√™ncia do modelo.

In [None]:
# Selecionar features para os dados de treinamento.
query = meteorological_measurements_fg.select_except(["timestamp"])\
                          .join(
                                us_holidays_fg.select_except(["timestamp"]),
                                on="date", join_type="left"
                          )\
                          .join(
                              citibike_usage_fg.select_except(["timestamp"]),
                              on="date", join_type="left"
                          )


In [None]:
# # Remova o coment√°rio e execute a c√©lula abaixo se quiser ver algumas linhas desta consulta
# # mas voc√™ ter√° que esperar algum tempo

# query.read()


`Feature Views` fica entre **Feature Groups** e **Conjuntos de Dados de Treinamento**. Combinando **Feature Groups**, podemos criar **Feature Views** que armazenam metadados de nossos dados. Tendo **Feature Views**, podemos criar **Conjuntos de Dados de Treinamento**.

As Feature Views permitem esquemas na forma de uma consulta com filtros, definem uma feature/label de destino do modelo e fun√ß√µes de transforma√ß√£o adicionais.

Para criar uma Feature View, podemos usar o m√©todo `FeatureStore.get_or_create_feature_view()`.

Podemos especificar os seguintes par√¢metros:

- `name` - nome do grupo de caracter√≠sticas.

- `version` - vers√£o do grupo de caracter√≠sticas.

- `labels` - nossa vari√°vel alvo.

- `transformation_functions` - fun√ß√µes para transformar nossas caracter√≠sticas.

- `query` - objeto de consulta com dados.

In [None]:
# Criando o Feature View
feature_view = fs.get_or_create_feature_view(
    name='citibike_fv',
    query=query,
    labels=["users_count"],
    version=1,   
)

---

## üèãÔ∏è Criando o Dataset de Treino

No Hopsworks, o conjunto de dados de treinamento √© uma query em que a proje√ß√£o (conjunto de features) √© determinada pela `FeatureView` parent, com uma op√ß√£o de snapshot no disco dos dados retornados pela consulta.

**O conjunto de dados de treinamento pode conter divis√µes como:** 
* Conjunto de treinamento - o subconjunto de dados de treinamento usado para treinar um modelo.
* Conjunto de valida√ß√£o - o subconjunto de dados de treinamento usado para avaliar hparams ao treinar um modelo.
* Conjunto de teste - o subconjunto de dados de treinamento retido usado para avaliar um modelo.

Para criar um conjunto de dados de treinamento, voc√™ usar√° o m√©todo `FeatureView.train_test_split()`.

Aqui est√£o algumas coisas importantes:

- Ele herda o nome da `FeatureView`.

- O `feature store` atualmente suporta os seguintes formatos de dados para conjuntos de dados de treinamento: **tfrecord, csv, tsv, parquet, avro, orc**.

- Voc√™ pode escolher o formato desejado usando o par√¢metro **data_format**.

- **start_time** e **end_time** para filtrar o conjunto de dados em um intervalo de tempo espec√≠fico.

- Voc√™ pode criar divis√µes **treino, teste** usando `train_test_split()`.

- Voc√™ pode criar divis√µes **treino, valida√ß√£o, teste** usando os m√©todos `train_validation_test_splits()`.

- A √∫nica coisa √© que devemos especificar a propor√ß√£o desejada das divis√µes.

In [None]:
# Separando os conjuntos em treino e teste
X_train, X_test, y_train, y_test = feature_view.train_test_split(
    train_start="2023-01-01",
    train_end="2023-05-01",
    test_start="2023-05-02",
    test_end="2023-05-31",
)

In [None]:
# Converter as colunas especificadas no conjunto de treinamento para o tipo float
X_train.iloc[:, 1:-1] = X_train.iloc[:, 1:-1].astype(float)

# Converter as colunas especificadas no conjunto de teste para o tipo float
X_test.iloc[:, 1:-1] = X_test.iloc[:, 1:-1].astype(float)

print(f'‚õ≥Ô∏è Formato de X_train: {X_train.shape}')
print(f'‚õ≥Ô∏è Formato de y_train: {y_train.shape}')


In [None]:
# Definir o √≠ndice de v√°rios n√≠veis para o conjunto de treinamento usando as colunas 'date' e 'station_id'
X_train = X_train.set_index(["date", "station_id"])

# Definir o √≠ndice de v√°rios n√≠veis para o conjunto de teste usando as colunas 'date' e 'station_id'
X_test = X_test.set_index(["date", "station_id"])

# Remover linhas com valores ausentes no conjunto de treinamento
X_train.dropna(inplace=True)

# Remover linhas com valores ausentes no conjunto de teste
X_test.dropna(inplace=True)

# Remover linhas com valores ausentes nos r√≥tulos de treinamento
y_train.dropna(inplace=True)

# Remover linhas com valores ausentes nos r√≥tulos de teste
y_test.dropna(inplace=True)

# Exibir as tr√™s primeiras linhas do conjunto de treinamento
X_train.head(3)


---
## üß¨ Machine Learning

In [None]:
# Criar um Regressor XGBoost
regressor = xgb.XGBRegressor()

# Treinar o modelo usando o conjunto de treinamento
regressor.fit(X_train, y_train)


In [None]:
# Fazer previs√µes usando o modelo XGBoost treinado
y_pred = regressor.predict(X_test)

# Calcular e mostrar o R2 Score para o modelo XGBoost
r2_xgb = r2_score(y_pred, y_test.values)
print("üéØ R2 Score para o modelo XGBoost:", r2_xgb)


In [None]:
# Criar um DataFrame com valores reais e previstos
df_ = pd.DataFrame({
    "y_true": np.hstack(y_test.values),
    "y_pred": y_pred,
})

# Criar um gr√°fico de res√≠duos usando o Seaborn
residplot = sns.residplot(data=df_, x="y_true", y="y_pred", color='#613F75')

# Definir t√≠tulos e r√≥tulos do gr√°fico
plt.title('Res√≠duos do Modelo')
plt.xlabel('Observa√ß√£o #')
plt.ylabel('Erro')

# Mostrar o gr√°fico
plt.show()


In [None]:
# Plotando o residual
fig = residplot.get_figure()


---
### ‚öôÔ∏è Esquema do Modelo

O modelo precisa ser configurado com um [Esquema do Modelo](https://docs.hopsworks.ai/3.0/user_guides/mlops/registry/model_schema/), que descreve as entradas e sa√≠das para um modelo.

Um Esquema do Modelo pode ser gerado automaticamente a partir de exemplos de treinamento, como mostrado abaixo.

In [None]:
# Importando os pacotes necess√°rios
from hsml.schema import Schema
from hsml.model_schema import ModelSchema

# Criar esquemas de entrada e sa√≠da usando os dados de treinamento fornecidos
input_schema = Schema(X_train)
output_schema = Schema(y_train)

# Criar um esquema de modelo com os esquemas de entrada e sa√≠da
model_schema = ModelSchema(input_schema=input_schema, output_schema=output_schema)

# Converter o esquema do modelo para um dicion√°rio
model_schema.to_dict()


## üóÑ Registro de Modelos

Uma das funcionalidades no Hopsworks √© o registro de modelos (*Model Registry*). √â aqui que voc√™ pode armazenar diferentes vers√µes de modelos e comparar seu desempenho. Modelos do registro podem ent√£o ser disponibilizados como pontos de Endpoints de API.

In [None]:
# Criar um diret√≥rio para o modelo se ele n√£o existir
model_dir = "citibike_xgb_model"
if not os.path.isdir(model_dir):
    os.mkdir(model_dir)

# Salvar o modelo de regress√£o XGBoost no diret√≥rio especificado
joblib.dump(regressor, model_dir + '/citibike_xgb_model.pkl')

# Salvar o plot do gr√°fico de res√≠duos como uma imagem no diret√≥rio do modelo
fig.savefig(model_dir + "/residplot.png")


In [None]:
# Obter o registro de modelos para o projeto
mr = project.get_model_registry()

# Criar um modelo Python no registro de modelos
citibike_model = mr.python.create_model(
    name="citibike_xgb_model", 
    metrics={"r2_score": r2_xgb},
    model_schema=model_schema,
    input_example=X_train.sample(), 
    description="Predictor de usu√°rios do Citibike por esta√ß√£o",
)

# Salvar o diret√≥rio do modelo no registro de modelos
citibike_model.save(model_dir)


## ‚è≠Ô∏è **Pr√≥xima Aula:** Parte 04: Infer√™ncia em Lote

No pr√≥ximo notebook, voc√™ usar√° seu modelo registrado para prever dados em lote.