# Parte 01 - Feature Backfill

Este material √© baseado no tutorial avan√ßado da Hopsworks Feature Store. Voc√™ ir√° trabalhar com dados relacionados ao uso de bicicletas do Citibike e observa√ß√µes meteorol√≥gicas na cidade de Nova York.

O objetivo √© trabalhar com o **Hopsworks Feature Store** para dados em lote, com o objetivo de treinar e implantar um modelo que possa prever o uso de bicicletas do Citibike por esta√ß√£o no futuro.

## üóíÔ∏è Este notebook est√° dividido em 3 se√ß√µes:
1. Carregamento dos dados e Feature Engineering.
2. Conex√£o ao Hopsworks Feature Store.
3. Cria√ß√£o Feature Groups e envi√°-los para o feature store.

## üìù Importando os Pacotes

In [None]:
# instalando os pacotes
!pip install -U hopsworks --quiet
!pip install python-dotenv

In [None]:
# importando pacotes
from datetime import timedelta, datetime
import pandas as pd
import plotly.express as px
import os

from pandas.tseries.holiday import USFederalHolidayCalendar

from features import citibike, meteorological_measurements

# Mutando avisos
import warnings
warnings.filterwarnings("ignore")

---

## üíΩ Carregar os dados hist√≥ricos e üõ†Ô∏è Realizar Engenharia de Caracter√≠sticas

Os dados que voc√™ ir√° utilizar v√™m de tr√™s fontes diferentes:

- Hist√≥ricos de viagens do Citi Bike [Trip Histories](https://s3.amazonaws.com/tripdata/index.html);
- Obten√ß√£o de Feriados Nacionais dos EUA a partir do `USFederalHolidayCalendar` (pacote `pandas.tseries.holiday`);
- Diferentes observa√ß√µes meteorol√≥gicas do [VisualCrossing](https://www.visualcrossing.com/).

### üö≤ Informa√ß√µes sobre o uso do Citibike

Os arquivos baix√°veis dos dados de viagens do Citi Bike est√£o localizados [aqui](https://s3.amazonaws.com/tripdata/index.html). Originalmente, os dados incluem:

| Original em Ingl√™s               | Portugu√™s                      |
|--------------------------|--------------------------------|
| Ride ID                  | Identifica√ß√£o da Viagem        |
| Rideable type            | Tipo de Ve√≠culo                |
| Started at               | In√≠cio da Viagem               |
| Ended at                 | Fim da Viagem                  |
| Start station name       | Nome da Esta√ß√£o de In√≠cio      |
| Start station ID         | ID da Esta√ß√£o de In√≠cio        |
| End station name         | Nome da Esta√ß√£o de Fim         |
| End station ID           | ID da Esta√ß√£o de Fim           |
| Start latitude           | Latitude de In√≠cio             |
| Start longitude          | Longitude de In√≠cio            |
| End latitude             | Latitude de Fim                |
| End Longitude            | Longitude de Fim               |
| Member or casual ride    | Membro ou Passeio Casual       |



Vamos baixar alguns dados [daqui](https://s3.amazonaws.com/tripdata/index.html) e realizar o pr√©-processamento (remo√ß√£o de colunas redundantes e agrupamento de dados).

In [None]:
# Obtendo os dados
df_raw = citibike.get_citibike_data("01/2023", "04/2023")
df_raw.head(3)

In [None]:
# Converter a coluna 'station_id' para o tipo string para representa√ß√£o categ√≥rica.
df_raw.station_id = df_raw.station_id.astype(str)

In [None]:
# Feature Engineering do Citibike
df_enhanced = citibike.engineer_citibike_features(df_raw)

# Remover linhas com valores ausentes no DataFrame aprimorado
df_enhanced = df_enhanced.dropna()

# Converter 'station_id' para o tipo string para representa√ß√£o categ√≥rica
df_enhanced.station_id = df_enhanced.station_id.astype(str)

# Exibir as tr√™s primeiras linhas do DataFrame aprimorado
df_enhanced.head(3)


In [None]:
# Criando uma amostra de 'station_id' aleat√≥rio do DataFrame aprimorado
random_station_id = df_enhanced.station_id.sample(1).values[0]

# Exibir as tr√™s primeiras linhas do DataFrame aprimorado para o 'station_id' selecionado aleatoriamente
df_enhanced[df_enhanced.station_id == random_station_id].head(3)


In [None]:
# Exibir informa√ß√µes sobre o DataFrame, incluindo tipos de dados, contagens n√£o nulas e uso de mem√≥ria
df_enhanced.info()

### üìí Informa√ß√µes sobre Esta√ß√µes do Citibike

In [None]:
# Ler o arquivo CSV contendo informa√ß√µes da esta√ß√£o em um DataFrame
df_stations_info = pd.read_csv("data/stations_info.csv")


In [None]:
# Remover linhas duplicadas com base na coluna 'station_id' no DataFrame de informa√ß√µes da esta√ß√£o
df_stations_info = df_stations_info.drop_duplicates(subset=["station_id"])

# Resetar o √≠ndice do DataFrame e remover qualquer linha com valores ausentes
df_stations_info = df_stations_info.reset_index(drop=True).dropna()

# Converter 'station_id' para o tipo string para representa√ß√£o categ√≥rica
df_stations_info.station_id = df_stations_info.station_id.astype(str)

In [None]:
# Exibir as tr√™s primeiras linhas do DataFrame de informa√ß√µes da esta√ß√£o
df_stations_info.head(3)

In [None]:
# Criar um mapa de dispers√£o usando Plotly Express com informa√ß√µes da esta√ß√£o
fig = px.scatter_mapbox(
    df_stations_info, 
    lat="lat", 
    lon="long",
    zoom=9.5,
    hover_name="station_name",
    height=400,
    width=600,
)

# Definir o estilo do mapa como 'open-street-map'
fig.update_layout(mapbox_style="open-street-map")

# Ajustar as margens do layout para remover espa√ßo desnecess√°rio
fig.update_layout(margin={"r": 0, "t": 0, "l": 0, "b": 0})

# Exibir o mapa
fig.show()

### üìÖ Feriados nos Estados Unidos

In [None]:
# Criar um calend√°rio de feriados federais dos EUA
cal = USFederalHolidayCalendar()

# Gerar uma feature para 20 anos de dias de feriado nos EUA
start_date_for_cal = datetime.strptime('2017-01-01', '%Y-%m-%d')
end_date_for_cal = start_date_for_cal + timedelta(days=365*10)

# Criar um DataFrame com datas de feriados e uma coluna correspondente 'holiday'
holidays = pd.DataFrame(
    cal.holidays(start=start_date_for_cal, end=end_date_for_cal),
    columns=['date'],
)
holidays['date'] = holidays['date'].dt.strftime('%Y-%m-%d')
holidays['holiday'] = 1


In [None]:
# Criar um DataFrame com um intervalo de datas de start_date_for_cal a end_date_for_cal
df_holidays = pd.DataFrame(
    pd.date_range(start_date_for_cal, end_date_for_cal),
    columns=["date"],
)

# Formatar a coluna 'date' para corresponder ao formato '%Y-%m-%d'
df_holidays['date'] = df_holidays['date'].dt.strftime('%Y-%m-%d')

# Exibir as tr√™s primeiras linhas do DataFrame
df_holidays.head(3)


In [None]:
# Definir a coluna 'date' como √≠ndice e unir o DataFrame 'holidays' na coluna 'date'
# Preencher valores ausentes com 0 ap√≥s a uni√£o
df_holidays = df_holidays.set_index("date").join(
    holidays.set_index("date"), 
    how="left",
).fillna(0)

In [None]:
# Converter a coluna 'holiday' para o tipo inteiro
df_holidays['holiday'] = df_holidays['holiday'].astype(int)

# Resetar o √≠ndice, trazendo a coluna 'date' de volta como uma coluna regular
df_holidays = df_holidays.reset_index(drop=False)

# Exibir as tr√™s primeiras linhas do DataFrame
df_holidays.head(3)


In [None]:
# Verificando o DataFrame
df_holidays.tail(3)

### üå§ Medidas Meteorol√≥gicas do VisualCrossing

Voc√™ ir√° analisar os dados meteorol√≥gicos, ent√£o voc√™ deve obter uma chave de API do [VisualCrossing](https://www.visualcrossing.com/). Voc√™ pode usar [este link](https://www.visualcrossing.com/weather-api).

#### N√£o se esque√ßa de criar um arquivo de configura√ß√£o `.env` dentro deste diret√≥rio, onde todas as vari√°veis de ambiente necess√°rias ser√£o armazenadas:

`WEATHER_API_KEY = "SUA_CHAVE_DE_API"`

> Se voc√™ fizer isso depois de executar este notebook, reinicie o Kernel do Python (porque `functions.py` n√£o ter√° essas vari√°veis em seu namespace).

![](images/api_keys_env_file.png)

In [None]:
# Converter a coluna 'date' para o tipo string
df_enhanced.date = df_enhanced.date.astype(str)

# Encontrar as datas m√≠nima e m√°xima na coluna 'date'
start_date, end_date = df_enhanced.date.min(), df_enhanced.date.max()


In [None]:
# Obter dados meteorol√≥gicos para a cidade de Nova York dentro do intervalo de datas especificado
df_weather = meteorological_measurements.get_weather_data(
    city="nyc",
    start_date=str(start_date).split()[0],
    end_date=str(end_date).split()[0],
)
df_weather.tail(3)


In [None]:
# Cria√ß√£o das colunas Unix
df_enhanced["timestamp"] = df_enhanced["date"].apply(
    meteorological_measurements.convert_date_to_unix
)
df_holidays["timestamp"] = df_holidays["date"].apply(
    meteorological_measurements.convert_date_to_unix
)
df_weather["timestamp"] = df_weather["date"].apply(
    meteorological_measurements.convert_date_to_unix
)


---

##  üì° Conectando ao Hopsworks Feature Store

In [None]:
# Importando os pacotes
import hopsworks

project = hopsworks.login()

fs = project.get_feature_store()

---

## ü™Ñ Criando Grupos de Caracter√≠sticas

Um [feature group](https://docs.hopsworks.ai/3.0/concepts/fs/feature_group/fg_overview/) pode ser visto como uma cole√ß√£o de caracter√≠sticas conceitualmente relacionadas. Neste caso, voc√™ ir√° criar os seguintes grupos de caracter√≠sticas: Uso do CitiBike por esta√ß√£o, Informa√ß√µes das Esta√ß√µes, Medidas Meteorol√≥gicas em NYC e Feriados nos EUA.

Uma vez criado o Feature Group, basta fazer as inser√ß√µes.

`fs.get_or_create_feature_group`: Este m√©todo √© utilizado para obter ou criar um feature group no **Hopsworks Feature Store**. Neste caso, est√° sendo criado um feature group chamado "citibike_usage". Os par√¢metros incluem o nome, vers√£o, descri√ß√£o, chave prim√°ria (composta por "date" e "station_id") e o tempo do evento definido como "timestamp".

`citibike_usage_fg.insert`: Este m√©todo insere dados no grupo de caracter√≠sticas 'citibike_usage'. O DataFrame df_enhanced √© utilizado como fonte de dados. O par√¢metro write_options={"wait_for_job": True} indica que o c√≥digo deve esperar pela conclus√£o da inser√ß√£o antes de continuar.

In [None]:
# Criando o Feature Group citibike_usage_fg
citibike_usage_fg = fs.get_or_create_feature_group(
    name="citibike_usage",
    version=1,
    description="Citibike stations usage data.",
    primary_key=["date", "station_id"],
    event_time="timestamp",
)

In [None]:
# Inserindo no Feature Group citibike_usage_fg
citibike_usage_fg.insert(
    df_enhanced,
    write_options={"wait_for_job": True},
)

In [None]:
# Criando o Feature Group citibike_stations_info_fg
citibike_stations_info_fg = fs.get_or_create_feature_group(
    name="citibike_stations_info",
    version=1,
    description="Citibike stations information.",
    primary_key=['station_id'],
)

In [None]:
# Inserindo no Feature Group citibike_stations_info_fg
citibike_stations_info_fg.insert(
    df_stations_info,
    write_options={"wait_for_job": True},
)

In [None]:
# Criando o Feature Group us_holidays_fg
us_holidays_fg = fs.get_or_create_feature_group(
    name="us_holidays",
    version=1,
    description="US holidays calendar.",
    primary_key=["date"],
    event_time="timestamp",
)

In [None]:
# Inserindo no Feature Group us_holidays_fg
us_holidays_fg.insert(
    df_holidays,
    write_options={"wait_for_job": True},
)

In [None]:
# Criando o Feature Group meteorological_measurements_fg
meteorological_measurements_fg = fs.get_or_create_feature_group(
    name="meteorological_measurements",
    version=1,
    description="Meteorological measurements for NYC.",
    primary_key=["date"],
    event_time="timestamp",
)

In [None]:
# Inserindo no Feature Group meteorological_measurements_fg
meteorological_measurements_fg.insert(
    df_weather, 
    write_options={"wait_for_job": True},
)

## ‚è≠Ô∏è **Pr√≥xima Aula:** Parte 02: Feature Pipeline

No pr√≥ximo notebook, voc√™ estar√° analisando novos dados mensais para os Feature Groups.
