### Feature store

Este notebook visa a criação de uma feature store para o projeto da Passos Mágicos.


- O que é a feature store?
- Benefícios
- Arquitetura
- Criação da feature store
- Monitoramento
- Versionamento
- Atualização
- Camada de segurança e governança
- Seleção de feature: cálculo de relevância de features

#### O que é a feature store?

- A integração de ML a sistemas (recomendação, fraude, personalização) que são voltados para clientes introduz novos requisitos de software que são novas para muitos times.
- Cada vez mais há necessidade de gerenciamento dos conjuntos de dados e pipelines de dados.
- Facilita:
    - Implementação de novas features
    - Automação de cálculos de features
    - Preenchimentos retroativos
    - Registros de Logs
    - Compartilhamento e reutilização de pipelines de features
    - Versionamento, Lineage, Metadados
    - Consistência entre dados de treinamento e inferência: centraliza a definição da feature, uma vez registrada, ela é servida tanto para treino quanto para inferência, sem duplicação de lógica.
    - Monitoramento do pipeline
    - Governança
        - Metadados ricos: além de schema, guarda descrição da feature, owner, data de criação, versão, estatísticas de distribuição.
        - Descoberta e reuso: engenheiros podem buscar “feature: churn_score” e ver quem já usa, em quais modelos, qual a performance.
        - Auditoria: rastrear quais features foram usadas em determinado modelo e versão, útil para compliance.
        - Monitoramento: acompanhar drift e qualidade das features em produção, não só o acesso.
    - Serving otimizado
        - Usar um feature store com serving online (ex.: Feast, Tecton, Databricks Feature Store).
        - Replicar features críticas em cache distribuído (Redis, DynamoDB) para baixa latência.
        - Integrar com sistemas de streaming (Kafka, Kinesis) para atualizar features em tempo real.

- A feature store é um sistema de dados específico para aprendizado de máquina que:
    - Executa pipelines de dados que transformam dados brutos em valores de recursos;
    - Armazena e gerencia os próprios dados de recursos; e
    - Fornece dados de recursos de forma consistente para fins de treinamento e inferência.

### Versionamento

#### Usar versões diferentes da mesma feature
- Quando faz sentido:
    - Dois modelos estão em produção ao mesmo tempo, mas cada um foi treinado com uma definição diferente da mesma feature.
    - Exemplo: “média de compras nos últimos 30 dias” — um modelo usa janela de 30 dias, outro usa janela de 90 dias.
    - Nesse caso, a feature store mantém duas versões da mesma feature para garantir que cada modelo continue consistente com o que foi treinado.
    - Benefício: evita retrain imediato de modelos antigos, dá estabilidade e previsibilidade.
    - Risco: aumenta a complexidade se muitas versões coexistirem.

#### Criar uma nova feature e migrar todos os modelos
- Quando faz sentido:
    - A evolução da feature é claramente superior (melhor performance, mais robusta).
    - Há capacidade de retrain dos modelos para usar a nova definição.
    - Benefício: reduz fragmentação, simplifica governança.
    - Risco: exige retrain e validação de todos os modelos dependentes, o que pode ser caro ou demorado.



As features store atuam como um hub central para dados de feature e metadados ao longo do ciclo de vida de um projeto de aprendizado de máquina. 

As features store abstraem a lógica e o processamento usados ​​para gerar uma feature, fornecendo aos usuários uma maneira fácil e padronizada de acessar todas as features de uma empresa de forma consistente em todos os ambientes em que elas são necessárias.

Os dados em feature store são usados ​​para:

- exploração e feature engineer
- iteração, treinamento e depuração de modelos
- descoberta e compartilhamento de recursos
- disponibilização de dados para um modelo em produção para inferência
- monitoramento da integridade operacional

### Monitoring

Ao executar sistemas de produção, também é importante monitorar as métricas operacionais. As feature store rastreiam métricas operacionais relacionadas à funcionalidade principal. Tais como: 
- métricas relacionadas ao armazenamento de recursos (disponibilidade, capacidade, utilização, obsolescência)
- métricas de serviço da feature (taxa de transferência, latência, taxas de erro). 
- métricas operacionais para mecanismos externos de processamento de dados (por exemplo, taxa de sucesso de tarefas, taxa de transferência, atraso e taxa de processamento).

### Registry

O registro é uma interface central para interações do usuário com o repositório de recursos. As equipes usam o registro como um catálogo comum para explorar, desenvolver, colaborar e publicar novas definições dentro e entre as equipes.