## Modelo de Churn

O principal objetivo do modelo de Churn era prever a probabilidade de um cliente desistir ou cancelar um produto da seguradora. Essa previsão ajuda a empresa a identificar clientes em risco de churn (perda) para que possam ser tomadas ações de retenção mais assertivas, como ofertas personalizadas ou intervenções de atendimento.

#### Features Utilizadas

- **Frequência de interação**: Número de interações que o cliente teve com a empresa, como chamadas para o call center, acesso ao portal online ou consultas no aplicativo.
- **Fidelidade**: Há quanto tempo o cliente está com o produto ou serviço, sendo clientes mais antigos geralmente menos propensos ao churn.
- **Renovação do seguro**: Se o cliente renovou ou não seu seguro nos últimos meses. A falta de renovação pode ser um indicativo de churn iminente.
- **Número de reclamações**: Se o cliente fez muitas reclamações, isso pode indicar insatisfação com o serviço e, portanto, maior chance de churn.
- **Valor total pago:** Clientes que pagam mais podem ser mais valiosos e, portanto, mais reticentes ao churn, mas também exigem maior monitoramento, pois estão mais atentos ao valor recebido pelo que pagam.
- **Status de pagamento** : Verificação se o cliente está com pagamentos em dia ou se há atrasos, o que pode indicar insatisfação ou problemas com o produto.

#### Arquitetura do Modelo
Durante a construção do modelo, foi necessário limpar e transformar os dados para que pudessem ser usados de maneira eficiente. Isso envolvia o tratamento de dados ausentes, transformação de variáveis categóricas em variáveis numéricas (como codificação one-hot) e escalonamento de features numéricas.

![image.png](attachment:9e495664-3f87-4b81-8c32-e702d50cbf34.png)

#### Modelo de Machine Learning:
O modelo foi treinado utilizando XGBoost, que é um dos algoritmos mais eficazes para problemas de previsão de churn. XGBoost é uma implementação eficiente de Gradient Boosting, um algoritmo de aprendizado de máquina que funciona bem em dados desbalanceados, o que pode ser o caso do churn (com mais clientes que não churning do que clientes que estão prestes a churn).

#### Métricas de Avaliação:

- **Acurácia**: A acurácia foi uma das métricas utilizadas, embora a precisão não fosse o principal foco, pois em problemas de churn o desbalanceamento de classes pode levar a uma alta acurácia sem um modelo bom de fato.
- **AUC-ROC**: A curva ROC e a AUC (Área sob a curva) foram importantes para medir a qualidade do modelo, especialmente porque o churn é um problema de classificação binária, onde queremos que o modelo seja capaz de distinguir entre clientes que vão churnar e os que não vão.
- **F1-Score**: Devido ao desbalanceamento, o F1-score foi utilizado para balancear a precisão e o recall, garantindo que o modelo fosse bom tanto em detectar clientes que vão churnar quanto em não errar ao classificar clientes que não vão churnar.

####  Deploy do Modelo e Problemática
O modelo foi inicialmente desenvolvido em notebooks do Databricks, que permitiram o uso de um ambiente distribuído e escalável para o treinamento. No entanto, o deploy foi realizado de forma semi-automatizada, já que os dados estavam hospedados em servidores on-premises e não na nuvem no início. A integração entre os sistemas de dados on-premises e a nuvem foi feita através de consultas SQL, e os dados foram carregados manualmente na Azure.

## Ingestão de dados

![image.png](attachment:2aeed9cf-7560-41d4-9f74-fc4398cad476.png)


## Contexto do Projeto

Durante minha atuação na **Bradesco Seguros**, fui responsável por desenvolver e colocar em produção uma solução de ingestão e processamento de dados na plataforma Azure, com foco em melhorar a eficiência e confiabilidade dos pipelines de dados.  
Esse projeto foi essencial para alimentar um **modelo de Churn**, utilizado para prever a probabilidade de cancelamento de contratos, e integrou diferentes ferramentas e práticas modernas de **DataOps**.

---

## Arquitetura e Processo

### **1. Ingestão de Dados**
- A ingestão de arquivos era realizada diretamente no **Azure Data Lake Storage Gen2**, onde equipes de diferentes áreas (como SAP e CRM) carregavam os dados.  
- Esses dados incluíam históricos de clientes, interações e transações relevantes para o modelo de Churn.

### **2. Orquestração com Azure Data Factory**
- A **orquestração do pipeline** foi desenvolvida no **Azure Data Factory (ADF)**, que:
  - Configurava **pipelines com triggers** para execução automatizada.
  - Chamava **notebooks no Azure Databricks** para o processamento dos dados.

### **3. Processamento com Databricks e Delta Lake**
- No **Azure Databricks**, implementei toda a lógica de negócio usando:
  - **PySpark** para manipulação e transformação dos dados.
  - **SQL** para aplicar regras de negócio e preparar os dados para consumo.
  - **Delta Lake** para armazenar os dados em um formato confiável e escalável, seguindo a **arquitetura de camadas**:
    - **Bronze**: Dados brutos.
    - **Prata**: Dados limpos e parcialmente transformados.
    - **Ouro**: Dados prontos para consumo e análises.

### **4. Governança e Catálogo**
- Todas as tabelas e seus metadados foram gerenciados dentro do **Databricks**, garantindo rastreabilidade e organização dos dados.

---

## DataOps e Colaboração

### **1. Monitoramento e Deploy**
- Participei ativamente das práticas de **DataOps**, atuando em:
  - Monitoramento das esteiras de deploy e pipelines.
  - Gerenciamento de código via **Git**, identificando diferenças e garantindo consistência antes de integrar ao branch **master**.
  - Coordenação do deploy em produção, validando pipelines e fluxos antes da execução.

### **2. Integração com a Equipe de Esteiras**
- Trabalhei em parceria com a equipe de **DataOps**, garantindo que:
  - Todas as mudanças fossem bem testadas e integradas ao ambiente produtivo.
  - Os pipelines fossem escaláveis e atendessem aos requisitos do modelo de Churn.

---

## Resultados Alcançados

- **Automação do Pipeline**: A automação completa com o **Azure Data Factory** e **Databricks** reduziu o tempo de processamento e minimizou erros manuais.  
- **Armazenamento Escalável e Confiável**: O uso do **Delta Lake** garantiu rastreabilidade, versionamento e confiabilidade dos dados.  
- **Governança Eficiente**: A organização em camadas (Bronze, Prata, Ouro) trouxe clareza e eficiência na gestão de dados.  
- **Execução em Produção**: Todos os pipelines foram colocados em produção, com suporte contínuo às necessidades do modelo de Churn e ao consumo por equipes de análise.

---

## Conclusão
Esse projeto destacou minha capacidade de liderar e implementar soluções robustas na plataforma Azure, desde a ingestão até o armazenamento e consumo dos dados. Ele consolidou minha experiência em **DataOps**, **Databricks**, **Delta Lake** e **Azure Data Factory**, garantindo que os dados estivessem prontos para alimentar modelos avançados e análises de negócio.

---
