# MVP – Pipeline de Dados em Nuvem com Delta Lake e Databricks

## Contexto

A digitalização crescente dos processos industriais tem ampliado significativamente a geração de dados operacionais provenientes de sensores e sistemas de monitoramento. Quando corretamente coletados, organizados e analisados, esses dados permitem identificar padrões de comportamento, antecipar falhas e apoiar estratégias de manutenção preditiva, reduzindo custos e aumentando a confiabilidade dos equipamentos.

Neste contexto, este MVP propõe a construção de um pipeline de dados em nuvem utilizando a plataforma Databricks e a tecnologia Delta Lake, aplicado à análise de dados de manutenção de equipamentos industriais.

---

## Objetivo do MVP

O objetivo deste MVP é desenvolver um pipeline completo de dados em nuvem, contemplando as etapas de coleta, tratamento, modelagem, carga e análise de dados, utilizando tecnologias modernas de engenharia de dados.

A partir de um conjunto de dados de manutenção, busca-se estruturar um Data Warehouse em modelo estrela com tabelas Delta Lake, possibilitando análises exploratórias, avaliação da qualidade dos dados e geração de insights relacionados à manutenção preditiva.

---

## Problema a ser Resolvido

Equipamentos industriais estão sujeitos a falhas decorrentes de condições operacionais adversas, como temperaturas elevadas, esforços mecânicos excessivos e desgaste de componentes. Na ausência de uma estrutura adequada de dados, a identificação antecipada desses padrões torna-se difícil, resultando em intervenções corretivas mais frequentes e custosas.

Dessa forma, o problema central deste MVP consiste em compreender como variáveis operacionais influenciam a ocorrência de falhas e como essas informações podem apoiar decisões relacionadas à manutenção preventiva e preditiva.

---

## Perguntas de Negócio

O desenvolvimento deste MVP é orientado pelas seguintes perguntas:

1. Quais variáveis operacionais estão mais associadas à ocorrência de falhas?
2. Existem padrões operacionais relacionados a maiores taxas de falha?
3. É possível identificar condições de operação associadas a menor probabilidade de falha?
4. Como se comportam as principais métricas operacionais em cenários de falha e de operação normal?
5. De que forma a análise desses dados pode apoiar estratégias de manutenção preditiva?

Ressalta-se que nem todas as perguntas podem ser respondidas integralmente ao longo do MVP. Ainda assim, todas são consideradas na análise e discutidas na etapa de autoavaliação.

---

## Escopo e Tecnologias Utilizadas

O MVP foi desenvolvido integralmente na plataforma **Databricks Community Edition**, utilizando as seguintes tecnologias e abordagens:

- Armazenamento e versionamento de dados em **Delta Lake**
- Pipeline de dados estruturado em camadas (Bronze, Silver e Gold)
- Modelagem analítica em **Data Warehouse no modelo estrela**
- Linguagens **Python (PySpark)** e **SQL**
- Análises exploratórias e consultas analíticas diretamente no ambiente Databricks

---

## Estrutura Geral do Pipeline

O pipeline de dados foi estruturado nas seguintes etapas:

1. Ingestão dos dados brutos e persistência na camada Bronze
2. Limpeza, padronização e curadoria dos dados na camada Silver
3. Modelagem analítica por meio de tabelas fato e dimensão na camada Gold
4. Análise da qualidade dos dados
5. Análise dos dados para responder às perguntas de negócio

---

## Considerações Iniciais

Este MVP possui caráter exploratório e educacional, com foco na aplicação prática de conceitos de engenharia de dados e análise de dados em ambiente de nuvem. Ao final do trabalho, é realizada uma autoavaliação abordando o atingimento dos objetivos propostos, as dificuldades encontradas durante o desenvolvimento e possíveis evoluções futuras para o projeto.
