# MVP - Engenharia de Dados

**Autora:** Natalia Simões

**Descrição do Projeto:** Este trabalho apresenta a construção de um MVP de pipeline de dados em nuvem, desenvolvido na plataforma Databricks Community Edition, com foco na ingestão, tratamento, modelagem e análise de dados de filmes e séries disponíveis em uma plataforma de streaming.

O pipeline abrange as principais etapas de um fluxo de dados moderno busca, coleta, transformação, modelagem, carga e análise, viabilizando a resposta a perguntas analíticas previamente definidas e garantindo consistência e rastreabilidade ao longo do processo.

### **Fonte dos Dados**

**Fonte:** https://www.kaggle.com/datasets/dgoenrique/hbo-max-movies-and-tv-shows?select=titles.csv

**Origem dos dados:** O conjunto de dados HBO Max - Séries e Filmes reúne informações sobre filmes e séries disponíveis na plataforma HBO Max, considerando o catálogo dos Estados Unidos. Os dados foram coletados a partir do site JustWatch em março de 2023.

**Licença:** CC0: Domínio Público

**Arquivos utilizados:** titles.csv: contém mais de 3.000 títulos (filmes e séries), distribuídos em 15 colunas, com informações como título, tipo, ano de lançamento, duração, gêneros, países de produção e avaliações (IMDb e TMDb).

credits.csv: contém mais de 64.000 registros de atores e diretores associados aos títulos.

![](/Workspace/mvp/MVP---Natalia-Simoes---Engenharia-de-Dados/Imagens/1.png)

**Objetivo do MVP:** O objetivo deste trabalho é analisar o catálogo de filmes e séries disponível, explorando características como popularidade, gênero, país de produção, duração, temporadas e participação de pessoas, de forma a responder às seguintes perguntas analíticas:

- Títulos mais populares e menos populares segundo IMDb e TMDb
 
- Filmes mais populares e menos populares
 
- Séries mais populares e menos populares
 
- Títulos produzidos no Brasil
 
- Títulos brasileiros mais populares
 
- Ranking dos países com maior quantidade de títulos, filmes e séries (Top 10)
 
- Ranking dos títulos mais populares por gênero
 
- Gêneros mais comuns na plataforma
 
- Diretores com maior número de títulos disponíveis
 
- Filmes com maior duração
 
- Duração média dos filmes
 
- Séries com maior número de temporadas
 
- Atores que aparecem com mais frequência
 
- Países com maior diversidade de gêneros


### Arquitetura do Pipeline

O pipeline foi estruturado seguindo o padrão Medallion Architecture, com três camadas principais:

**Camada Bronze**

- Ingestão dos arquivos CSV originais
 
- Dados armazenados sem alterações estruturais
 
- Preservação do dado bruto para rastreabilidade

**Camada Silver**

- Tratamento de qualidade dos dados
 
- Conversão de tipos (strings para numéricos)
 
- Tratamento de valores nulos
 
- Normalização de listas (gêneros, países)
 
- Criação de tabelas intermediárias

**Camada Gold**

- Modelagem dimensional no formato Snowflake
 
- Criação de tabelas fato e dimensões
 
- Tabelas de relacionamento para resolver relações muitos-para-muitos
 
- Estrutura otimizada para análise analítica via SQL

### Análise e Qualidade dos Dados

Foi realizada uma análise detalhada da qualidade dos dados, incluindo:
 
- Identificação e interpretação de valores nulos
 
- Correção de inconsistências de tipo
 
- Avaliação das métricas de popularidade e avaliação
 
- Verificação de atributos não aplicáveis (ex.: temporadas para filmes)

Os dados tratados mostraram-se adequados para responder às perguntas propostas, sem comprometer a integridade das análises.


### Modelagem de Dados

Os dados foram modelados na camada Gold utilizando um modelo dimensional no formato Snowflake, adequado para análises analíticas e consultas complexas. A dimensão central de títulos foi normalizada em dimensões auxiliares, como país, gênero e pessoa, permitindo maior organização e reutilização dos atributos.

Relações muitos-para-muitos foram resolvidas por meio de tabelas de relacionamento, garantindo consistência e evitando redundância de dados. Além disso, foi criada uma tabela fato de créditos para representar a participação de atores e diretores nos títulos. Essa abordagem proporciona maior flexibilidade analítica, melhor integridade dos dados e suporte eficiente às consultas realizadas no projeto.

![](/Workspace/mvp/MVP---Natalia-Simoes---Engenharia-de-Dados/Imagens/projeto.png)

### Resultados e Evidências

As respostas às perguntas analíticas foram obtidas por meio de consultas SQL, utilizando exclusivamente a camada Gold.



Essas evidências atendem integralmente às exigências do escopo do trabalho.

**Evidências:** https://dbc-7e7d3e27-5d42.cloud.databricks.com/browse/folders/2221251943956036?o=2653579365476602

### Autoavaliação
O objetivo do trabalho foi construir um pipeline de dados em nuvem para análise de um catálogo de filmes e séries, contemplando as etapas de coleta, modelagem, carga e análise. Considero que os objetivos propostos foram atingidos, uma vez que todas as perguntas definidas inicialmente puderam ser respondidas de forma consistente.

Durante a execução, enfrentei desafios técnicos relevantes, principalmente relacionados à qualidade dos dados e à tipagem das colunas, como valores numéricos armazenados como string, presença de valores nulos e listas vazias, além de inconsistências entre fontes de avaliação (IMDb e TMDb). Esses desafios exigiram reprocessamento da camada Bronze, ajustes cuidadosos na camada Silver e decisões conscientes sobre o que deveria ou não ser tratado como erro de dado. Essas dificuldades contribuíram para um melhor entendimento prático de problemas reais enfrentados em pipelines de dados.

A modelagem dimensional foi um dos pontos fortes do trabalho. A construção de um modelo Snowflake, com dimensões normalizadas e tabelas de relacionamento para resolver relações muitos-para-muitos, permitiu realizar análises mais consistentes e escaláveis. Além disso, a separação clara entre camadas Bronze, Silver e Gold facilitou tanto a organização do pipeline quanto a rastreabilidade e a reutilização dos dados.

Como ponto de melhoria, destaco que o trabalho poderia ser enriquecido futuramente com:

- Visualizações gráficas para apoiar as análises;
 
- Métricas mais sofisticadas de popularidade, combinando notas e volume de votos;
 
- Automação do pipeline (ex.: cargas incrementais);
 
- Expansão do catálogo para múltiplas plataformas ou períodos históricos.
 
De forma geral, o MVP foi concluído com sucesso, consolidando conceitos fundamentais de engenharia e análise de dados em ambiente de nuvem.