# 🧪 Notebook 5 — Análise da Qualidade dos Dados

## Sobre este notebook

Aqui eu fiz uma varredura geral para entender como está a qualidade dos dados que usei no projeto. A ideia foi verificar se os dados estavam consistentes, com os tipos certos, e se havia muitos valores nulos, duplicados ou estranhos que pudessem atrapalhar as análises.

Também explico como os dados foram tratados ao longo das camadas (bronze → silver → gold) e o que foi feito para garantir que tudo fizesse sentido na hora de responder às perguntas do notebook 6.

---

## 🧩 Avaliação da qualidade dos dados por tabela

### 🔍 `name_basics`
- O que encontrei:
  - Muitos valores ausentes em `birthYear` e `deathYear`
  - Algumas datas que não faziam sentido (ex: nascimento no futuro)
- O que foi feito:
  - Converti os anos para inteiros
  - Deixei como `NULL` os anos inválidos
  - Preenchi os vazios com `0` quando necessário

### 🔍 `title_basics`
- O que encontrei:
  - Tem muitos registros sem ano ou com tempo de duração faltando
  - Alguns campos com valores fora do padrão
- O que foi feito:
  - Converti os dados para tipos corretos (inteiro, por exemplo)
  - Tratei os nulos e deixei valores padrão (`0` ou `unknown`)
  - Validei os anos para ficarem dentro de um intervalo aceitável (a partir de 1900)

### 🔍 `title_ratings`
- O que encontrei:
  - Algumas notas fora do intervalo esperado (0 a 10)
  - Votos zerados ou `NULL`
- O que foi feito:
  - Ajustei os tipos
  - Removi registros sem votos
  - Usei filtros de votos mínimos para manter apenas os dados mais relevantes

### 🔍 `title_akas`
- O que encontrei:
  - Campos de região e idioma ausentes ou com valores estranhos
  - Muitos títulos alternativos repetidos
- O que foi feito:
  - Preenchi os nulos com `"unknown"`
  - Usei apenas as regiões com dados válidos nas análises

### 🔍 `title_principals` e `title_crew`
- O que encontrei:
  - Alguns filmes sem ligação com profissionais
  - Campos vazios como `job` ou `characters`
- O que foi feito:
  - Preenchi os nulos com `"unknown"`
  - Confirmei se os IDs batiam com outras tabelas (como `name_basics` e `title_basics`)

---

## 🔄 O que foi feito em cada camada

### 🟫 Camada Bronze
- Dados brutos, direto do arquivo `.tsv.gz`
- Nenhum tratamento — só leitura mesmo
- Serve como ponto de partida

### ⚪ Camada Silver
- Comecei a tratar os dados aqui
- Corrigi tipos, tirei duplicatas, tratei valores nulos
- Validei anos e relacionei as tabelas com joins confiáveis

### 🟨 Camada Gold
- Dados prontos pra análise
- Filtros aplicados pra deixar só o que interessa (ex: só filmes, ou só séries)
- Criação das tabelas no metastore pra facilitar o uso no SQL
- Foi com essas tabelas que montei tudo no notebook 6
