## 📚 Catálogo de Dados — IMDB Dataset

### 📖 Descrição Geral
A base de dados inclui informações relacionadas a títulos de filmes e séries, dados de avaliação, elenco, equipes técnicas e episódios de séries.

### 🧩 Origem dos Dados
- **Fonte:** [IMDB Datasets](https://datasets.imdbws.com/)
- **Formato original:** `.tsv.gz` (TSV compactado)
- **Técnica de composição:** 
  - Download público e upload manual no Databricks Community Edition. 
  - Leitura e transformação dos dados com PySpark.
  - Manipulação dos dados com SQL.
- **Modelagem:** Flat por conceito. 

---

## 📂 Tabelas Utilizadas

### 1. `name.basics.tsv.gz` — Informações sobre pessoas

**Descrição:** Detalhes sobre os profissionais do audiovisual, como atores, diretores, roteiristas, etc.

| Coluna              | Tipo     | Descrição                                               | Domínio / Categoria              |
|---------------------|----------|----------------------------------------------------------|----------------------------------|
| `nconst`            | String   | ID único da pessoa no IMDB                               | Ex: `nm0000001`                  |
| `primaryName`       | String   | Nome da pessoa                                           | Variável livre                   |
| `birthYear`         | Integer  | Ano de nascimento                                        | Mín: 1801 Máx: 2024              |
| `deathYear`         | Integer  | Ano de falecimento                                       | Mín: 1801 Máx: 2024 / Nulo       |
| `primaryProfession` | String   | Principais profissões (separadas por vírgula)           | Ex: `actor,director,writer`      |
| `knownForTitles`    | String   | Títulos mais conhecidos (IDs separados por vírgula)     | Ex: `tt0072308,tt0088846`        |

---

### 2. `title.akas.tsv.gz` — Títulos alternativos

**Descrição:** Títulos em diferentes idiomas e países.

| Coluna            | Tipo     | Descrição                                 | Domínio / Categoria               |
|-------------------|----------|-------------------------------------------|-----------------------------------|
| `titleId`         | String   | ID do título principal                    | Ex: `tt0369610`                   |
| `ordering`        | Integer  | Ordem de exibição                         | Mín: 1 Máx: 100                   |
| `title`           | String   | Título alternativo                        | Variável livre                    |
| `region`          | String   | Código da região                          | Ex: `US`, `BR`, `GB`              |
| `language`        | String   | Código do idioma                          | Ex: `en`, `pt`, `fr`              |
| `types`           | String   | Tipo do título alternativo                | Ex: `alternative`, `dvd`          |
| `attributes`      | String   | Atributos do título                       | Variável livre / Nulo possível    |
| `isOriginalTitle` | Boolean  | Se é o título original                    | 0 ou 1                            |

---

### 3. `title.basics.tsv.gz` — Títulos

**Descrição:** Informações básicas sobre os títulos.

| Coluna           | Tipo     | Descrição                         | Domínio / Categoria            |
|------------------|----------|-----------------------------------|--------------------------------|
| `tconst`         | String   | ID do título                      | Ex: `tt0944947`                |
| `titleType`      | String   | Tipo de título                    | Ex: `movie`, `tvSeries`        |
| `primaryTitle`   | String   | Título principal                  | Variável livre                 |
| `originalTitle`  | String   | Título original                   | Variável livre                 |
| `isAdult`        | Boolean  | Indica se é título adulto         | 0 ou 1                         |
| `startYear`      | Integer  | Ano de início                     | Mín: 1874 Máx: 2025            |
| `endYear`        | Integer  | Ano de fim (se aplicável)         | Mín: 1874 Máx: 2025 / Nulo     |
| `runtimeMinutes` | Integer  | Duração em minutos                | Mín: 1 Máx: 600                |
| `genres`         | String   | Gêneros separados por vírgula     | Ex: `Drama,Comedy`             |

---

### 4. `title.crew.tsv.gz` — Equipe técnica

**Descrição:** Diretores e roteiristas.

| Coluna      | Tipo   | Descrição                          | Domínio / Categoria              |
|-------------|--------|------------------------------------|----------------------------------|
| `tconst`    | String | ID do título                       | Ex: `tt0944947`                  |
| `directors` | String | IDs dos diretores                  | Ex: `nm0000229,nm0634240`        |
| `writers`   | String | IDs dos roteiristas                | Ex: `nm0905152` ou `\N`          |

---

### 5. `title.episode.tsv.gz` — Episódios

**Descrição:** Dados sobre episódios de séries.

| Coluna         | Tipo     | Descrição                        | Domínio / Categoria        |
|----------------|----------|----------------------------------|----------------------------|
| `tconst`       | String   | ID do episódio                   | Ex: `tt0579539`            |
| `parentTconst` | String   | ID da série principal            | Ex: `tt0944947`            |
| `seasonNumber` | Integer  | Número da temporada              | Mín: 1 Máx: 30             |
| `episodeNumber`| Integer  | Número do episódio               | Mín: 1 Máx: 50             |

---

### 6. `title.ratings.tsv.gz` — Avaliações

**Descrição:** Notas e quantidade de votos.

| Coluna         | Tipo     | Descrição                        | Domínio / Categoria     |
|----------------|----------|----------------------------------|-------------------------|
| `tconst`       | String   | ID do título                     | Ex: `tt0944947`         |
| `averageRating`| Double   | Média de avaliação (0 a 10)      | Mín: 1.0 Máx: 10.0      |
| `numVotes`     | Integer  | Número de votos recebidos        | Mín: 1 Máx: milhões     |

---

### 7. `title.principals.tsv.gz` — Principais profissionais

**Descrição:** Relação entre títulos e seus principais envolvidos.

| Coluna       | Tipo     | Descrição                      | Domínio / Categoria            |
|--------------|----------|--------------------------------|--------------------------------|
| `tconst`     | String   | ID do título                   | Ex: `tt0944947`                |
| `ordering`   | Integer  | Ordem de relevância            | Mín: 1 Máx: 100                |
| `nconst`     | String   | ID da pessoa                   | Ex: `nm0000001`                |
| `category`   | String   | Categoria da função            | Ex: `actor`, `director`        |
| `job`        | String   | Cargo específico               | Ex: `cinematographer`, `null`  |
| `characters` | String   | Nome dos personagens           | Ex: `["Batman"]`               |

---

## 🧭 Linhagem dos Dados (Data Lineage)

1. **Download:** Arquivos `.tsv.gz` do site oficial do IMDB.
2. **Upload:** Manual para o Databricks Community Edition.
3. **Leitura:** Com PySpark, utilizando `inferSchema`, `option` e `csv`.
4. **Tratamento:** Conversão de tipos, eliminação de inconsistências e valores nulos.
5. **Camadas:** Bronze (bruto), Silver (tratado), Gold (pronto para análise).
6. **Persistência:** Views temporárias para SQL e tabelas no Metastore.

---
