# Camada Bronze – Ingestão de Dados

## Objetivo
Realizar a ingestão do dataset Disney+ Movies and TV Shows
a partir de um arquivo CSV versionado no GitHub.

Nesta camada, os dados são carregados **exatamente como recebidos**,
sem transformações semânticas, garantindo rastreabilidade e reprodutibilidade.


## Fonte dos Dados

- Origem original: Kaggle – Disney+ Movies and TV Shows
- Versionamento: GitHub
- Formato: CSV
- Acesso: link RAW do GitHub ("https://raw.githubusercontent.com/vivianemattos/mvp-vmm-engenharia-de-dados/main/data/disney_plus_titles_w43.csv")

O uso do GitHub como fonte garante:
- rastreabilidade das evidências
- versionamento do dataset
- alinhamento com práticas de Engenharia de Dados


## Leitura do Arquivo CSV a partir do GitHub e Criação de Tabela Bronze para Persistência dos Dados

O arquivo é lido diretamente do repositório GitHub,
garantindo que qualquer execução futura utilize exatamente
a mesma versão do dataset.


In [0]:
#--INGESTÃO DOS DADOS BRUTOS NA CAMADA BRONZE

# Leitura do arquivo csv fonte para um dataframe pandas e spark
import pandas as pd
from pyspark.sql.functions import *

url = "https://raw.githubusercontent.com/vivianemattos/mvp-vmm-engenharia-de-dados/main/data/disney_plus_titles_w43.csv"
pd_df_bronze_raw = pd.read_csv(url)

#conversão para spark
spark_df_bronze_raw = spark.createDataFrame(pd_df_bronze_raw)

#criação da tabela bronze para persistência dos dados
spark_df_bronze_raw.write.format("delta").mode("overwrite").saveAsTable("bronze.disney_titles_raw")

#criação de view temporária para ser referenciada em outros notebooks
spark_df_bronze_raw.createOrReplaceTempView("temp_df_bronze")

#exibição dos 5 primeiros registros da tabela bronze
#display(spark_df_bronze_raw)
print("Exibição dos 5 primeiros registros da tabela bronze")
display(spark_df_bronze_raw.limit(5))

#exibição dos 5 últimos registros da tabela bronze
print("Exibição dos 5 últimos registros da tabela bronze")
display(spark_df_bronze_raw.orderBy(desc("show_id")).limit(5))

Exibição dos 5 primeiros registros da tabela bronze


show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
s1,Movie,Duck the Halls: A Mickey Mouse Christmas Special,"Alonso Ramirez Ramos, Dave Wasson","Chris Diamantopoulos, Tony Anselmo, Tress MacNeille, Bill Farmer, Russi Taylor, Corey Burton",,"November 26, 2021",2016,TV-G,23 min,"Animation, Family",Join Mickey and the gang as they duck the halls!
s2,Movie,Ernest Saves Christmas,John Cherry,"Jim Varney, Noelle Parker, Douglas Seale",,"November 26, 2021",1988,PG,91 min,Comedy,Santa Claus passes his magic bag to a new St. Nic.
s3,Movie,Ice Age: A Mammoth Christmas,Karen Disher,"Raymond Albert Romano, John Leguizamo, Denis Leary, Queen Latifah",United States,"November 26, 2021",2011,TV-G,23 min,"Animation, Comedy, Family",Sid the Sloth is on Santa's naughty list.
s4,Movie,The Queen Family Singalong,Hamish Hamilton,"Darren Criss, Adam Lambert, Derek Hough, Alexander Jean, Fall Out Boy, Jimmie Allen",,"November 26, 2021",2021,TV-PG,41 min,Musical,"This is real life, not just fantasy!"
s5,TV Show,The Beatles: Get Back,,"John Lennon, Paul McCartney, George Harrison, Ringo Starr",,"November 25, 2021",2021,,1 Season,"Docuseries, Historical, Music",A three-part documentary from Peter Jackson capturing a moment in music history with The Beatles.


Exibição dos 5 últimos registros da tabela bronze


show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
s999,Movie,Lady and the Tramp,Charlie Bean,"Tessa Thompson, Justin Theroux, Sam Elliott, Ashley Jensen, Janelle Monáe, Kiersey Clemons",United States,"November 12, 2019",2019,PG,111 min,"Action-Adventure, Comedy, Family",A house dog and a stray embark on an adventure and come to understand the value of home.
s998,TV Show,Lab Rats,,"Billy Unger, Spencer Boldman, Kelli Berglund, Tyrel Williams, Hal Sparks",United States,"November 12, 2019",2011,TV-Y7,4 Seasons,"Action-Adventure, Comedy, Coming of Age",Leo discovers a secret underground lab with three experiments.
s997,Movie,La Luna,Enrico Casarosa,"Tony Fucile, Krista Sheffler, Phil Sheridan",United States,"November 12, 2019",2012,G,7 min,"Animation, Coming of Age, Family",A peculiar story about a young boy coming of age.
s996,Movie,Kronk's New Groove,"Elliot Bour, Saul Blinkoff","Patrick Warburton, Tracey Ullman, Eartha Kitt, David Spade, John Goodman, Wendie Malick",United States,"November 12, 2019",2005,G,78 min,"Animation, Comedy, Coming of Age",Kronk cooks up a get-rich-quick scheme to impress his Dad.
s995,Movie,Knick Knack Theatrical Short,John Lasseter,,,"November 12, 2019",2003,G,4 min,"Animation, Family, Kids",A snowman longs to break out of his snow globe.


## Validações Iniciais

Nesta etapa são realizadas validações básicas para garantir:
- leitura correta do arquivo
- quantidade esperada de registros
- estrutura compatível com o dataset original


In [0]:
%sql
SELECT 
    COUNT(*) AS total_registros
FROM bronze.disney_titles_raw;


total_registros
1450
