#MVP Engenharia de Dados - 2025
Thomas A. S. Abrantes


### Setup para rodar o notebook com os dados
- Imports das bibliotecas para consumo dos dados.

In [0]:
#bibioteca para uso do comando com Pandas
import pandas as pd

#biblioteca para carga de dados e request dos dados
import io
import requests



#Criando Banco de Dados (schema) com os Relatórios (Visões)


In [0]:
%sql
-- Removendo Schema para recriar
DROP SCHEMA IF EXISTS IMDB_RELATORIO CASCADE;

-- CRIANDO O BANCO DE DADOS (schema)
CREATE SCHEMA IMDB_RELATORIO;

#Relatórios

Neste notebook podemos consultar a criação das visões (consultas) utilizando como fonte a base (IMDB_DB_GOLD) **Camada GOLD** de forma a responder a cada uma das perguntas.

###Quantidade de títulos lançados no Brasil por categoria e década (80, 90, etc.).

In [0]:
%sql
CREATE OR REPLACE VIEW IMDB_RELATORIO.VW_LANCAMENTO_POR_TIPO_DECADA
AS
  SELECT
    CASE WHEN DECADA > 0 THEN concat('19', DECADA,'0') ELSE concat('20', DECADA,'0') END DECADA,
    CATEGORIA,
    QUANTIDADE TITULOS_LANCADOS
  FROM (
    SELECT 
      CATEGORIA, COUNT(0) QUANTIDADE, substring(ANO_LANCAMENTO, 2, 1) DECADA
    FROM imdb_db_gold.tb_filme_lancamento_brasil
    GROUP BY CATEGORIA, substring(ANO_LANCAMENTO, 2, 1)
  ) CONSULTA
  ORDER BY decada, TITULOS_LANCADOS DESC, CATEGORIA
  ;

  -- EXIBINDO RESULTADO
SELECT * FROM IMDB_RELATORIO.VW_LANCAMENTO_POR_TIPO_DECADA;

DECADA,CATEGORIA,TITULOS_LANCADOS
1980,short,76
1990,movie,41553
1990,short,5383
1990,video,1127
2000,movie,31863
2000,short,12476
2000,video,4212


Databricks visualization. Run in Databricks to view.

###Qual categoria teve mais lançamentos no Brasil por década?

In [0]:
%sql
CREATE OR REPLACE VIEW IMDB_RELATORIO.VW_CATEGORIAS_COM_MAIS_LANCAMENTO_BRASIL
AS
SELECT
  VISAO_GERAL.DECADA,
  CASE VISAO_GERAL.CATEGORIA
    WHEN 'movie' THEN 'Filme'
    WHEN 'video' THEN 'Vídeo (dvd, vhs, etc.)'
    WHEN 'short' THEN 'Curta metralgem'
  ELSE VISAO_GERAL.CATEGORIA end CATEGORIA_MAIOR_QUANTIDADE_LANCAMENTOS,
  LANCAMENTOS.TITULOS_LANCADOS QUANTIDADE
FROM 
  IMDB_RELATORIO.VW_LANCAMENTO_POR_TIPO_DECADA VISAO_GERAL,
  (
    SELECT DECADA, MAX(TITULOS_LANCADOS) TITULOS_LANCADOS 
    FROM IMDB_RELATORIO.VW_LANCAMENTO_POR_TIPO_DECADA
    GROUP BY DECADA
  ) LANCAMENTOS
WHERE VISAO_GERAL.DECADA = LANCAMENTOS.DECADA AND VISAO_GERAL.TITULOS_LANCADOS = LANCAMENTOS.TITULOS_LANCADOS
ORDER BY VISAO_GERAL.DECADA
;

-- EXIBINDO RESULTADO
SELECT * FROM IMDB_RELATORIO.VW_CATEGORIAS_COM_MAIS_LANCAMENTO_BRASIL;

DECADA,CATEGORIA_MAIOR_QUANTIDADE_LANCAMENTOS,QUANTIDADE
1980,Curta metralgem,76
1990,Filme,41553
2000,Filme,31863


Databricks visualization. Run in Databricks to view.

###Todos os títulos que possuem nome exclusivo no Brasil (Com nome diferente do nome original ou comercial).

- **Conforme análise** na criação da tabela **IMDB_DB_BRONZE.tb_title_akas**, identificamos que não há título com campo isOriginalTitle  = 1 (True) com o campo region preenchido. 
- Mesmo que o titulo TITULO_ORIGINAL seja igual o TITULO de lançamento e descrito em português, não podemos afirmar que seja um Título produzido no Brasil, devido a falta da informação de ser um título Original. 
- Desta forma todos os titulos duplicados que tenha a coluna IDIOMA com valor "pt" e outra com valor nulo (NULL) e analisando as informações fornecidas pelo Dicionário de Dados; concluo que o registro do título com campo IDIOMA preenchido é um título legendado ou dublado.

In [0]:
%sql
CREATE OR REPLACE VIEW IMDB_RELATORIO.VW_TITULOS_COM_NOME_EXCLUSIVO_NO_BRASIL
AS
SELECT 
  TITULO TITULO_BRASIL,
  TITULO_ORIGINAL TITULO_ORIGINAL,
  TITULO_PRIMARIO TITULO_COMERCIAL,
  ANO_LANCAMENTO
FROM 
  IMDB_DB_GOLD.tb_filme_lancamento_brasil
WHERE
  TRIM(TITULO) <> TRIM(TITULO_ORIGINAL) OR TRIM(TITULO) <> TRIM(TITULO_PRIMARIO)
GROUP BY
  TITULO_PRIMARIO, 
  TITULO_ORIGINAL, 
  TITULO, 
  ANO_LANCAMENTO
ORDER BY TITULO
;

-- EXIBINDO RESULTADO
SELECT * FROM IMDB_RELATORIO.VW_TITULOS_COM_NOME_EXCLUSIVO_NO_BRASIL;

TITULO_BRASIL,TITULO_ORIGINAL,TITULO_COMERCIAL,ANO_LANCAMENTO
#ALIVE,#SARAITDA,#ALIVE,2020
#ERADOSGIGANTES,#ERADOSGIGANTES,#ONTHESHOULDERSOFGIANTS,2020
#GAROTAS: O FILME,#GAROTAS: O FILME,#THOSEGIRLS,2015
#MANHOLE - DESVIO FATAL,#MANHOLE,#MANHOLE,2023
#OITAVO,OITAVO,OITAVO,2017
#PARTIUFAMA: CANCELADO NO AMOR,#PARTIUFAMA: CANCELADO NO AMOR,#FAMETIME,2022
#RESISTÊNCIA,#RESISTÊNCIA,#RESISTANCE,2017
#SEMFILTRO,#NOFILTER,#NOFILTER,2013
#SEMSAÍDA,#FOLLOWME,#FOLLOWME,2019
#SEMSAÍDA,FOLLOW ME,FOLLOW ME,2020


###Qual a porcentagem de pessoas que atuaram como Ator ou Atriz em Títulos do tipo Filmes, Curtas ou Vídeo, lançados no Brasil?

- Pela profissão da pessoa será definido seu sexo como Masculino (actor) ou Feminino (actress)

In [0]:
%sql
CREATE OR REPLACE VIEW IMDB_RELATORIO.VW_PORCENTAGEM_SEXO_EM_TITULOS_NO_BRASIL
AS
SELECT 
  TOTAL.TODOS,
  SEXO_FEMININO.TOTAL FEMININO,
  SEXO_MASCULINO.TOTAL MASCULINO,
  decimal(SEXO_FEMININO.TOTAL * 100 / TOTAL.TODOS) PORCENTAGEM_FEMININO,
  decimal(SEXO_MASCULINO.TOTAL * 100 / TOTAL.TODOS) PORCENTAGEM_MASCULINO
FROM
  (SELECT COUNT(0) AS TODOS
    FROM IMDB_DB_GOLD.TB_ATOR_TITULO 
    WHERE PROFISSAO1 = 'actor' OR PROFISSAO1 = 'actress' OR PROFISSAO2 = 'actor' OR PROFISSAO2 = 'actress' OR PROFISSAO3 = 'actor' OR PROFISSAO3 ='actress') TOTAL,
  (SELECT COUNT(0)  AS TOTAL FROM IMDB_DB_GOLD.TB_ATOR_TITULO WHERE PROFISSAO1 = 'actress' OR PROFISSAO2 = 'actress' OR PROFISSAO3 = 'actress') SEXO_FEMININO,
  (SELECT COUNT(0) AS TOTAL FROM IMDB_DB_GOLD.TB_ATOR_TITULO WHERE PROFISSAO1 = 'actor' OR PROFISSAO2 = 'actor' OR PROFISSAO3 = 'actor') SEXO_MASCULINO
;

SELECT * FROM IMDB_RELATORIO.VW_PORCENTAGEM_SEXO_EM_TITULOS_NO_BRASIL;

TODOS,FEMININO,MASCULINO,PORCENTAGEM_FEMININO,PORCENTAGEM_MASCULINO
895200,276415,618854,31,69


Databricks visualization. Run in Databricks to view.

##Porcentagem de atores do sexo feminino e masculino que atuaram nos títulos do tipo Filme em cada década existente na base.
- Para o resultado, criação da View IMDB_RELATORIO.VW_TOTAL_POR_DECADA_GENERO_ATOR que vai estruturar a consulta para o cálculo das porcentagens.
- Obter a porcentagem de atores do sexo feminino e masculino que atuaram nos títulos do tipo Filme em cada década existente na base.

In [0]:
%sql
-- Criando visão geral para o relatório
CREATE OR REPLACE VIEW IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR
AS
SELECT 
  SEXO,
  DECADA,
  TOTAL
FROM
  (
    SELECT
      CASE 
        WHEN ATOR_TITULO.SEXO = 'M' THEN 'MASCULINO'
        WHEN ATOR_TITULO.SEXO = 'F' THEN 'FEMININO'
      ELSE 'NÃO INFORMADO'
      END SEXO,
      CASE WHEN substring(FILMES.ANO_LANCAMENTO, 2, 1) > 0 
        THEN concat('19', substring(FILMES.ANO_LANCAMENTO, 2, 1),'0') 
        ELSE concat('20', substring(FILMES.ANO_LANCAMENTO, 2, 1),'0') 
      END DECADA,
      count(0) TOTAL
    FROM
      IMDB_DB_GOLD.TB_ATOR_TITULO_BRASIL AS ATOR_TITULO,
      IMDB_DB_GOLD.TB_FILME_LANCAMENTO_BRASIL FILMES
    WHERE FILMES.CHAVE_TITULO = ATOR_TITULO.CHAVE_TITULO
    GROUP BY 
      ATOR_TITULO.SEXO,  
      substring(FILMES.ANO_LANCAMENTO, 2, 1)
    ORDER BY DECADA
  ) AS CONSULTA;

  SELECT * FROM IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR;

SEXO,DECADA,TOTAL
NÃO INFORMADO,1980,3
FEMININO,1980,26
MASCULINO,1980,70
NÃO INFORMADO,1990,1692463
FEMININO,1990,859893
MASCULINO,1990,2560843
NÃO INFORMADO,2000,1198201
FEMININO,2000,448839
MASCULINO,2000,937719


Databricks visualization. Run in Databricks to view.

In [0]:
%sql
-- Criando consulta
SELECT 
  TODOS.TOTAL,
  decimal(FEMININO.TOTAL*100 / TODOS.TOTAL) PORCENTAGEM_FEMININO,
  decimal(MASCULINO.TOTAL*100 / TODOS.TOTAL) PORCENTAGEM_MASCULINO,
  decimal(NAO_INFORMADO.TOTAL*100 / TODOS.TOTAL) PORCENTAGEM_NAO_INFORMADO,
  TODOS.DECADA
FROM
  (SELECT SUM(TOTAL) TOTAL, DECADA FROM IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR GROUP BY DECADA) AS TODOS,
  (SELECT TOTAL, DECADA FROM IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR WHERE SEXO = 'MASCULINO') AS MASCULINO,
  (SELECT TOTAL, DECADA FROM IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR WHERE SEXO = 'FEMININO') AS FEMININO,
  (SELECT TOTAL, DECADA FROM IMDB_RELATORIO.VW_TOTAL_POR_DECADA_SEXO_ATOR WHERE SEXO = 'NÃO INFORMADO') AS NAO_INFORMADO
WHERE 
  TODOS.DECADA = FEMININO.DECADA
  AND FEMININO.DECADA = MASCULINO.DECADA
  AND MASCULINO.DECADA = NAO_INFORMADO.DECADA
ORDER BY TODOS.DECADA
;

TOTAL,PORCENTAGEM_FEMININO,PORCENTAGEM_MASCULINO,PORCENTAGEM_NAO_INFORMADO,DECADA
99,26,71,3,1980
5113199,17,50,33,1990
2584759,17,36,46,2000


###Filmes lançados no Brasil, onde o Diretor(a) atuou como Ator/Atriz.

In [0]:
%sql
SELECT 
  ATOR_TITULO.NOME_ARTISTICO,
  FILME.TITULO_ORIGINAL,
  FILME.ANO_LANCAMENTO,
  FILME.REGIAO,
  ATOR_TITULO.PROFISSAO1,
  ATOR_TITULO.PROFISSAO2,
  ATOR_TITULO.PROFISSAO3
FROM 
  IMDB_DB_GOLD.TB_ATOR_TITULO AS ATOR_TITULO,
  IMDB_DB_GOLD.TB_FILME_LANCAMENTO_BRASIL AS FILME
WHERE 
  ATOR_TITULO.DIRETOR_TITULO = 'S'
  AND (ATOR_TITULO.PROFISSAO1 LIKE 'act%' OR ATOR_TITULO.PROFISSAO2 LIKE 'act%' OR ATOR_TITULO.PROFISSAO3 LIKE 'act%')
  AND (
    FILME.CHAVE_TITULO = ATOR_TITULO.TCONST1 
    OR FILME.CHAVE_TITULO = ATOR_TITULO.TCONST2 
    OR FILME.CHAVE_TITULO = ATOR_TITULO.TCONST3 
    OR FILME.CHAVE_TITULO = ATOR_TITULO.TCONST4
  )  
GROUP BY 
  ATOR_TITULO.NOME_ARTISTICO,
  FILME.TITULO_ORIGINAL,
  FILME.ANO_LANCAMENTO,
  FILME.REGIAO,
  ATOR_TITULO.PROFISSAO1,
  ATOR_TITULO.PROFISSAO2,
  ATOR_TITULO.PROFISSAO3
ORDER BY ATOR_TITULO.NOME_ARTISTICO, FILME.TITULO_ORIGINAL
;


NOME_ARTISTICO,TITULO_ORIGINAL,ANO_LANCAMENTO,REGIAO,PROFISSAO1,PROFISSAO2,PROFISSAO3
'Philthy' Phil Phillips,CITY DRAGON,1995,BR,director,actor,writer
A. Edward Sutherland,ABIE'S IRISH ROSE,1946,BR,director,producer,actor
A. Edward Sutherland,SKY DEVILS,1932,BR,director,producer,actor
A. Edward Sutherland,STEEL AGAINST THE SKY,1941,BR,director,producer,actor
A. Edward Sutherland,THE SAP FROM SYRACUSE,1930,BR,director,producer,actor
A.R. Murugadoss,GHAJINI,2008,BR,writer,director,actor
AJ Jones,THE CURSE OF LA PATASOLA,2022,BR,actor,writer,director
Aage Rais-Nordentoft,2 RYK OG EN AFLEVERING,2003,BR,director,writer,actor
Aakash Bhatia,LOOOP LAPETA,2022,BR,director,writer,actor
Aarne Tarkas,NINA JA ERIK,1960,BR,director,writer,actor


##Ranking dos diretores com títulos lançados no Brasil.
- Diretores com maior numero de participação na direção de títulos lançados no Brasil.

In [0]:
%sql
SELECT
  NOME_ARTISTICO,
  count(CHAVE_TITULO) TOTAL
FROM 
(
  SELECT
    ATOR_TITULO.NOME_ARTISTICO,
    ATOR_TITULO.CHAVE_TITULO
  FROM 
    IMDB_DB_GOLD.TB_ATOR_TITULO_BRASIL AS ATOR_TITULO,
    IMDB_DB_GOLD.TB_FILME_LANCAMENTO_BRASIL AS FILME
  WHERE 
    ATOR_TITULO.DIRETOR_TITULO = 'S'
    AND TRIM(FILME.CHAVE_TITULO) = TRIM(ATOR_TITULO.CHAVE_TITULO)
  GROUP BY ATOR_TITULO.NOME_ARTISTICO,
    ATOR_TITULO.CHAVE_TITULO
) AS DIRETOR_TITULOS
GROUP BY NOME_ARTISTICO
ORDER BY count(CHAVE_TITULO) DESC
;

NOME_ARTISTICO,TOTAL
Pedro Murad,9
John Waters,8
Luciano Mello,8
Bruno de Oliveira,8
Bruno Costa,8
Marcelo Leme,8
Leonardo Martinelli,8
Anna Azevedo,7
George Miller,7
Joaquim Haickel,7
