# Análise de Dados - Respondendo perguntas de negócio com SQL - Movie Data Analytics Dataset

## Sobre o Projeto

* ### A base de dados possuí três tabelas com informações relevantes sobre o mercado cinematográfico.
* ### O objetivo da análise é responder perguntas que tragam insights relevantes sobre o mercado cinematográfico.

## Instalando Bibliotecas e Configurando o notebook

In [None]:
!pip install ipython-sql
!pip install sqlalchemy

Collecting jedi>=0.16 (from ipython->ipython-sql)
  Downloading jedi-0.19.1-py2.py3-none-any.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m14.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jedi
Successfully installed jedi-0.19.1


In [None]:
%load_ext sql

## Conectando a base de Dados em SQL

In [None]:
%sql sqlite:///movie.sqlite

## Dicionário

***IMDB - Dados Gerais dos Filmes***

- Movie_id: Identificação única do filme na base de dados.
- Title: Título do filme.
- Rating: Avaliação média do filme, possivelmente baseada em uma escala de 1 a 10.
- TotalVotes: Número total de votos recebidos pelo filme.
- MetaCritic: Pontuação do filme no MetaCritic, uma média ponderada das críticas.
- Budget: Orçamento do filme (provavelmente em dólares).
- Runtime: Duração do filme em minutos.
- CVotes10, CVotes09, ..., CVotes01: Número de votos recebidos pelo filme para cada nota de 10 a 1.
- CVotesMale: Número de votos totais recebidos de homens.
- CVotesFemale: Número de votos totais recebidos de mulheres.
- CVotesU18: Número de votos recebidos de pessoas com menos de 18 anos.
- CVotesU18M: Número de votos recebidos de homens com menos de 18 anos.
- CVotesU18F: Número de votos recebidos de mulheres com menos de 18 anos.
- CVotes1829: Número de votos recebidos de pessoas com idade entre 18 e 29 anos.
- CVotes1829M: Número de votos recebidos de homens com idade entre 18 e 29 anos.
- CVotes1829F: Número de votos recebidos de mulheres com idade entre 18 e 29 anos.
- CVotes3044: Número de votos recebidos de pessoas com idade entre 30 e 44 anos.
- CVotes3044M: Número de votos recebidos de homens com idade entre 30 e 44 anos.
- CVotes3044F: Número de votos recebidos de mulheres com idade entre 30 e 44 anos.
- CVotes45A: Número de votos recebidos de pessoas com 45 anos ou mais.
- CVotes45AM: Número de votos recebidos de homens com 45 anos ou mais.
- CVotes45AF: Número de votos recebidos de mulheres com 45 anos ou mais.
- CVotes1000: Número de votos recebidos de usuários considerados top 1000 votantes no site.
- CVotesUS: Número de votos recebidos de usuários dos Estados Unidos.
- CVotesnUS: Número de votos recebidos de usuários de fora dos Estados Unidos.
- VotesM: Avaliação média dada pelos homens.
- VotesF: Avaliação média dada pelas mulheres.
- VotesU18: Avaliação média dada por pessoas com menos de 18 anos.
- VotesU18M: Avaliação média dada por homens com menos de 18 anos.
- VotesU18F: Avaliação média dada por mulheres com menos de 18 anos.
- Votes1829: Avaliação média dada por pessoas com idade entre 18 e 29 anos.
- Votes1829M: Avaliação média dada por homens com idade entre 18 e 29 anos.
- Votes1829F: Avaliação média dada por mulheres com idade entre 18 e 29 anos.
- Votes3044: Avaliação média dada por pessoas com idade entre 30 e 44 anos.
- Votes3044M: Avaliação média dada por homens com idade entre 30 e 44 anos.
- Votes3044F: Avaliação média dada por mulheres com idade entre 30 e 44 anos.
- Votes45A: Avaliação média dada por pessoas com 45 anos ou mais.
- Votes45AM: Avaliação média dada por homens com 45 anos ou mais.
- Votes45AF: Avaliação média dada por mulheres com 45 anos ou mais.
- VotesIMDB: Avaliação média geral do filme no IMDb.
- Votes1000: Avaliação média dada por usuários considerados top 1000 votantes no site.
- VotesUS: Avaliação média dada por usuários dos Estados Unidos.
- VotesnUS: Avaliação média dada por usuários de fora dos Estados Unidos.

***earning - Receita dos Filmes***

- Movie_id: Identificação única do filme na base de dados.
- Domestic: Receita bruta doméstica (dentro do país de origem do filme, geralmente os Estados Unidos) gerada pelo filme.
- Worldwide: Receita bruta mundial (total arrecadado globalmente) gerada pelo filme.

***genre - Gênero dos Filmes***

- Movie_id: Identificação única do filme na base de dados.
- Genre: Gênero do filme (como Ação, Comédia, Drama, etc.).


## 1.0 Inspeção e tratamento dos Dados

* Analisando as colunas das tabelas, se possuem primary key ou foregein key para utilizar em relacionamentos nas consultas.
*  Visualização limitada a 5 linhas,pois o objetivo era entender que tipo de informação havia em cada coluna.

In [None]:
%%sql

SELECT * FROM IMDB LIMIT 5

 * sqlite:///movie.sqlite
Done.


Movie_id,Title,Rating,TotalVotes,MetaCritic,Budget,Runtime,CVotes10,CVotes09,CVotes08,CVotes07,CVotes06,CVotes05,CVotes04,CVotes03,CVotes02,CVotes01,CVotesMale,CVotesFemale,CVotesU18,CVotesU18M,CVotesU18F,CVotes1829,CVotes1829M,CVotes1829F,CVotes3044,CVotes3044M,CVotes3044F,CVotes45A,CVotes45AM,CVotes45AF,CVotes1000,CVotesUS,CVotesnUS,VotesM,VotesF,VotesU18,VotesU18M,VotesU18F,Votes1829,Votes1829M,Votes1829F,Votes3044,Votes3044M,Votes3044F,Votes45A,Votes45AM,Votes45AF,VotesIMDB,Votes1000,VotesUS,VotesnUS
36809,12 Years a Slave (2013),8.1,496092,96.0,20000000.0,134 min,75556,126223,161460,83070,27231,9603,4021,2420,1785,4739,313823,82012,1837,1363,457,200910,153669,45301,138762,112943,23895,29252,23072,5726,664,53328,224519.0,8.1,8.1,8.4,8.4,8.5,8.2,8.2,8.2,8.0,7.9,8.0,7.8,7.8,8.1,8.0,7.7,8.3,8.0
30114,127 Hours (2010),7.6,297075,82.0,18000000.0,94 min,28939,44110,98845,78451,28394,9403,3796,1930,1161,2059,212866,44600,745,567,170,133336,106007,26152,102120,86609,14304,14895,12400,2261,649,38478,169745.0,7.6,7.6,7.9,7.9,7.9,7.7,7.8,7.7,7.5,7.5,7.5,7.3,7.3,7.5,7.6,7.0,7.7,7.6
37367,50/50 (2011),7.7,283935,72.0,8000000.0,100 min,28304,47501,99524,71485,24252,7545,2381,1109,634,1202,188925,58348,506,348,153,132350,96269,34765,94745,75394,18163,12829,9912,2681,555,46947,147849.0,7.7,7.7,7.9,7.9,7.9,7.8,7.8,7.7,7.6,7.6,7.6,7.4,7.4,7.5,7.4,7.0,7.9,7.6
49473,About Time (2013),7.8,225412,,12000000.0,123 min,38556,43170,70850,45487,16542,5673,2210,1084,664,1182,126718,58098,654,325,321,92940,57778,34126,67477,50212,16222,13973,10690,3026,475,20450,111670.0,7.8,7.9,8.2,8.1,8.3,8.0,8.0,8.0,7.6,7.6,7.7,7.6,7.5,7.8,7.7,6.9,7.8,7.7
14867,Amour (2012),7.9,76121,94.0,8900000.0,127 min,11093,15944,22942,14187,5945,2585,1188,710,534,995,49808,16719,121,95,24,28593,20107,8167,28691,21990,6269,7425,5803,1490,391,7959,46138.0,7.8,7.9,8.6,8.7,8.5,8.0,8.0,7.9,7.7,7.7,7.9,7.9,7.8,8.1,6.6,7.2,7.9,7.8


In [None]:
%%sql

SELECT * FROM earning LIMIT 5

   sqlite:///movie-Copia.sqlite
 * sqlite:///movie.sqlite
Done.


Movie_id,Domestic,Worldwide
36809,56671993,187733202.0
30114,18335230,60738797.0
37367,35014192,39187783.0
49473,15322921,87100449.0
14867,6739492,19839492.0


In [None]:
%%sql

SELECT * FROM genre LIMIT 5

 * sqlite:///movie.sqlite
Done.


Movie_id,genre
36809,Biography
30114,Adventure
37367,Comedy
49473,Comedy
14867,Drama


### 1.1 Verificando o total de linhas e se há valores duplicados

**IMDB**

In [None]:
%%sql

SELECT
COUNT(*) as Qtde_linhas,
COUNT(DISTINCT Movie_id) as Contagem_unica_ids
FROM
IMDB

 * sqlite:///movie.sqlite
Done.


Qtde_linhas,Contagem_unica_ids
117,117


-  Não há duplicidade de ID na tabela IMDB

**Earning**

In [None]:
%%sql

SELECT
COUNT(*) as Qtde_linhas,
COUNT(DISTINCT Movie_id) as Contagem_unica_ids
FROM
earning

 * sqlite:///movie.sqlite
Done.


Qtde_linhas,Contagem_unica_ids
117,117



*  Não há duplicidade de ID na tabela earning




**Genre**

In [None]:
%%sql

SELECT
COUNT(*) as Qtde_linhas,
COUNT(DISTINCT Movie_id) as Contagem_unica_ids
FROM
genre

 * sqlite:///movie.sqlite
Done.


Qtde_linhas,Contagem_unica_ids
351,117


* Identificado que ocorre repetição de valores, mas também que todos os 117 ids aparecem alguma vez.

In [None]:
%%sql

SELECT Movie_id,
COUNT(*) AS Contagem
FROM genre
GROUP BY Movie_id
ORDER BY Contagem DESC
LIMIT 20




 * sqlite:///movie.sqlite
Done.


Movie_id,Contagem
49590,3
49518,3
49473,3
48626,3
48554,3
48102,3
47616,3
47579,3
47403,3
47323,3


*  Foi identificado que os ids aparecem mais de uma vez, mas é necessário verificar se a linha toda se repete ou se há filmes com mais de um gênero.

In [None]:
%%sql

SELECT Movie_id, genre
FROM genre
WHERE Movie_id IN (
SELECT Movie_id
FROM genre
GROUP BY Movie_id
HAVING COUNT(*) > 1
)
ORDER BY Movie_id, genre
LIMIT 20

 * sqlite:///movie.sqlite
Done.


Movie_id,genre
10015,
10015,Drama
10015,Thriller
10023,Adventure
10023,Animation
10023,Comedy
10099,Action
10099,Adventure
10099,Animation
10454,


* Com essa visualização, agrupando os ids e visualizando seus gêneros, identificamos duas situações:

  - Coluna 'genre' com valores nulos.
  - Mais de um gênero para um único filme (isso é comum).


### 1.1.2 Excluindo as linhas com valores nulos

*  Como na tabela 'genre' só temos dois valores, o 'Movie_id' e o 'genre', pode-se excluir as linhas com valor vazio em 'genre'.



In [87]:
%%sql

DELETE FROM genre
WHERE genre IS NULL OR genre = ''


 * sqlite:///movie.sqlite
0 rows affected.


[]


* Visualizando Resultado, vemos que os valores nulos não aparecem mais.


In [None]:
%%sql

SELECT Movie_id, genre
FROM genre
WHERE Movie_id IN (
    SELECT Movie_id
    FROM genre
    GROUP BY Movie_id
    HAVING COUNT(*) > 1
)
ORDER BY Movie_id, genre
LIMIT 20

 * sqlite:///movie.sqlite
Done.


Movie_id,genre
10015,Drama
10015,Thriller
10023,Adventure
10023,Animation
10023,Comedy
10099,Action
10099,Adventure
10099,Animation
10454,Action
10454,Sci-Fi


### 1.2 Verificando valores inconsistentes ou fora do esperado

**Verificando valores de rating fora do intervalo esperado (1 a 10)**

In [None]:
%%sql

SELECT *
FROM IMDB
WHERE
Rating < 1 OR Rating > 10

 * sqlite:///movie.sqlite
Done.


Movie_id,Title,Rating,TotalVotes,MetaCritic,Budget,Runtime,CVotes10,CVotes09,CVotes08,CVotes07,CVotes06,CVotes05,CVotes04,CVotes03,CVotes02,CVotes01,CVotesMale,CVotesFemale,CVotesU18,CVotesU18M,CVotesU18F,CVotes1829,CVotes1829M,CVotes1829F,CVotes3044,CVotes3044M,CVotes3044F,CVotes45A,CVotes45AM,CVotes45AF,CVotes1000,CVotesUS,CVotesnUS,VotesM,VotesF,VotesU18,VotesU18M,VotesU18F,Votes1829,Votes1829M,Votes1829F,Votes3044,Votes3044M,Votes3044F,Votes45A,Votes45AM,Votes45AF,VotesIMDB,Votes1000,VotesUS,VotesnUS


- Não há ocorrência de valores fora do rating

**Verificando valores negativos em receitas (Domestic e Worldwide)**

In [None]:
%%sql

SELECT *
FROM earning
WHERE Domestic < 0 OR Worldwide < 0

 * sqlite:///movie.sqlite
Done.


Movie_id,Domestic,Worldwide


- Não há ocorrência de valores negativos

**Verificando valores de gênero não padronizados**

In [None]:

%%sql

SELECT DISTINCT genre
FROM genre


 * sqlite:///movie.sqlite
Done.


genre
Biography
Adventure
Comedy
Drama
Action
Animation
Crime
Mystery
Romance
Thriller


* Com isso vemos que há um erro, existe a categoria 'Music' e 'Musical', que deveriam ser a mesma coisa, por esse motivo irei alterar todas ocorrências de 'Music' para 'Musical'.

In [None]:
%%sql
UPDATE genre
SET genre = 'Musical'
WHERE genre = 'Music'


 * sqlite:///movie.sqlite
3 rows affected.


[]

## 2.0 Respondendo perguntas de Negócio

### 1 - Quais os 5 gêneros que mais tem filmes?

In [86]:
%%sql
SELECT
genre AS Gênero,
COUNT(*) AS Qtde_filmes
FROM genre
GROUP BY
genre
ORDER BY
Qtde_filmes DESC
LIMIT 5

 * sqlite:///movie.sqlite
Done.


Gênero,Qtde_filmes
Drama,77
Adventure,43
Action,33
Comedy,31
Biography,21


### 2 - Quais os 5 gêneros que tiveram maior lucro médio?


Lucro= Receita−Custo Total

In [None]:
%%sql

-- Selecionando os filmes e calculando o lucro médio.

WITH lucro_filme AS (
SELECT
e.Movie_id,
(e.Worldwide + e.Domestic - i.Budget) AS lucro
FROM
earning e
JOIN
IMDB i ON e.Movie_id = i.Movie_id)

-- Agrupando os gêneros

SELECT
g.Genre,
ROUND(AVG(l.lucro), 2) AS lucro_medio
FROM
lucro_filme l
JOIN
genre g ON l.Movie_id = g.Movie_id
GROUP BY
g.Genre

-- Ordenando  os gêneros pelo lucro médio.
ORDER BY
lucro_medio DESC
LIMIT 5


 * sqlite:///movie.sqlite
Done.


genre,lucro_medio
Fantasy,989816179.14
Sci-Fi,716244826.11
Action,713718604.64
Adventure,712700440.6
Animation,668539229.08


### 3 - Quais os 5 gêneros que tiveram maior margem de lucro médio?


* Margem de lucro = (lucro / receita total) x 100.

In [None]:
%%sql

-- Selecionando os filmes e calculando a margem de lucro.

WITH margem_lucro_filme AS (
SELECT
e.Movie_id,
((e.Worldwide + e.Domestic - i.Budget)/(e.Worldwide + e.Domestic)) * 100 AS margem_lucro
FROM
earning e
JOIN
IMDB i ON e.Movie_id = i.Movie_id
)

-- Agrupando os gêneros.

SELECT
g.Genre,
ROUND(AVG(l.margem_lucro), 2) AS margem_lucro_medio
FROM
margem_lucro_filme l
JOIN
genre g ON l.Movie_id = g.Movie_id
GROUP BY
g.Genre

-- Ordenando  os gêneros pela média de lucratividade.

ORDER BY
margem_lucro_medio DESC
LIMIT 5

 * sqlite:///movie.sqlite
Done.


genre,margem_lucro_medio
Musical,88.9
History,88.27
Biography,87.69
Western,87.01
Fantasy,85.98


* Podemos notar que a margem de lucro não segue a mesma ordem do lucro médio
isso ocorre provavelmente devido a diferença de Budget, vamos observar isso.

### 4 - Qual o Budget médio de cada gênero?

In [None]:
%%sql

-- Calculando o Budget médio por gênero
SELECT
g.Genre,
ROUND(AVG(i.Budget), 2) AS Budget_Medio
FROM
IMDB i
JOIN
genre g ON i.Movie_id = g.Movie_id
GROUP BY
g.Genre
ORDER BY
Budget_Medio DESC


 * sqlite:///movie.sqlite
Done.


genre,Budget_Medio
Fantasy,156285714.29
Family,153333333.33
Sci-Fi,144222222.22
Animation,141938461.54
Adventure,140620930.23
Action,131287878.79
Western,69000000.0
Thriller,68678571.43
Mystery,67000000.0
Comedy,56132258.06


* Com isso conseguimos entender o motivo da diferença do ranqueamento.
* O gênero Fantasy obtém maior lucro médio, mas com o buget mais alto a margem de lucro acaba sendo um pouco menor em relação ao gênero Musical, por exemplo, que tem um Budget bem menor.
* Então uma produtora pode escolher qual o melhor gênero para se investir dependendo do momento que está passando (claro que outros fatores devem ser levados em conta).

### 5 - Há filmes que deram prejuízo?

* Para isso devemos calcular usando a fórmula do lucro, condicionado a visualização a valores negativos, caso existam.

In [None]:
%%sql

SELECT
DISTINCT(i.Title) AS Título,
(e.Worldwide + e.Domestic - i.Budget) AS Prejuízo
FROM
IMDB i
JOIN
earning e ON i.Movie_id = e.Movie_id
JOIN
genre g ON i.Movie_id = g.Movie_id
WHERE
(e.Worldwide + e.Domestic - i.Budget) < 0
AND e.Worldwide > 0
AND e.Domestic > 0
AND i.Budget > 0
/*Ao realizar a consulta sem as 4 cláusulas, estavam aparecendo dados positivos, mesmo filtrando
para ocorrer somente valores de budget maior que a receita total.*/
ORDER BY
Prejuízo DESC


 * sqlite:///movie.sqlite
Done.


Título,Prejuízo
Tucker and Dale vs Evil (2010),-26646.0
Tyrannosaur (2011),-955358.0
Disconnect (2012),-7126200.0
Flipped (2010),-10489576.0


* Foram identificados 4 filmes que deram prejuízo.

### 6 - Há grande diferença na média de votos entre americanos e não americanos?

In [None]:
%%sql

SELECT
g.Genre,
ROUND(AVG(i.VotesUS), 2) AS Media_Votos_Americanos,
ROUND(AVG(i.VotesnUS), 2) AS Media_Votos_Mundo,
ROUND(AVG(i.VotesUS) - AVG(i.VotesnUS),5) AS diferenca_media
FROM
IMDB i
JOIN
genre g ON i.Movie_id = g.Movie_id
GROUP BY
g.Genre
ORDER BY
diferenca_media DESC;


 * sqlite:///movie.sqlite
Done.


genre,Media_Votos_Americanos,Media_Votos_Mundo,diferenca_media
Sport,7.97,7.7,0.26667
Family,7.83,7.57,0.26667
Drama,7.92,7.68,0.23636
History,8.05,7.82,0.23333
Action,7.98,7.75,0.22424
Sci-Fi,8.08,7.87,0.21111
Horror,7.7,7.5,0.2
Adventure,7.97,7.78,0.19535
Crime,7.98,7.8,0.18182
Musical,8.15,7.98,0.175


* Não há grande diferença na avalição média America e Global

### 7 - Há ocorrência de filmes que fizeram maior sucesso nacionalmente do que no resto do mundo? (Maior bilheteria nos EUA do que no mundo inteiro)

In [None]:
%%sql

SELECT
i.Title,
e.Domestic,
e.Worldwide
FROM
IMDB i
JOIN
earning e ON i.Movie_id = e.Movie_id
WHERE
e.Domestic > e.Worldwide
ORDER BY
e.Domestic DESC

 * sqlite:///movie.sqlite
Done.


Title,Domestic,Worldwide


* Não há ocorrência

### 8 - Quais os 10 filmes com maior faturamento? Comparando o faturamento nacional e mundial.

In [None]:
%%sql

SELECT
i.Title,
(e.Domestic + e.Worldwide) as Faturamento_total,
e.Domestic,
e.Worldwide
FROM
IMDB  i
JOIN
earning e
ON
i.Movie_id = e.Movie_id
GROUP BY
i.Title
ORDER BY
Faturamento_total DESC
LIMIT 10

 * sqlite:///movie.sqlite
Done.


Title,Faturamento_total,Domestic,Worldwide
Star Wars: The Force Awakens (2015),3004885849.0,936662225,2068223624.0
The Avengers (2012),2142170898.0,623357910,1518812988.0
Rogue One (2016),1588234597.0,532177324,1056057273.0
Captain America: Civil War (2016),1561388844.0,408084349,1153304495.0
The Dark Knight Rises (2012),1533078198.0,448139099,1084939099.0
Toy Story 3 (2010),1481974583.0,415004880,1066969703.0
Skyfall (2012),1412921290.0,304360277,1108561013.0
Zootopia (2016),1365052443.0,341268248,1023784195.0
The Hobbit: An Unexpected Journey (2012),1324107136.0,303003568,1021103568.0
The Hunger Games: Catching Fire (2013),1289679793.0,424668047,865011746.0


### 9 - Qual a avaliação média dos 10 filmes com maior faturamento?


In [92]:
%%sql

-- Identificando os 10 filmes com maior faturamento
WITH dez_filmes AS (
SELECT
i.Movie_id,
i.Title,
(e.Domestic + e.Worldwide) AS Faturamento
FROM
IMDB i
JOIN
earning e ON i.Movie_id = e.Movie_id
ORDER BY
Faturamento DESC
LIMIT 10
)

-- Obtendo a avaliação média dos 10 filmes encontrados
SELECT
dz.Title AS Filme,
ROUND(i.Rating, 2) AS Avaliacao
FROM
dez_filmes dz
JOIN
IMDB i ON dz.Movie_id = i.Movie_id
ORDER BY
dz.Faturamento DESC;



 * sqlite:///movie.sqlite
Done.


Filme,Avaliacao
Star Wars: The Force Awakens (2015),8.1
The Avengers (2012),8.1
Rogue One (2016),7.9
Captain America: Civil War (2016),7.9
The Dark Knight Rises (2012),8.4
Toy Story 3 (2010),8.3
Skyfall (2012),7.8
Zootopia (2016),8.1
The Hobbit: An Unexpected Journey (2012),7.9
The Hunger Games: Catching Fire (2013),7.6


### 10 - Quais os 10 filmes com melhor avaliação?

In [93]:
%%sql

SELECT
Title AS Filme,
ROUND(Rating, 2) AS Avaliacao
FROM
IMDB
ORDER BY
Rating DESC
LIMIT 10;


 * sqlite:///movie.sqlite
Done.


Filme,Avaliacao
Inception (2010),8.8
Interstellar (2014),8.6
Whiplash (2014),8.5
Django Unchained (2012),8.4
The Dark Knight Rises (2012),8.4
Toy Story 3 (2010),8.3
Hacksaw Ridge (2016),8.2
Inside Out (2015),8.2
La La Land (2016),8.2
The Wolf of Wall Street (2013),8.2


* Isso nos mostra que nem sempre o faturamento alto resulta em melhores avaliações.