# Projeto 4 - SQL

Objetivos
* Explorar e extrair informação relevante da base de dados usando funções SQL
* Realizar limpeza e transformação de dados usando funções de string e regex
* Usar os dados limpos para análises mais detalhadas, com joins e funções de agregação

## Setup

- Garanta que tenha todas a bibliotecas necessárias para desenvolvimento do projeto.

In [None]:
%reload sql

0. Explique a linha de código abaixo:

In [None]:
!unzip -u data/imdbdb.zip -d data/

## Criação da base de dados sql

* Nas aulas de sql criamos e povoamos a base de dados várias vezes. Aqui você precisa fazer o mesmo com a base de dados imdbdb.
* Os comandos usados no bash do docker podem ser corridos dentro do notebook usando:
```!psql postgres:user@server:port/db -c '[QUERY SQL]' ```

## Conexão com a base de dados

Complete a célula abaixo para conectar com a base de dados criada anteriormente

In [None]:
%sql postgres://

Para garantir que tudo está a funcionar corretamente, corra a query abaixo:

In [None]:
%%sql
SELECT *
    FROM cast_sample
LIMIT 10

O que a query acima faz?

## A base de dados `imdb`

Para este projeto estamos trabalhando com uma versão reduzida da base de dados [IMDB (Internet Movie Database)](https://www.imdb.com/). Por ser uma versão reduzida, os resultados podem ser diferentes do esperado.

Abaixo encontra a lista das relações da base de dados:
* `actor_sample`: informação sobre atores, incluindo id, name e gender
* `cast_sample`: cada pessoa na equipa de cada filme é representada por uma linha, incluindo o id do cast, o id de cada pessoa (`actor_sample.id`), o id de cada filme (`movie_sample.id`) e o id do role (`role_type.id`)
* `movie_sample`: amostra de filmes que os atores estão presentes, incluindo o id, title e production year
* `movie_info_sample`: inclui o id da informação do filme, movie id, info type id e a informação.
* `info_type`: tabela de referência para equivalência de cada tipo e descrição de tipo da informação.
* `role_type`: tabela de referência para `cast_sample` contendo a descrição do `role`

** Dicas**
* Este dataset não é o mesmo usado na aula, mas tem muitas informações em comum.
* Ponto de confusão: as tabelas `movie_sample` e `actor_sample` têm uma coluna chamada `id`, mas elas **não** se referem ao mesmo valor de dados
* Explore a base de dados para conhecê-la melhor.

## Parte 1 - Information Schema

Há tabelas de metadados que o Postgres cria e atualiza. Veja a [documentação](https://www.postgresql.org/docs/current/information-schema.html).
Por agora, olhe para a tabela `.table` ([35.54](https://www.postgresql.org/docs/current/information-schema.html)), que lista todas as tabelas na base de dados. Escreva uma query que retorne todos os atributos das seis tabelas descritas acima.

### Questão 1: Escreva uma query que retorne todos os atributos das seis tabelas descritas acima.

In [None]:
%%sql

## Parte 2 - EDA

### Questão 2.a

Quais são os atributos da tabela `movie_info_sample`?

In [None]:
%%sql

###Questão 2.b
Quantas linhas há na tabela `movie_info_sample`? O resultado da sua query deve ter exatamente uma linha e o valor deve ser o número de linhas.

In [None]:
%%sql result_2b

### Questão 2.c

Agora que sabemos um pouco sobre os metadados da tabela, vamos buscar amostras aleatórias da tabela `movie_info_sample` para explorar o seu conteúdo.

Sabendo que você já sabe o tamanho da tabela, **escreva uma query que retorne 5 tuplas usando o método `BERNOULLI`*. Ou seja, se nós corrermos a query várias vezes, nós devemos obter 5 tuplas em média da tabela resultante. O método `BERNOULLI` pesquisa a tabela inteira e seleciona linhas individualmente independentes com probabilidade `p%`. Leia a [documentação](https://www.postgresql.org/docs/15/sql-select.html) para informação sobre a sintaxe.

**Dicas/Detalhes**

* Atribua à variável `p_1c` para uma sampling rate que você passe para a `query_1c` usando uma f-string para substituir o valor. Sua fórmula deve conter `count_1b`. Não se esqueça de converter `p_1c` para unidades de porcentatem, ou seja, `p_1c = 0.03` é 0.03%.
* Para entender como as fstrings funcionam, assim como a substituição de variáveis em fstrings, veja [este tutorial](https://www.geeksforgeeks.org/formatted-string-literals-f-strings-python/). Se a substituição da variável for feita corretamente, nós devemos ser capazes de substituir o nosso `p%` apenas alterando o `p_1c` e correndo novamente a query.

In [None]:
count_1b = result_2b_df.iloc[0, 0]
p_1c = ...

### Questão 2.d Random sample, número fixo de linhas

Se um número aleatório de linhas não é importante, uma maneira mais eficiente para obter tuplas arbitrárias de uma tabela é usar as cláusulas `ORDER BY` e `LIMIT`. Na próxima célula, obtenha 5 linhas **aleatórias** da tabela `movie_info_sample`. Comparando com o resultado anterior, o seu resultado deveria ter sempre 5 tuplas.

In [None]:
%sql result_2d

## Parte 3 - Limpeza dos Dados

A tabela `movie_sample` contém pouca informação por filme:


In [None]:
%sql SELECT * FROM movie_sample LIMIT 5;

Nesta questão nós vamos criar uma view de `movie_sample` que também inclua uma coluna com a avaliação dos filmes, chamada `movie_ratings`.

O [MPAA rating](https://www.motionpictures.org/film-ratings/) é normalmente incluído na maioria das base de dados sobre filmes, incluindo o deste projeto, mas, no formato atual, é difícil extrair esta informação.

A primeira dica para é olhar para as linhas aleatórias da Questão 1. Você já viu que a tabela `movie_info_sample` contem muita informação sobre cada filme. Cada linha contem um tipo particular de informação (por exemplo, `runtime`, `languages`) categirizados pelo `info_type_id`. Baseado nas outras tabelas desta base de dados, a tabela `info_type` é uma referência para este número de ID.

Então a estratégia para esta questão é:
* **Questão 2a**: encontrar o `mpaa_rating_id` da tabela `info_type`.
* **Questão 2b**: extrair o MPAA de um filme específico da tabela `movie_info_sample`.
* **Questão 2c**: Construir a view `movie_ratings` baseado na tabela `movie_sample`e todos os MPAA ratings extraídos da tabela `movie_info_sample`.


## Questão 3a: MPAA Rating e `info_type`

Para começar, usando a tabela `info_type`, escreva uma query para encontrar o `id` que  corresponde ao MPAA rating do filme. A query `result_3a` que você escrever deve retornar a relação com exatamente uma linha e um atributo; o valor solitário da instância deve ser um MPAA rating e o id correspondente. Este valor deve ser armazenado na variável `mpaa_rating_id` para usar posteriormente.

**Dicas:**
- Abra o cliente `psql` no terminal para explorar o schema de `info_type` através do comando `\d`. Lembre-se que você também pode escrever comandos SQL neste terminal para interagir com a base de dados IMDB, mas o trabalho final deve ser submetido neste Jupyter Notebook.
- Cuidado ao usar plicas. O SQL interpreta plicas e aspas de maneira diferente. a plica `'` é reservada para delimitar strings, enquanto as aspas `"`é usada para nomear tabelas ou colunas que precisam de caracteres especiais. Veja a [documentação](https://www.postgresql.org/docs/current/sql-syntax-lexical.html) para mais informação.


In [None]:
%%sql

## Questão 3b: Buscando o MPAA Rating

Suponha que nós quiséssemos encontrar o MPAA rating para o clássico de 2004 _Mean Girls_. O código abaixo atribui `movie_id_3b` para o IMDB id deste filme, 2109683.


In [None]:
movie_id_2b = 2109683
%sql SELECT * FROM movie_sample WHERE id = {{movie_id_2b}};

Na próxima célula, escreva uma query para encontrar o rating MPAA para este filme. Sua query deve retornar exatamente uma linha, com `(info, mpaa_rating)`, onde `info` é a string MPAA do `movie_info_sample` e `mpaa_rating` é a classificação etária deste filme (`PG-13`, `PG`, etc).

Antes de começar:
* Explore a tabela `movie_info_sample` correspondentes ao MPAA usando o DBeaver, o terminal ou executando SQL no notebook. O campo `info` é um pouco maior que apenas a classificação. Isto também inclui uma explicação para a classificação do filme.
* Você precisa extrair uma substring tha coluna `info` da tabela `movie_info_sample`; você pode usar [funções de string](https://www.postgresql.org/docs/current/functions-string.html) no PostgreSQL. Existem várias soluções possíveis. Uma solução possívels é usar regex para fazer as substrings. Se você quiser fazer isso, [esta seção sobre regex](https://www.postgresql.org/docs/current/functions-matching.html#FUNCTIONS-POSIX-REGEXP) será particularmente útil. [regex101.com](https://regex101.com) também pode ser útil.
* Você deve usar `mpaa_rating_id` e `movie_id_2b` diretamente para o resto das questões usando substituição por variável.

In [None]:
%%sql

Você pode usar a variável `mpaa_rating_id` diretamente no resto das questões usando fstrings e substituição.

---

## Questão 3c

Na próxima célula,
1. Construa uma view chamada `movie_ratings` contendo uma linha por filme, cada uma com `(movie_id, title, info, mpaa_rating)`, onde `info` é a string completa com a classificação MPAA de `movie_info_sample` e `mpaa_rating` é apenas a classificação (por exemplo, `R`, `PG-13`, `PG`, etc.).
* Em outras palavras, acrescentar a informação da tabela `movie_sample` com a classificação MPAA para todos os filmes.
2. Seguindo a definição de view, escreva uma query `SELECT` para retornar as **primeiras 20 linhas** da view, ordenada crescentemente pelo `movie_id`.


In [None]:
%%sql result_2c <<
DROP VIEW IF EXISTS movie_ratings;
CREATE VIEW movie_ratings AS (
)

<br/><br/><br/>

<hr style="border: 1px solid #fdb515;" />

# Questão 4: Faturamento

Uma medida de sucesso do filme é o seu faturamento. Se nós olharmos para a tabela `info_table`, nós temos informação sobre o faturamento bruto de um filme e o custo. Seria importante saber quanto de dinheiro um filme faturou usando a fórmula de lucro (profit):

$$profit = earnings - moneyspent$$

Vamos começar olhando para a informação sobre o faturamento bruto, com `info_type_id = 107`

In [None]:
%%sql
SELECT *
FROM movie_info_sample
WHERE info_type_id = 107
ORDER BY id
LIMIT 10 OFFSET 100000;

Tem muitas coisas para observarmos aqui. A primeira de todas é que os valores no atributo `info` são strings e não apenas o faturamento, mas também o país e o mês de faturamento acumulado até então. Adicionalmente, os valores de info não estão na mesma moeda. Além disso, parece que um pouco do faturamento bruto, mesmo para aqueles em USD são de vendas ao redor do mundo, enquanto outros contam apenas as vendas nos Estados Unidos.

Por consistência, vamos usar apenas filmes com faturamento bruto contado dentro dos Estados Unidos que estão em USD.

<br><br>

---

## Questião 4a: Faturamento

Nós queremos a parte numérica da coluna `info` e o **maximum earnings value** para um filme particular.

Na célula seguinte:
- Construir uma view chamada `movie_gross` contendo uma linha para cada filme, com os atributos `(gross, movie_id, title)`, onde `gross` é o valor numérico extraído como float. Some os valores nos casos em que um mesmo filme tenha mais de um `gross` value.
- Para olhar para nossos dados limpos, escreva uma query `SELECT` para mostrar os primeiros resultados dos 10 filmes que mais faturaram, por `movie_gross`.

**Dicas:**
- A maneira de extrair o MPAA é muito similar com a maneira que queremos isolar o valor numérico da string. (Há várias maneiras de fazer isso.)
- Olhe a [documentação](https://www.postgresql.org/docs/9.4/functions-matching.html) para a função `regexp_replace`, especificamente a 'flag g'.

In [None]:
%%sql result_4a <<

DROP VIEW IF EXISTS movie_gross;
CREATE VIEW movie_gross AS (
-- coloque a sua query aqui
)

<br/>

---

## Tutorial: Budget
Nós vamos olhar agora para o tipo budget, com `info_type_id = 105`

In [None]:
%%sql
SELECT *
FROM movie_info_sample
WHERE info_type_id = 105
ORDER BY id
LIMIT 10 OFFSET 5000;

De maneira similar com o que foi feito para obter a informação do faturamento, nós observamos faturamento em diferentes moedas. Vamos usar apenas os filmes com budget em USD.

## Questão 4b:

Agora, nós queremos algo semelhante para o budget do filme, de maneira que seja possível fazer uma operação com `gross` e `budget`. Nós queremos a parte numérica da coluna `info` e o valor **maximum budget value** para um filme particular (como você pode observar, alguns filmes têm mais de um budget).

Na próxima célula,
- Construir uma view chamada `movie_budget` contendo uma linha para cada filme, com os atributos `(budget, movie_id, title)`, onde `budget` é a quantidade numérica em dollars extraído como float.
- Para olhar os dados limpos, escreva uma query `SELECT` para mostrar **os 10 filmes com maior budget**. Quando dois filmes tiverem o mesmo budget, use o `movie_id` para ordenar (de maneira crescente).

**Dica:** a query deve ser bem semelhante a da Questão 3a.

**Dica:** explore os registos para ver se encontra algum padrão.

In [None]:
%%sql result_4b <<

DROP VIEW IF EXISTS movie_budget;
CREATE VIEW movie_budget AS (
-- sua query aqui
)

---

## Questão 4c

Nós temos todas as partes necessárias para calcular o lucro. Usando as views `movie_gross` e `movie_budget`, nós podemos subtrair as colunas numéricas e salvar o resultado em outra coluna chamada `profit`.

Na próxima célula, construa uma view chamada `movie_profit` contendo uma linha para cada filme, que tem `(movie_id, title, profit)`, onde `profit` é o resultado da subtração do `budget` do `gross`. Seguindo a definição de view, escreva uma query `SELECT` para retornar as **primeiras 10 linhas** da view ordenada de maneira decrescente por `profit`. Esta query poderá ser mais lenta que o normal.

In [None]:
%%sql result_4c <<

DROP VIEW IF EXISTS movie_profit;
CREATE VIEW movie_profit AS (
-- sua query aqui
)

---

## Questão 4d

Nós analisamos os dados, mas algumas coisas parecem estranhas. Olhando de maneira mais atenta, vamos observar valores negativos para `profit`. Por exemplo, o filme `102 Dalmations` parece ter perdido cerca de $18M, mas foi um filme de sucesso. O que pode ter acontecido? Pense em como nós construímos os nossos dados e responda abaixo.



_Digite a sua resposta aqui._

Se tiver encontrado algum problema nos seus dados, refaça as views de maneira a corrigi-los.

In [None]:
%%sql
DROP VIEW IF EXISTS movie_profit;
DROP VIEW IF EXISTS movie_budget;
DROP VIEW IF EXISTS movie_gross;


In [None]:
%%sql result_4a <<

DROP VIEW IF EXISTS movie_gross;
CREATE VIEW movie_gross AS (
-- sua query aqui
)

In [None]:
%%sql result_4b <<

DROP VIEW IF EXISTS movie_budget;
CREATE VIEW movie_budget AS (
-- sua query aqui
)

In [None]:
%%sql result_4c <<

DROP VIEW IF EXISTS movie_profit;
CREATE VIEW movie_profit AS (
-- sua query aqui
)

In [None]:
%%sql
SELECT * FROM movie_profit
WHERE movie_id = 1635380

<hr style="border: 1px solid #fdb515;" />

# Questão 5: Usando os dados limpos

Agora que nós aprendemos como limpar nossos valores financeiros do atributo `info` de `movie_info_sample`, vamos olhar de maneira mais atenta para os dados gerados.

---

## Questão 5a: Faturamento por Género

Outra `info_type` que nós podemos olhar é o genero do filme. Observando os valores de `movie_gross`, quanto cada *genre* faturou em média nos Estados Unidos?

- Crie uma view com as colunas `movie_id`, `title`, `gross`, `genre`, e `average_genre` onde `gross` é o faturamento bruto nos estados unidos, `genre` é o género do filme, e `average_genre` é o faturamento médio para o género correspondente. Se um filme tiver mais de um género, o filme deve aparecer em múltiplas linhas, com cada género em uma linha.
- Seguindo a definição da view, escreva uma query `SELECT` para retornar as linhas para o filme "Mr. & Mrs. Smith" ordenado pelo género em ordem alfabética.

**Dica:** Olhe as [window functions](https://www.postgresql.org/docs/9.1/tutorial-window.html)

In [None]:
%sql select * from info_type limit 3

In [None]:
%%sql result_5a <<

DROP VIEW IF EXISTS movie_avg_genre;
CREATE VIEW movie_avg_genre AS (
-- sua query sql aqui
);

In [None]:
Seguindo a definição da view, escreva uma query `SELECT` para retornar as linhas para o filme "Mr. & Mrs. Smith" ordenado pelo género em ordem alfabética.

In [None]:
%%sql
-- sua query aqui

---

## Questão 5b: Analisando o faturamento bruto

Nós podemos olhar os dados usando um boxplot.
Fizemos muito trabalho para transformar o faturamento bruto de strings no atributo `info` para um valor numérico. Graças ao nosso trabalho, nós podemos examinar os dados de maneira mais profunda e entender a sua distribuição. Para fazer isso, nós primeiro precisamos gerar um [five-number summary](https://en.wikipedia.org/wiki/Five-number_summary) e encontrar a média do faturamento grosso nos dados.

- Criar uma view chamada `earnings_summary`, que consiste de uma linha com o resumo das informações da tabela `movie_gross`, com os valores `min`, `_25th_percentile`, `median`, `_75th_percentile`, `max` e `average`.
- Usando a definição da view, escreva uma query `SELECT` para mostrar os resultados.

**Dica:** Olhe as [aggregate functions](https://www.postgresql.org/docs/9.4/functions-aggregate.html).


In [None]:
%%sql result_5b <<

DROP VIEW IF EXISTS earnings_summary;
CREATE VIEW earnings_summary AS (
-- sua query aqui
)

---

## Questão 5c

O que você nota nos valores gerados em `earnings_summary`? Pode optar por criar um boxplot ou outros gráficos que possam te ajudar na análise. Identifique as propriedads (pense relativamente em moda, skew, espalhamento, etc.).


_Escreva a sua resposta aqui_

# opcional: inclua seus plots aqui

<hr style="border: 1px solid #fdb515;" />

# Questão 6: Joins

Joins são ferramentas poderosas na limpeza e análise de base de dados. Permitem que o utilizador crie tabelas úteis e juntem informações de uma maneira com significado.

Há vários tipso de joins: inner, outer, left, right, etc. Vamos praticar estes joins neste cenário.

Agora você vai trabalhar como um diretor de talento e precisa de uma lista de todas as pessoas que estiveram no papel de `actor` e o número de filmes em que cada um atuou.

- Criar uma view chamada `number_movies`, com as colunas `id`, `name`, `number`, onde `id` é o id do ator, `name` é o nome do ator e `number` é o número de filmes que a pessoa atuou.
- Seguindo a sua view, escreva uma query `SELECT` para mostrar os **10 top atores** que tiveram na maior parte dos filmes.

**Note:** `cast_sample` pode incluir atores que não estão em `actor_sample`. O campo `name` pode ser NULL.

In [None]:
%%sql result_6 <<

DROP VIEW IF EXISTS number_movies;
CREATE VIEW number_movies AS (
-- sua query aqui
);