In [1]:
import pandas as pd
import numpy as np

from numpy.testing import assert_almost_equal
from numpy.testing import assert_equal

from numpy.testing import assert_array_almost_equal
from numpy.testing import assert_array_equal


# Projeto 1 - SQL

## Entrega:

Neste projeto, vamos trabalhar com SQL na base de dados do IMDB.

## Objetivos
- Explorar e extrair informação relevante da base de dados com funções SQL
- Realizar limpeza e transformação de dados usando funções de string e regex
- Usar os dados limpos para análise, usando joins, aggregations e window functions

**Atenção:** Se em algum momento do projeto o estado interno da base de dados, ou suas tabelas forem modificadas de uma maneira indesejada, reinicie o kernel, reinicie o container docker e importe os dados novamente.

## Distribuição dos pontos

|Question| Points |
|---|--------|
|1a| 1      |
|1b| 1.5    |
|1c| 1      |
|1d| 1      |
|2a| 1.5    |
|2b| 2.5    |
|2c| 2.5    |
|3a| 1.5    |
|3b| 1      |
|3c| 1      |
|3d| 1      |
|4a| 1      |
|4b| 1      |
|4c| 1      |
|5| 1.5    |
|**Total**| 20     |

## Importante

<div class="alert alert-block alert-info">
<p><b>Pré-requisitos</b> Para este projeto, será assumido que você tenha o postgreSQL instalado. Você pode usar uma instalação local ou um docker container, como indicado nos passos da configuração da base de dados.</p>
</div>

## Configuração da base de dados
**Caso você já tenha o postgreSQL instalado na sua máquina, comece do passo 3.**
1. Inicialize o container:
```docker-compose -f postgres-docker-compose.yaml up ```

2. Entrar no terminal do container:
```docker exec -it database bash```

3. Inicializar a base de dados:
    - Apagar a base de dados imdb se ela existir:
    ```psql -U postgres -h localhost -c 'DROP DATABASE IF EXISTS imdb'```
    - Criar a base de dados para importar os arquivos
    ```psql -U postgres -h localhost -c 'CREATE DATABASE imdb' ```
    - Importar o arquivo `imdb.sql`
    ```psql -U postgres -h localhost -d imdb -f data/imdbdb.sql```


In [2]:
%reload_ext sql



In [3]:
%sql postgresql://postgres:postgres@127.0.0.1:5432/imdb

# ```information_schema```

Um **schema** é um namespace de tableas na base de dados, geralmente usado por questões de segurança. Para ver quantos schemas estão definidos na nossa base de dados, basta correr o comando:

In [4]:
%%sql
SELECT *
FROM information_schema.schemata;

catalog_name,schema_name,schema_owner,default_character_set_catalog,default_character_set_schema,default_character_set_name,sql_path
imdb,information_schema,postgres,,,,
imdb,public,postgres,,,,
imdb,pg_catalog,postgres,,,,
imdb,pg_toast_temp_1,postgres,,,,
imdb,pg_temp_1,postgres,,,,
imdb,pg_toast,postgres,,,,


Em uma base de dados Postgres, geralmente há três schemas:
* `public`
* `pg_catalog`
* `information_schema`
* O quarto schema `pg_toast` guarda dados que não podem ser armazenados de maneira regular em relações, como valores de dados muito grandes. Veja a documentação [aqui](https://www.postgresql.org/docs/current/storage-toast.html)



In [5]:
%%sql
SELECT *
FROM information_schema.tables
WHERE table_schema = 'public';

table_catalog,table_schema,table_name,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
imdb,public,actor_sample,BASE TABLE,,,,,,YES,NO,
imdb,public,cast_sample,BASE TABLE,,,,,,YES,NO,
imdb,public,info_type,BASE TABLE,,,,,,YES,NO,
imdb,public,movie_info_sample,BASE TABLE,,,,,,YES,NO,
imdb,public,movie_sample,BASE TABLE,,,,,,YES,NO,
imdb,public,role_type,BASE TABLE,,,,,,YES,NO,


# Questão 1: Análise Exploratória de Dados (EDA)

Uma das primeiras coisas que queremos fazer com uma tabela de uma base de dados é entender seus metadados: nomes de colunas e tipos, e número de linhas.

## Tutorial

**Para docker container o terminal refere-se ao terminal do container**

Nós podemos usar o meta comando `\d` para obter uma descrição da base de dados. Para isto, você precisa usar o terminal para fazer a conexão com a base de dados imdb.
No terminal digite:
```
psql postgresql://postgres:postgres@127.0.0.1:5432/imdb
```
Com este comando, vocês realizarão a conexão com a base de dados `imdb`.
No terminal, digite o comando
```
\d
```

Também conseguimos obter informações sobre as tabelas de maneira individual com o comando `\d`.

```
\d movie_info_sample
```

Há quatro atributos neste esquema, sendo o `id` um deles. Quais são os outros atributos?

**Responda textualmente aqui**:

```id, movie_id, info_type_id e info```


Para explorar a base de dados vocês podem sempre utilizar o comando '\d' no terminal do PostgreSQL, ou usando um software que exiba as mesmas propriedades, como o DBeaver, por exemplo.

<br><br>

---

## Questão 1b

Vamos continuar com a nossa exploração inicial da tabela, Quantas linhas existem na tabela?
Atribua à variável `result_1b` o resultado da query SQL usada para calcular o número de linhas na tabela `movie_info_sample`. Então, atribua à variável `count_1b` o número inteiro que representa o número de linhas obtidos na query.


In [6]:
%%sql result_1b <<
SELECT count(*) FROM movie_info_sample

In [7]:
result_1b[0][0]

2433431

In [8]:
result_1b = %sql SELECT count(*) FROM movie_info_sample
count_1b = result_1b[0][0]



In [9]:
assert_equal(2433431, count_1b)

<br><br>

---

## Question 1c: Amostra aleatória da tabela

Agora que sabemos um pouco sobre os metadados da tabela, vamos buscar amostras aleatórias da tabela `movie_info_sample` para explorar o seu conteúdo.

Sabendo que você já sabe o tamanho da tabela, **escreva uma query que retorne 5 tuplas usando o método `BERNOULLI`*. Ou seja, se nós corrermos a query várias vezes, nós devemos obter 5 tuplas em média da tabela resultante. O método `BERNOULLI` pesquisa a tabela inteira e seleciona linhas individualmente independentes com probabilidade `p%`. Leia a [documentação](https://www.postgresql.org/docs/15/sql-select.html) para informação sobre a sintaxe.

**Dicas/Detalhes**

* Atribua à variável `p_1c` para uma sampling rate que você passe para a `query_1c` usando uma f-string para substituir o valor. Sua fórmula deve conter `count_1b`. Não se esqueça de converter `p_1c` para unidades de porcentatem, ou seja, `p_1c = 0.03` é 0.03%.
* Para entender como as fstrings funcionam, assim como a substituição de variáveis em fstrings, veja [este tutorial](https://www.geeksforgeeks.org/formatted-string-literals-f-strings-python/). Se a substituição da variável for feita corretamente, nós devemos ser capazes de substituir o nosso `p%` apenas alterando o `p_1c` e correndo novamente a query.

In [10]:
5*100/count_1b

0.0002054712050598517

In [11]:
p_1c = 5*100/count_1b
query_1c = f"SELECT * FROM movie_info_sample TABLESAMPLE BERNOULLI({p_1c})" # altere esta query


In [12]:
# Não altere as linhas abaixo
results = []
for i in range(20):
    result_1c = %sql {{query_1c}}
    results.append(len(result_1c))

assert_almost_equal(5, np.mean(results),0)

<br><br>

---

## Question 1d: Random sample, número fixo de linhas

Se um número aleatório de linhas não é importante, uma maneira mais eficiente para obter tuplas arbitrárias de uma tabela é usar as cláusulas `ORDER BY` e `LIMIT`. Na próxima célula, obtenha 5 linhas **aleatórias** da tabela `movie_info_sample`. Comparando com o resultado anterior, o seu resultado deveria ter sempre 5 tuplas.

In [13]:
query_1d = f"SELECT * FROM movie_info_sample ORDER BY RANDOM() LIMIT 5" # altere esta query

In [14]:
# Não altere as linhas abaixo
results = []
for i in range(2):
    result_1d = %sql {{query_1d}}
    results.append(len(result_1d))

assert_equal(5, np.mean(results),0)

<br/><br/><br/>
<hr style="border: 1px solid #fdb515;" />


# Questão 2: Data Cleaning

A tabela `movie_sample` contém pouca informação por filme:

In [15]:
%sql SELECT * FROM movie_sample LIMIT 5;

id,title,production_year
2038405,La corte de faraón,1944
2081186,Long de xin,1985
2177749,Onésime aime les bêtes,1913
1718608,Bedtime Worries,1933
2130699,Mothman,2000


Nesta questão nós vamos criar uma view de `movie_sample` que também inclua uma coluna com a avaliação dos filmes, chamada `movie_ratings`.

O [MPAA rating](https://www.motionpictures.org/film-ratings/) é normalmente incluído na maioria das base de dados sobre filmes, incluindo o deste projeto, mas, no formato atual, é difícil extrair esta informação.

A primeira dica para é olhar para as linhas aleatórias da Questão 1. Você já viu que a tabela `movie_info_sample` contem muita informação sobre cada filme. Cada linha contem um tipo particular de informação (por exemplo, `runtime`, `languages`) categirizados pelo `info_type_id`. Baseado nas outras tabelas desta base de dados, a tabela `info_type` é uma referência para este número de ID.

Então a estratégia para esta questão é:
* **Questão 2a**: encontrar o `mpaa_rating_id` da tabela `info_type`.
* **Questão 2b**: extrair o MPAA de um filme específico da tabela `movie_info_sample`.
* **Questão 2c**: Construir a view `movie_ratings` baseado na tabela `movie_sample`e todos os MPAA ratings extraídos da tabela `movie_info_sample`.



<br><br>

---

## Questão 2a: MPAA Rating e `info_type`

Para começar, usando a tabela `info_type`, escreva uma query para encontrar o `id` que  corresponde ao MPAA rating do filme. A query `result_2a` que você escrever deve retornar a relação com exatamente uma linha e um atributo; o valor solitário da instância deve ser um MPAA rating e o id correspondente. Este valor deve ser armazenado na variável `mpaa_rating_id` para usar posteriormente.

**Dicas:**
- Abra o cliente `psql` no terminal para explorar o schema de `info_type` através do comando `\d`. Lembre-se que você também pode escrever comandos SQL neste terminal para interagir com a base de dados IMDB, mas o trabalho final deve ser submetido neste Jupyter Notebook.
- Cuidado ao usar plicas. O SQL interpreta plicas e aspas de maneira diferente. a plica `'` é reservada para delimitar strings, enquanto as aspas `"`é usada para nomear tabelas ou colunas que precisam de caracteres especiais. Veja a [documentação](https://www.postgresql.org/docs/current/sql-syntax-lexical.html) para mais informação.


In [16]:
%sql SELECT * FROM info_type WHERE info LIKE '%mpaa%'

id,info
97,mpaa


In [17]:
result_2a = %sql SELECT * FROM info_type WHERE info='mpaa'
mpaa_rating_id = result_2a[0][0]

# não edite as linhas abaixo
display(result_2a)
mpaa_rating_id

id,info
97,mpaa


97

<br><br>

---

## Questão 2b: Buscando o MPAA Rating

Suponha que nós quiséssemos encontrar o MPAA rating para o clássico de 2004 _Mean Girls_. O código abaixo atribui `movie_id_2b` para o IMDB id deste filme, 2109683.


In [18]:
# Execute a célula abaixo
movie_id_2b = 2109683
%sql SELECT * FROM movie_sample WHERE id = {{movie_id_2b}};

id,title,production_year
2109683,Mean Girls,2004


Na próxima célula, escreva uma query para encontrar o rating MPAA para este filme. Sua query deve retornar exatamente uma linha, com `(info, mpaa_rating)`, onde `info` é a string MPAA do `movie_info_sample` e `mpaa_rating` é a classificação etária deste filme (`PG-13`, `PG`, etc).

Antes de começar:
* Explore a tabela `movie_info_sample` correspondentes ao MPAA usando o DBeaver, o terminal ou executando SQL no notebook. O campo `info` é um pouco maior que apenas a classificação. Isto também inclui uma explicação para a classificação do filme.
* Você precisa extrair uma substring tha coluna `info` da tabela `movie_info_sample`; você pode usar [funções de string](https://www.postgresql.org/docs/current/functions-string.html) no PostgreSQL. Existem várias soluções possíveis. Uma solução possívels é usar regex para fazer as substrings. Se você quiser fazer isso, [esta seção sobre regex](https://www.postgresql.org/docs/current/functions-matching.html#FUNCTIONS-POSIX-REGEXP) será particularmente útil. [regex101.com](https://regex101.com) também pode ser útil.
* Você deve usar `mpaa_rating_id` e `movie_id_2b` diretamente para o resto das questões usando substituição por variável.

In [19]:
%%sql 
SELECT * FROM movie_info_sample 
WHERE movie_id = 2109683
AND info_type_id = 97 

id,movie_id,info_type_id,info
2050013,2109683,97,"Rated PG-13 for sexual content, language and some teen partying"


In [20]:
%%sql
SELECT * FROM movie_info_sample 
WHERE movie_id = 2109683
AND info_type_id = 97 


id,movie_id,info_type_id,info
2050013,2109683,97,"Rated PG-13 for sexual content, language and some teen partying"


Você pode usar a variável `mpaa_rating_id` diretamente no resto das questões usando fstrings e substituição.

---

## Questão 2c

Na próxima célula,
1. Construa uma view chamada `movie_ratings` contendo uma linha por filme, cada uma com `(movie_id, title, info, mpaa_rating)`, onde `info` é a string completa com a classificação MPAA de `movie_info_sample` e `mpaa_rating` é apenas a classificação (por exemplo, `R`, `PG-13`, `PG`, etc.).
* Em outras palavras, acrescentar a informação da tabela `movie_sample` com a classificação MPAA para todos os filmes.
2. Seguindo a definição de view, escreva uma query `SELECT` para retornar as **primeiras 20 linhas** da view, ordenada crescentemente pelo `movie_id`.


In [21]:
%%sql 
SELECT DISTINCT info FROM movie_info_sample
WHERE info_type_id = {{mpaa_rating_id}}


info
"Rated R for strong bloody violence, sexual content, nudity and language"
Rated NC-17 for some explicit sexuality
Rated R for strong language and some teen alcohol abuse
Rated R for sexual references and language
"Rated R for strong sadistic violence and gore, language and some sexuality"
"Rated R for crude sexual content, nudity, language and some drug material"
"Rated R for pervasive nudity, sex-related humor and language"
"Rated R for sexual content, nudity, some disturbing violent images and language"
"Rated R for strong bloody horror violence, sexual content, nudity and language (cut)"
"Rated R for language, some drug use and brief nudity"


In [22]:
%%sql
SELECT ms.id AS movie_id, ms.title, i.info, 
split_part(i.info, ' ', 2) AS mpaa_rating   
FROM movie_sample AS ms,
movie_info_sample AS i
WHERE ms.id = i.movie_id
AND i.info_type_id = {{mpaa_rating_id}}
ORDER BY RANDOM()
LIMIT 10

movie_id,title,info,mpaa_rating
1813944,Deep Core,"Rated PG-13 for action violence, language and brief sexuality",PG-13
2145232,Narc,"Rated R for strong brutal violence, drug content and pervasive language",R
1801776,Dance with Me,Rated PG for mild language and sensuality,PG
1762021,Case 39,Rated R for violence and terror including disturbing images,R
2331326,Tales from the Crypt: Demon Knight,"Rated R for gore, horror violence, sexuality and language",R
2426696,The Whole Ten Yards,"Rated PG-13 for sexual content, some violence and language",PG-13
1909713,Galgameth,Rated PG for medieval adventure violence and language,PG
1767087,Changeling,"Rated R for some violent and disturbing content, and language",R
1961765,How to Lose Friends & Alienate People,"Rated R for language, some graphic nudity and brief drug material",R
1972616,If I Die Before I Wake,"Rated R for strong, brutal violence including rape, unrelenting terror and strong language",R


In [23]:
%%sql result_2c <<
DROP VIEW IF EXISTS movie_ratings;
CREATE VIEW movie_ratings AS (
    SELECT 
        ms.id AS movie_id, ms.title, i.info, 
        split_part(i.info, ' ', 2) AS mpaa_rating   
    FROM movie_sample AS ms,
        movie_info_sample AS i
    WHERE ms.id = i.movie_id
    AND i.info_type_id = {{mpaa_rating_id}})

<br/><br/><br/>

<hr style="border: 1px solid #fdb515;" />

# Question 3: Faturamento

Uma medida de sucesso do filme é o seu faturamento. Se nós olharmos para a tabela `info_table`, nós temos informação sobre o faturamento bruto de um filme e o custo. Seria importante saber quanto de dinheiro um filme faturou usando a fórmula de lucro (profit):

$$profit = earnings - moneyspent$$

Vamos começar olhando para a informação sobre o faturamento bruto, com `info_type_id = 107`

In [24]:
%%sql
SELECT *
FROM movie_info_sample
WHERE info_type_id = 107
ORDER BY id
LIMIT 10 OFFSET 100000;

id,movie_id,info_type_id,info
1464348,2281091,107,"INR 23,373,000 (India) (25 February 2005)"
1464349,2281091,107,"INR 19,207,000 (India) (18 February 2005)"
1464374,1766950,107,"HKD 826,364 (Hong Kong) (11 December 1975)"
1464375,1769023,107,"HKD 3,148,549 (Hong Kong) (19 November 1980)"
1464378,1799099,107,"HKD 6,493,694 (Hong Kong) (22 December 1981)"
1464383,1847670,107,"$21,438 (USA) (9 August 2009)"
1464384,1847670,107,"$10,266 (USA) (2 August 2009)"
1464396,1916002,107,"$5,932 (USA) (27 November 2005)"
1464397,1916002,107,"$4,206 (USA) (20 November 2005)"
1464398,1916002,107,"$2,939 (USA) (23 October 2005)"


Tem muitas coisas para observarmos aqui. A primeira de todas é que os valores no atributo `info` são strings e não apenas o faturamento, mas também o país e o mês de faturamento acumulado até então. Adicionalmente, os valores de info não estão na mesma moeda. Além disso, parece que um pouco do faturamento bruto, mesmo para aqueles em USD são de vendas ao redor do mundo, enquanto outros contam apenas as vendas nos Estados Unidos.

Por consistência, vamos usar apenas filmes com faturamento bruto contado dentro dos Estados Unidos que estão em USD.

<br><br>

---

## Questião 3a: Faturamento

Nós queremos a parte numérica da coluna `info` e o **maximum earnings value** para um filme particular.

Na célula seguinte:
- Construir uma view chamada `movie_gross` contendo uma linha para cada filme, com os atributos `(gross, movie_id, title)`, onde `gross` é o valor numérico extraído como float. Some os valores nos casos em que um mesmo filme tenha mais de um `gross` value.
- Para olhar para nossos dados limpos, escreva uma query `SELECT` para mostrar os primeiros resultados dos 10 filmes que mais faturaram, por `movie_gross`.

**Dicas:**
- A maneira de extrair o MPAA é muito similar com a maneira que queremos isolar o valor numérico da string. (Há várias maneiras de fazer isso.)
- Olhe a [documentação](https://www.postgresql.org/docs/9.4/functions-matching.html) para a função `regexp_replace`, especificamente a 'flag g'.

In [25]:
%%sql
SELECT * from info_type
WHERE id = 107
LIMIT 10

id,info
107,gross


In [26]:
%%sql
SELECT movie_id, info
FROM movie_info_sample
WHERE info_type_id = 107
-- AND info LIKE '%(USA)%' 
AND info LIKE '%£915,565%'

movie_id,info
1782657,"£915,565 (USA) (27 September 1994)"


In [27]:
%%sql
SELECT movie_id, info, 
CAST(split_part(regexp_replace(info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER)AS gross,
LENGTH(info) AS tamanho
FROM movie_info_sample
WHERE info_type_id = 107
AND info LIKE '%(USA)%'
AND info LIKE '%$%' 
ORDER BY tamanho DESC
LIMIT 10 

movie_id,info,gross,tamanho
1890968,"$36,444,806 (USA) (30 September 2012) (3D re-release)",36444806,53
1890968,"$30,175,449 (USA) (23 September 2012) (3D re-release)",30175449,53
1890968,"$380,716,174 (USA) (29 December 2012) (3D re-release)",380716174,53
1890968,"$16,687,773 (USA) (16 September 2012) (3D re-release)",16687773,53
1890968,"$380,561,674 (USA) (9 December 2012) (3D re-release)",380561674,52
1890968,"$380,464,887 (USA) (2 December 2012) (3D re-release)",380464887,52
1890968,"$40,646,083 (USA) (23 November 2012) (3D re-release)",40646083,52
1890968,"$40,930,670 (USA) (16 December 2012) (3D re-release)",40930670,52
1890968,"$40,496,219 (USA) (28 October 2012) (3D re-release)",40496219,51
1890968,"$41,123,892 (USA) (13 January 2013) (3D re-release)",41123892,51


In [31]:
%%sql result_3a <<

DROP VIEW IF EXISTS movie_gross CASCADE;
CREATE VIEW movie_gross AS (
    SELECT movie_id, 
    CAST(split_part(regexp_replace(info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER) AS gross
    FROM movie_info_sample
    WHERE info_type_id = 107
    AND info LIKE '%(USA)%'
    AND info LIKE '%$%'
    -- GROUP BY movie_id
)

In [32]:
%%sql
SELECT * FROM movie_gross
ORDER BY gross DESC
LIMIT 10

movie_id,gross
1704289,760507625
1704289,760505847
1704289,760462559
1704289,760410799
1704289,760375018
1704289,760339004
1704289,760307594
1704289,760277873
1704289,760237551
1704289,760083041


<br/>

---

## Tutorial: Budget
Nós vamos olhar agora para o tipo budget, com `info_type_id = 105`

In [33]:
%%sql
SELECT *
FROM movie_info_sample
WHERE info_type_id = 105
ORDER BY id
LIMIT 10 OFFSET 5000;

id,movie_id,info_type_id,info
1261074,1983149,105,"$75,000,000"
1261110,1983269,105,"INR 180,000,000"
1261160,2381188,105,"$40,000,000"
1261170,1991083,105,"FIM 9,219,499"
1261210,1993907,105,"$45,000,000"
1261247,1995787,105,"$38,000,000"
1261308,1999081,105,"$50,000,000"
1261324,1999196,105,"SEK 40,000,000"
1261375,2001114,105,"$60,000,000"
1261396,2001989,105,"$13,000,000"


De maneira similar com o que foi feito para obter a informação do faturamento, nós observamos faturamento em diferentes moedas. Vamos usar apenas os filmes com budget em USD.

## Questão 3b:

Agora, nós queremos algo semelhante para o budget do filme, de maneira que seja possível fazer uma operação com `gross` e `budget`. Nós queremos a parte numérica da coluna `info` e o valor **maximum budget value** para um filme particular (como você pode observar, alguns filmes têm mais de um budget).

Na próxima célula,
- Construir uma view chamada `movie_budget` contendo uma linha para cada filme, com os atributos `(budget, movie_id, title)`, onde `budget` é a quantidade numérica em dollars extraído como float.
- Para olhar os dados limpos, escreva uma query `SELECT` para mostrar **os 10 filmes com maior budget**. Quando dois filmes tiverem o mesmo budget, use o `movie_id` para ordenar (de maneira crescente).

**Dica:** a query deve ser bem semelhante a da Questão 3a.

**Dica:** explore os registos para ver se encontra algum padrão.

In [34]:
%%sql
SELECT *
FROM movie_info_sample
WHERE info_type_id = 105
AND info LIKE '%$%' 
ORDER BY RANDOM()
LIMIT 10;

id,movie_id,info_type_id,info
1722658,2500562,105,$250
1604293,2314528,105,"$27,000"
1685761,1639357,105,"$600,000"
1650546,2007604,105,"$60,000"
1381361,2140003,105,"$30,000"
1305614,1662710,105,"$6,500,000"
1480888,2110705,105,"$300,000"
1663998,1740924,105,"$50,000"
1718087,1660261,105,"$20,000"
1623893,1864731,105,"$5,000"


In [35]:
%sql select * from movie_sample LIMIT 2

id,title,production_year
2038405,La corte de faraón,1944
2081186,Long de xin,1985


In [36]:
%%sql 
SELECT mis.movie_id, m.title,
MAX(CAST(split_part(regexp_replace(mis.info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER)) AS budget
FROM movie_info_sample AS mis,
movie_sample AS m
WHERE mis.info_type_id = 105
AND mis.info LIKE '%$%'
AND mis.movie_id = m.id
GROUP BY mis.movie_id, m.title


movie_id,title,budget
1632850,#1,5000
1632851,#1,250
1632866,#54 Meets #47,10000
1632878,#Filmisinco,5000
1632883,#OMGIMTRENDING,6500
1632893,#Vengeance Is Mine,1400
1632897,#Yolo,300
1632900,$#!+ Happens,500
1632905,$1.11,11000
1632938,$6 Man,100000


In [37]:
%%sql result_3b <<

DROP VIEW IF EXISTS movie_budget;
CREATE VIEW movie_budget AS (
    SELECT mis.movie_id, m.title,
        MAX(CAST(split_part(regexp_replace(mis.info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER)) AS budget
    FROM movie_info_sample AS mis,
        movie_sample AS m
    WHERE mis.info_type_id = 105
    AND mis.info LIKE '%$%'
    AND mis.movie_id = m.id
GROUP BY mis.movie_id, m.title
)

In [38]:
%%sql
SELECT * FROM movie_budget
ORDER BY budget DESC, movie_id
LIMIT 10

movie_id,title,budget
2204343,Pirates of the Caribbean: At World's End,300000000
2332419,Tangled,260000000
2305993,Spider-Man 3,258000000
1938937,Harry Potter and the Half-Blood Prince,250000000
2002374,John Carter,250000000
2204347,Pirates of the Caribbean: On Stranger Tides,250000000
2360588,The Dark Knight Rises,250000000
2387922,The Lone Ranger,250000000
1704289,Avatar,237000000
2344435,The Amazing Spider-Man,230000000


In [39]:
%%sql
SELECT * FROM movie_budget
ORDER BY budget DESC, movie_id
LIMIT 10

movie_id,title,budget
2204343,Pirates of the Caribbean: At World's End,300000000
2332419,Tangled,260000000
2305993,Spider-Man 3,258000000
1938937,Harry Potter and the Half-Blood Prince,250000000
2002374,John Carter,250000000
2204347,Pirates of the Caribbean: On Stranger Tides,250000000
2360588,The Dark Knight Rises,250000000
2387922,The Lone Ranger,250000000
1704289,Avatar,237000000
2344435,The Amazing Spider-Man,230000000


---

## Questão 3c

Nós temos todas as partes necessárias para calcular o lucro. Usando as views `movie_gross` e `movie_budget`, nós podemos subtrair as colunas numéricas e salvar o resultado em outra coluna chamada `profit`.

Na próxima célula, construa uma view chamada `movie_profit` contendo uma linha para cada filme, que tem `(movie_id, title, profit)`, onde `profit` é o resultado da subtração do `budget` do `gross`. Seguindo a definição de view, escreva uma query `SELECT` para retornar as **primeiras 10 linhas** da view ordenada de maneira decrescente por `profit`. Esta query poderá ser mais lenta que o normal.

In [40]:
%%sql
SELECT * FROM movie_gross
LIMIT 3

movie_id,gross
2256842,1000000
2091833,27842
2091833,26648


In [41]:
%%sql
SELECT * FROM movie_budget
LIMIT 3

movie_id,title,budget
1632850,#1,5000
1632851,#1,250
1632866,#54 Meets #47,10000


In [42]:
%%sql result_3c <<

DROP VIEW IF EXISTS movie_profit;
CREATE VIEW movie_profit AS (
    SELECT b.movie_id, b.title,
    g.gross - b.budget AS profit
    FROM movie_budget AS b,
        movie_gross AS g
    WHERE b.movie_id = g.movie_id
)

In [43]:
%%sql
SELECT * FROM movie_profit
LIMIT 10


movie_id,title,profit
1633618,'Til There Was You,-6521630
1633618,'Til There Was You,-6655864
1633618,'Til There Was You,-6976384
1633618,'Til There Was You,-7596910
1633618,'Til There Was You,-8684555
1633729,(500) Days of Summer,24891374
1633729,(500) Days of Summer,24874303
1633729,(500) Days of Summer,24843342
1633729,(500) Days of Summer,24752887
1633729,(500) Days of Summer,24703940


In [44]:
%%sql
SELECT * FROM movie_profit
WHERE movie_id = 1635380

movie_id,title,profit
1635380,102 Dalmatians,-18058441
1635380,102 Dalmatians,-18096341
1635380,102 Dalmatians,-18177382
1635380,102 Dalmatians,-18337269
1635380,102 Dalmatians,-18549481
1635380,102 Dalmatians,-18890079
1635380,102 Dalmatians,-19222439
1635380,102 Dalmatians,-19593788
1635380,102 Dalmatians,-20045339
1635380,102 Dalmatians,-20628825


In [45]:
%%sql
SELECT * FROM movie_profit
LIMIT 10


movie_id,title,profit
1633618,'Til There Was You,-6521630
1633618,'Til There Was You,-6655864
1633618,'Til There Was You,-6976384
1633618,'Til There Was You,-7596910
1633618,'Til There Was You,-8684555
1633729,(500) Days of Summer,24891374
1633729,(500) Days of Summer,24874303
1633729,(500) Days of Summer,24843342
1633729,(500) Days of Summer,24752887
1633729,(500) Days of Summer,24703940


---

## Questão 3d

Nós analisamos os dados, mas algumas coisas parecem estranhas. Olhando de maneira mais atenta, vamos observar valores negativos para `profit`. Por exemplo, o filme `102 Dalmations` parece ter perdido cerca de $18M, mas foi um filme de sucesso. O que pode ter acontecido? Pense em como nós construímos os nossos dados e responda abaixo.



_Digite a sua resposta aqui._

Se tiver encontrado algum problema nos seus dados, refaça as views de maneira a corrigi-los.

In [46]:
%%sql
DROP VIEW IF EXISTS movie_profit;
DROP VIEW IF EXISTS movie_budget;
DROP VIEW IF EXISTS movie_gross;


In [47]:
%%sql result_3a <<

DROP VIEW IF EXISTS movie_gross;
CREATE VIEW movie_gross AS (
    SELECT movie_id, 
        SUM(CAST(split_part(regexp_replace(info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER)) AS gross
    FROM movie_info_sample
    WHERE info_type_id = 107
    AND info LIKE '%(USA)%'
    AND info LIKE '%$%'
    GROUP BY movie_id
)

In [48]:
%%sql result_3b <<

DROP VIEW IF EXISTS movie_budget;
CREATE VIEW movie_budget AS (
    SELECT mis.movie_id, m.title,
        MAX(CAST(split_part(regexp_replace(mis.info, '[A-Z$\(\),]', '', 'g'), ' ', 1) AS INTEGER)) AS budget
    FROM movie_info_sample AS mis,
        movie_sample AS m
    WHERE mis.info_type_id = 105
    AND mis.info LIKE '%$%'
    AND mis.movie_id = m.id
GROUP BY mis.movie_id, m.title
)

In [49]:
%%sql result_3c <<

DROP VIEW IF EXISTS movie_profit;
CREATE VIEW movie_profit AS (
    SELECT b.movie_id, b.title,
    g.gross - b.budget AS profit
    FROM movie_budget AS b,
        movie_gross AS g
    WHERE b.movie_id = g.movie_id
)

In [50]:
%%sql
SELECT * FROM movie_profit
WHERE movie_id = 1635380

movie_id,title,profit
1635380,102 Dalmatians,1222339018


In [51]:
%%sql
SELECT * FROM movie_profit
ORDER BY profit DESC
LIMIT 10


movie_id,title,profit
1704289,Avatar,31665136559
2006991,Jurassic Park,19663296342
2438179,Titanic,19642776779
2360583,The Dark Knight,16381500264
2310575,Star Wars: Episode II - Attack of the Clones,14660695008
2127674,"Monsters, Inc.",13973895372
2310582,Star Wars: Episode VI - Return of the Jedi,13265025831
2346436,The Avengers,12964755721
1851357,E.T. the Extra-Terrestrial,12641721281
2310573,Star Wars: Episode I - The Phantom Menace,12515887675


<hr style="border: 1px solid #fdb515;" />

# Questão 4: Usando os dados limpos

Agora que nós aprendemos como limpar nossos valores financeiros do atributo `info` de `movie_info_sample`, vamos olhar de maneira mais atenta para os dados gerados.

---

## Questão 4a: Faturamento por Género

Outra `info_type` que nós podemos olhar é o genero do filme. Observando os valores de `movie_gross`, quanto cada *genre* faturou em média nos Estados Unidos?

- Crie uma view com as colunas `movie_id`, `title`, `gross`, `genre`, e `average_genre` onde `gross` é o faturamento bruto nos estados unidos, `genre` é o género do filme, e `average_genre` é o faturamento médio para o género correspondente. Se um filme tiver mais de um género, o filme deve aparecer em múltiplas linhas, com cada género em uma linha.
- Seguindo a definição da view, escreva uma query `SELECT` para retornar as linhas para o filme "Mr. & Mrs. Smith" ordenado pelo género em ordem alfabética.

**Dica:** Olhe as [window functions](https://www.postgresql.org/docs/9.1/tutorial-window.html)

In [52]:
%sql select * from movie_profit limit 2

movie_id,title,profit
1633618,'Til There Was You,3564657
1633729,(500) Days of Summer,405459792


In [53]:
%sql select * from movie_gross limit 2

movie_id,gross
34050,30000000
74660,4954852


In [54]:
%sql select * from info_type limit 3

id,info
1,runtimes
2,color info
3,genres


In [55]:
%%sql
SELECT movie_id, info
FROM movie_info_sample
WHERE info_type_id = 3
-- seleciona movie_id, genero;

movie_id,info
2021,Documentary
1850,Talk-Show
5006,Comedy
5006,History
5006,War
5331,Horror
5331,Mystery
6845,News
12318,Comedy
13231,Comedy


In [56]:
%%sql
SELECT m.title, i.movie_id, g.gross, i.info AS genre 
FROM movie_gross as g,
    movie_info_sample AS i,
    movie_sample AS m
WHERE i.info_type_id = 3
AND g.movie_id = m.id
AND m.id = i.movie_id
-- seleciona as informações pedidas na questão;


title,movie_id,gross,genre
A Christmas Story,1645902,113697797,Comedy
A Christmas Story,1645902,113697797,Family
About Last Night...,1663139,561828127,Comedy
About Last Night...,1663139,561828127,Drama
About Last Night...,1663139,561828127,Romance
Air Force One,1670662,4397958794,Action
Air Force One,1670662,4397958794,Adventure
Air Force One,1670662,4397958794,Drama
Air Force One,1670662,4397958794,Thriller
Akmareul boatda,1671691,668349,Crime


In [57]:
%%sql
SELECT m.title, i.movie_id, g.gross, i.info AS genre,
CAST(AVG(g.gross) OVER (PARTITION by i.info) AS DOUBLE PRECISION) AS average_genre
FROM movie_gross as g,
    movie_info_sample AS i,
    movie_sample AS m
WHERE i.info_type_id = 3
AND g.movie_id = m.id
AND m.id = i.movie_id
-- adiciona o cálculo da média usando window function;

title,movie_id,gross,genre,average_genre
Point Break,2208572,43218387,Action,567531350.017868
The Hunger Games,2379293,8741123442,Action,567531350.017868
Alex Cross,1673578,205980424,Action,567531350.017868
Prince of Persia: The Sands of Time,2217539,1506476800,Action,567531350.017868
The Hard Word,2376413,1930190,Action,567531350.017868
The Enforcer,2365785,46200000,Action,567531350.017868
The Green Hornet,2375303,459790264,Action,567531350.017868
Seraphim Falls,2274084,2442138,Action,567531350.017868
The Helix... Loaded,2377195,7400,Action,567531350.017868
De zaak Alzheimer,1810701,2612565,Action,567531350.017868


In [60]:
%%sql result_4a <<

DROP VIEW IF EXISTS movie_avg_genre;
CREATE VIEW movie_avg_genre AS (
    SELECT m.title, i.movie_id, g.gross, i.info AS genre,
           CAST(AVG(g.gross) OVER (PARTITION by i.info) AS DOUBLE PRECISION) AS average_genre
    FROM movie_gross as g,
        movie_info_sample AS i,
        movie_sample AS m
    WHERE i.info_type_id = 3
        AND g.movie_id = m.id
        AND m.id = i.movie_id
);

In [None]:
Seguindo a definição da view, escreva uma query `SELECT` para retornar as linhas para o filme "Mr. & Mrs. Smith" ordenado pelo género em ordem alfabética.

In [61]:
%%sql 
SELECT * FROM movie_avg_genre
WHERE title LIKE '%Mr. & Mrs. Smith%'
ORDER BY genre

title,movie_id,gross,genre,average_genre
Mr. & Mrs. Smith,2132092,4618236842,Action,567531350.017868
Mr. & Mrs. Smith,2132092,4618236842,Comedy,238906085.236305
Mr. & Mrs. Smith,2132092,4618236842,Romance,200985116.485736


---

## Questão 4b: Analisando o faturamento bruto

Nós podemos olhar os dados usando um boxplot.
Fizemos muito trabalho para transformar o faturamento bruto de strings no atributo `info` para um valor numérico. Graças ao nosso trabalho, nós podemos examinar os dados de maneira mais profunda e entender a sua distribuição. Para fazer isso, nós primeiro precisamos gerar um [five-number summary](https://en.wikipedia.org/wiki/Five-number_summary) e encontrar a média do faturamento grosso nos dados.

- Criar uma view chamada `earnings_summary`, que consiste de uma linha com o resumo das informações da tabela `movie_gross`, com os valores `min`, `_25th_percentile`, `median`, `_75th_percentile`, `max` e `average`.
- Usando a definição da view, escreva uma query `SELECT` para mostrar os resultados.

**Dica:** Olhe as [aggregate functions](https://www.postgresql.org/docs/9.4/functions-aggregate.html).


In [62]:
%sql select * from movie_gross;

movie_id,gross
34050,30000000
74660,4954852
74666,1438024
74668,2668
74671,1214266
75149,14546
75160,8533071
75210,751555
206631,1407258
334542,5801468


In [63]:
%%sql
SELECT
MIN(gross) AS min,
PERCENTILE_DISC(0.25) WITHIN GROUP (ORDER BY gross) AS _25th_percentile,
PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY gross) AS median,
PERCENTILE_DISC(0.75) WITHIN GROUP (ORDER BY gross) AS _75th_percentile,
MAX(gross),
AVG(gross)
FROM  movie_gross


min,_25th_percentile,median,_75th_percentile,max,avg
50,432453,6700000,67400000,31902136559,233218586.44583297


In [64]:
%%sql result_4b <<

DROP VIEW IF EXISTS earnings_summary;
CREATE VIEW earnings_summary AS (
    SELECT
        MIN(gross) AS min,
        PERCENTILE_DISC(0.25) WITHIN GROUP (ORDER BY gross) AS _25th_percentile,
        PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY gross) AS median,
        PERCENTILE_DISC(0.75) WITHIN GROUP (ORDER BY gross) AS _75th_percentile,
        MAX(gross),
        AVG(gross)
    FROM  movie_gross
)

In [65]:
%sql SELECT * FROM earnings_summary

min,_25th_percentile,median,_75th_percentile,max,avg
50,432453,6700000,67400000,31902136559,233218586.44583297


---

## Questão 4c

O que você nota nos valores gerados em `earnings_summary`? Pode optar por criar um boxplot ou outros gráficos que possam te ajudar na análise. Identifique as propriedads (pense relativamente em moda, skew, espalhamento, etc.).


_Escreva a sua resposta aqui_

# opcional: inclua seus plots aqui

<hr style="border: 1px solid #fdb515;" />

# Questão 5: Joins

Joins são ferramentas poderosas na limpeza e análise de base de dados. Permitem que o utilizador crie tabelas úteis e juntem informações de uma maneira com significado.

Há vários tipso de joins: inner, outer, left, right, etc. Vamos praticar estes joins neste cenário.

Agora você vai trabalhar como um diretor de talento e precisa de uma lista de todas as pessoas que estiveram no papel de `actor` e o número de filmes em que cada um atuou.

- Criar uma view chamada `number_movies`, com as colunas `id`, `name`, `number`, onde `id` é o id do ator, `name` é o nome do ator e `number` é o número de filmes que a pessoa atuou.
- Seguindo a sua view, escreva uma query `SELECT` para mostrar os **10 top atores** que tiveram na maior parte dos filmes.

**Note:** `cast_sample` pode incluir atores que não estão em `actor_sample`. O campo `name` pode ser NULL.

In [66]:
%%sql 
SELECT * FROM movie_sample LIMIT 1

id,title,production_year
2038405,La corte de faraón,1944


In [67]:
%%sql 
SELECT * FROM actor_sample LIMIT 1

id,name,gender
2591445,"Taylor, Joan",f


In [68]:
%%sql 
SELECT * FROM cast_sample LIMIT 1

id,person_id,movie_id,role_id
708,235,2345369,1


In [69]:
%%sql 
SELECT DISTINCT role_id FROM cast_sample

role_id
1
2


In [70]:
%%sql 
SELECT * FROM role_type

id,role
1,actor
2,actress
3,producer
4,writer
5,cinematographer
6,composer
7,costume designer
8,director
9,editor
10,miscellaneous crew


In [71]:
%%sql
SELECT a.id, a.name, COUNT(c.movie_id) AS number
FROM actor_sample AS a
LEFT JOIN cast_sample AS c
ON a.id = c.person_id
WHERE c.role_id = 1
GROUP BY 1, 2

id,name,number
16,"'Bear'Boyd, Steven",1
19,"'Buguelo' Neto, Alderico",4
21,"'Cartucho' Pena, Ramon",1
23,"'Chincheta', Eloy",1
25,"'Cuba', Luis",1
26,"'da Handyman' Kretschmann, Jerry",1
27,"'Dead End' Kids, The",2
30,"'El de Chipiona', Antonio",1
31,"'El Francés', José",33
32,"'El Galgo PornoStar', Blanquito",1


In [72]:
%%sql result_5 <<

DROP VIEW IF EXISTS number_movies;
CREATE VIEW number_movies AS (
    SELECT a.id, a.name, COUNT(c.movie_id) AS number
    FROM actor_sample AS a
        LEFT JOIN cast_sample AS c
            ON a.id = c.person_id
    WHERE c.role_id = 1
    GROUP BY 1, 2
);

In [73]:
%sql SELECT * FROM number_movies ORDER BY number DESC LIMIT 10

id,name,number
95397,"Barker, Bob",6853
515315,"Freeman, Morgan",5938
677696,"Hinnant, Skip",4697
1573853,"Trebek, Alex",4690
1362169,"Sajak, Pat",3937
1417394,"Shaffer, Paul",3546
911160,"Lima, Pedro",2911
900749,"Letterman, David",2895
487253,"Filipe, Guilherme",2861
356575,"Davidson, Doug",2760


## Parabéns! Você concluiu o primeiro projeto!

Para submeter o arquivo, exporte este notebook como pdf e ipynb e faça a submissão de um arquivo zip com os dois arquivos gerados no moodle.