# Setup
Vamos trabalhar com outra base de dados para reforçar alguns conceitos.

Primeiro, configuramos o nosso ambiente:
1. Criamos o container
   
```docker-compose -f postgres-docker-compose.yaml up ```

2. Carregamos a base de dados
    - Entre no terminal do container:

        - ```docker exec -it database bash```

    - Apaga a antiga base de dados de outras sessões:

        - ```psql -U postgres -h localhost -c 'DROP DATABASE IF EXISTS stops_lecture'```
          
    - Cria a base de dados
      
        - ```psql -U postgres -h localhost -c 'CREATE DATABASE stops_lecture' ```
          
    - Importa os dados:
      
        - ```psql -U postgres -h localhost -d stops_lecture -f data/stops_lecture.sql```

Vamos conectar à base de dados com a mágica sql.



In [1]:
%load_ext sql



In [3]:
%sql postgresql://postgres:postgres@127.0.0.1:5432/stops_lecture

# Subqueries e Aggregations

subquery: query entre parenteses

(subquery) UNION ALL (subquery)

(subquery) EXCEPT ALL (subquery)

(subquery) INTERSECT ALL (subquery)

____
(subquery) UNION (subquery)

(subquery) EXCEPT (subquery)

(subquery) INTERSECT (subquery)
____

Exemplo imdb:
Encontrar membros de Crew que não estejam em People
```
(SELECT person_id FROM Crew) EXCEPT ALL (SELECT person_id FROM people)
```

### Jupysql


In [4]:
%sql SELECT * FROM Zips LIMIT 10;

zip_id,location,zipcode
0,,94546
1,Chabot Park,94546
2,Panoramic Hill,94563
3,,94577
4,North Stonehurst,94577
5,Arrowhead Marsh,94601
6,Bartlett,94601
7,Coliseum Industrial,94601
8,Fairfax,94601
9,Fairfax Business-Wentworth-Holland,94601


In [5]:
%%sql
SELECT *
FROM Zips
LIMIT 10;

zip_id,location,zipcode
0,,94546
1,Chabot Park,94546
2,Panoramic Hill,94563
3,,94577
4,North Stonehurst,94577
5,Arrowhead Marsh,94601
6,Bartlett,94601
7,Coliseum Industrial,94601
8,Fairfax,94601
9,Fairfax Business-Wentworth-Holland,94601


In [6]:
%%sql result <<
SELECT *
FROM Stops
LIMIT 10;

In [7]:
result

id,race,sex,age,arrest,citation,warning,search,location
28090,other,male,,False,True,False,False,Airport Drive
32135,asian/pacific islander,male,,False,True,False,False,Airport Drive
32136,black,male,,False,True,False,False,Airport Drive
36822,asian/pacific islander,female,,False,True,False,False,Airport Drive
79532,other,female,,False,False,False,True,Airport Drive
79632,black,male,,True,False,False,True,Airport Drive
103795,black,male,,True,False,False,True,Airport Drive
118959,asian/pacific islander,male,43.0,False,True,False,False,Airport Drive
28166,black,female,,False,True,False,False,San Leandro
28569,white,male,,False,True,False,False,San Leandro


In [8]:
%%sql
SELECT *
FROM Stops
ORDER BY RANDOM()
LIMIT 10;

id,race,sex,age,arrest,citation,warning,search,location
71122,black,female,,False,True,False,False,Seminary Park
7590,hispanic,male,,False,True,False,False,Brookfield Village
54852,black,male,,False,True,False,False,North Oakland
116837,hispanic,female,26.0,False,True,False,False,Downtown Oakland
61859,black,male,,False,False,False,True,San Antonio
48242,black,female,,False,True,False,False,Downtown Oakland
20248,hispanic,male,,False,False,True,False,East Oakland
58249,hispanic,male,,False,True,False,False,East Oakland
94830,black,female,,False,True,False,False,East Oakland
128115,black,male,35.0,False,False,True,False,Seminary Park


## Tables, Views, CTES

Às vezes eu quero guardar os resultados da query para usar em outras queries.

1. Criar uma nova tabela
   ```
   CREATE TABLE CitationStops AS (
   SELECT race, citation
   FROM Stops
   WHERE citation = True
   )
   ```

- Funciona como uma tabela regular
- Se a tabela base for alterada, esta tabela não será atualizada

2. Criar uma virtual view, ou seja uma view
   ```
   CREATE VIEW CitationStops AS (
   SELECT race, citation
   FROM Stops
   WHERE citation = True)
   ```
-  Resultado não fica armazenado
-  Podemos fazer queries como em tabelas comuns
-  Uso: segurança - definição de acessos

  
3. Criar uma inlined view CTE (Common Table Expression)

```
WITH CitationStops AS (
    SELECT race, citation
    FROM Stops
    WHERE citation = True
)
SELECT * FROM CitationStops
```
- Muito parecidas com as views.
- CTEs são calculadas sob pedido
- CTEs não são indexadas

4. Criar uma materialized view

```
CREATE MATERIALIZED VIEW
CitationStops AS (
SELECT race, citation
FROM Stops
WHERE citation = True
);
```
- Saída armazenada
- Atualizável
- Em algumas base de dados precisa de refresh


No terminal do postgresSQL podemos usar o metacomando `\d`

`\d` para views e tabelas

`\dv` para views

`\dt` para tabelas

## Exercicio \#1
Como encontramos as paradas que aconteceram na mesma localidade que a stop com ID 123?

Estratégias:

A. SFW (Select-From-Where), self-join de Stops que tem a mesma location com ID 123

B. CTE (WITH ... AS) que primeiro obtem a location da stop com ID 123 e então faz o join com Stops

C. Outra coisa


In [22]:
%%sql
SELECT *
FROM Stops
WHERE id = 123;

id,race,sex,age,arrest,citation,warning,search,location
123,hispanic,female,,False,False,False,False,Bancroft Avenue


A. SFW (Select-From-Where), self-join de Stops que tem a mesma location com ID 123

In [9]:
%%sql
SELECT S1.id, S1.race,
       S1.location
FROM Stops as S1,   -- the "other stops"
     Stops as S2    -- the "stop that refers to ID 123"
WHERE S1.location = S2.location -- the "other stops" must match the ID 123 location
     AND S2.id = 123;

id,race,location
2720,white,Bancroft Avenue
3097,black,Bancroft Avenue
4715,hispanic,Bancroft Avenue
12159,black,Bancroft Avenue
80360,hispanic,Bancroft Avenue
123,hispanic,Bancroft Avenue
603,black,Bancroft Avenue
928,black,Bancroft Avenue
2857,black,Bancroft Avenue
2914,hispanic,Bancroft Avenue


CTE (WITH ... AS) que primeiro obtem a location da stop com ID 123 e então faz o join com Stops:

In [9]:
%%sql
WITH Location123 AS (
    SELECT location
    FROM Stops
    WHERE id = 123
)
SELECT S.id, S.race,
       S.location
FROM Stops as S,
    Location123
WHERE S.location = Location123.location;

id,race,location
2720,white,Bancroft Avenue
3097,black,Bancroft Avenue
4715,hispanic,Bancroft Avenue
12159,black,Bancroft Avenue
80360,hispanic,Bancroft Avenue
123,hispanic,Bancroft Avenue
603,black,Bancroft Avenue
928,black,Bancroft Avenue
2857,black,Bancroft Avenue
2914,hispanic,Bancroft Avenue


<br/>

Alternativa \#3:

In [10]:
%%sql
SELECT S1.id, S1.race, S1.location
FROM Stops S1
WHERE S1.location = (
         SELECT S2.location
         FROM Stops
         S2 WHERE S2.id = 123);

id,race,location
2720,white,Bancroft Avenue
3097,black,Bancroft Avenue
4715,hispanic,Bancroft Avenue
12159,black,Bancroft Avenue
80360,hispanic,Bancroft Avenue
123,hispanic,Bancroft Avenue
603,black,Bancroft Avenue
928,black,Bancroft Avenue
2857,black,Bancroft Avenue
2914,hispanic,Bancroft Avenue


## Usando Subqueries

Subqueries são queries que aparecem dentro de outra query. Também são chamadas de sub-SELECTS ou SELECTS aninhados

São 3 usos comuns:

1. Escalar: se a subquery retornar uma única tuplas com um único atributo, pode ser tratada como uma expressão escalar


In [11]:
%%sql
SELECT S1.id, S1.race, S1.location
FROM Stops S1
WHERE S1.location = (
    SELECT S2.location
    FROM Stops
    S2 WHERE S2.id = 123)

id,race,location
2720,white,Bancroft Avenue
3097,black,Bancroft Avenue
4715,hispanic,Bancroft Avenue
12159,black,Bancroft Avenue
80360,hispanic,Bancroft Avenue
123,hispanic,Bancroft Avenue
603,black,Bancroft Avenue
928,black,Bancroft Avenue
2857,black,Bancroft Avenue
2914,hispanic,Bancroft Avenue


## Usando Subqueries

Subqueries são queries que aparecem dentro de outra query. Também são chamadas de sub-SELECTS ou SELECTS aninhados

São 3 usos comuns:

1. Escalar: se a subquery retornar uma única tuplas com um único atributo, pode ser tratada como uma expressão escalar
2. EXITS subquery: verifica se uma query não é vazia usando o comando `EXISTS`
* EXISTS <relation>
  true se <relation> não for vazia
  - Oposto: NOT EXISTS
  - Usado na cláusula WHERE
  - Cuidado: melhor renomear as relações para não se confundirem

In [12]:
%%sql
SELECT DISTINCT Stops.location FROM Stops
WHERE NOT EXISTS (
  SELECT * FROM Zips
  WHERE Zips.location =
          Stops.location);

location
""
Thornhill Drive
Pendleton Way
Thermal Street
Harrison/Oakland
B Street
Highland Hospital
Weld Street
Royal Kitchen
Havenscourt Middle School


In [None]:
%%sql
SELECT DISTINCT Stops.location FROM Stops
WHERE NOT EXISTS (
  SELECT * FROM Zips
  WHERE Zips.location =
          Stops.location);

Como determinar todas as Stops que são as únicas no seu zipcode?

In [None]:
%%sql
WITH StopZips AS (
    SELECT * FROM Stops NATURAL JOIN Zips
)
SELECT *
FROM StopZips SZ1
WHERE NOT EXISTS (
    ...
);

In [13]:
%sql SELECT * from Stops LIMIT 2

id,race,sex,age,arrest,citation,warning,search,location
28090,other,male,,False,True,False,False,Airport Drive
32135,asian/pacific islander,male,,False,True,False,False,Airport Drive


In [15]:
%sql SELECT * from Zips LIMIT 2

zip_id,location,zipcode
0,,94546
1,Chabot Park,94546


In [14]:
%%sql
SELECT * FROM Stops NATURAL JOIN Zips LIMIT 2

location,id,race,sex,age,arrest,citation,warning,search,zip_id,zipcode
Brookfield Village,7590,hispanic,male,,False,True,False,False,46,94603
Brookfield Village,34949,hispanic,male,,False,False,False,True,46,94603


In [13]:
%%sql
WITH StopZips AS (
    SELECT * FROM Stops NATURAL JOIN Zips
)
SELECT *
FROM StopZips SZ1
WHERE NOT EXISTS (
    SELECT *
    FROM StopZips SZ2
    WHERE SZ1.zipcode = SZ2.zipcode 
          AND SZ1.id != SZ2.id
);


location,id,race,sex,age,arrest,citation,warning,search,zip_id,zipcode


## Aggregation
Funções de agregação que calculam um único resultado de um conjunto de valores.
- Se aplicam a uma coluna em uma cláusula SELECT
- SUM, MAX, MIN, COUNT, AVG, etc.
- Caso especial: COUNT(*) conta o número de tuplas

  Exemplos:
  * Contar o número de stops
  * Max/média de idades

In [15]:
%sql SELECT COUNT(*) FROM Stops;

count
84779


In [16]:
%sql SELECT MAX(age), AVG(age) FROM Stops;

max,avg
94.0,33.3013415418543


Valores **NULL** não são envolvidos na agregação, a não ser que todos os valores sejam NULL (e então o resultado também é NULL)

Exemplo: Contar o número total de linhas, contar quantas locations não são nulas e média de idades não nulas

In [17]:
%sql SELECT COUNT(*), COUNT(age), AVG(age) FROM Stops;

count,count_1,avg
84779,21766,33.3013415418543


**Distinct** remove as duplicadas antes da agregação.
Exemplo: contar o número de localidades distintas

In [21]:
%sql SELECT COUNT(DISTINCT location) FROM Stops;

count
143


Como podemos fazer para encontrar as stops com o indivíduo mais velho?

```
SELECT S1.id
FROM Stops S1
WHERE S1.age>=();
```

In [23]:
%%sql
SELECT S1.id
FROM Stops S1 
WHERE S1.age >= 
	(SELECT MAX(age) FROM Stops S2);


id
138713


## Grouping

Às vezes nós estamos interessados em calcular algum valor agregado em tuplas com **GROUP BY**

Exemplo 1: Encontrar idade média e mínima por localidade

In [24]:
%%sql

SELECT location,
       AVG(age) AS avgage,
       MIN (age) as minage
FROM Stops
GROUP BY location;


location,avgage,minage
,31.5419207317073,13.0
Thornhill Drive,36.4285714285714,27.0
Pendleton Way,27.5,17.0
Thermal Street,24.0,16.0
Harrison/Oakland,32.6296296296296,18.0
B Street,29.6428571428571,17.0
Highland Hospital,37.3333333333333,31.0
Weld Street,30.5714285714286,20.0
Royal Kitchen,,
Montclair,42.0117647058824,16.0


Qual o problema da query abaixo?

In [25]:
%%sql
SELECT age, AVG(age) AS avgage, MIN(age) AS minage
FROM Stops GROUP BY location;

RuntimeError: (psycopg2.errors.GroupingError) column "stops.age" must appear in the GROUP BY clause or be used in an aggregate function
LINE 1: SELECT age, AVG(age) AS avgage, MIN(age) AS minage
               ^

[SQL: SELECT age, AVG(age) AS avgage, MIN(age) AS minage
FROM Stops GROUP BY location;]
(Background on this error at: https://sqlalche.me/e/20/f405)
If you need help solving this issue, send us a message: https://ploomber.io/community


Com postgres é possível calcular várias estatísticas agregadas:
* desvio padrão, (co)variância, regression slope/intercept, coeficiente de correlação.

Também é possível calcular valores agregados baseados na posição, como a mediana. No entanto, a sintaxe é diferente:
* `<aggregate_function>(<n>) WITHIN GROUP (ORDER BY sort_list)`

Exemplo: a mediana da idade das stops  

In [26]:
%sql SELECT PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY age) FROM Stops;
 

percentile_disc
30.0


Exemplo de funções agregadas: calcular para as localidades West Oakland e Rockridge as idades médias de stops por raça

In [28]:
%%sql
SELECT race,
AVG (CASE WHEN location = 'West Oakland'
     THEN age
     ELSE NULL
     END
    ) AS west_oakland_avg,
AVG (CASE WHEN location = 'Rockridge'
     THEN age
     ELSE NULL
     END
    ) AS rockridge_Avg
FROM Stops
GROUP BY race;


race,west_oakland_avg,rockridge_avg
other,34.7857142857143,55.0
hispanic,30.4083333333333,
black,35.7007397444519,
asian/pacific islander,32.6129032258064,44.5
white,36.734375,45.9


## Resumo geral de GROUP BY (com HAVING)

```SELECT S
   FROM R1, R2, ...
   WHERE C1
   GROUP BY A1, A2, ...
   HAVING C2;
```

Ordem em que a query é feita
1. FROM: busca as tabelas e calcula a relação entre as tabelas R1 e R2
2. WHERE: para cada tupla das relações, filtra e mantém apenas as que satisfazem a condição C1.

   Filtro de linha, acontece **antes** da formação dos grupos
3. GROUP BY: A1, A2, ...

   Para cada grupo, calcule todas as agregações necessárias em C2 e S
4. HAVING: para cada group verifica se C2 é satisfeita

   Filtro de grupo, acontece **depois** que os grupos foram feitos  
5. SELECT: seleciona a saída baseada em S 

Exemplo de query com HAVING: encontrar as localidades com pelo menos 30 stops

In [29]:
%%sql
SELECT location, COUNT (*)
FROM Stops
GROUP BY location
HAVING COUNT(*) > 30;


location,count
,4309
Pendleton Way,59
Thermal Street,37
Harrison/Oakland,123
Weld Street,51
Montclair,195
Havenscourt Middle School,34
Broadway,57
Golden Gate,191
Rockridge,63


## ORDER BY, LIMIT, OFFSET

**ORDER BY** define a ordenação do resultado

```ORDER BY <attr> ASC | DESC ```

ASC é default e pode ser omitido

Exemplos:

In [31]:
%%sql
SELECT * FROM Stops
ORDER BY age DESC;


id,race,sex,age,arrest,citation,warning,search,location
28090,other,male,,False,True,False,False,Airport Drive
32135,asian/pacific islander,male,,False,True,False,False,Airport Drive
32136,black,male,,False,True,False,False,Airport Drive
36822,asian/pacific islander,female,,False,True,False,False,Airport Drive
79532,other,female,,False,False,False,True,Airport Drive
79632,black,male,,True,False,False,True,Airport Drive
103795,black,male,,True,False,False,True,Airport Drive
31554,hispanic,female,,False,True,False,False,East Oakland
31558,black,male,,False,True,False,False,East Oakland
33753,hispanic,male,,False,False,True,False,East Oakland


In [32]:
%%sql
SELECT * FROM Stops
ORDER BY age DESC, id ASC;

id,race,sex,age,arrest,citation,warning,search,location
1,white,male,,False,False,True,True,North Oakland
2,black,male,,False,False,False,False,West Oakland
5,black,male,,False,False,False,False,Downtown Oakland
6,black,male,,False,False,True,False,North Oakland
7,black,female,,False,False,False,False,North Oakland
8,black,male,,False,False,False,True,West Oakland
9,black,male,,False,True,False,False,North Oakland
11,black,male,,False,True,False,False,West Oakland
12,white,female,,False,False,True,False,West Oakland
13,black,female,,False,False,False,False,North Oakland


**LIMIT <val>**: Limita o resultado para algumas tuplas.
Exemplo:

In [33]:
%%sql
SELECT * 
FROM Stops
ORDER BY age DESC
LIMIT 15;


id,race,sex,age,arrest,citation,warning,search,location
28090,other,male,,False,True,False,False,Airport Drive
32136,black,male,,False,True,False,False,Airport Drive
32135,asian/pacific islander,male,,False,True,False,False,Airport Drive
79532,other,female,,False,False,False,True,Airport Drive
79632,black,male,,True,False,False,True,Airport Drive
103795,black,male,,True,False,False,True,Airport Drive
36822,asian/pacific islander,female,,False,True,False,False,Airport Drive
28166,black,female,,False,True,False,False,San Leandro
28569,white,male,,False,True,False,False,San Leandro
32338,black,male,,False,True,False,False,San Leandro


**OFFSET** <val>: define a posição de início do resultado.
Exemplo: Ordene Stops de maneira decrescente pela idade e retorne as posições entre 11 e 15

In [34]:
%%sql
SELECT * 
FROM Stops
ORDER BY age DESC
LIMIT 5
OFFSET 10;


id,race,sex,age,arrest,citation,warning,search,location
69428,black,male,,False,True,False,False,San Leandro
79927,hispanic,female,,False,True,False,False,San Leandro
86669,hispanic,male,,False,True,False,False,San Leandro
86675,hispanic,female,,False,True,False,False,San Leandro
99058,hispanic,male,,False,False,True,False,San Leandro


## Dicas

* Para explorar ou encontrar problemas na sua query, use a função RANDOM()

```
SELECT <attributes>
FROM <tables>
WHERE <condition about tuples in tables>
ORDER BY RANDOM()
LIMIT 10;

```

## Manipulação de String

Vocês já conhecem **LIKE/NOT LIKE**. Há muitas outras funções de manipulação de strings.

Qual é a saída da query:
```
SELECT 'Hello' || 'World',
       STRPOS('Hello', 'el'),
       SUBSTRING('Hello', 2, 3);

```

[Documentação](https://www.postgresql.org/docs/current/functions-string.html)

In [36]:
%%sql
SELECT 'Hello' || 'World',
       STRPOS('Hello', 'el'),
       SUBSTRING('Hello', 2, 3);

?column?,strpos,substring
HelloWorld,2,ell


### Expressões regulares em SQL

PostgreSQL também tem funções de expressões regulares (POSIX), com REGEXP_REPLACE

```
REGEX_REPLACE(source, pattern, replacement[, flags])
```

Exemplos:

```REGEXP_REPLACE('Hannah Montana'              '(.*)',      '\1')```
    
    Hannah                                       Extrai o primeiro nome                             

```REGEXP_REPLACE('Hannah Montana'              '(.*) (.*)', '\2, \1')```

    Montana, Hannah                               Extrai último nome, primeiro nome

```REGEXP_REPLACE('Phone Number 510 642 3214', '[a-zA-Z ]',  '')```

    hone Number 510 642 3214                      Remove o primeiro caracter alfa-numérico ou espaço

```REGEXP_REPLACE('Phone Number 510 642 3214', '[a-zA-Z ]',  '', 'g')```

    5106423214                                     Remove todos os caracteres alfa-numéricos ou espaços


In [37]:
%%sql
                                    -- pattern -- replace
SELECT REGEXP_REPLACE('Hannah Montana', '(.*) ', '\1') as ex1,
       REGEXP_REPLACE('Hannah Montana', '(.*) (.*)', '\2, \1') as ex2,
       REGEXP_REPLACE('Phone Number 510 642 3214', '[a-zA-Z ]', '') as ex3,
       REGEXP_REPLACE('Phone Number 510 642 3214', '[a-zA-Z ]', '', 'g') as ex4
;


ex1,ex2,ex3,ex4
HannahMontana,"Montana, Hannah",hone Number 510 642 3214,5106423214


In [47]:
%sql postgresql://postgres:postgres@127.0.0.1:5432/imdb_lecture

In [48]:
%sql --connections

current,url,alias
*,postgresql://postgres:***@127.0.0.1:5432/imdb_lecture,postgresql://postgres:***@127.0.0.1:5432/imdb_lecture
,postgresql://postgres:***@127.0.0.1:5432/stops_lecture,postgresql://postgres:***@127.0.0.1:5432/stops_lecture


In [49]:
%%sql
SELECT *
FROM people
LIMIT 10;

person_id,name,born,died
nm0384214,Dwayne Hill,,
nm0362443,Dave Hardman,1960.0,
nm1560888,Rich Pryce-Jones,,
nm0006669,William Sadler,1950.0,
nm1373094,Giada De Laurentiis,1970.0,
nm7316782,Janine Hartmann,,
nm8671663,Tereza Taliánová,2005.0,
nm10480297,Chris Heywood,,
nm10803545,Chengao Zhou,,
nm9849414,Mark Langley,,


## Exemplos com queries
[Documentação]()
Extrair o primeiro e o último nome de todas as pessoas da tabela people
```
SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\2') 
         as lastname,
       REGEXP_REPLACE(name, '(.*) (.*)', '\1') 
         as firstname
FROM people;
```

In [51]:
%%sql
SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\2') as lastname,
       REGEXP_REPLACE(name, '(.*) (.*)', '\1') as firstname
FROM people;


lastname,firstname
Hill,Dwayne
Hardman,Dave
Pryce-Jones,Rich
Sadler,William
Laurentiis,Giada De
Hartmann,Janine
Taliánová,Tereza
Heywood,Chris
Zhou,Chengao
Langley,Mark


Contar o número de primeiros nomes

```
SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') 
         as firstname,
       COUNT(*) as countname
FROM people
GROUP BY firstname
ORDER BY countname desc;
```

In [52]:
%%sql
SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') AS firstname,
       COUNT(*) AS countname
FROM people
GROUP BY firstname
ORDER BY countname desc;


firstname,countname
Chris,79
David,18
Michael,16
Steve,10
Peter,9
John,9
Tom,8
Mark,8
Dan,8
Paul,6


Calcular o tamanho do maior nome
```
WITH firstnames AS (
    SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') 
             as firstname
    FROM people )
SELECT MAX(LENGTH(firstname)), firstname
FROM firstnames;

```

In [53]:
%%sql
WITH firstnames AS (
    SELECT REGEXP_REPLACE(name, '(.*) .*', '\1') as firstname
    FROM people )
SELECT MAX(LENGTH(firstname))
FROM firstnames;


max
20


Qual é esse primeiro nome?

In [55]:
%%sql
WITH firstnames AS (
    SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') as firstname
    FROM people )
SELECT MAX(LENGTH(firstname)), firstname
FROM firstnames
GROUP BY firstname;


max,firstname
4,Luis
6,Gaynor
5,Danny
7,Ji Hoon
13,Mohamed Abdel
6,Edward
6,Sophia
4,Abby
5,Aunty
5,Cindy


In [56]:
%%sql
WITH firstnames AS (
    SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') as firstname
    FROM people )
SELECT MAX(LENGTH(firstname)), firstname
FROM firstnames
GROUP BY firstname
ORDER BY firstname desc;

max,firstname
5,Zoosk
7,Zdravko
4,Zack
4,Yves
6,Yuliya
4,Yûko
3,Yu.
10,Young Sook
8,Youliang
4,Yong


In [57]:
%%sql
WITH firstnames AS (
    SELECT REGEXP_REPLACE(name, '(.*) (.*)', '\1') as firstname
    FROM people )
SELECT MAX(LENGTH(firstname)), firstname
FROM firstnames
GROUP BY firstname
ORDER BY max DESC;


max,firstname
20,Juan Francisco Pérez
19,José María González
19,Margarida Mercês de
16,Michelle van der
16,Dadinha Monteiro
16,Sreemoolanagaram
15,Jonathan Taylor
15,Nam Hoi Sap-Sam
15,Michael Richard
15,Jessica Chapnik


## Sampling 
[Documentação]()

Em ciência de dados nós geralmente precisamos lidar com amostras dos dados, por exemplo, quando os dados são massivos e nós queremos um conjunto que represente aqueles dados.

Há três técnicas comuns de amostragem de uma tabela:

1. `SELECT * FROM Table ORDER BY RANDOM() LIMIT N;`
   - Custoso para tabelas muito grandes
   - Razoável para exploração inicial
  

In [65]:
%%sql
SELECT *
FROM people
ORDER BY RANDOM() LIMIT 5;

person_id,name,born,died
nm10113394,Momona Tamada,2006.0,
nm4462078,Nick Pages-Oliver,,
nm0392442,Jack Holt,1888.0,1951.0
nm0913094,Robert Warwick,1878.0,1964.0
nm5693300,Calvin M. Thompson,,


2. `SELECT * FROM Table TABLESAMPLE BERNOULLI(p)`
   - relativamente rápido, mas é necessário 'jogar uma moeda' por linha
   - inclui cada linha com probabilidade p% (ou sejam p=5 significa 5%)
  

In [66]:
%%sql
SELECT *
FROM people
TABLESAMPLE BERNOULLI (5);

person_id,name,born,died
nm0006669,William Sadler,1950.0,
nm3806917,Daniel Choi,,
nm0650150,Svetlana Orlova,1956.0,
nm1470079,Chris Boiling,,
nm0896013,Lindsey C. Vickers,1940.0,
nm13619301,Chris Evans,,
nm0286335,David Forman,,
nm0126660,Regina Bärtschi,1957.0,
nm0442035,Marta Kauffman,1956.0,
nm13746037,Chris Mitchell,,


3. `SELECT * FROM Table TABLESAMPLE SYSTEM(p)`
   - mais rápida, mas menos aleatório
   - inclui cada página com probabilidade p%
   - relações são organizadas em páginas ou discos, páginas são selecionadas com alguma probabilidade e as tuplas são incluídas em uma página)

In [68]:
%%sql
SELECT *
FROM people
TABLESAMPLE SYSTEM(50);

person_id,name,born,died
nm0004695,Jessica Alba,1981.0,
nm0594074,Kotono Mitsuishi,1967.0,
nm3736717,Chris Caggiano,,
nm1382088,Lars Woodruffe,,
nm10186560,Chris Lloyd,,
nm0126660,Regina Bärtschi,1957.0,
nm9802297,Ling Lu,,
nm0220715,Michelle Leska,,
nm1382289,David Batra,1972.0,
nm1635193,David Sant,1968.0,


## Outer Joins

Já vimos:
- cross joins, self join, natural join, inner join

- Outer joins retornam os registros que não satisfazem uma condição
   - LEFT [OUTER] JOIN: todas as linhas do lado esquerdo da equação que não têm correspondente do lado direito da equação
   - RIGH [OUTER] JOIN: todas s linhas do lado direito da equação sem correspondentes do lado esquerdo da equação
   - FULL [OUTER] JOIN: todas as linhas do left join e do right join.

Lembrando do INNER JOIN

```
SELECT *
FROM s
INNER JOIN t
ON s.id + t.id; 
```

![image.png](attachment:ed65239b-c81c-4c4a-afa5-5c54464811e7.png)

Outer join

```
SELECT * FROM s
________ t
ON s.id = t.id;
```
![image.png](attachment:0ab4525c-386d-4151-923a-84417fc79d7b.png)


Equivalência com o diagrama de Venn

![image.png](attachment:327f03fd-74d5-4b11-bad8-88fb883ace42.png)![image.png](attachment:14cb6387-fd76-4f8c-8927-b795d91ab076.png)

Checkered Flag Diagram

[Documentação](https://r4ds.had.co.nz/relational-data.html)

![image.png](attachment:b3f4a15f-f786-480c-85eb-6b2d7f847e10.png)

![image.png](attachment:e953d1b8-1540-4aef-b799-ff71022a84fe.png)

```
SELECT *
FROM cat_names s
  _____ JOIN cat_breeds t
ON s.id = t.id;
```

* cat_names: n linhas (n IDs únicos), cat_breeds: m linhas (m IDs únicos)
* resultado do inner join = p

Quantas linhas cada um dos tipos de JOIN abaixo vai resultar?

A. LEFT

B. RIGHT

C. FULL OUTER

D. CROSS

```
SELECT *
FROM cat_names s
  _____ JOIN cat_breeds t
ON s.id = t.id;
```

* cat_names: n linhas (n IDs únicos), cat_breeds: m linhas (m IDs únicos)
* resultado do inner join = p

Quantas linhas cada um dos tipos de JOIN abaixo vai resultar?

A. LEFT                n

B. RIGHT               m

C. FULL OUTER          p + (n-p) + (m - p) = (n + m) - p 
 
D. CROSS               n x m

## Windows e Casting

### Window Functions

Consideram as linhas abaixo da linha atual (uma janela) no cálculo
- Sem dividir as linhas em grupos, linhas mantém sua identidade separada


Geralmente utilizado em aplicações de data science:
- Normalização de atributos utilizando uma média de grupo, ex. média móvel
- Somas acumuladas, ex. total recebido
- Comparar um dado atributo com o valor anterior, ex. mudança diária
- Calcular rank


```
1. <window or agg_func> OVER (
2.   [PARTITION BY <…>]
3.   [ORDER BY <…>]
4.   [RANGE BETWEEN <…> AND <…>])

```

1. Calcula a função
   - Pode conter funções de agregação típicas
        - RANK() - ordenando em relação à janela
        - LEAD/LAG(exp, n) - valor de exp que está n a frente ou n atrás na janela
        - PERCENT_RANK() - rank relativo da linha corrente percentual
        - N_TH VALUE(exp, n) - valor de exp que está em uma posição a n da janela

```
SELECT id, location, age,
  AVG(age) OVER ()
    AS avg_age
FROM Stops;

```
![image.png](attachment:5e8658b1-2c2e-4b27-abdd-9bf5aa258e3c.png)

2. Sobre uma janela particualr

```
SELECT id, location, age,
  AVG(age) OVER 
    (PARTITION BY location)
    AS avg_age
FROM Stops;

```

![image.png](attachment:ab4ebf66-3b8f-4b24-ad4d-c1a55996476d.png)

3. onde as tuplas da janela são ordenadas com algum critério
```
SELECT id, location, age,
  RANK() OVER (
    PARTITION BY location
    ORDER BY age)
    AS a_rank FROM Stops
ORDER BY location, a_rank

```
![image.png](attachment:6127651d-e907-448f-a8f2-e50a1f9bcd1a.png)

4. seleciona o frame de interesse na janela
```
SELECT id, location, age, 
  SUM(age) OVER (
    PARTITION BY location 
    ORDER BY age 
    RANGE BETWEEN
      UNBOUNDED PRECEDING AND 
      1 PRECEDING ) 
      AS a_sum 
FROM Stops
ORDER BY location, age

```
Sintaxe:
range_start/range_end
UNBOUNDED PRECEDING
UNBOUDED FOLLOWING
offset PRECEDING
offset following

![image.png](attachment:ffa23b1f-c1be-402e-8870-271b9f5b84f9.png)

In [71]:
%sql postgresql://postgres:postgres@127.0.0.1:5432/imdb_lecture

In [72]:
%sql --connections

current,url,alias
*,postgresql://postgres:***@127.0.0.1:5432/imdb_lecture,postgresql://postgres:***@127.0.0.1:5432/imdb_lecture
,postgresql://postgres:***@127.0.0.1:5432/stops_lecture,postgresql://postgres:***@127.0.0.1:5432/stops_lecture


In [73]:
%%sql
DROP TABLE IF EXISTS actor_title;
CREATE TABLE actor_title AS (
    SELECT t1.primary_title AS title, t1.title_id, a1.name
    FROM titles t1, people a1, crew c1
    WHERE t1.title_id = c1.title_id AND a1.person_id = c1.person_id
);

In [74]:
%%sql
SELECT *
FROM actor_title
TABLESAMPLE BERNOULLI (5);


title,title_id,name
Double Harness,tt0023960,Lucile Browne
Tahiti Nights,tt0038147,Sam White
7 jin gong,tt0110923,Andy Chi-On Hui
The Jim Breuer Show,tt0165034,Kyle Dunnigan
West of the Rio Grande,tt0177376,Sam White
High Crimes,tt0257756,Morgan Freeman
Ordinary Sinner,tt0259054,Brian Adler
Nieuwe maandag,tt0300829,Chris Dusauchoit
Nye slægter,tt0307250,Berit Erbe
Neglect Not the Children,tt0332267,Morgan Freeman


Calcula o tamanho médio do nome do ator por filme

In [75]:
%%sql
SELECT title_id, name, title,
       AVG(LENGTH(name)) OVER (PARTITION BY title)
         AS avg_name_length
FROM actor_title
WHERE title LIKE 'The %'
ORDER BY title;

title_id,name,title,avg_name_length
tt0471382,Morgan Freeman,The 8th Shanghai International Film Festival,14.0
tt2260116,Samantha Gutstadt,The Adventures of Amber & Crystal,17.0
tt1681370,Harry Lennix,The Algerian,11.5
tt1681370,Anil Babbar,The Algerian,11.5
tt0082025,Lindsey C. Vickers,The Appointment,18.0
tt1023624,Morgan Freeman,"The Ark, the Animals and 'Evan Almighty'",14.0
tt10075836,Stellan Skarsgård,The Avengers Assemble Premiere,15.75
tt10075836,Chris Hemsworth,The Avengers Assemble Premiere,15.75
tt10075836,Tom Hiddleston,The Avengers Assemble Premiere,15.75
tt10075836,Samuel L. Jackson,The Avengers Assemble Premiere,15.75


Calcula o tamanho médio do nome do ator mas retorna um valor inteiro

In [76]:
%%sql
SELECT title_id, name, title,
       CAST(AVG(LENGTH(name)) OVER (PARTITION BY title)
            AS INTEGER)
         AS avg_name_length
FROM actor_title
WHERE title LIKE 'The %'
ORDER BY title;

title_id,name,title,avg_name_length
tt0471382,Morgan Freeman,The 8th Shanghai International Film Festival,14
tt2260116,Samantha Gutstadt,The Adventures of Amber & Crystal,17
tt1681370,Harry Lennix,The Algerian,12
tt1681370,Anil Babbar,The Algerian,12
tt0082025,Lindsey C. Vickers,The Appointment,18
tt1023624,Morgan Freeman,"The Ark, the Animals and 'Evan Almighty'",14
tt10075836,Stellan Skarsgård,The Avengers Assemble Premiere,16
tt10075836,Chris Hemsworth,The Avengers Assemble Premiere,16
tt10075836,Tom Hiddleston,The Avengers Assemble Premiere,16
tt10075836,Samuel L. Jackson,The Avengers Assemble Premiere,16


Calcula o rank dos tamanhos dos nomes dos atores por filme

In [77]:
%%sql
SELECT title_id, name, title,
       LENGTH(name),
       RANK() OVER (PARTITION BY title ORDER BY LENGTH(name) DESC)
         AS name_rank
FROM actor_title
WHERE title LIKE 'A %'
ORDER BY title, name_rank;


title_id,name,title,length,name_rank
tt1622089,Chris Boiling,A Child Called Moon,13,1
tt0931480,Alan Oppenheimer,A Date with Eddie,16,1
tt0931480,Ronnie Schell,A Date with Eddie,13,2
tt2611968,Chris Evans,A Girl's Affair,11,1
tt0236585,Takis Davlopoulos,A Hail of Bullets,17,1
tt14777134,Leah Remini,A Hot Minute,11,1
tt9174960,Alexander Fernandez,A killer p.o.v.,19,1
tt0528326,M. Pam Blumenthal,A Love Story,17,1
tt0528326,Lorenzo Music,A Love Story,13,2
tt0528326,Peter Bonerz,A Love Story,12,3


Lista de exercícios para praticar:

1. Encontrar quem estrelou em um filme com Tom Hanks e qual filme estrelaram juntos
2. Encontrar filmes que Tom Hanks e Peter Scolari estrelaram juntos, usando EXISTS
3. Calcular o tamanho médio do nome do ator por filme
4. Calcular o rank do nome médio dos atores por título
5. Contar quantos filmes foram feitos por cada estúdio
6. Contar o tamanho do último nome dos atores
7. Contar o tamanho do primeiro nome dos atores

## Pandas

Podemos integrar o pandas com a mágica sql.

In [78]:
import pandas as pd

In [79]:
%%sql result <<
SELECT title_id, name, title,
       LENGTH(name),
       RANK() OVER (PARTITION BY title ORDER BY LENGTH(name) DESC)
         AS name_rank
FROM actor_title
WHERE title LIKE 'A %'
ORDER BY title, name_rank;

In [80]:
df = result.DataFrame()
df.head()

Unnamed: 0,title_id,name,title,length,name_rank
0,tt1622089,Chris Boiling,A Child Called Moon,13,1
1,tt0931480,Alan Oppenheimer,A Date with Eddie,16,1
2,tt0931480,Ronnie Schell,A Date with Eddie,13,2
3,tt2611968,Chris Evans,A Girl's Affair,11,1
4,tt0236585,Takis Davlopoulos,A Hail of Bullets,17,1


## DDL, DML

![image.png](attachment:2eeca94e-9895-45cc-8eb1-fb0e454620c0.png)


DML: INSERT, DELETE, UPDATE

DDL: CREATE, DROP, ALTER