# Mais sobre `SELECT`: agrupamentos

## Introdução

Vamos continuar nossa investigação sobre o comando `SELECT`. Desta vez usaremos a base de dados `'sakila'`, uma famosa base de dados de teste construída pelos autores do MySQL. 

Abra a URL [**https://dev.mysql.com/doc/sakila/en/**](https://dev.mysql.com/doc/sakila/en/) para conhecer melhor esta base de dados, que modela uma locadora de DVDs (riam, vocês também serão velhos um dia!). Se você não possui esta base, siga as instruções de instalação na página.

Vamos também construir nosso objeto auxiliar para conectar com a base de dados, como fizemos na última aula.

In [1]:
from functools import partial
from dotenv import load_dotenv
import insperautograder.jupyter as ia
import mysql.connector
import os

load_dotenv(override=True)

connection = mysql.connector.connect(
    host=os.getenv("MD_DB_SERVER"),
    user=os.getenv("MD_DB_USERNAME"),
    password=os.getenv("MD_DB_PASSWORD"),
    database='sakila',
)


def run_db_query(connection, query, args=None):
    with connection.cursor() as cursor:
        print('Executando query:')
        cursor.execute(query, args)
        for result in cursor:
            print(result)


db = partial(run_db_query, connection)

## Exercícios para entrega

Esta aula tem atividade para entrega, confira os prazos e exercícios

In [2]:
ia.tasks()

|    | Atividade    | De                               | Até                       |
|---:|:-------------|:---------------------------------|:--------------------------|
|  0 | newborn      | 2023-08-08 03:00:00+00:00        | 2023-08-16 02:59:59+00:00 |
|  1 | select01     | 2023-08-08 03:00:00+00:00        | 2023-08-21 02:59:59+00:00 |
|  2 | ddl          | 2023-08-27 20:36:25.452000+00:00 | 2023-09-02 02:59:59+00:00 |
|  3 | dml          | 2023-08-29 20:36:25.452000+00:00 | 2023-09-04 02:59:59+00:00 |
|  4 | agg_join     | 2023-09-03 03:00:00+00:00        | 2023-09-09 02:59:59+00:00 |
|  5 | group_having | 2023-09-03 03:00:00+00:00        | 2023-09-17 02:59:59+00:00 |

In [3]:
ia.grades(task="group_having")

|    | Atividade    | Exercício   |   Peso |   Nota |
|---:|:-------------|:------------|-------:|-------:|
|  0 | group_having | ex01        |      1 |     10 |
|  1 | group_having | ex02        |      4 |     10 |
|  2 | group_having | ex03        |      4 |     10 |
|  3 | group_having | ex04        |      4 |     10 |
|  4 | group_having | ex05        |      4 |     10 |
|  5 | group_having | ex06        |      8 |     10 |
|  6 | group_having | ex07        |      6 |     10 |
|  7 | group_having | ex08        |      6 |     10 |
|  8 | group_having | ex09        |     12 |      0 |
|  9 | group_having | ex10        |     10 |      0 |
| 10 | group_having | ex11        |     10 |      0 |
| 11 | group_having | ex12        |      6 |      0 |
| 12 | group_having | ex13        |     12 |      0 |

## Aquecimento

**Exercício 1**: Quais os nomes das categorias de filme? Ordene de forma crescente.

In [4]:
sql_ex01 = '''
SELECT name FROM sakila.category ORDER BY name ASC;
'''

db(sql_ex01)

Executando query:
('Action',)
('Animation',)
('Children',)
('Classics',)
('Comedy',)
('Documentary',)
('Drama',)
('Family',)
('Foreign',)
('Games',)
('Horror',)
('Music',)
('New',)
('Sci-Fi',)
('Sports',)
('Travel',)


In [5]:
ia.sender(answer='sql_ex01', task='group_having', question='ex01', answer_type='pyvar')

interactive(children=(Button(description='Enviar ex01', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 2**: Quais atores tem as iniciais "J.D."? Exiba todos os atributos. Ordene de forma crescente pelo primeiro nome.

In [9]:
sql_ex02 = '''
SELECT * FROM sakila.actor WHERE first_name LIKE 'J%' AND last_name LIKE 'D%' ORDER BY first_name ASC;
'''

db(sql_ex02)

Executando query:
(4, 'JENNIFER', 'DAVIS', datetime.datetime(2006, 2, 15, 4, 34, 33))
(41, 'JODIE', 'DEGENERES', datetime.datetime(2006, 2, 15, 4, 34, 33))
(35, 'JUDY', 'DEAN', datetime.datetime(2006, 2, 15, 4, 34, 33))
(123, 'JULIANNE', 'DENCH', datetime.datetime(2006, 2, 15, 4, 34, 33))


In [10]:
ia.sender(answer='sql_ex02', task='group_having', question='ex02', answer_type='pyvar')

interactive(children=(Button(description='Enviar ex02', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 3**: Liste as cidades brasileiras presentes na base de dados. Ordene de forma decrescente.

In [13]:
sql_ex03 = '''
SELECT city FROM sakila.city WHERE country_id IN (SELECT country_id FROM sakila.country WHERE country LIKE 'Brazil') ORDER BY city DESC;
'''

db(sql_ex03)

Executando query:
('Vitória de Santo Antão',)
('Vila Velha',)
('Sorocaba',)
('São Leopoldo',)
('São Bernardo do Campo',)
('Santo André',)
('Santa Brbara dOeste',)
('Rio Claro',)
('Poços de Caldas',)
('Poá',)
('Maringá',)
('Luziânia',)
('Juiz de Fora',)
('Juazeiro do Norte',)
('Ibirité',)
('Guarujá',)
('Goiânia',)
('Brasília',)
('Boa Vista',)
('Blumenau',)
('Belém',)
('Bagé',)
('Araçatuba',)
('Aparecida de Goiânia',)
('Angra dos Reis',)
('Anápolis',)
('Alvorada',)
('Águas Lindas de Goiás',)


In [14]:
ia.sender(answer='sql_ex03', task='group_having', question='ex03', answer_type='pyvar')

interactive(children=(Button(description='Enviar ex03', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 4**: *Quantas* cidades brasileiras tem na base de dados? Renomeie para `qt_city`

In [20]:
sql_ex04 = '''
SELECT COUNT(*) AS qt_city FROM sakila.city WHERE country_id IN (SELECT country_id FROM sakila.country WHERE country LIKE 'Brazil');
'''

db(sql_ex04)

Executando query:
(28,)


In [21]:
ia.sender(answer='sql_ex04', task='group_having', question='ex04', answer_type='pyvar')

interactive(children=(Button(description='Enviar ex04', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 5**: Liste os filmes do ator (fictício) "Dan Harris". Ordene de forma crescente. Renomeie para `movie_title`.

In [26]:
sql_ex05 = '''
SELECT title AS movie_title FROM sakila.film WHERE film_id IN 
(SELECT film_id FROM sakila.film_actor WHERE actor_id IN (SELECT actor_id FROM sakila.actor WHERE first_name LIKE 'DAN' AND last_name LIKE 'HARRIS'));
'''

db(sql_ex05)

Executando query:
('BEDAZZLED MARRIED',)
('BOONDOCK BALLROOM',)
('DESTINY SATURDAY',)
('DIVINE RESURRECTION',)
('EYES DRIVING',)
('FELLOWSHIP AUTUMN',)
('GHOST GROUNDHOG',)
('GROOVE FICTION',)
('HILLS NEIGHBORS',)
('HOLIDAY GAMES',)
('INDEPENDENCE HOTEL',)
('INSIDER ARIZONA',)
('JADE BUNCH',)
('LIES TREATMENT',)
('MONTEREY LABYRINTH',)
('REUNION WITCHES',)
('RUN PACIFIC',)
('SCHOOL JACKET',)
('SEVEN SWARM',)
('SIEGE MADRE',)
('STEERS ARMAGEDDON',)
('STRAIGHT HOURS',)
('SUMMER SCARFACE',)
('SUPERFLY TRIP',)
('TITANIC BOONDOCK',)
('TITANS JERK',)
('VANISHING ROCKY',)
('WATERSHIP FRONTIER',)


In [27]:
ia.sender(answer="sql_ex05", task="group_having", question="ex05", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex05', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 6**: Quais filmes estão alugados por Florence Woods?

Retorne:
- O primeiro nome
- O sobrenome
- O id do cliente
- O título do filme

Ordene pelo:
- Título do filme, decrescente

In [44]:
sql_ex06 = '''
SELECT customer.first_name, customer.last_name, customer.customer_id, film.title 
FROM sakila.customer, sakila.film, sakila.rental, sakila.inventory
WHERE film.film_id = inventory.film_id
AND inventory.inventory_id = rental.inventory_id
AND rental.customer_id = customer.customer_id
AND customer.first_name LIKE 'FLORENCE' AND customer.last_name LIKE 'WOODS'
AND rental.return_date IS NULL;
'''

db(sql_ex06)

Executando query:
('FLORENCE', 'WOODS', 107, 'CLUB GRAFFITI')
('FLORENCE', 'WOODS', 107, 'BLADE POLISH')


In [45]:
ia.sender(answer="sql_ex06", task="group_having", question="ex06", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex06', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 7**: Para quais línguas não tem nenhum filme na locadora? Ordene de forma crescente.

**Dica**: use `LEFT OUTER JOIN`

In [48]:
sql_ex07 = '''
SELECT name FROM language WHERE language_id > 1 ORDER BY name ASC;
'''

db(sql_ex07)

Executando query:
('French',)
('German',)
('Italian',)
('Japanese',)
('Mandarin',)


In [49]:
ia.sender(answer="sql_ex07", task="group_having", question="ex07", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex07', style=ButtonStyle()), Output()), _dom_classes=('widget…

## `DISTINCT`

As vezes desejamos consultar quais os valores distintos de uma coluna. Para isso usamos o qualificador `DISTINCT`. 

Por exemplo: Quais os anos de lançamento dos filmes da base? 

In [50]:
# Vai aparecer muitas cópias de '(2006,)'
db('SELECT release_year FROM film LIMIT 20')

Executando query:
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)
(2006,)


Ops, parece que não tem muita variedade nesta base! Usando `DISTINCT` podemos limpar esse resultado:

In [51]:
db('SELECT DISTINCT release_year FROM film')

Executando query:
(2006,)


### Praticando

**Exercício 8**: Quais clientes estão alugando um DVD agora? Ordene pelo nome e sobrenome. Retorne o id, nome e sobrenome do cliente.

In [54]:
sql_ex08 = '''
SELECT DISTINCT customer.customer_id, customer.first_name, customer.last_name 
FROM sakila.customer, sakila.film, sakila.rental, sakila.inventory
WHERE film.film_id = inventory.film_id
AND inventory.inventory_id = rental.inventory_id
AND rental.customer_id = customer.customer_id
AND rental.return_date IS NULL
ORDER BY customer.first_name ASC, customer.last_name ASC;
'''

db(sql_ex08)

Executando query:
(525, 'ADRIAN', 'CLARY')
(352, 'ALBERT', 'CROUSE')
(568, 'ALBERTO', 'HENNING')
(152, 'ALICIA', 'MILLS')
(548, 'ALLAN', 'CORNISH')
(412, 'ALLEN', 'BUTTERFIELD')
(228, 'ALLISON', 'STANLEY')
(181, 'ANA', 'BRADLEY')
(582, 'ANDY', 'VANHORN')
(29, 'ANGELA', 'HERNANDEZ')
(33, 'ANNA', 'HILL')
(175, 'ANNETTE', 'OLSON')
(142, 'APRIL', 'BURNS')
(438, 'BARRY', 'LOVELACE')
(287, 'BECKY', 'MILES')
(440, 'BERNARD', 'COLBY')
(199, 'BETH', 'FRANKLIN')
(14, 'BETTY', 'WHITE')
(73, 'BEVERLY', 'BROOKS')
(457, 'BILL', 'GAVIN')
(366, 'BRANDON', 'HUEY')
(493, 'BRENT', 'HARKINS')
(111, 'CARMEN', 'OWENS')
(42, 'CAROLYN', 'PEREZ')
(269, 'CASSANDRA', 'WALTERS')
(163, 'CATHY', 'SPENCER')
(512, 'CECIL', 'VINES')
(495, 'CHARLIE', 'BESS')
(394, 'CHRIS', 'BROTHERS')
(534, 'CHRISTIAN', 'JUNG')
(43, 'CHRISTINE', 'ROBERTS')
(234, 'CLAUDIA', 'FULLER')
(537, 'CLINTON', 'BUFORD')
(227, 'COLLEEN', 'BURTON')
(527, 'CORY', 'MEEHAN')
(245, 'COURTNEY', 'DAY')
(388, 'CRAIG', 'MORRELL')
(410, 'CURTIS', 'IRBY')
(2

In [55]:
ia.sender(answer="sql_ex08", task="group_having", question="ex08", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex08', style=ButtonStyle()), Output()), _dom_classes=('widget…

## Agrupamento

Uma das características mais valiosas de banco de dados é o *agrupamento*. Podemos agrupar os resultados de uma query indicando uma coluna cujos valores serão usados para agrupar os dados.

Por exemplo, considere a seguinte tabela, que chamaremos de `vendas`:

| id | id_item | item | preco |
|--|--|--|--|
| 1 | 1 | A | 5 |
| 2 | 2 | B | 6 |
| 3 | 1 | A | 3 |
| 4 | 3 | C | 7 |
| 5 | 3 | C | 5 |
| 6 | 1 | A | 2 |

Se agruparmos pela coluna `id_item` teremos 3 conjuntos de resultados:

id_item = 1:

| id | id_item | item | preco |
|--|--|--|--|
| 1 | 1 | A | 5 |
| 3 | 1 | A | 3 |
| 6 | 1 | A | 2 |

id_item = 2:

| id | id_item | item | preco |
|--|--|--|--|
| 2 | 2 | B | 6 |

id_item = 3:

| id | id_item | item | preco |
|--|--|--|--|
| 4 | 3 | C | 7 |
| 5 | 3 | C | 5 |

É como se tivessemos uma lista de tabelas! Isso não é permitido em SQL. Temos que **resumir** a informação de cada uma das tabelas a uma linha só, o que significa que, para cada coluna, devemos escolher uma dessas opções:
- Resumir a informação da coluna usando uma **função de grupo**. Podemos somar, tirar a média, contar itens, concatená-los em uma única string, entre outras;
- Para colunas que se relacionam 1 para 1 com a coluna de agrupamento (como a coluna de agrupamento em si, ou a coluna `item` neste exemplo), manter este valor. Isso acontece frequentemente quando fazemos `JOIN`.
- Não incluir a coluna, caso contrário.

Neste exemplo, podemos tomar a seguinte decisão para cada coluna:
- `id`: descartar
- `id_item`: manter valor
- `item`: manter valor
- `preco`: vamos calcular a soma dos valores, e renomear esta informação para `total`

Com isso, obtemos a seguinte tabela:

| id_item | item | total |
|--|--|--|
| 1 | A | 10 |
| 2 | B | 6 |
| 3 | C | 12 |

Por fim, se não queremos id_item, ficamos com a seguinte tabela:

| item | total |
|--|--|
| A | 10 |
| B | 6 |
| C | 12 |

Para obter essa tabela podemos usar o seguinte comando SQL:

```SQL
SELECT 
    item, SUM(preco) as total 
FROM 
    vendas
GROUP BY
    id_item
```

Consulte o capítulo 9 do seu livro texto para conhecer mais sobre agrupamentos.

### Praticando

**Exercício 9**: Quais os 10 atores que mais apareceram em filmes?

Retorne o id, nome, sobrenome e a quantidade de filmes que o ator atua.

Ordene de forma descrescente pela quantidade.

In [None]:
sql_ex09 = '''
-- SUA QUERY AQUI!
'''

db(sql_ex09)

In [None]:
ia.sender(answer="sql_ex09", task="group_having", question="ex09", answer_type="pyvar")

## Pipeline do comando `SELECT`

Uma versão mais completa do `SELECT` (mas não inteiramente completa - consulte o manual do MySQL) é vista abaixo:

```
SELECT [DISTINCT] <select_header> 
FROM <source_tables>
WHERE <filter_expression>
GROUP BY <grouping_expressions>
HAVING <filter_expression>
ORDER BY <ordering_expressions>
LIMIT <count> 
OFFSET <count>
```

Você já deve ter percebido que o comando `SELECT` tem uma sequência própria de avaliação. Por exemplo, para saber quais filmes custam mais que 3 dinheiros, podemos escrever:

In [None]:
db('''
SELECT 
    COUNT(f.rental_rate)
FROM
    film f
WHERE
    f.rental_rate > 3
''')

Observe que o 'apelido' f para a tabela 'film' é definido na cláusula `FROM`, mas usado em `SELECT` e também em `WHERE`.

A ordem de execução do comando `SELECT` é aproximadamente como segue:

1. `FROM <source_tables>`: indica as tabelas que serão usadas nesta query e, conceitualmente, combina estas tabelas através de *produto cartesiano* em uma grande tabela. (Note o termo "*conceitualmente*" que usei: em termos de implementação da query este produto cartesiano raramente é construído.)

2. `WHERE <filter_expression>`: filtra linhas.

3. `GROUP BY <grouping_expressions>`: agrupa conjuntos de linhas.

4. `SELECT <select_heading>`: escolha de colunas e de agregados.

5. `HAVING <filter_expression>`: outra filtragem, esta aplicada apenas **depois** da agregação. Pode usar resultados do processo de agregação. Obriga o uso de `GROUP BY`.

6. `DISTINCT`: Elimina linhas duplicadas.

7. `ORDER BY`: ordena as linhas do resultado.

8. `OFFSET <count>`: Pula linhas do resultado. Requer LIMIT.

9. `LIMIT <count>`: Mantém apenas um número máximo de linhas.

Esta sequencia também serve como dica de como projetar uma query! 
- Comece identificando as tabelas que você deseja usar
- Monte o filtro de linhas, incluindo critérios de `JOIN`
- Agrupe
- Selecione colunas e aplique funções de agregação, conforme necessário
- Filtre com `HAVING`, agora que temos agregação
- O resto é mais fácil, aplique conforme requerido

## `WHERE` versus `HAVING`

Conforme visto acima, temos a cláusula `HAVING` para fazer filtragens *APÓS* agregação. Para que serve isso? Por exemplo, suponha que queremos saber quais atores não compartilham seu sobrenome com nenhum outro ator. Podemos usar a quer a seguir:

In [None]:
db('''
SELECT 
    a.first_name, a.last_name
FROM 
    actor a 
GROUP BY 
    a.last_name
HAVING
    COUNT(a.first_name) = 1
ORDER BY
    a.last_name, a.first_name
''')

## Praticando

**Exercício 10**: Liste a duração média dos filmes na categoria 'Drama'. Renomeie o atributo retornado para `duracao_media_drama`.

In [None]:
sql_ex10 = '''
-- SUA QUERY AQUI!
'''

db(sql_ex10)

In [None]:
ia.sender(answer="sql_ex10", task="group_having", question="ex10", answer_type="pyvar")

**Exercício 11**: Liste o nome da categoria e a duração média dos filmes por categoria. Renomeie o atributo de média para `avg_len`. Ordene de forma decrescente por `avg_len`.

In [None]:
sql_ex11 = '''
-- SUA QUERY AQUI!
'''

db(sql_ex11)

In [None]:
ia.sender(answer="sql_ex11", task="group_having", question="ex11", answer_type="pyvar")

**Exercício 12**: Liste o nome da categoria e a duração média dos filmes por categoria, apenas para categorias cuja duração média de filme excede 120 minutos. Renomeie o atributo de média para `avg_len`. Ordene de forma decrescente por `avg_len`.

In [None]:
sql_ex12 = '''
-- SUA QUERY AQUI!
'''

db(sql_ex12)

In [None]:
ia.sender(answer="sql_ex12", task="group_having", question="ex12", answer_type="pyvar")

**Exercício 13**: Quais atores participaram de 35 a 40 filmes (intervalo fechado)?

Retorne:

- Nome
- Sobrenome
- Quantidade de filmes

Ordene por:
- Quantidade de filmes (Decrescente)
- Se houver empate na quantidade de filmes, ordene de forma crescente pelo nome e sobrenome.

In [None]:
sql_ex13 = '''
-- SUA QUERY AQUI!
'''

db(sql_ex13)

In [None]:
ia.sender(answer="sql_ex13", task="group_having", question="ex13", answer_type="pyvar")

# Conclusão

Esta aula de hoje foi bastante densa! Dicas de estudo:

- Pratique no seu livro-texto, capítulo 9. Lembre-se que a base 'música' pode ser usada para praticar os comandos SQL vistos no livro.
- Tente criar queries que sirvam de exemplo para os conceitos do livro! A tarefa de criar exemplos é muito instrutiva!

**Leitura prévia**:
Para a próxima aula vamos continuar praticando, com os assuntos dos capítulos 10 e 11, prepare-se para a aula, ok?

Até a próxima!

In [None]:
connection.close()

## Conferir Notas

Confira se as notas na atividade são as esperadas!

Primeiro na atividade atual!

In [None]:
ia.grades(by="task", task="group_having")

In [None]:
ia.grades(task="group_having")

In [None]:
ia.grades(by="task")