# Mais sobre `SELECT`: agrupamentos

## Introdução

Vamos continuar nossa investigação sobre o comando `SELECT`. Desta vez usaremos a base de dados `'sakila'`, uma famosa base de dados de teste construída pelos autores do MySQL. 

Abra a URL [**https://dev.mysql.com/doc/sakila/en/**](https://dev.mysql.com/doc/sakila/en/) para conhecer melhor esta base de dados, que modela uma locadora de DVDs (riam, vocês também serão velhos um dia!).

Se você não possui esta base, siga as instruções de instalação na página ou faça o download direto pelo link [**https://downloads.mysql.com/docs/sakila-db.zip**](https://downloads.mysql.com/docs/sakila-db.zip)

Vamos também construir nosso objeto auxiliar para conectar com a base de dados, como fizemos na última aula.

In [1]:
from functools import partial
from dotenv import load_dotenv
import insperautograder.jupyter as ia
import mysql.connector
import os

load_dotenv(override=True)

connection = mysql.connector.connect(
    host=os.getenv("MD_DB_SERVER"),
    user=os.getenv("MD_DB_USERNAME"),
    password=os.getenv("MD_DB_PASSWORD"),
    port=int(os.getenv("MD_DB_PORT", 3306)),
    database="sakila"
)

def run_db_query(connection, query, args=None):
    with connection.cursor() as cursor:
        print("Executando query:")
        for result in cursor.execute(query, multi=True):
            if result.with_rows:
                for row in result.fetchall():
                    print(row)
            else:
                print(f"{result.rowcount} linhas afetadas.")

db = partial(run_db_query, connection)

ProgrammingError: 1049 (42000): Unknown database 'sakila'

## Exercícios para entrega

Esta aula tem atividade para entrega, confira os prazos e exercícios

In [2]:
ia.tasks()

|    | Atividade    | De                  | Até                 | Conta como ATV?   | % Nota Atraso   |
|---:|:-------------|:--------------------|:--------------------|:------------------|:----------------|
|  0 | newborn      | 2025-08-11 00:00:00 | 2025-11-30 00:00:00 | Não               | 0%              |
|  1 | select01     | 2025-08-14 00:00:00 | 2025-08-22 23:59:59 | Sim               | 25%             |
|  2 | ddl          | 2025-08-25 12:00:00 | 2025-08-31 23:59:59 | Sim               | 25%             |
|  3 | dml          | 2025-08-28 16:30:00 | 2025-09-04 23:59:59 | Sim               | 25%             |
|  4 | agg_join     | 2025-09-01 14:00:00 | 2025-09-07 23:59:59 | Sim               | 25%             |
|  5 | group_having | 2025-09-04 16:30:00 | 2025-09-11 23:59:59 | Sim               | 25%             |

In [3]:
ia.grades(task="group_having")

|    | Atividade    | Exercício   |   Peso |   Nota |   Nota Sem Atraso |   Nota Com Atraso |
|---:|:-------------|:------------|-------:|-------:|------------------:|------------------:|
|  0 | group_having | ex01        |      1 |      0 |                 0 |                 0 |
|  1 | group_having | ex02        |      4 |      0 |                 0 |                 0 |
|  2 | group_having | ex03        |      4 |      0 |                 0 |                 0 |
|  3 | group_having | ex04        |      4 |      0 |                 0 |                 0 |
|  4 | group_having | ex05        |      4 |      0 |                 0 |                 0 |
|  5 | group_having | ex06        |      8 |      0 |                 0 |                 0 |
|  6 | group_having | ex07        |      6 |      0 |                 0 |                 0 |
|  7 | group_having | ex08        |      6 |      0 |                 0 |                 0 |
|  8 | group_having | ex09        |     12 |      0 |                 0 |                 0 |
|  9 | group_having | ex10        |     10 |      0 |                 0 |                 0 |
| 10 | group_having | ex11        |     10 |      0 |                 0 |                 0 |
| 11 | group_having | ex12        |      6 |      0 |                 0 |                 0 |
| 12 | group_having | ex13        |     12 |      0 |                 0 |                 0 |

In [4]:
ia.grades(by="task", task="group_having")

|    | Tarefa       |   Nota | Conta como ATV?   |
|---:|:-------------|-------:|:------------------|
|  0 | group_having |      0 | Sim               |

In [5]:
# Nota em todas ATVs
ia.grades(by="task")

|    | Tarefa       |   Nota | Conta como ATV?   |
|---:|:-------------|-------:|:------------------|
|  0 | newborn      |     10 | Não               |
|  1 | select01     |     10 | Sim               |
|  2 | ddl          |     10 | Sim               |
|  3 | dml          |     10 | Sim               |
|  4 | agg_join     |     10 | Sim               |
|  5 | group_having |      0 | Sim               |

In [6]:
# Média de ATV, dividindo por n-2
ia.average(excluded_count=2)

|    |   Média de ATV |
|---:|---------------:|
|  0 |             10 |

## Aquecimento

**Exercício 1**: Quais os nomes das categorias de filme? Ordene de forma crescente.

In [7]:
sql_ex01 = """
    SELECT name
    FROM category
    ORDER BY name ASC;
"""

#db(sql_ex01)

In [8]:
ia.sender(answer="sql_ex01", task="group_having", question="ex01", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex01', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 2**: Quais atores tem as iniciais "J.D."? Exiba todos os atributos. Ordene de forma crescente pelo primeiro nome.

In [9]:
sql_ex02 = """
    SELECT *
    FROM actor
    WHERE first_name LIKE 'J%' 
    AND last_name LIKE 'D%'
    ORDER BY first_name ASC;
"""

# db(sql_ex02)

In [10]:
ia.sender(answer="sql_ex02", task="group_having", question="ex02", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex02', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 3**: Liste as cidades brasileiras presentes na base de dados. Ordene de forma decrescente.

In [11]:
sql_ex03 = """
    SELECT c.city
    FROM city c
    JOIN country co ON c.country_id = co.country_id
    WHERE co.country = 'Brazil'
    ORDER BY c.city DESC;
"""

# db(sql_ex03)

In [12]:
ia.sender(answer="sql_ex03", task="group_having", question="ex03", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex03', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 4**: *Quantas* cidades brasileiras tem na base de dados? Renomeie para `qt_city`

In [13]:
sql_ex04 = """
    SELECT COUNT(*) AS qt_city
    FROM city c
    JOIN country co ON c.country_id = co.country_id
    WHERE co.country = 'Brazil';
"""

# db(sql_ex04)

In [14]:
ia.sender(answer="sql_ex04", task="group_having", question="ex04", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex04', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 5**: Liste os filmes do ator (fictício) "Dan Harris". Ordene de forma crescente. Renomeie para `movie_title`.

In [15]:
sql_ex05 = """
    SELECT f.title AS movie_title
    FROM film f
    JOIN film_actor fa ON f.film_id = fa.film_id
    JOIN actor a ON fa.actor_id = a.actor_id
    WHERE a.first_name = 'Dan'
        AND a.last_name = 'Harris'
    ORDER BY f.title ASC;
"""

# db(sql_ex05)

In [16]:
ia.sender(answer="sql_ex05", task="group_having", question="ex05", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex05', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 6**: Quais filmes estão alugados por Florence Woods?

Retorne:
- O primeiro nome
- O sobrenome
- O id do cliente
- O título do filme

Ordene pelo:
- Título do filme, decrescente

In [19]:
sql_ex06 = """
    SELECT c.first_name,
        c.last_name,
        c.customer_id,
        f.title
    FROM customer c
    JOIN rental r ON c.customer_id = r.customer_id
    JOIN inventory i ON r.inventory_id = i.inventory_id
    JOIN film f ON i.film_id = f.film_id
    WHERE c.first_name = 'Florence'
        AND c.last_name = 'Woods'
        AND r.return_date IS NULL
    ORDER BY f.title DESC;
"""

# db(sql_ex06)

In [20]:
ia.sender(answer="sql_ex06", task="group_having", question="ex06", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex06', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 7**: Para quais línguas não tem nenhum filme na locadora? Ordene de forma crescente.

**Dica**: use `LEFT OUTER JOIN`

In [24]:
sql_ex07 = """
    SELECT l.name 
    FROM language l
    LEFT JOIN film f ON l.language_id = f.language_id
    WHERE f.film_id IS NULL
    ORDER BY l.name ASC;
"""

# db(sql_ex07)

In [25]:
ia.sender(answer="sql_ex07", task="group_having", question="ex07", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex07', style=ButtonStyle()), Output()), _dom_classes=('widget…

## `DISTINCT`

As vezes desejamos consultar quais os valores distintos de uma coluna. Para isso usamos o qualificador `DISTINCT`. 

Por exemplo: Quais os anos de lançamento dos filmes da base? 

In [None]:
# Vai aparecer muitas cópias de "(2006,)"
db("SELECT release_year FROM film LIMIT 20")

Ops, parece que não tem muita variedade nesta base! Usando `DISTINCT` podemos limpar esse resultado:

In [None]:
db("SELECT DISTINCT release_year FROM film")

### Praticando

**Exercício 8**: Quais clientes estão alugando um DVD agora? Ordene pelo nome e sobrenome. Retorne o id, nome e sobrenome do cliente.

In [27]:
sql_ex08 = """
    SELECT DISTINCT c.customer_id,
        c.first_name,
        c.last_name
    FROM customer c
    JOIN rental r ON c.customer_id = r.customer_id
    WHERE r.return_date IS NULL
    ORDER BY c.first_name ASC, c.last_name ASC;
"""

# db(sql_ex08)

In [28]:
ia.sender(answer="sql_ex08", task="group_having", question="ex08", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex08', style=ButtonStyle()), Output()), _dom_classes=('widget…

## Agrupamento

Uma das características mais valiosas de banco de dados é o *agrupamento*. Podemos agrupar os resultados de uma query indicando uma coluna cujos valores serão usados para agrupar os dados.

Por exemplo, considere a seguinte tabela, que chamaremos de `vendas`:

| id | id_item | item | preco |
|--|--|--|--|
| 1 | 1 | A | 5 |
| 2 | 2 | B | 6 |
| 3 | 1 | A | 3 |
| 4 | 3 | C | 7 |
| 5 | 3 | C | 5 |
| 6 | 1 | A | 2 |

Se agruparmos pela coluna `id_item` teremos 3 conjuntos de resultados:

id_item = 1:

| id | id_item | item | preco |
|--|--|--|--|
| 1 | 1 | A | 5 |
| 3 | 1 | A | 3 |
| 6 | 1 | A | 2 |

id_item = 2:

| id | id_item | item | preco |
|--|--|--|--|
| 2 | 2 | B | 6 |

id_item = 3:

| id | id_item | item | preco |
|--|--|--|--|
| 4 | 3 | C | 7 |
| 5 | 3 | C | 5 |

É como se tivessemos uma lista de tabelas! Isso não é permitido em SQL. Temos que **resumir** a informação de cada uma das tabelas a uma linha só, o que significa que, para cada coluna, devemos escolher uma dessas opções:
- Resumir a informação da coluna usando uma **função de grupo**. Podemos somar, tirar a média, contar itens, concatená-los em uma única string, entre outras;
- Para colunas que se relacionam 1 para 1 com a coluna de agrupamento (como a coluna de agrupamento em si, ou a coluna `item` neste exemplo), manter este valor. Isso acontece frequentemente quando fazemos `JOIN`.
- Não incluir a coluna, caso contrário.

Neste exemplo, podemos tomar a seguinte decisão para cada coluna:
- `id`: descartar
- `id_item`: manter valor
- `item`: manter valor
- `preco`: vamos calcular a soma dos valores, e renomear esta informação para `total`

Com isso, obtemos a seguinte tabela:

| id_item | item | total |
|--|--|--|
| 1 | A | 10 |
| 2 | B | 6 |
| 3 | C | 12 |

Por fim, se não queremos id_item, ficamos com a seguinte tabela:

| item | total |
|--|--|
| A | 10 |
| B | 6 |
| C | 12 |

Para obter essa tabela podemos usar o seguinte comando SQL:

```SQL
SELECT 
    item, SUM(preco) as total 
FROM 
    vendas
GROUP BY
    id_item
```

Consulte o capítulo 9 do seu livro texto para conhecer mais sobre agrupamentos.

### Praticando

**Exercício 9**: Quais os 10 atores que mais apareceram em filmes?

Retorne o id, nome, sobrenome e a quantidade de filmes que o ator atua (nomeie esta coluna como `film_count`).

Ordene de forma descrescente pela quantidade, crescente pelo primeiro nome e crescente pelo segundo nome.

In [29]:
sql_ex09 = """
    SELECT a.actor_id,
        a.first_name,
        a.last_name,
        COUNT(fa.film_id) AS film_count
    FROM actor a
    JOIN film_actor fa ON a.actor_id = fa.actor_id
    GROUP BY a.actor_id, a.first_name, a.last_name
    ORDER BY film_count DESC,
            a.first_name ASC,
            a.last_name ASC
    LIMIT 10;
"""

# db(sql_ex09)

In [30]:
ia.sender(answer="sql_ex09", task="group_having", question="ex09", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex09', style=ButtonStyle()), Output()), _dom_classes=('widget…

## Pipeline do comando `SELECT`

Uma versão mais completa do `SELECT` (mas não inteiramente completa - consulte o manual do MySQL) é vista abaixo:

```
SELECT [DISTINCT] <select_header> 
FROM <source_tables>
WHERE <filter_expression>
GROUP BY <grouping_expressions>
HAVING <filter_expression>
ORDER BY <ordering_expressions>
LIMIT <count> 
OFFSET <count>
```

Você já deve ter percebido que o comando `SELECT` tem uma sequência própria de avaliação. Por exemplo, para saber quais filmes custam mais que 3 dinheiros, podemos escrever:

In [None]:
db("""
SELECT
    COUNT(f.rental_rate)
FROM
    film f
WHERE
    f.rental_rate > 3
""")

Observe que o 'apelido' f para a tabela 'film' é definido na cláusula `FROM`, mas usado em `SELECT` e também em `WHERE`.

A ordem de execução do comando `SELECT` é aproximadamente como segue:

1. `FROM <source_tables>`: indica as tabelas que serão usadas nesta query e, conceitualmente, combina estas tabelas através de *produto cartesiano* em uma grande tabela. (Note o termo "*conceitualmente*" que usei: em termos de implementação da query este produto cartesiano raramente é construído.)

2. `WHERE <filter_expression>`: filtra linhas.

3. `GROUP BY <grouping_expressions>`: agrupa conjuntos de linhas.

4. `SELECT <select_heading>`: escolha de colunas e de agregados.

5. `HAVING <filter_expression>`: outra filtragem, esta aplicada apenas **depois** da agregação. Pode usar resultados do processo de agregação. Obriga o uso de `GROUP BY`.

6. `DISTINCT`: Elimina linhas duplicadas.

7. `ORDER BY`: ordena as linhas do resultado.

8. `OFFSET <count>`: Pula linhas do resultado. Requer LIMIT.

9. `LIMIT <count>`: Mantém apenas um número máximo de linhas.

Esta sequencia também serve como dica de como projetar uma query! 
- Comece identificando as tabelas que você deseja usar
- Monte o filtro de linhas, incluindo critérios de `JOIN`
- Agrupe
- Selecione colunas e aplique funções de agregação, conforme necessário
- Filtre com `HAVING`, agora que temos agregação
- O resto é mais fácil, aplique conforme requerido

## `WHERE` versus `HAVING`

Conforme visto acima, temos a cláusula `HAVING` para fazer filtragens *APÓS* agregação.

**Para que serve isso?** Por exemplo, suponha que queremos saber quais categorias de filme possuem a letra `a` em seu nome **E** menos que sessenta filmes cadastrados na base.

**A seguinte query irá falhar! Continue a leitura do *handout***

In [None]:
db("""
SELECT 
    ca.category_id,
    ca.name,
    COUNT(f.film_id) AS film_count
FROM
    category ca
    INNER JOIN film_category fc USING(category_id)
    INNER JOIN film f USING(film_id)
WHERE
    lower(ca.name) LIKE '%a%' AND
COUNT(f.film_id) < 60 -- FALHA AQUI!!!!!!!!!!!!!!!!!!!!
GROUP BY
    ca.category_id
ORDER BY
    film_count DESC
""")

A query falha porque a função de agregação `COUNT` necessita que as linhas já tenham sido selecionadas / filtradas. Então, ao tentar utilizar no `WHERE` uma função que depende das linhas filtradas pelo `WHERE`, criamos uma situação de conflito!

Para solucionar, iremos utilizar `HAVING`:

In [None]:
db("""
SELECT 
    ca.category_id,
    ca.name,
    COUNT(f.film_id) AS film_count
FROM
    category ca
    INNER JOIN film_category fc USING(category_id)
    INNER JOIN film f USING(film_id)
WHERE
    lower(ca.name) LIKE '%a%'
GROUP BY
    ca.category_id
HAVING
    film_count < 60
ORDER BY
    film_count DESC
""")

## Praticando

**Exercício 10**: Liste a duração média dos filmes na categoria 'Drama'. Renomeie o atributo retornado para `duracao_media_drama`.

In [31]:
sql_ex10 = """
    SELECT 
        AVG(f.length) AS duracao_media_drama
    FROM film f
    INNER JOIN film_category fc ON f.film_id = fc.film_id
    INNER JOIN category c ON fc.category_id = c.category_id
    WHERE c.name = 'Drama';
"""

# db(sql_ex10)

In [32]:
ia.sender(answer="sql_ex10", task="group_having", question="ex10", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex10', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 11**: Liste o nome da categoria e a duração média dos filmes por categoria. Renomeie o atributo de média para `avg_len`. Ordene de forma decrescente por `avg_len`.

In [36]:
sql_ex11 = """
    SELECT 
        c.name,
        AVG(f.length) AS avg_len
    FROM film f
    INNER JOIN film_category fc ON f.film_id = fc.film_id
    INNER JOIN category c ON fc.category_id = c.category_id
    GROUP BY c.name
    ORDER BY avg_len DESC;
"""

# db(sql_ex11)

In [37]:
ia.sender(answer="sql_ex11", task="group_having", question="ex11", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex11', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 12**: Liste o nome da categoria e a duração média dos filmes por categoria, apenas para categorias cuja duração média de filme excede 120 minutos. Renomeie o atributo de média para `avg_len`. Ordene de forma decrescente por `avg_len`.

In [42]:
sql_ex12 = """
    SELECT 
        c.name,
        AVG(f.length) AS avg_len
    FROM film f
    INNER JOIN film_category fc ON f.film_id = fc.film_id
    INNER JOIN category c ON fc.category_id = c.category_id
    GROUP BY c.name
    HAVING AVG(f.length) > 120
    ORDER BY avg_len DESC;
"""

# db(sql_ex12)

In [43]:
ia.sender(answer="sql_ex12", task="group_having", question="ex12", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex12', style=ButtonStyle()), Output()), _dom_classes=('widget…

**Exercício 13**: Quais atores participaram de 35 a 40 filmes (intervalo fechado)?

Retorne:

- Nome
- Sobrenome
- Quantidade de filmes

Ordene por:
- Quantidade de filmes (Decrescente)
- Se houver empate na quantidade de filmes, ordene de forma crescente pelo nome e sobrenome.

In [50]:
sql_ex13 = """
    SELECT 
        a.first_name,
        a.last_name,
        COUNT(fa.film_id) AS film_count
    FROM actor a
    INNER JOIN film_actor fa ON a.actor_id = fa.actor_id
    GROUP BY a.actor_id, a.first_name, a.last_name
    HAVING COUNT(fa.film_id) BETWEEN 35 AND 40
    ORDER BY film_count DESC, 
            a.first_name ASC, 
            a.last_name ASC;
"""

# db(sql_ex13)

In [51]:
ia.sender(answer="sql_ex13", task="group_having", question="ex13", answer_type="pyvar")

interactive(children=(Button(description='Enviar ex13', style=ButtonStyle()), Output()), _dom_classes=('widget…

# Conclusão

Esta aula de hoje foi bastante densa! Dicas de estudo:

- Pratique no seu livro-texto, capítulo 9. Lembre-se que a base 'música' pode ser usada para praticar os comandos SQL vistos no livro.
- Tente criar queries que sirvam de exemplo para os conceitos do livro! A tarefa de criar exemplos é muito instrutiva!

**Leitura prévia**:
Para a próxima aula vamos continuar praticando, com os assuntos dos capítulos 10 e 11, prepare-se para a aula, ok?

Até a próxima!

In [52]:
connection.close()

NameError: name 'connection' is not defined

## Conferir Notas

Confira se as notas na atividade são as esperadas!

Primeiro na atividade atual!

In [53]:
ia.grades(by="task", task="group_having")

|    | Tarefa       |   Nota | Conta como ATV?   |
|---:|:-------------|-------:|:------------------|
|  0 | group_having |     10 | Sim               |

In [54]:
ia.grades(task="group_having")

|    | Atividade    | Exercício   |   Peso |   Nota |   Nota Sem Atraso |   Nota Com Atraso |
|---:|:-------------|:------------|-------:|-------:|------------------:|------------------:|
|  0 | group_having | ex01        |      1 |     10 |                10 |                 0 |
|  1 | group_having | ex02        |      4 |     10 |                10 |                 0 |
|  2 | group_having | ex03        |      4 |     10 |                10 |                 0 |
|  3 | group_having | ex04        |      4 |     10 |                10 |                 0 |
|  4 | group_having | ex05        |      4 |     10 |                10 |                 0 |
|  5 | group_having | ex06        |      8 |     10 |                10 |                 0 |
|  6 | group_having | ex07        |      6 |     10 |                10 |                 0 |
|  7 | group_having | ex08        |      6 |     10 |                10 |                 0 |
|  8 | group_having | ex09        |     12 |     10 |                10 |                 0 |
|  9 | group_having | ex10        |     10 |     10 |                10 |                 0 |
| 10 | group_having | ex11        |     10 |     10 |                10 |                 0 |
| 11 | group_having | ex12        |      6 |     10 |                10 |                 0 |
| 12 | group_having | ex13        |     12 |     10 |                10 |                 0 |

In [55]:
ia.grades(by="task")

|    | Tarefa       |   Nota | Conta como ATV?   |
|---:|:-------------|-------:|:------------------|
|  0 | newborn      |     10 | Não               |
|  1 | select01     |     10 | Sim               |
|  2 | ddl          |     10 | Sim               |
|  3 | dml          |     10 | Sim               |
|  4 | agg_join     |     10 | Sim               |
|  5 | group_having |     10 | Sim               |

In [56]:
# Média de ATV, dividindo por n-2
ia.average(excluded_count=2)

|    |   Média de ATV |
|---:|---------------:|
|  0 |             10 |