# `SELECT` - Agregação e Agrupamento

Nesta aula continuaremos a trabalhar com **SQL** (*Structured Query Language*), adicionando novos recursos que irão nos auxiliar a produzir analises de bases de dados.

Na aula anterior vimos como utilizar `SELECT`, filtrar dados com o uso do `WHERE`, limitar a quantidade de registros retornados com o `LIMIT` e ordenar com o `ORDER BY`.

Veja um exemplo que encontra os códigos brasileiros de ocupação relativos a venda, e ordena de forma decrescente por descrição:


<div class="alert alert-info">

```postgresql
  SELECT cbo.cbo_2002,
         LOWER(cbo.desc_cbo_2002) AS desc_cbo_2002
    FROM rais.ocupacao_cbo2002 cbo
   WHERE cbo.desc_cbo_2002 ILIKE '%vend%'
ORDER BY cbo.desc_cbo_2002 DESC

-- Com order by eu posso utilizar tanto ASC (Crescente) quanto DESC (Decrescente)
-- ASC é o padrão!padrão!

```

</div>

Observe que podemos utilizar dois traços (`--`) para criar **comentários**, que não irão produzir resultado quando a query for executada.

## Insper Autograding

Iremos utilizar uma ferramenta para correção automática de nossas queries. Ao responder os exercícios, será possível enviar a solução para um servidor, que dará feedback quase que instantâneo sobre a resposta.

Siga os passos deste notebook para realizar a instalação da biblioteca de correção de exercícios nos notebooks da disciplina de Big Data para Dados Públicos!

## Instalação

Vamos instalar a biblioteca (este passo só precisa ser executado uma vez):

In [None]:
!python -m pip uninstall -y insperautograder
!python -m pip install git+https://github.com/macielcalebe/insperautograding.git

## Importando as bibliotecas

In [None]:
import os
import insperautograder.jupyter as ia

## Configurar ambiente

Execute a célula para configurar nosso ambiente de execução:

In [None]:
os.environ["IAG_OFFERING"] = "24-2"
os.environ["IAG_SUBJECT"] = "bigdata"
os.environ["IAG_SERVER_URL"] = "https://bigdata.insper-comp.com.br/iag"

## Me diga quem você é

Utilize o **Token** enviado para seu e-mail para que você seja identificado pelo servidor de testes.

Substitua `iagtok_xxx...` pelo token enviado para seu e-mail.

In [None]:
# Coleu seu token abaixo no lugar de iagtok_xxx
# Procure no seu email por "Insper auto grading"
os.environ["IAG_TOKEN"] = "iagtok_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

## Conferir atividades e notas

Conferindo quais atividades estão disponíveis!

In [None]:
ia.tasks()

Conferindo a nota por exercício na atividade:

In [None]:
ia.grades(task="big_agrupamento")

Conferindo a nota geral nas atividades

In [None]:
ia.grades(by="TASK")

## Exercícios

Vamos praticar para relembrar os conteúdos da última aula!

Ao responder os exercícios, primeiro você deve acessar https://eletiva.bigdata.insper-comp.com.br/pgadmin4 e utilizar seus conhecimentos de **SQL** para produzir e verificar as respostas.

Quando estiver bastante confiante que a resposta está correta, copie e cole ela no local indicado e faça o envio para o servidor.
### Exercício 1

Vamos verificar os CNAEs (tabela rais.cnae) e quais deles possuem relação com Previdência?


**a)** Filtre o CNAE com descrição `Previdência Complementar Fechada`.




In [None]:
sql_ex01a = """
-- Seu SQL aqui!
"""

Produza sua resposta no pgAdmin.

Quando estiver confiante, cole sua resposta na célula acima, execute-a e clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="sql_ex01a", task="big_agrupamento", question="ex01a", answer_type="pyvar")

**b)** Agora filtre qualquer CNAE com o termo `Previdência`.

Ordene de forma crescente pela descrição.

In [None]:
sql_ex01b = """
-- Seu SQL aqui!
"""

Clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="sql_ex01b", task="big_agrupamento", question="ex01b", answer_type="pyvar")

**c)** Copie a query do exercício anterior e faça as alterações necessárias:

Ordene de forma decrescente pelo código do CNAE.

In [None]:
sql_ex01c = """
-- Seu SQL aqui!
"""

Clique no botão abaixo para fazer o envio.

In [None]:
ia.sender(answer="sql_ex01c", task="big_agrupamento", question="ex01c", answer_type="pyvar")

## Funções de Agregação

As funções de agregação permitem agrupar os valores de várias linhas, de forma a produzir apenas uma medida resumo. Por exemplo, podemos querer saber o valor total arrecadado pelo IBAMA ou a média dos salários em um determinado mês. Ambas estes cálculos podem ser obtidos pelo uso de funções de agregação.

As funções de agregação mais utilizadas são `SUM`, `MIN`, `MAX`, `AVG` e `COUNT`.

Para saber mais acesse https://www.postgresql.org/docs/16/functions-aggregate.html

Veja um exemplo de cálculo do **valor médio** para as receitas do IBAMA:

<div class="alert alert-info">

```postgresql
SELECT AVG(valor) AS valor_medio
FROM ibama.receita
```

</div>

**DICA**: Para arredondar, podemos fazer

<div class="alert alert-info">

```postgresql
SELECT ROUND(CAST(AVG(valor) AS numeric), 2) AS valor_medio
FROM ibama.receita
```

</div>


<div class="alert alert-warning">

Execute no pgAdmin e confira o resultado!

</div>

## Exercícios

### Exercício 2

Vamos analisar os dados da tabela `rais.dados_sp_frac`? Neste exercício iremos trabalhar com funções de agregação.


**a)** Exiba uma amostra de 5 registros da tabela. Esta questão não tem correção automática!

OBS: Nos tópicos seguintes, utilize todos os registros.

<div class="alert alert-info">

```sql
-- Sua resposta aqui!
```

</div>

**b)** Calcule a média da coluna `vl_rem_janeiro_cc`.

Renomeie a coluna para `vl_rem_media_janeiro_cc`!

In [None]:
sql_ex02b = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex02b", task="big_agrupamento", question="ex02b", answer_type="pyvar")

**c)** Calcule o maior e o menor valor da coluna `vl_rem_janeiro_cc`.

Renomeie a coluna para `maior` e `menor`!

In [None]:
sql_ex02c = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex02c", task="big_agrupamento", question="ex02c", answer_type="pyvar")

**d)** Calcule a média da coluna `vl_rem_janeiro_cc` apenas para os registros que não estejam zerados.

Renomeie a coluna para `vl_rem_media_janeiro_cc`!

In [None]:
sql_ex02d = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex02d", task="big_agrupamento", question="ex02d", answer_type="pyvar")

**e)** Calcule a correlação entre a coluna `vl_rem_janeiro_cc` e `vl_rem_fevereiro_cc`.

**Dica**: busque por `“correlation coefficient”` em https://www.postgresql.org/docs/15/functions-aggregate.html 

Renomeie a coluna para `correlacao_jan_fev`!

In [None]:
sql_ex02e = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex02e", task="big_agrupamento", question="ex02e", answer_type="pyvar")

**f)** Calcule a correlação entre a coluna `vl_rem_janeiro_cc` e `vl_rem_fevereiro_cc`.

Agora, tente considerar apenas os registros preenchidos com valores positivos em ambas as colunas.

Renomeie a coluna para `correlacao_jan_fev`!

In [None]:
sql_ex02f = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex02f", task="big_agrupamento", question="ex02f", answer_type="pyvar")

### Exercício 3

Considere a tabela `ibama.receita`:

**a)** Conte a quantidade total de registros.

Renomeie a coluna devolvida como `qtde_registros`.

In [None]:
sql_ex03a = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03a", task="big_agrupamento", question="ex03a", answer_type="pyvar")

**b)** Exiba todas as descrições de fonte de receita contidas na base `ibama.receita`, **eliminando as repetições**.

**Dica**: https://www.postgresql.org/docs/15/queries-select-lists.html#QUERIES-DISTINCT 

Ordene pela descrição da fonte de receita.

In [None]:
sql_ex03b = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03b", task="big_agrupamento", question="ex03b", answer_type="pyvar")

**c)** Conte quantas descrições diferentes temos na base de dados.

Renomeie para `qtde_fonte_receita`.

In [None]:
sql_ex03c = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03c", task="big_agrupamento", question="ex03c", answer_type="pyvar")

**d)** Conte quantos registros são relativos a `"Flora"` e ao ano 2010.

Renomeie para `qtde_flora_2010`.

In [None]:
sql_ex03d = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03d", task="big_agrupamento", question="ex03d", answer_type="pyvar")

**e)** Considerando todos os registros da base, encontre o Valor médio, mínimo e máximo.

Renomeie para `vlr_medio`, `vlr_minimo` e `vlr_maximo`.

In [None]:
sql_ex03e = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03e", task="big_agrupamento", question="ex03e", answer_type="pyvar")

**f)** Considerando os registros apenas do ano de 2018, encontre o Valor médio, mínimo e máximo.

Renomeie para `vlr_medio`, `vlr_minimo` e `vlr_maximo`.

In [None]:
sql_ex03f = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex03f", task="big_agrupamento", question="ex03f", answer_type="pyvar")

E se fosse necessário calcular o valor médio de das receitas do IBAMA ano a ano? Por exemplo:

| Ano  | Valor Medio |
|------|-------------|
| 2016 | 105.10      |
| 2017 | 98.75       |
| 2018 | 95.30       |


Vamos tentar?!


## Funções de Agrupamento 
As funções de **agrupamento** permitem considerar os dados em grupos, de forma que as funções de agregação sejam calculadas de forma individual em cada agrupamento.

Considere a tabela de dados:

| id | nome   | departamento | salario |
|----|--------|--------------|---------|
| 1  | João   | Marketing    | 5000    |
| 2  | Maria  | Financeiro   | 6000    |
| 3  | José   | Financeiro   | 7800    |
| 4  | Ana    | Marketing    | 4000    |
| 5  | Cesar  | Marketing    | 3500    |
| 6  | Marina | Financeiro   | 9000    |

Para calcular o salário médio, podemos fazer:

```postgresql
SELECT avg(salario) as salario_medio
FROM funcionarios
```

Entretanto, caso nossa vontade fosse calcular o salário médio **por departamento**, ao tentar fazer:

```postgresql
SELECT departamento, 
       avg(salario) as salario_medio
FROM funcionarios
```

Obteríamos um erro, pois a função `avg(salario)` resume todas as linhas em um único valor. Então teríamos uma média, mas vários departamentos e o PostgreSQL não saberia como relacioná-los.

Precisamos fazer o uso de **agrupamentos** (`GROUP BY`). Assim podemos obter, por exemplo, **a média dos salários por departamento** com a query:


```postgresql
 SELECT departamento,
         avg(salario) as salario_medio
    FROM funcionarios
GROUP BY departamento -- Este comando é novidade!
```

Que nos retorna como resultado o salário médio por departamento:

| departamento | salario |
|--------------|---------|
| Marketing    | 4166    |
| Financeiro   | 7600    |

Utilize os próximos exercícios para praticar!

### Exercício 4

Considere a tabela `ibama.receita`:

**a)** Considerando os dados até o ano de 2005, calcule o **valor total** de arrecadação em cada ano.

Devolva as colunas `ano` e `valor_total`.

Ordene crescente por `ano`.

In [None]:
sql_ex04a = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex04a", task="big_agrupamento", question="ex04a", answer_type="pyvar")

**b)** Considerando os dados de 2016 a 2019 e apenas os registros onde a descrição da receita contém a palavra `“penalidade”`, calcule o valor médio arrecadado para cada categoria de arrecadação (receita).

Devolva as colunas `desc_receita` e `valor_medio`.

Ordene de forma decrescente pelo valor médio.

In [None]:
sql_ex04b = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex04b", task="big_agrupamento", question="ex04b", answer_type="pyvar")

**c)** Considerando os dados de 2016 a 2019 e apenas os registros onde a descrição da receita contém a palavra `“penalidade”`, para cada ano, calcule:

- o valor médio arrecadado.
- o valor total arrecadado.
- a quantidade total de penalidades.

Devolva as colunas (nesta ordem e com estes nomes): `ano`, `valor_medio`, `valor_total` e `quantidade_total`.

Ordene de forma crescente pelo ano.

In [None]:
sql_ex04c = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex04c", task="big_agrupamento", question="ex04c", answer_type="pyvar")

### Exercício 5

Considere a tabela `rais.municipio`:

**a)** Conte quantos registros a tabela possui.

Devolva a coluna `qtde_municipios`.

In [None]:
sql_ex05a = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex05a", task="big_agrupamento", question="ex05a", answer_type="pyvar")

**b)** Conte quantos municipios cada **UF** possui.

Devolva as colunas  `uf` e `qtde_municipios`.

Ordene da **UF** com mais municípios para a com menos municípios.

In [None]:
sql_ex05b = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex05b", task="big_agrupamento", question="ex05b", answer_type="pyvar")

**c)** Considerando a query do exercício anterior, exiba apenas os estados com 225 ou mais cidades.

**Dica**: pesquise por `postgresql HAVING`.

Devolva as colunas  `uf` e `qtde_municipios`.

Ordene da **UF** com mais municípios para a com menos municípios.

In [None]:
sql_ex05c = """
-- Seu SQL aqui!
"""

In [None]:
ia.sender(answer="sql_ex05c", task="big_agrupamento", question="ex05c", answer_type="pyvar")

### Comentários

Comentários podem ser úteis para auxiliar na compreensão das queries. Em SQL, utilizaremos `--` e tudo a direita será considerado como comentário. Veja um exemplo:

<div class="alert alert-info">

```postgresql
-- Vou buscar por um CNAE específico
SELECT *
FROM rais.cnae c
WHERE c.desc_cnae_20_subclasse = 'Previdência Complementar Fechada'
```

</div>

## Conferir notas

Vamos verificar se as notas foram gravadas nos exercícios!

In [None]:
ia.grades(task="big_agrupamento")

Vamos verificar se a nota da atividade está ok:

In [None]:
ia.grades(by="TASK", task="big_agrupamento")

## Finalizando o trabalho

Por hoje é só!