# Tutorial de Consultas em SQL

## Sumário

1. Introdução às Buscas
    1. Comando `SELECT`
    1. Comando `LIMIT`
    1. Comando `WHERE`
1. Agregação
    1. Comando `DISTINCT`
    1. Função `COUNT`
    1. Comando `GROUP BY`
1. Junções
    1. Comando `INNER JOIN`

In [5]:
import sqlite3
import pandas as pd
conn = sqlite3.connect('db.sqlite')

## Buscas

As buscas em banco de dados permitem selecionar uma amostra de dados a partir de critérios estabelecidos

A cláusula SQL usada para fazer busca é a `SELECT`



### Comando `SELECT`

#### Sintaxe

```sql
SELECT column1, column2, ...
FROM table_name;
``` 

A forma mais simples do comando `SELECT` está mostrada acima, um comando deste tipo seleciona todos os elementos das colunas especificadas de uma determinada tabela do banco de dados.

Caso queiramos selecionar todas as colunas de uma tabela, podemos usar o caractere coringa `*` ao invés de especificar todas uma por uma:

```sql
SELECT * FROM table_name;
``` 

#### Exemplo

O exemplo abaixo mostra uma busca por todas as colunas da tabela `photo`


In [6]:
Q1 = 'SELECT * FROM photo'
pd.read_sql_query(Q1, conn)

Unnamed: 0,id,ra,dec,mag_r
0,J124932.74-002235.7,192.386410,-0.376578,16.00860
1,J111147.21+281602.3,167.946700,28.267310,14.10040
2,J142241.57+042420.9,215.673200,4.405806,14.59802
3,J080627.41+505717.3,121.614200,50.954810,14.64256
4,J103936.46+014600.7,159.901900,1.766861,15.75859
...,...,...,...,...
295,J140953.62+203300.6,212.473400,20.550170,15.45016
296,J171637.44+582442.8,259.156000,58.411890,14.28654
297,J140309.41+351759.4,210.789220,35.299843,17.82530
298,J102436.22+124145.6,156.150900,12.696000,15.85637


#### Exercício 1.1.1

Preencha a variável `Q2` a seguir para obter todas as colunas da tabela `spec`

In [None]:
Q2 = ''
pd.read_sql_query(Q2, conn)

#### Exercício 1.1.2

Preencha a variável `Q3` a seguir para obter todas as colunas da tabela `morpho`

In [None]:
Q3 = ''
pd.read_sql_query(Q3, conn)

### Comando LIMIT/TOP

Uma função **muito importante** é limitar a quantidade de linhas retornadas, isso pode reduzir significativamente o tempo de execução para banco de dados com grande volume de dados como o S-PLUS, para isso usamos o comando `LIMIT` / `TOP`.

Este comando (assim como outros) possui sintaxe diferente dependendo do SGBD (backend) usado.

#### Sintaxe

A sintexe do **sqlite** (usado nesse tutorial) é a seguinte:

```sql
SELECT * FROM table_name LIMIT 10;
```

Já a sintaxe que deve ser usada quando acessar dados no banco de dados do **S-PLUS** deve ser a seguinte:

```sql
SELECT TOP 10 * FROM table_name;
```

O valor 10 deve ser substituído pelo valor de linhas desejado


#### Exercício 1.2.1

Preencha a variável `Q4` para obter os primeiros 7 elemetos das colunas `id` e `mag_r` da tabela `photo`

In [None]:
Q4 = ''
pd.read_sql_query(Q4, conn)

### Comando WHERE

Um dos maiores potenciais do SQL é selecionar uma amostra de dados baseada em determinadas condições. Para isso usamos o comando `WHERE`

#### Sintaxe

```sql
SELECT column1, column2, ...
FROM table_name
WHERE condition;
```

O termo `condition` acima pode ser uma expressão lógica constituída de todos os operadores lógicos e aritméticos suportados

#### Tabela de Operadores Aritméticos
|Op|Desc|
|---|---|
|+|Add|
|-|Subtract|	
|*|Multiply|	
|/|Divide|
|%|Modulo|

#### Tabela de Operadores de Comparação
|Op|Desc|
|---|---|
|= |Equal to|
|> |Greater than|
|< |Less than|
|>=|Greater than or equal to|
|<=|Less than or equal to|
|<>|Not equal to|

#### Tabela de Operadores Lógicos
|Op|Desc|
|---|---|
|ALL|TRUE if all of the subquery values meet the condition|
|AND|TRUE if all the conditions separated by AND is TRUE|
|ANY|TRUE if any of the subquery values meet the condition| 	
|BETWEEN|TRUE if the operand is within the range of comparisons| 	
|EXISTS|TRUE if the subquery returns one or more records|
|IN|TRUE if the operand is equal to one of a list of expressions| 	
|LIKE|TRUE if the operand matches a pattern|
|NOT|Displays a record if the condition(s) is NOT TRUE|
|OR|TRUE if any of the conditions separated by OR is TRUE| 	
|SOME|TRUE if any of the subquery values meet the condition|


#### Exemplo

Selecione todos os objetos da tabela `photo` com magnitude entre 16 e 17. 

Nota: a sintaxe do operador `BETWEEN` é `BETWEEN lower AND upper` e esse `AND` não é o operador lógico `AND`

In [8]:
Q5 = 'SELECT * FROM photo WHERE mag_r BETWEEN 16 AND 17'
pd.read_sql_query(Q5, conn)

Unnamed: 0,id,ra,dec,mag_r
0,J124932.74-002235.7,192.386410,-0.376578,16.008600
1,J235700.31+152620.8,359.251300,15.439110,16.296540
2,J153927.97+525950.7,234.866550,52.997421,16.397200
3,J231232.38+054331.0,348.134911,5.725298,16.437217
4,J113638.54-030118.4,174.161073,-3.022877,16.270220
...,...,...,...,...
94,J105205.97+141118.0,163.024860,14.188330,16.758900
95,J111010.80+240031.8,167.545000,24.008830,16.406680
96,J031354.84-010648.1,48.478500,-1.113361,16.117600
97,J114230.27+625409.7,175.626110,62.902695,16.512800


#### Exemplo 

Selecione a posição e o redshift dos objetos com redshift espectroscópico menor que 0.02 ou maior que 0.08

Nota: a posição é determinada pelas coordenadas `ra` e `dec`, redshift é denominado por `z` na tabela `spec` 

In [9]:
Q6 = """
  SELECT ra, dec, z 
  FROM spec 
  WHERE (z < 0.02) OR (z > 0.08)
"""
pd.read_sql_query(Q6, conn)

Unnamed: 0,ra,dec,z
0,248.566200,43.936830,0.138696
1,202.072174,0.288749,0.110839
2,27.281656,0.124794,0.091314
3,196.753178,5.857139,0.139078
4,233.750470,46.814671,0.018757
...,...,...,...
108,163.024860,14.188330,0.087507
109,167.545000,24.008830,0.138731
110,170.816775,16.528603,0.082336
111,126.877470,34.232567,0.087492


#### Exercício 1.3.1

Selecione todos os objetos da tabela `photo` com magnitude entre 16 e 17 usando os operadores `<`, `>` e `AND` e veja se o resultado é o mesmo que do primeiro exemplo

In [None]:
Q7 = """
"""
pd.read_sql_query(Q7, conn)

#### Exercício 1.3.2

Faça uma busca espacial retangular e obtenha a posição (`ra` e `dec`) e o redshift espectroscópico (`z`) de todos os objetos dentro dos limites de `ra` entre 170 e 200 e `dec` entre -5 e 5 usando os dados da tabela `spec`

In [None]:
Q8 = """
"""
pd.read_sql_query(Q8, conn)

#### Exercício 1.3.3

Faça uma busca espacial retangular e obtenha a posição (`ra` e `dec`) e a magnitude (`mag_r`) de todos os objetos com magnitude menor que 16 dentro dos limites de `ra` entre 170 e 200 e `dec` entre -5 e 5 usando os dados da tabela `photo`

In [None]:
Q9 = """
"""
pd.read_sql_query(Q9, conn)

## Agregação

Nem sempre queremos obter os valores das linhas de uma tabela logo de cara. Em etapas de triagem de dados, talvez queiramos objter apenas algum parâmetro sobre a amostra de dados gerada com a busca.

### Comando `DISTINCT`

O comando `DISTINCT` retorna apenas ocorrências únicas.

#### Sintaxe

```sql
SELECT DISTINCT column1, column2, ...
FROM table_name; 
```

#### Exemplo

Use a cláusula `DISTINCT` para enumerar as classes morfológicas da tabela `morpho`

In [10]:
Q10 = """
  SELECT DISTINCT class
  FROM morpho
"""
pd.read_sql_query(Q10, conn)

Unnamed: 0,class
0,merger
1,non_merger


### Função `COUNT`

A função `COUNT` faz a contagem de elementos de uma busca. Sabendo a quantidade de linhas retornadas por uma busca, é possível determinar um valor razoável para o comando `LIMIT`/`TOP`.

#### Sintaxe

```sql
SELECT COUNT(column_name)
FROM table_name
WHERE condition;
```

Geralmente a coluna contada é a chave primária (`id`), mas pode variar dependendo da busca desejada. Caso não tenha nenhum critério, também é possível usar `COUNT(*)`


#### Exemplo

Obtenha a contagem e a classe de todos os objetos pertencentes à classe merger

**Importante:** use aspas simples `'` para comparação de strings

In [11]:
Q11 = """
  SELECT COUNT(id), class
  FROM morpho
  WHERE class='merger'
"""
pd.read_sql_query(Q11, conn)

Unnamed: 0,COUNT(id),class
0,141,merger


#### Exercício 2.2.1

Obtenha a contagem e a classe de todos os objetos pertencentes à classe `non_merger`

In [None]:
Q12 = """
"""
pd.read_sql_query(Q12, conn)

#### Exercício 2.2.2

Obtenha uma contagem de todos os objetos com magnitude menor que 16 na tabela `photo`

In [None]:
Q13 = """
"""
pd.read_sql_query(Q13, conn)

### Comando `GROUP BY`

O agrupamento é usado para agregar variáveis discretas do conjunto (ou colunas discretas).

#### Sintaxe

```sql
SELECT column_name(s)
FROM table_name
WHERE condition
GROUP BY column_name(s)
ORDER BY column_name(s);
```

`WHERE` E `ORDER BY` não são obrigatórios

#### Exemplo

Obtenha a contagem de objetos em cada classe morfológica da tabela `morpho`. Este valor está coerente com as contagens do Exemplo e do Exercício 2.2.1?

Nota: observe que `mag_r` (tabela `photo`) e `z` (tabela `spec`) são variáveis contínuas, pois retornam números reais e formam uma distribuição, enquanto que `class` (tabela `morpho`) é uma variável discreta e pode ser enumerável. Não faz muito sentido usar a cláusula `GROUP BY` em variáveis contínuas

In [12]:
Q14 = """
  SELECT COUNT(id), class 
  FROM morpho
  GROUP BY class
"""
pd.read_sql_query(Q14, conn)

Unnamed: 0,COUNT(id),class
0,141,merger
1,128,non_merger


#### Exercício 2.3.1

Obtenha a contagem de galáxias `merger` e `non_merger` dentro da região delimitada por `ra` entre 170 e 200 e `dec` entre -15 e 15 na tabela `morpho`

Nota: Faça a contagem usando a função `COUNT()`, restrinja a região usando `WHERE` e use `GROUP BY` para agregar a coluna discreta `class`

In [None]:
Q15 = """
"""
pd.read_sql_query(Q15, conn)

## Junção

Junção é o tópico mais importante. A junção permite unir o resultado da consulta em várias tabelas com uma única busca


### Comando `INNER JOIN`

O comando `INNER JOIN` performa a intersecção de conjuntos

$$
Q = A \cap B
$$

![](https://www.w3schools.com/sql/img_innerjoin.gif)


#### Sintaxe Mínima

```sql
SELECT column1, column2, ...
FROM table1
INNER JOIN table2
ON table1.column_name = table2.column_name;
```

Quando fazemos função, temos acesso à colunas pertencentes à diferentes tabelas, então surge a necessidade de criar um `namespace` para cada tabela, pois diferentes tabelas podem ter colunas com mesmos nomes. Assim, as colunas agora são acessadas por `namespace.column_name` ao invés de simplesmente `column_name`, como anteriormente. 

Uma forma de simplificar a notação para tabelas com nomes longos é atribuir apelidos às tabelas (alias). Para tanto, basta usar `table_name AS table_alias` quando especificar o nome da tabela. Veja a sintaxe com atribuição de apelidos a seguir


#### Sintaxe com alias (recomendada)

```sql
SELECT column1, column2, ...
FROM table1 AS t1
INNER JOIN table2 AS t2
ON t1.column_name = t2.column_name;
```

A última sentença `ON t1.column_name = t2.column_name` da busca é necessária quando se faz qualquer tipo de junção por conta do tipo de conjunto que os banco de dados representam, que é diferente de quando trabalhamos com conjuntos numéricos.

Considere os conjuntos numéricos $A = \{1, 2, 3, 4\}$ e $B = \{3, 4, 5, 6\}$. O resultado da interseccção de $A$ com $B$ é $A \cap B = \{3, 4\}$

Agora, considere os conjuntos $C$ e $D$, que são conjuntos de tupas nomeadas, que mais se parece com a construção do banco de dados
$$C = \{(x=1, y=2), (x=3, y=4), (x=2, y=3) \}$$
$$D = \{(a=1, b=3), (a=8, b=4), (a=5, b=6) \}$$

onde $x$ e $y$ são os nomes das colunas da tabela $C$ e $a$ e $b$ são os nomes das colunas da tabela $D$.

* Qual o resultado da operação $C \cap D$?

Se olharmos para as tuplas como um todo, nenhuma se repete exatamente, então o resultado seria $C \cap D = \varnothing$

Mas isso não seria muito útil, então consideramos apenas uma posição da tupla na comparação


* Qual o resultado da operação $C \cap D$ comparando `C.x` com `D.a`?

Para fazer isso, usamos o mesmo procedimento usado na intersecção de $A$ e $B$: comparamos os valores iguais apenas das coordenadas `C.x` e `D.a`
$$C \cap D = \{(x=1, y=2), (a=1, b=4)\}$$


* Qual o resultado da operação $C \cap D$ comparando `C.y` com `D.b`?
$$C \cap D = \{(x=3, y=4), (a=8, b=4), (x=2, y=3), (a=1, b=3)\}$$

Então a ideia do `ON` é definir um critério de comparação. É possível escrever qualquer expressão lógica em `ON`, mas, na maioria dos casos, a chave primária (ID) de uma coluna é comparada com a chave primária (ID) de outra usando o operador `=`.


#### Sintaxe com mais comandos e alias

```sql
SELECT column1, column2, ...
FROM table1 AS t1
INNER JOIN table2 AS t2
ON t1.column_name = t2.column_name
WHERE condition
GROUP BY column_name(s)
ORDER BY column_name(s);
```

Também é possível adicionar os comandos `WHERE`, `GROUP BY` e `ORDER BY` nas consultas.


**IMPORTANTE:** Em banco de dados astronômicos, cada objeto possui um identificador (ID). Então, em casos mais simples, para procurar o mesmo objeto em diferentes tabelas, é possível adotar a restrição que o ID de uma tabela deve ser igual ao ID de outra tabela. Quando se trabalha com catálogos diferentes (junção de uma tabela do S-PLUS com SDSS, por exemplo), não é possível buscar por ID, mas devemos considerar uma pequena região do ceú em volta de cada registro da tabela. Este último caso é chamado `cone search` e fica para um próximo tutorial. Nas junções deste tutorial consideraremos apenas restrições por ID, que já é suficente para trabalhar com diversas tabelas dentro de um mesmo data release


#### Exemplo

Faça a contagem de objetos que possuem fotometria e espectroscopia, ou seja, estão presentes em ambas as tabelas `photo` e `spec`

In [13]:
Q16 = """
  SELECT COUNT(*)
  FROM photo AS p
  INNER JOIN spec AS s ON p.id = s.id
"""
pd.read_sql_query(Q16, conn)

Unnamed: 0,COUNT(*)
0,257


#### Exemplo

Busque pela posição, magnitude, redshift e classe de todas as galáxias mergers com magnitude menor que 16 e redshift menor que 0.03

Nota: Neste exemplo é pedida uma junção tripla. É possível fazer quantas junções se desejar adicionando consecutivos `INNER JOIN`. Lembre-se de que **todo** `INNER JOIN` precise de uma condição `ON`.

In [15]:
Q17 = """
  SELECT p.ra, p.dec, p.mag_r, s.z, m.class
  FROM photo AS p
  INNER JOIN spec AS s ON p.id = s.id
  INNER JOIN morpho AS m ON p.id = m.id
  WHERE (p.mag_r < 16) AND (s.z < 0.03)
"""
pd.read_sql_query(Q17, conn)

Unnamed: 0,ra,dec,mag_r,z,class
0,160.969502,6.756997,14.067801,0.027233,merger
1,233.75047,46.814671,15.7837,0.018757,merger
2,246.2598,40.94664,13.82209,0.028671,non_merger
3,159.9914,24.09125,13.05729,0.021028,non_merger
4,213.595842,2.975445,13.114374,0.02602,merger
5,183.41508,16.12525,15.91,0.023806,merger
6,173.3748,34.31625,14.08697,0.026911,non_merger
7,219.3079,8.646028,14.84974,0.02807,non_merger
8,158.4188,53.61711,14.82794,0.025385,non_merger
9,187.784881,0.613711,12.770512,0.023083,merger


#### Exercício 3.1.1

Faça uma contagem de todos os objetos pertencentes às 3 tabelas (`photo`, `spec` e `morpho`)

Nota: faça a contagem de linhas da junção tripla, ou seja, o número de elementos do conjunto $\{photo \cap spec \cap morpho\}$

In [None]:
Q18 = """
"""
pd.read_sql_query(Q18, conn)

#### Exercício 3.1.2

Obtenha a posição, magnitude, redshift e classe das galáxias **mergers** dentro da região delimitada por `ra` entre 170 e 220 e `dec` entre -15 e 15 com **redshift** menor que 0.05 e **magnitude** menor que 16

In [None]:
Q19 = """
"""
pd.read_sql_query(Q19, conn)

#### Exercício 3.1.3

Obtenha a contagem de elementos em cada classe (merger e non_merger) para objetos dentro da região delimitada por `ra` entre 120 e 220 e `dec` entre -20 e 20 com **redshift** menor que 0.05 e **magnitude** menor que 17

Nota: use a função `COUNT()` e a agregação `GROUP BY`

In [None]:
Q20 = """
"""
pd.read_sql_query(Q20, conn)

## Material complementar

* Select: https://www.w3schools.com/sql/sql_select.asp
* Select distinct: https://www.w3schools.com/sql/sql_distinct.asp
* Where: https://www.w3schools.com/sql/sql_where.asp 
* And, or, not: https://www.w3schools.com/sql/sql_and_or.asp
* Between: https://www.w3schools.com/sql/sql_between.asp
* Top/Limit: https://www.w3schools.com/sql/sql_top.asp
* Count: https://www.w3schools.com/sql/sql_count_avg_sum.asp
* Group by: https://www.w3schools.com/sql/sql_groupby.asp
* Join: https://www.w3schools.com/sql/sql_join.asp
* Alias: https://www.w3schools.com/sql/sql_alias.asp
* Inner Join: https://www.w3schools.com/sql/sql_join_inner.asp


## Tarefas 

### Leia sobre os outros tipos de junção
* Left join: https://www.w3schools.com/sql/sql_join_left.asp
* Right join: https://www.w3schools.com/sql/sql_join_right.asp
* Union: https://www.w3schools.com/sql/sql_union.asp

### Veja a definição formal do comando SELECT
https://dev.mysql.com/doc/refman/8.0/en/select.html

### ADQL
A maioria dos banco de dados astronômicos (S-PLUS inclusive) usam um superset do SQL chamado ADQL.

Dê uma olhada na [documentação do ADQL](https://www.ivoa.net/documents/ADQL/20180112/PR-ADQL-2.1-20180112.html) na parte de cone search
