# Aula 6 - SQL Queries 

## Nossa agenda

1.  Definição
1.  Modelagem de dados
1.  Selecionando dados (SELECT, LIMIT, WHERE e ORDER BY)
1.  O que são Joins (INNER JOIN, LEFT JOIN, RIGHT JOIN)
1.  Funções de agregação e agrupamento (MIN, MAX, SUM, COUNT, AVG e GROUP BY)

## Me manda uma mensagem

#wilsontayar no [slack](https://terahq.slack.com)

/wilsontayar no [github](https://github.com/wilsontayar)

@wilsontayar no [twitter](https://twitter.com/wilsontayar)

----


## O que são Bancos de dados

Bancos de dados são softwares criados para guardar **coleções de informações organizadas** e salvas em um computador. Essas informações podem ser **acessadas, gerenciadas e atualizadas** livremente.

Nesta aula veremos mais sobre **bancos de dados relacionais** e usaremos o **SQLite** em nossos exercícios.

Bancos de dados relacionais também são chamados de **RDBMS** (Relational Database Management System).

**Bancos relacionais** são constituidos por **3 objetos principais**:
-  Tabelas
-  Colunas
-  Linhas

Ex.:

Nome      | Sobrenome | Data de Nascimento | Profissão    | Altura 
----------|-----------|--------------------|--------------|--------
Capitão   | Caverna   | 1977-09-10         | Barbudo      |  1,45
Mestre    | dos Magos | 1983-09-17         | Mago         |  1,20
Ada       | Lovelace  | 1815-12-10         | Programadora | *NULL*
Katherine | Johnson   | 1918-08-26         | Matemática   | *NULL*

*PS: O SQLite é instalado junto com o Python, portanto você não precisa se preocupar em instalar nada. ;)*

----

## Teorema de CAP (ou Teorema de Brewer)

Existem outros tipos de bancos de dados disponíveis. Cada um deles serve para um propósito diferente.
Alguns exemplos de outros bancos são o MongoDB, Cassandra, Neo4J, etc.

Para conseguir classificar diferentes tipos de bancos, Eric Brewer, em 1998, deu início ao que hoje conhecemos como o Teorema de CAP.

![Diagrama de Venn exemplificando o uso do Teorema de CAP](https://lh6.googleusercontent.com/ovbgpVqAAtCYkEZ3p8CI8vb1sAGPGiMK3Y-SwdxUBR6jrzdWW3wAtq54S-jLei-tkfnNFFDqV4L_5BkMM1QyDpnH3HcOsRV_9F3BKBZvG6TspN2EYGVatNFEhH9UQlkLVjqqGOCW)
*Fonte da foto: http://blingtechs.blogspot.com.br/2016/02/cap-theorem.html*

**O teorema diz que você nunca terá as 3 coisas em um único banco de dados. Portanto, deverá escolher apenas duas.**

São elas: 

**Partition tolerance (tolerância a partição ou particionamento)**

Com muitos dados, é extremamente difícil possuir apenas um servidor para armazenar tudo. Por isso, a grande maioria dos bancos suportam *Particionamento*. Dessa forma o dado pode ser "espalhado" entre mais servidores.

**Consistency (consistência)**

O banco foi projetado para salvar todos os dados que você envia para ele o mais rápido possível. Dessa forma, sempre a informação mais recente é retornada, independente do número de partições.
  
**Availability (disponibilidade)**

Projetado para estar sempre disponível, ou seja, o banco "salva" o dado apenas em memória, para só depois salvar realmente o dado no disco. Não garante que você receba o dado mais atualizado, depende da partição a qual você está conectado.

----

Os bancos de dados (quase) sempre possuem tolerância a partição. Dessa forma, precisamos escolher se queremos consistência dos dados ou disponibilidade imediata do banco.

**Sistemas diferentes requerem bancos de dados diferentes.** 

Ex.:

Um sistema financeiro prefere Consistência.

Um contador de likes prefere Disponibilidade. 

---

**Normalmente, o mercado utiliza bancos SQL e NoSQL.**

**Bancos NoSQL**
  - não utilizam o padrão de tabelas, colunas e linhas 
  - Normalmente suportam **Disponibilidade e Particionamento**
  - Eles utilizam documentos, normalmente no padrão JSON.

Ex.:

```json
{
    "Nome": "Ada Lovelace",
    "Profissao": "Programadora"
}
```

**Bancos SQL normalmente suportam Consistência e Particionamento.**

----

## Modelagem Relacional

Bancos relacionais utilizam tabelas com colunas e linhas.

Cada tabela define uma entidade do seu sistema. Sabemos que entidades possuem relacionamentos.

Ex.:

- Um **aluno** possui nome, data de nascimento, e-mail e **cursos** que participou
- Um **curso** possui nome, descrição, data de início, **alunos** que cursaram e **professor** que ministrou
- Um **professor** possui nome, data de nascimento, currículo, e-mail e **cursos** que ministrou

![Exemplo de modelagem de banco para uma escola](http://2.bp.blogspot.com/_Eg47jbi_y6g/TSbyD9_uA2I/AAAAAAAAAG4/Ip1CnMeV09M/s1600/tableRelation.gif)
*Fonte da foto: http://www.connectsql.com/2011/01/sql-server-quickest-way-to-create.html)*

----

Os relacionamentos podem ser de 4 tipos:

**Um para Um (ex.: Cliente -> Endereco)**
![Exemplo de modelagem um para um](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_2.png)

**Um para Muitos (ex.: Cliente -> Pedidos)**
![Exemplo de modelagem um para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_3.png)

**Muitos para Muitos (Produtos <-> Pedidos)**
![Exemplo de modelagem muitos para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_4.png)

**Auto referência (Cliente -> Cliente)**
![Exemplo de modelagem muitos para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_5.png)

*Fontes da fotos: https://code.tutsplus.com/articles/sql-for-beginners-part-3-database-relationships--net-8561)*

---

Cada coluna possui um tipo de dados. Os tipos de dados mais comuns são:

- CHARACTER ou CHAR
- VARCHAR
- BOOLEAN
- SMALLINT
- INTEGER ou INT
- DECIMAL ou DEC
- NUMERIC
- REAL
- FLOAT
- DOUBLE PRECISION
- DATE
- TIME
- DATETIME
- TIMESTAMP
- BLOB ou BINARY LARGE OBJECT

----

## Exercício 1 - Modelagem de Dados

### Atenção: Este exercício deverá ser feito em dupla

Modelar um banco de dados relacional para as seguintes entidades:
- Artista
- Album
- Faixa

Tempo: 20 minutos

Materiais:
- Papel
- Caneta/Lápis
- Imaginação

No final do exercício teremos mais **15 minutos** para discutir as diferentes modelagens e tirar dúvidas comuns da turma.

----

# Python e SQLite

O [SQLite](https://www.sqlite.org/) é um banco de dados relacional construído para ser extremamente performático.

A linguagem SQL é padronizada e utilizada em diversos bancos. Alguns bancos modificam um pouco a sintaxe, mas sem alterar a linguagem como um todo.

Vamos utilizar o SQLite para treinar SQL.

Em todos os momentos vamos utilizar o **banco de dados de teste da Chinook, uma empresa fictícia que vende músicas**.

Abaixo temos um exemplo em python de como conectar e consumir os dados, depois vamos explicar o passo a passo e como podemos fazer diferentes queries.

In [26]:
#Precisamos importar o modulo do sqlite3 para termos acesso a tudo que precisamos
import sqlite3

#Utilizamos o connect passando o nome do arquivo do nosso banco de dados
db = sqlite3.connect('chinook.db')

#Criamos um cursor para fazermos uma query
cursor = db.cursor()

#Selecione primeiro nome, sobrenome, email e companhia da tabela de clientes, mas queremos apenas 5 resultados
cursor.execute('''SELECT FirstName, LastName, Email, Company FROM customers LIMIT 5''')

#Para cada linha do retorno, vamos trabalhar os dados
for row in cursor:
    
    #Mostre o primeiro nome, sobrenome e email
    print('{0} {1} ({2})'.format(row[0], row[1], row[2]))
    
    #Se o dado da Companhia estiver vazio, mostre "Desempregrada(o)", caso contrário, mostre onde trabalha
    if row[3] is None:
        print('\tDesempregada(o)')
    else:
        print('\tTrabalha na empresa {0}'.format(row[3]))
    print('\n')

#Fechamos a conexão com o banco de dados para poupar recursos
cursor.close()

Luís Gonçalves (luisg@embraer.com.br)
	Trabalha na empresa Embraer - Empresa Brasileira de Aeronáutica S.A.


Leonie Köhler (leonekohler@surfeu.de)
	Desempregada(o)


François Tremblay (ftremblay@gmail.com)
	Desempregada(o)


Bjørn Hansen (bjorn.hansen@yahoo.no)
	Desempregada(o)


František Wichterlová (frantisekw@jetbrains.com)
	Trabalha na empresa JetBrains s.r.o.




## Introdução ao SQL - Selecionando Dados

### SELECT

Como vimos no exemplo anterior, podemos retornar informações do banco de dados utilizando a linguagem SQL.

Em SQL temos algumas **palavras reservadas** para transmitir nossa intenção.

Quando queremos selecionar dados, usamos o **SELECT**:

```sql
SELECT * FROM employees

SELECT FirstName, LastName, Email FROM customers

SELECT PlaylistId, Name FROM playlists
```

#### DISTINCT

Podemos filtrar dados repetidos utilizando o comando **DISTINCT**. No exemplo abaixo, estamos retornando os primeiros nomes únicos dos nossos clientes, ou seja, se tivermos dois clientes com o nome de 'João', apenas um será retornado na query.

```sql
SELECT DISTINCT FirstName FROM customers
```

---

### LIMIT x

Normalmente também precisamos limitar o número de resultados para que o banco possa processar rapidamente nossa query.

Quanto mais dados nossa query pedir, mais poder de processamento o banco gastará. Consequentemente, nosso resultado pode demorar um pouco mais. 

Outra razão para limitarmos é trazer somente aquilo que a nossa aplicação precisa.

Para isso usamos o **LIMIT**:

```sql

SELECT * FROM playlist LIMIT 10

SELECT FirstName, LastName FROM customers LIMIT 50

SELECT Company FROM customers LIMIT 10

```

---

### WHERE

Outra operação muito comum é filtrar os dados que queremos. Por exemplo, podemos pedir ao banco por todos os clientes que tenham o primeiro nome "Luís", ou então todas as faixas de música que tenham mais de 1 minuto.

Para isso, utilizamos o **WHERE**:

```sql

SELECT * FROM tracks WHERE Milliseconds > 60000

SELECT FirstName, LastName FROM customers WHERE FirstName == 'Luís' LIMIT 50

SELECT Title FROM albums WHERE ArtistId == 1

```

#### LIKE

Existe um comando especial para procurarmos strings dentro de outras strings. O **LIKE** funciona com **caracteres coringa (wildcard)**. O mais usado deles é o **%**. No exemplo abaixo estamos buscando por todos os clientes onde o nome começa com a letra A.

```sql
SELECT FirstName, LastName FROM customers WHERE FirstName LIKE 'A%'
```

#### IN

Podemos também filtrar por conjuntos de dados com o comando **IN**. No exemplo abaixo estamos buscando por todas os artistas onde o Id seja 1, 2, 3 e 4.

```sql
SELECT Name FROM artists WHERE ArtistId IN (1, 2, 3, 4)
```

#### BETWEEN x AND y

Também existe um filtro para intervalos. No exemplo abaixo utilizamos o **BETWEEN** para filtrar por todas as músicas que possuem entre 1 minuto e 1 minuto e meio de duração.

```sql
SELECT * FROM tracks WHERE Milliseconds BETWEEN 60000 AND 90000
```

#### AND & OR

Podemos combinar todos os filtros acima utilizando AND e/ou OR.
No exemplo abaixo estamos buscando todas as músicas que dos gêneros 1, 3 e 4 **E** que começam com a letra A.

```sql
SELECT * FROM tracks WHERE Name LIKE 'A%' AND GenreId IN (1, 3, 4)
```

---

### ORDER BY

A ordenação dos dados também é algo muito importante. Sem uma ordenação especificada, os resultados aparecerão na ordem em que foram cadastrados. 

Podemos especificar uma ou mais colunas que definirão a ordenação e se elas deverão ser ascendentes ou descedentes. 

Para isso, utilizamos o **ORDER BY**:

```sql

SELECT * FROM tracks ORDER BY Name ASC

SELECT FirstName, LastName FROM customers WHERE FirstName == 'Luís' ORDER BY PostalCode DESC LIMIT 50

SELECT Title FROM albums WHERE ArtistId == 1 ORDER BY Title ASC, ArtistId DESC

```

---

## Exercício 2 - Selecionando Dados

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 15 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [41]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome, sobrenome, cidade e estado de 10 clientes que moram no Brazil.
cursor.execute("SELECT 1, 2, 3, 4")


for row in cursor:
    print('{0} {1} mora em {2}/{3}'.format(row[0], row[1], row[2], row[3]))

cursor.close()

1 2 mora em 3/4


In [51]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome, duração e compositor de 20 músicas do gênero 2 ordenado por nome.
cursor.execute("SELECT 'Testing', 1000, 'Mozart'")


for row in cursor:
    minutes, milliseconds = divmod(row[1], 60000)
    duration = "%02i:%02i" % (minutes, milliseconds / 1000)
    print('{0} ({1}) - {2}'.format(row[0], duration, row[2]))

cursor.close()

Testing (00:01) - Mozart


In [13]:
import sqlite3
from datetime import datetime

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o primeiro nome, cargo e data de nascimento de 5 empregados ordenado por 
#data de nascimento descendente.
cursor.execute("SELECT 'Bob', 'Cientista de dados', '1990-10-19 00:00:00'")


for row in cursor:
    age = (datetime.utcnow() - datetime.strptime(row[2], '%Y-%m-%d %H:%M:%S')).days / 365
    print('{0} é um {1} e possui {2} anos'.format(row[0], row[1], round(age)))

cursor.close()

Bob é um Cientista de dados e possui 27 anos


## Introdução ao SQL - Joins

Nós também podemos obter dados de mais tabelas na mesma query. Para isso utilizamos um **JOIN**.
Os Joins mais comuns são:

### INNER JOIN
Em um inner join serão retornados apenas dados que existam nas duas tabelas pedidas na query. 

![Visualização do inner join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/INNER_JOIN.png)

Por exemplo:
```sql
SELECT tracks.Name
     , genres.Name
  FROM tracks 
 INNER JOIN genres
    ON tracks.genreid = genres.genreid
```

### LEFT JOIN 
Em um left join serão retornados todos os dados da tabela a esquerda, independentemente se esses dados possuem ou não uma correspondencia na tabela da direita. Se existir uma correspondencia, será mostrado o dado das duas tabelas. 

![Visualização do left join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/LEFT_JOIN.png)

Por exemplo:
```sql
SELECT tracks.Name
     , genres.Name
  FROM tracks 
  LEFT JOIN genres
    ON tracks.genreid = genres.genreid
```

### RIGHT JOIN
Assim como no left join, o right join faz o inverso. Serão retornados todos os dados da tabela da direita, independentemente se esses dados possuem ou não uma correspondencia na tabela da esquerda. Se existir uma correspondencia, será mostrado o dado das duas tabelas. 

![Visualização do right join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/RIGHT_JOIN.png)

Por exemplo:
```sql
SELECT tracks.Name
     , genres.Name
  FROM tracks 
 RIGHT JOIN genres
    ON tracks.genreid = genres.genreid
```

### OUTER JOIN
Em um outer join são retornados os dados das duas tabelas, independente se existe ou não correspondencia entre eles

![Visualização do outer join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/FULL_OUTER_JOIN.png)

Por exemplo:
```sql
SELECT tracks.Name
     , genres.Name
  FROM tracks 
 OUTER JOIN genres
    ON tracks.genreid = genres.genreid
```


*Fonte das fotos: https://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins*

## Exercício 3 - Selecionando Dados com Joins

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 20 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [3]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o título do album e o nome do artista desse album ordenados por nome do artista
cursor.execute("SELECT 'album', 'artista'")


for row in cursor:
    print('{0} - {1}'.format(row[0], row[1]))

cursor.close()

album - artista


In [6]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da música, nome do album e nome do artista do album, limitar a apenas 10 resultados.
cursor.execute("SELECT 'o que será que será', 'antigas', 'chico buarque'")


for row in cursor:
    print('Música: {0}'.format(row[0]))
    print('Álbum: {0} - {1}'.format(row[1], row[2]))
    print('-------')

cursor.close()

Música: o que será que será
Álbum: antigas - chico buarque
-------


In [12]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da música, compositor, nome do gênero, nome do tipo de mídia e preço
#limitar a apenas 10 resultados
cursor.execute("SELECT 'musica', 'compositor', 'genero', 'mp3', '1,00'")


for row in cursor:
    print('-----------------')
    print('{0}, por {1}'.format(row[0], row[1]))
    print('{0} - {1}'.format(row[2], row[3]))
    print('Apenas: ${0}'.format(row[4]))

cursor.close()

-----------------
musica, por compositor
genero - mp3
Apenas: $1,00


## Introdução ao SQL - Funções de agregação e agrupamentos

### Funções de agregação

Em SQL possuímos algumas funções especiais que trazem **valores calculados de alguma coluna**.

Podemos ver as mais comuns na tabela abaixo:

Função    | Descrição
----------|-----------
MIN       | retorna o menor valor de alguma coluna
MAX	      | retorna o maior valor de alguma coluna
SUM       | retorna a soma de todos os dados de uma coluna
AVG       | retorna a média de todos os dados de uma coluna
COUNT     | retorna o número de dados de uma coluna (não conta dados nulos)
COUNT(\*) |	retorna o número de colunas de uma tabela


Exemplo:

```sql
SELECT MIN(UnitPrice) FROM tracks

SELECT AVG(Milliseconds) FROM tracks

SELECT MAX(BirthDate) FROM employees
```

---

### GROUP BY

Sempre que precisarmos utilizar **uma função de agregação em conjunto com os dados de uma tabela**, vamos precisar agrupar esses dados para que nosso banco entenda o que queremos.

Por exemplo:

```sql
SELECT AlbumId
     , COUNT(TrackId)
  FROM tracks
 GROUP BY AlbumId
```

## Exercício 4 - Selecionando Dados com Agregação e Agrupamento

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 20 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [16]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando a média de duração de todos os generos de musica
cursor.execute("SELECT 'rock', 120000")


for row in cursor:
    minutes, milliseconds = divmod(row[1], 60000)
    duration = "%02i:%02i" % (minutes, milliseconds / 1000)
    print('{0} - {1}'.format(row[0], duration))

cursor.close()

rock - 02:00


In [27]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando a soma de todos os bytes por tipo de midia ordenando pela soma dos bytes
cursor.execute("SELECT 'mp3', 450000000")


for row in cursor:
    gb = (row[1] / 1024) / 1024
    print('{0} - {1} GB'.format(row[0], round(gb)))

cursor.close()

mp3 - 429 GB


In [32]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da companhia e quantos clientes nos temos que trabalham nela
cursor.execute("SELECT 'empresa S.A', 20")


for row in cursor:
    print('{0} - {1}'.format(row[0], row[1]))

cursor.close()

empresa S.A - 20


----

## Parabéns!

Terminamos por aqui. Não se esqueçam de checar o pós aula para saberem mais de bancos de dados. ;)

Qualquer dúvida meus contatos estão lá em cima!

![ACABOU!](https://media.tenor.com/images/056ed631e7081baeed6cfcab495198cc/tenor.gif)
