# Aula 12 - SQL Queries 

## Nossa agenda

1.  Definição
1.  Modelagem de dados
1.  Selecionando dados (SELECT, LIMIT, WHERE e ORDER BY)
1.  O que são Joins (INNER JOIN, LEFT JOIN, RIGHT JOIN)
1.  Funções de agregação e agrupamento (MIN, MAX, SUM, COUNT, AVG e GROUP BY)
1.  Subqueries e expressões

## Me manda uma mensagem

#wilsontayar no [slack](https://terahq.slack.com)

/wilsontayar no [github](https://github.com/wilsontayar)

@wilsontayar no [twitter](https://twitter.com/wilsontayar)

----


## O que são Bancos de dados

Bancos de dados são softwares criados para guardar **coleções de informações organizadas** e salvas em um computador. Essas informações podem ser **acessadas, gerenciadas e atualizadas** livremente.

**Trabalhar com bancos de dados é um skill essencial para o Data Scientist.**

No meio empresarial, os seus dados provavelmente não estarão em um arquivo CSV. Eles estarão em lugares com infraestrutura mais robusta, construídos para armazenamento de dados.

Nesta aula veremos mais sobre **bancos de dados relacionais** e usaremos o **SQLite** em nossos exercícios.

Bancos de dados relacionais também são chamados de **RDBMS** (Relational Database Management System).

**Bancos relacionais** são constituidos por **3 objetos principais**:
-  Tabelas
-  Colunas
-  Linhas

Ex.:

Nome      | Sobrenome | Data de Nascimento | Profissão    | Altura 
----------|-----------|--------------------|--------------|--------
Capitão   | Caverna   | 1977-09-10         | Barbudo      |  1,45
Mestre    | dos Magos | 1983-09-17         | Mago         |  1,20
Ada       | Lovelace  | 1815-12-10         | Programadora | *NULL*
Katherine | Johnson   | 1918-08-26         | Matemática   | *NULL*

*PS: O SQLite é instalado junto com o Python, portanto você não precisa se preocupar em instalar nada. ;)*

----

## Teorema de CAP (ou Teorema de Brewer)

Existem outros tipos de bancos de dados disponíveis. Cada um deles serve para um propósito diferente.
Alguns exemplos de outros bancos são o MongoDB, Cassandra, Neo4J, etc.

Para conseguir classificar diferentes tipos de bancos, Eric Brewer, em 1998, deu início ao que hoje conhecemos como o Teorema de CAP.

![Diagrama de Venn exemplificando o uso do Teorema de CAP](https://lh6.googleusercontent.com/ovbgpVqAAtCYkEZ3p8CI8vb1sAGPGiMK3Y-SwdxUBR6jrzdWW3wAtq54S-jLei-tkfnNFFDqV4L_5BkMM1QyDpnH3HcOsRV_9F3BKBZvG6TspN2EYGVatNFEhH9UQlkLVjqqGOCW)
*Fonte da foto: http://blingtechs.blogspot.com.br/2016/02/cap-theorem.html*

**O teorema diz que um dos três elementos não serão sempre suportados. Portanto, você deverá priorizar duas.**

São elas: 

**Partition tolerance (tolerância a partição ou particionamento)**

Com muitos dados, é extremamente difícil possuir apenas um servidor para armazenar tudo. Por isso, a grande maioria dos bancos suportam *Particionamento*. Dessa forma o dado pode ser "espalhado" entre mais servidores.

**Consistency (consistência)**

O banco foi projetado para salvar todos os dados que você envia para ele o mais rápido possível. Dessa forma, sempre a informação mais recente é retornada, independente do número de partições.
  
**Availability (disponibilidade)**

Projetado para estar sempre disponível, ou seja, o banco "salva" o dado apenas em memória, para só depois salvar realmente o dado no disco. Não garante que você receba o dado mais atualizado, depende da partição a qual você está conectado.

----

Os bancos de dados (quase) sempre possuem tolerância a partição. Dessa forma, precisamos escolher se queremos consistência dos dados ou disponibilidade imediata do banco.

**Sistemas diferentes requerem bancos de dados diferentes.** 

Ex.:

Um sistema financeiro prefere Consistência.

Um contador de likes prefere Disponibilidade. 

---

**Normalmente, o mercado utiliza bancos SQL e NoSQL.**

**Bancos NoSQL**
  - Não utilizam o padrão de tabelas, colunas e linhas 
  - Normalmente suportam **Disponibilidade e Particionamento**
  - Eles utilizam documentos, normalmente no padrão JSON.

Ex.:

```json
{
    "Nome": "Ada Lovelace",
    "Profissao": "Programadora"
}
```

**Bancos SQL normalmente suportam Consistência e Particionamento.**

----

## Modelagem Relacional

Bancos relacionais utilizam tabelas com colunas e linhas.

Cada tabela define uma entidade do seu sistema. Sabemos que entidades possuem relacionamentos.

Ex.:

- Um **aluno** possui nome, data de nascimento, e-mail e **cursos** que participou
- Um **curso** possui nome, descrição, data de início, **alunos** que cursaram e **professor** que ministrou
- Um **professor** possui nome, data de nascimento, currículo, e-mail e **cursos** que ministrou

![Exemplo de modelagem de banco para uma escola](http://2.bp.blogspot.com/_Eg47jbi_y6g/TSbyD9_uA2I/AAAAAAAAAG4/Ip1CnMeV09M/s1600/tableRelation.gif)
*Fonte da foto: http://www.connectsql.com/2011/01/sql-server-quickest-way-to-create.html)*

---

Em bancos relacionais todas as tabelas precisam de uma **chave primária (Primary Key, PK)**. Esta chave é um **dado único** que identifica aquela linha.

Quando dados de uma tabela precisam ser referenciados por outra, utilizamos uma **chave estrangeira (Foreign Key, FK)**.

A partir do momento em que uma **FK** vincula uma tabela na outra, temos um **relacionamento** entre as tabelas.

----

Os relacionamentos podem ser de 4 tipos:

**Um para Um (ex.: Cliente -> Endereco)**
![Exemplo de modelagem um para um](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_2.png)

**Um para Muitos (ex.: Cliente -> Pedidos)**
![Exemplo de modelagem um para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_3.png)

**Muitos para Muitos (Produtos <-> Pedidos)**
![Exemplo de modelagem muitos para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_4.png)

**Auto referência (Cliente -> Cliente)**
![Exemplo de modelagem muitos para muitos](https://cdn.tutsplus.com/net/uploads/legacy/538_sql3/ss_5.png)

*Fontes da fotos: https://code.tutsplus.com/articles/sql-for-beginners-part-3-database-relationships--net-8561)*

---

Cada coluna possui um tipo de dados. Os tipos de dados mais comuns no SQLite são:

- CHARACTER ou CHAR
- VARCHAR
- BOOLEAN
- SMALLINT
- INTEGER ou INT
- DECIMAL ou DEC
- NUMERIC
- REAL
- FLOAT
- DOUBLE PRECISION
- DATE
- TIME
- DATETIME
- TIMESTAMP
- BLOB ou BINARY LARGE OBJECT

----

## Introdução ao SQL - Selecionando Dados

### SELECT

Como vimos no exemplo anterior, podemos retornar informações do banco de dados utilizando a linguagem SQL.

Em SQL temos algumas **palavras reservadas** para transmitir nossa intenção.

Quando queremos selecionar dados, usamos o **SELECT**:

```sql
SELECT * FROM employees

SELECT FirstName, LastName, Email FROM customers

SELECT PlaylistId, Name FROM playlists
```

#### DISTINCT

Podemos filtrar dados repetidos utilizando o comando **DISTINCT**. No exemplo abaixo, estamos retornando os primeiros nomes únicos dos nossos clientes, ou seja, se tivermos dois clientes com o nome de 'João', apenas um será retornado na query.

```sql
SELECT DISTINCT FirstName FROM customers
```

---

### LIMIT x

Normalmente também precisamos limitar o número de resultados para que o banco possa processar rapidamente nossa query.

Quanto mais dados nossa query pedir, mais poder de processamento o banco gastará. Consequentemente, nosso resultado pode demorar um pouco mais. 

Outra razão para limitarmos é trazer somente aquilo que a nossa aplicação precisa.

Para isso usamos o **LIMIT**:

```sql

SELECT * FROM playlist LIMIT 10

SELECT FirstName, LastName FROM customers LIMIT 50

SELECT Company FROM customers LIMIT 10

```

---

### WHERE

Outra operação muito comum é filtrar os dados que queremos. Por exemplo, podemos pedir ao banco por todos os clientes que tenham o primeiro nome "Luís", ou então todas as faixas de música que tenham mais de 1 minuto.

Para isso, utilizamos o **WHERE**:

```sql

SELECT * FROM tracks WHERE Milliseconds > 60000

SELECT FirstName, LastName FROM customers WHERE FirstName == 'Luís' LIMIT 50

SELECT Title FROM albums WHERE ArtistId == 1

```

#### LIKE

Existe um comando especial para procurarmos strings dentro de outras strings. O **LIKE** funciona com **caracteres coringa (wildcard)**. O mais usado deles é o **%**. No exemplo abaixo estamos buscando por todos os clientes onde o nome começa com a letra A.

```sql
SELECT FirstName, LastName FROM customers WHERE FirstName LIKE 'A%'
```

#### IN

Podemos também filtrar por conjuntos de dados com o comando **IN**. No exemplo abaixo estamos buscando por todas os artistas onde o Id seja 1, 2, 3 e 4.

```sql
SELECT Name FROM artists WHERE ArtistId IN (1, 2, 3, 4)
```

#### BETWEEN x AND y

Também existe um filtro para intervalos. No exemplo abaixo utilizamos o **BETWEEN** para filtrar por todas as músicas que possuem entre 1 minuto e 1 minuto e meio de duração.

```sql
SELECT * FROM tracks WHERE Milliseconds BETWEEN 60000 AND 90000
```

#### AND & OR

Podemos combinar todos os filtros acima utilizando AND e/ou OR.
No exemplo abaixo estamos buscando todas as músicas que dos gêneros 1, 3 e 4 **E** que começam com a letra A.

```sql
SELECT * FROM tracks WHERE Name LIKE 'A%' AND GenreId IN (1, 3, 4)
```

---

### ORDER BY

A ordenação dos dados também é algo muito importante. Sem uma ordenação especificada, os resultados aparecerão na ordem em que foram cadastrados. 

Podemos especificar uma ou mais colunas que definirão a ordenação e se elas deverão ser ascendentes ou descedentes. 

Para isso, utilizamos o **ORDER BY**:

```sql

SELECT * FROM tracks ORDER BY Name ASC

SELECT FirstName, LastName FROM customers WHERE FirstName == 'Luís' ORDER BY PostalCode DESC LIMIT 50

SELECT Title FROM albums WHERE ArtistId == 1 ORDER BY Title ASC, ArtistId DESC

```

---

# Python e SQLite

O [SQLite](https://www.sqlite.org/) é um banco de dados relacional construído para ser extremamente performático.

A linguagem SQL é padronizada e utilizada em diversos bancos. Alguns bancos modificam um pouco a sintaxe, mas sem alterar a linguagem como um todo.

Vamos utilizar o SQLite para treinar SQL.

Em todos os momentos vamos utilizar o **banco de dados de teste da Chinook, uma empresa fictícia que vende músicas**.

Abaixo temos um exemplo em python de como conectar e consumir os dados, depois vamos explicar o passo a passo e como podemos fazer diferentes queries.

In [1]:
#Precisamos importar o modulo do sqlite3 para termos acesso a tudo que precisamos
import sqlite3

#Utilizamos o connect passando o nome do arquivo do nosso banco de dados
db = sqlite3.connect('chinook.db')

#Criamos um cursor para fazermos uma query
cursor = db.cursor()

#Selecione primeiro nome, sobrenome, email e companhia da tabela de clientes, mas queremos apenas 5 resultados
cursor.execute('''SELECT FirstName, LastName, Email, Company FROM customers LIMIT 5''')

#Para cada linha do retorno, vamos trabalhar os dados
for row in cursor:
    
    #Mostre o primeiro nome, sobrenome e email
    print('{0} {1} ({2})'.format(row[0], row[1], row[2]))
    
    #Se o dado da Companhia estiver vazio, mostre "Desempregrada(o)", caso contrário, mostre onde trabalha
    if row[3] is None:
        print('\tDesempregada(o)')
    else:
        print('\tTrabalha na empresa {0}'.format(row[3]))
    print('\n')

#Fechamos a conexão com o banco de dados para poupar recursos
cursor.close()

Luís Gonçalves (luisg@embraer.com.br)
	Trabalha na empresa Embraer - Empresa Brasileira de Aeronáutica S.A.


Leonie Köhler (leonekohler@surfeu.de)
	Desempregada(o)


François Tremblay (ftremblay@gmail.com)
	Desempregada(o)


Bjørn Hansen (bjorn.hansen@yahoo.no)
	Desempregada(o)


František Wichterlová (frantisekw@jetbrains.com)
	Trabalha na empresa JetBrains s.r.o.




## Exercício 2 - Selecionando Dados

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 10 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [5]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome, sobrenome, cidade e estado de 10 clientes que moram no Brazil.
cursor.execute("SELECT FirstName, LastName, City, State FROM customers WHERE Country = 'Brazil' LIMIT 10")


for row in cursor:
    print('{0} {1} mora em {2}/{3}'.format(row[0], row[1], row[2], row[3]))

cursor.close()

Luís Gonçalves mora em São José dos Campos/SP
Eduardo Martins mora em São Paulo/SP
Alexandre Rocha mora em São Paulo/SP
Roberto Almeida mora em Rio de Janeiro/RJ
Fernanda Ramos mora em Brasília/DF


In [7]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome, duração e compositor de 20 músicas do gênero 2 ordenado por nome.
cursor.execute("SELECT Name, Milliseconds, Composer FROM Tracks WHERE GenreId = 2 ORDER BY Name LIMIT 20")


for row in cursor:
    minutes, milliseconds = divmod(row[1], 60000)
    duration = "%02i:%02i" % (minutes, milliseconds / 1000)
    print('{0} ({1}) - {2}'.format(row[0], duration, row[2]))

cursor.close()

'Round Midnight (05:57) - Miles Davis
Amanda (04:06) - Luca Gusella
Angela (02:49) - None
As We Sleep (05:16) - None
Baltimore, DC (05:46) - John Scofield
Believe (05:10) - None
Best Thing (04:34) - None
Black Satin (05:16) - Miles Davis
Blue Rythm Fantasy (05:48) - None
Blues For Pablo (05:18) - Gil Evans
Blues For Pablo (Alternate Take) (03:32) - Gil Evans
Boogie Blues (03:24) - None
Bop Boogie (03:09) - None
Bye Bye Blackbird (07:56) - Miles Davis
Canta, Canta Mais (04:31) - None
Colibri (06:01) - Richard Bull
Compulsion (05:45) - Miles Davis
Corcovado (Quiet Nights Of Quiet Stars) (03:25) - None
Coronation Drop (02:56) - None
Dark Side Of The Cog (06:17) - Jean Paul Maunick


In [8]:
import sqlite3
from datetime import datetime

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o primeiro nome, cargo e data de nascimento de 5 empregados ordenado por 
#data de nascimento descendente.
cursor.execute("SELECT FirstName, Title, BirthDate FROM Employees ORDER BY BirthDate DESC LIMIT 5")


for row in cursor:
    age = (datetime.utcnow() - datetime.strptime(row[2], '%Y-%m-%d %H:%M:%S')).days / 365
    print('{0} é um {1} e possui {2} anos'.format(row[0], row[1], round(age)))

cursor.close()

Jane é um Sales Support Agent e possui 45 anos
Michael é um IT Manager e possui 45 anos
Robert é um IT Staff e possui 48 anos
Laura é um IT Staff e possui 50 anos
Steve é um Sales Support Agent e possui 53 anos


## Introdução ao SQL - Joins

Para obter dados de mais tabelas na mesma query nós "juntamos" as keys utilizando um **JOIN**.

Quando fazemos um JOIN, vinculamos a chave primária (PK) com a chave estrangeira (FK) na query.

Os Joins mais comuns são:

### INNER JOIN
Em um inner join serão retornados apenas dados que existam nas duas tabelas pedidas na query. 

![Visualização do inner join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/INNER_JOIN.png)

Por exemplo:
```sql
SELECT tracks.Name
     , genres.Name
  FROM tracks 
 INNER JOIN genres
    ON tracks.genreid = genres.genreid
```

In [8]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

cursor.execute('''SELECT tracks.Name
                       , genres.Name
                    FROM tracks 
                   INNER JOIN genres
                      ON tracks.genreid = genres.genreid
                   LIMIT 10''')


for row in cursor:
    print('{0} - {1}'.format(row[0], row[1]))

cursor.close()

For Those About To Rock (We Salute You) - Rock
Balls to the Wall - Rock
Fast As a Shark - Rock
Restless and Wild - Rock
Princess of the Dawn - Rock
Put The Finger On You - Rock
Let's Get It Up - Rock
Inject The Venom - Rock
Snowballed - Rock
Evil Walks - Rock


### LEFT JOIN 
Em um left join serão retornados todos os dados da tabela a esquerda, independentemente se esses dados possuem ou não uma correspondencia na tabela da direita. Se existir uma correspondencia, será mostrado o dado das duas tabelas. 

![Visualização do left join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/LEFT_JOIN.png)

Por exemplo:
```sql
SELECT invoices.BillingCity
     , customers.FirstName
     , customers.LastName
  FROM invoices 
  LEFT JOIN customers
    ON invoices.CustomerId = customers.CustomerId
```

In [10]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

cursor.execute('''SELECT invoices.BillingCity
                       , customers.FirstName
                       , customers.LastName
                    FROM invoices 
                    LEFT JOIN customers
                      ON invoices.CustomerId = customers.CustomerId
                   LIMIT 10''')


for row in cursor:
    print('{1} {2} - invoice from {0}'.format(row[0], row[1], row[2]))

cursor.close()

Leonie Köhler - invoice from Stuttgart
Bjørn Hansen - invoice from Oslo
Daan Peeters - invoice from Brussels
Mark Philips - invoice from Edmonton
John Gordon - invoice from Boston
Fynn Zimmermann - invoice from Frankfurt
Niklas Schröder - invoice from Berlin
Dominique Lefebvre - invoice from Paris
Wyatt Girard - invoice from Bordeaux
Hugh O'Reilly - invoice from Dublin



### RIGHT JOIN
Assim como no left join, o right join faz o inverso. Serão retornados todos os dados da tabela da direita, independentemente se esses dados possuem ou não uma correspondencia na tabela da esquerda. Se existir uma correspondencia, será mostrado o dado das duas tabelas. 

![Visualização do right join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/RIGHT_JOIN.png)

Por exemplo:
```sql
SELECT invoices.BillingCity
     , customers.FirstName
     , customers.LastName
  FROM invoices 
 RIGHT JOIN customers
    ON invoices.CustomerId = customers.CustomerId
```

Retornaria algo como:

```
Fulano Detal - invoice from 
Leonie Köhler - invoice from Stuttgart
Bjørn Hansen - invoice from Oslo
Ciclano Ciclado - invoice from 
Beltrano Beltroso - invoice from 
Daan Peeters - invoice from Brussels
Mark Philips - invoice from Edmonton
John Gordon - invoice from Boston
Fynn Zimmermann - invoice from Frankfurt
```



### FULL (OUTER) JOIN
Em um full join são retornados os dados das duas tabelas, independente se existe ou não correspondencia entre eles

![Visualização do full join](https://www.codeproject.com/KB/database/Visual_SQL_Joins/FULL_OUTER_JOIN.png)

Por exemplo:
```sql
SELECT invoices.BillingCity
     , customers.FirstName
     , customers.LastName
  FROM invoices 
  FULL JOIN customers
    ON invoices.CustomerId = customers.CustomerId
```

Retornaria algo como:

```
Fulano Detal - invoice from 
Leonie Köhler - invoice from Stuttgart
  - invoice from Sao Paulo
  - invoice from Rio de Janeiro
Bjørn Hansen - invoice from Oslo
Ciclano Ciclado - invoice from 
Beltrano Beltroso - invoice from 
Daan Peeters - invoice from Brussels
Mark Philips - invoice from Edmonton
John Gordon - invoice from Boston
Fynn Zimmermann - invoice from Frankfurt
```


*Fonte das fotos: https://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins*

## Exercício 3 - Selecionando Dados com Joins

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 10 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [11]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o título do album e o nome do artista desse album ordenados por nome do artista
cursor.execute('''SELECT albums.title, 
                        artists.name 
                        FROM albums 
                        INNER JOIN artists 
                        ON albums.artistId = artists.artistid 
                        ORDER BY artists.name''')


for row in cursor:
    print('{0} - {1}'.format(row[0], row[1]))

cursor.close()

For Those About To Rock We Salute You - AC/DC
Let There Be Rock - AC/DC
A Copland Celebration, Vol. I - Aaron Copland & London Symphony Orchestra
Worlds - Aaron Goldberg
The World of Classical Favourites - Academy of St. Martin in the Fields & Sir Neville Marriner
Sir Neville Marriner: A Celebration - Academy of St. Martin in the Fields Chamber Ensemble & Sir Neville Marriner
Fauré: Requiem, Ravel: Pavane & Others - Academy of St. Martin in the Fields, John Birch, Sir Neville Marriner & Sylvia McNair
Bach: Orchestral Suites Nos. 1 - 4 - Academy of St. Martin in the Fields, Sir Neville Marriner & Thurston Dart
Balls to the Wall - Accept
Restless and Wild - Accept
Górecki: Symphony No. 3 - Adrian Leaper & Doreen de Feis
Big Ones - Aerosmith
Quiet Songs - Aisha Duo
Jagged Little Pill - Alanis Morissette
Adorate Deum: Gregorian Chant from the Proper of the Mass - Alberto Turco & Nova Schola Gregoriana
Facelift - Alice In Chains
Back to Black - Amy Winehouse
Frank - Amy Winehouse
Vivaldi: T

In [12]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da música, nome do album e nome do artista do album, limitar a apenas 10 resultados.
cursor.execute('''SELECT tracks.name
                       , albums.title
                       , artists.name
                    FROM tracks
                   INNER JOIN albums
                      ON tracks.albumid = albums.albumid
                   INNER JOIN artists
                      ON albums.artistid = artists.artistid
                     LIMIT 10''')


for row in cursor:
    print('Música: {0}'.format(row[0]))
    print('Álbum: {0} - {1}'.format(row[1], row[2]))
    print('-------')

cursor.close()

Música: For Those About To Rock (We Salute You)
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Put The Finger On You
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Let's Get It Up
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Inject The Venom
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Snowballed
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Evil Walks
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: C.O.D.
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Breaking The Rules
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Night Of The Long Knives
Álbum: For Those About To Rock We Salute You - AC/DC
-------
Música: Spellbound
Álbum: For Those About To Rock We Salute You - AC/DC
-------


In [14]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da música, compositor, nome do gênero, nome do tipo de mídia e preço
#limitar a apenas 10 resultados
cursor.execute('''SELECT tracks.name, tracks.composer, genres.name, media_types.name, tracks.unitprice
                FROM tracks 
                INNER JOIN genres
                   ON tracks.genreID = genres.genreid
                INNER JOIN media_types
                   ON tracks.mediaTypeId = media_types.mediaTypeId
                 LIMIT 10''')


for row in cursor:
    print('-----------------')
    print('{0}, por {1}'.format(row[0], row[1]))
    print('{0} - {1}'.format(row[2], row[3]))
    print('Apenas: ${0}'.format(row[4]))

cursor.close()

-----------------
For Those About To Rock (We Salute You), por Angus Young, Malcolm Young, Brian Johnson
Rock - MPEG audio file
Apenas: $0.99
-----------------
Balls to the Wall, por None
Rock - Protected AAC audio file
Apenas: $0.99
-----------------
Fast As a Shark, por F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman
Rock - Protected AAC audio file
Apenas: $0.99
-----------------
Restless and Wild, por F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman
Rock - Protected AAC audio file
Apenas: $0.99
-----------------
Princess of the Dawn, por Deaffy & R.A. Smith-Diesel
Rock - Protected AAC audio file
Apenas: $0.99
-----------------
Put The Finger On You, por Angus Young, Malcolm Young, Brian Johnson
Rock - MPEG audio file
Apenas: $0.99
-----------------
Let's Get It Up, por Angus Young, Malcolm Young, Brian Johnson
Rock - MPEG audio file
Apenas: $0.99
-----------------
Inject The Venom, por Angus Young, Malcolm Young, Brian Johnson
Rock - MPEG audio file
Apenas:

## Introdução ao SQL - Funções de agregação e agrupamentos

### Funções de agregação

Em SQL possuímos algumas funções especiais que trazem **valores calculados de alguma coluna**.

Podemos ver as mais comuns na tabela abaixo:

Função    | Descrição
----------|-----------
MIN       | retorna o menor valor de alguma coluna
MAX	      | retorna o maior valor de alguma coluna
SUM       | retorna a soma de todos os dados de uma coluna
AVG       | retorna a média de todos os dados de uma coluna
COUNT     | retorna o número de dados de uma coluna (não conta dados nulos)
COUNT(\*) |	retorna o número de colunas de uma tabela


Exemplo:

```sql
SELECT MIN(UnitPrice) FROM tracks

SELECT AVG(Milliseconds) FROM tracks

SELECT MAX(BirthDate) FROM employees
```

---

### GROUP BY

Sempre que precisarmos utilizar **uma função de agregação em conjunto com os dados de uma tabela**, vamos precisar agrupar esses dados para que nosso banco entenda o que queremos.

Por exemplo:

```sql
SELECT AlbumId
     , COUNT(TrackId)
  FROM tracks
 GROUP BY AlbumId
```

## Exercício 4 - Selecionando Dados com Agregação e Agrupamento

Vamos usar Python e SQLite para fazermos algumas queries.

Utilizem as células abaixo para completar as queries de acordo com o que está pedido nos comentários.

Tempo: 20 minutos

Materiais:
- O diagrama do banco de dados [pode ser encontrado aqui](http://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg).

---

In [1]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando a média de duração de todos os generos de musica
cursor.execute('''SELECT genres.name
                , AVG(tracks.milliseconds) 
             FROM tracks 
            INNER JOIN genres 
               ON tracks.genreid = genres.genreid 
            GROUP BY genres.name 
            ORDER BY 2''')


for row in cursor:
    minutes, milliseconds = divmod(row[1], 60000)
    duration = "%02i:%02i" % (minutes, milliseconds / 1000)
    print('{0} - {1}'.format(row[0], duration))

cursor.close()

Rock And Roll - 02:14
Opera - 02:54
Hip Hop/Rap - 02:58
Easy Listening - 03:09
Bossa Nova - 03:39
R&B/Soul - 03:40
World - 03:44
Pop - 03:49
Latin - 03:52
Alternative & Punk - 03:54
Soundtrack - 04:04
Reggae - 04:07
Alternative - 04:24
Blues - 04:30
Rock - 04:43
Jazz - 04:51
Classical - 04:53
Heavy Metal - 04:57
Electronica/Dance - 05:02
Metal - 05:09
Comedy - 26:25
TV Shows - 35:45
Drama - 42:55
Science Fiction - 43:45
Sci Fi & Fantasy - 48:31


In [5]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando a soma de todos os bytes por tipo de midia ordenando pela soma dos bytes
cursor.execute('''SELECT media_types.name
                       , SUM(tracks.bytes)
                    FROM tracks
                   INNER JOIN media_types
                      ON media_types.MediaTypeId = tracks.MediaTypeId
                   GROUP BY media_types.name
                   ORDER BY 2''')


for row in cursor:
    gb = (row[1] / 1024) / 1024
    print('{0} - {1} GB'.format(row[0], round(gb)))

cursor.close()

AAC audio file - 47 GB
Purchased AAC audio file - 58 GB
Protected AAC audio file - 1054 GB
MPEG audio file - 24972 GB
Protected MPEG-4 video file - 85817 GB


In [8]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

#Fazer uma query retornando o nome da companhia e quantos clientes nos temos que trabalham nela
cursor.execute('''SELECT Company
                       , COUNT(CustomerId)
                    FROM customers
                   GROUP BY Company''')


for row in cursor:
    print('{0} - {1}'.format(row[0], row[1]))

cursor.close()

None - 49
Apple Inc. - 1
Banco do Brasil S.A. - 1
Embraer - Empresa Brasileira de Aeronáutica S.A. - 1
Google Inc. - 1
JetBrains s.r.o. - 1
Microsoft Corporation - 1
Riotur - 1
Rogers Canada - 1
Telus - 1
Woodstock Discos - 1


---

## Subqueries e expressões


Em SQL também podemos fazer uma **query "dentro" da outra**, que chamamos de **subquery**. 

Nas queries também é possível realizarmos combinações de colunas, que chamamos de **expressões**.

Para combinarmos duas colunas de texto utilizamos o operador ```||```.

Para realizarmos cálculos entre duas colunas numéricas, utilizamos os operadores matemáticos normais.

---

Também existem algumas funções de apoio disponíveis, como por exemplo a ```date()``` e a ```time()```.

Vocês podem ver todas as outras funções disponíveis aqui:

https://www.sqlite.org/lang_corefunc.html

https://www.sqlite.org/lang_datefunc.html

https://www.sqlite.org/json1.html

https://www.sqlite.org/lang_aggfunc.html

---

Vamos aplicar um pouco de tudo isso em um único exemplo:


In [19]:
import sqlite3

db = sqlite3.connect('chinook.db')

cursor = db.cursor()

cursor.execute('''SELECT FirstName || ' ' || LastName
                       , (SELECT count(*) FROM invoices WHERE CustomerId = customers.CustomerId)
                       , (SELECT count(*) FROM invoices)
                       , time('now')
                       , 1 + 1
                    FROM customers
                   ORDER BY customerId desc
                   LIMIT 10''')


for row in cursor:
    print('{3} - {0} possui {1} de {2} invoices.\nFazendo as contas, 1 + 1 é igual a {4}.\n'.format(row[0], row[1], row[2], row[3], row[4]))

cursor.close()

16:02:31 - Puja Srivastava possui 6 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Manoj Pareek possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Luis Rojas possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Diego Gutiérrez possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Mark Taylor possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Steve Murray possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Phil Hughes possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Emma Jones possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Joakim Johansson possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.

16:02:31 - Enrique Muñoz possui 7 de 412 invoices.
Fazendo as contas, 1 + 1 é igual a 2.



----

## Parabéns!

Terminamos por aqui. Não se esqueçam de checar o pós aula para saberem mais de bancos de dados. ;)

Qualquer dúvida meus contatos estão lá em cima!

![ACABOU!](https://media.giphy.com/media/l4EpblDY4msVtKAOk/giphy.gif)
