# Agenda

Nesta aula iremos conhecer um pouco sobre bancos de dados (relacionais e não-relacionais), linguagem SQL e os tipos de comando, sua utilização no dia a dia do Cientista de Dados e alguns comandos de consulta (comandos DQL).


**Tópicos**:
 - O que são bancos de dados:
     - Tipos mais comuns
     - Vantagens de usar um banco de dados
 - O que é SQL:
     - Tipos de Comando:
         - DDL
         - DML
         - TCL
         - DCL
         - DQL
 - SQLite:

 - Comandos DQL:
    - SELECT, FROM
    - WHERE
    - AGG (MAX, MIN, DISTINCT, COUNT, SUM, STD)
    - ORDER BY
    - GROUP BY
    - HAVING
    - CASE WHEN
 - Exercícios


# O que são bancos de dados

<img src='https://dicasdeprogramacao.com.br/images/o-que-e-um-banco-de-dados/banco-de-dados.png' height=300 width=400>

Bancos de dados representam coleções de registros 

## Tipos mais comuns

### Banco Hierárquico

<img src='https://arquivo.devmedia.com.br/revistas/sql/imagens/85/5/image001.png' height=300 width=400>

### Banco de Grafos

<img src='https://miro.medium.com/max/1474/1*SiIW_VnSNDiawRvuGM3aGA.png' height=300 width=400>

### Banco orientado a objetos

<img src='https://image.slidesharecdn.com/aula4-bancodedados-130902132648-phpapp01/95/aula-4-banco-de-dados-22-638.jpg?cb=1378129287' height=300 width=400 >

### Bancos Relacionais

Coleção de linhas e colunas em formato de tabela. As tabelas podem ou não se comunicar por meio de chaves.

<img src='https://programadoresbrasil.com.br/wp-content/uploads/2020/02/database-schema-1895779_640.png' height=300 width=400>

## Vantagens de utilizar um banco de dados

* [ACID](https://en.wikipedia.org/wiki/ACID)
> * Atomicidade: Cada transação ou executa com sucesso ou falha. Se uma transação depende da transação que falhou, todas as outras são canceladas.
> * Consistência: garante que cada transação só pode levar o banco de um estado válido para outro estado válido.
> * Isolamento: transações não influenciam no resultado de outras transações executadas paralelamente.
> * Durabilidade: transações comitadas estão salvas.
* Segurança
* Tempo de resposta

# SQLite

In [1]:
import sqlite3
import pandas as pd

In [2]:
con = sqlite3.connect('database.db')
csqlite = con.cursor()

In [3]:
query = """
        SELECT tbl_name FROM sqlite_master where type='table'
        """
csqlite.execute(query)
tabelas = csqlite.fetchall()
tabelas

[('my_table',),
 ('countries',),
 ('customers',),
 ('employees',),
 ('offices',),
 ('orderdetails',),
 ('orders',),
 ('payments',),
 ('productlines',),
 ('products',)]

In [4]:
query2 = "PRAGMA table_info(employees)"
csqlite.execute(query2);
info = csqlite.fetchall()
info

[(0, 'employeeNumber', 'int(11)', 1, None, 1),
 (1, 'lastName', 'varchar(50)', 1, None, 0),
 (2, 'firstName', 'varchar(50)', 1, None, 0),
 (3, 'extension', 'varchar(10)', 1, None, 0),
 (4, 'email', 'varchar(100)', 1, None, 0),
 (5, 'officeCode', 'varchar(10)', 1, None, 0),
 (6, 'reportsTo', 'int(11)', 0, 'NULL', 0),
 (7, 'jobTitle', 'varchar(50)', 1, None, 0)]

In [5]:
query1 = """
        SELECT tbl_name FROM sqlite_master where type='table'
        """
df_tabelas = pd.read_sql(query1,con)
df_tabelas

Unnamed: 0,tbl_name
0,my_table
1,countries
2,customers
3,employees
4,offices
5,orderdetails
6,orders
7,payments
8,productlines
9,products


In [9]:
query2 = "PRAGMA table_info(employees)"
info_df = pd.read_sql(query2,con)
info_df

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,employeeNumber,int(11),1,,1
1,1,lastName,varchar(50),1,,0
2,2,firstName,varchar(50),1,,0
3,3,extension,varchar(10),1,,0
4,4,email,varchar(100),1,,0
5,5,officeCode,varchar(10),1,,0
6,6,reportsTo,int(11),0,,0
7,7,jobTitle,varchar(50),1,,0


In [10]:
query3 = "SELECT * FROM products"
products = pd.read_sql(query3,con)
products

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,1:10,Min Lin Diecast,"This replica features working kickstand, front...",7933,48.81,95.70
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.30
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,1:10,Highway 66 Mini Classics,"Official Moto Guzzi logos and insignias, saddl...",6625,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,1:10,Red Start Diecast,"Model features, official Harley Davidson logos...",5582,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,1:10,Motor City Art Classics,Features include: Turnable front wheels; steer...,3252,85.68,136.00
...,...,...,...,...,...,...,...,...,...
105,S700_3505,The Titanic,Ships,1:700,Carousel DieCast Legends,"Completed model measures 19 1/2 inches long, 9...",1956,51.09,100.17
106,S700_3962,The Queen Mary,Ships,1:700,Welly Diecast Productions,Exact replica. Wood and Metal. Many extras inc...,5088,53.63,99.31
107,S700_4002,American Airlines: MD-11S,Planes,1:700,Second Gear Diecast,Polished finish. Exact replia with official lo...,8820,36.27,74.03
108,S72_1253,Boeing X-32A JSF,Planes,1:72,Motor City Art Classics,"10\"" Wingspan with retractable landing gears.C...",4857,32.77,49.66


# O que é SQL

SQL significa, em inglês, Structured Query Language, ou Linguagem de Consulta Estruturada, em português. É uma linguagem "universal" usada para manipular bancos de dados relacionais que foi criada na década de 70, pela IBM, para . Os comandos SQL são usados para realizar atualizações nos dados, inserir novos registros, deletar registros e também recuperar registros para algum uso específico. A partir de então, diversos fabricantes de Sistemas Gerenciadores de Bancos de Dados relacionais (SGBDRs), como por exemplo a Oracle, começaram a desenvolver versões próprias da linguagem SQL (chamadas de dialetos ou extensões), e isso levou a necessidade da criação de uma linguagem SQL padronizada (ANSI).

Uma das grandes vantagens do SQL é que é uma linguagem universal para os bancos de dados profissionais. Uma boa parte dessa linguagem está padronizada. Evidentemente existem alguns acréscimos conforme o banco de dados utilizado (MSSQL Server, Oracle, DB2, etc). Entretanto, a base é a mesma.

## Tipos de Comando

### DDL

DDL significa Linguagem de Definição de Dados. Os comandos dessa categoria são utilizados para criar e modificar a estrutura de um banco de dados e de seus objetos.

- ```CREATE``` – Cria um objeto do banco. Pode ser, por exemplo, criar um banco, uma tabela, triggers, índices, funções e etc.
- ```DROP``` – Ao contrário do Create, esse comando é utilizado para deletar objetos. 
- ```ALTER``` – Usado para alterar as estruturas dos objetos já existentes (adicionar coluna, por exemplo).


### DML

A linguagem de manipulação de dados permite a Inserção, edição e exclusão dos dados das tabelas. Os comandos utilizados nestas tarefas são:


- ```UPDATE``` - atualiza os dados em um banco de dados
- ```DELETE``` - exclui dados de um banco de dados
- ```INSERT``` - insere novos dados em um banco de dados

### TCL

TCL significa linguagem de controle de transações. Como o nome já diz, esses comandos serão responsáveis por 
controlar transações no banco de dados.

 - ```COMMIT``` –  realiza um commit na transação que está em execução
 - ```ROLLBACK``` – aplica um rollback na transação atual 
 - ```SAVEPOINT``` – save point é como se fosse um ponto ao qual é possível retornar a qualquer momento
 - ```SET TRANSACTION``` – Especifica algumas características das transações

### DCL

A linguagem de controle de dados  atribui permissões aos objetos através dos comandos Grant, revoke e Deny. A Linguagem de Controle de Dados (DCL) é um subconjunto do Lanaguge SQL  que permite que os administradores de banco de dados para configurar o acesso de segurança para bancos de dados relacionais. DCL é o mais simples dos subconjuntos SQL, já que consiste em apenas três comandos: ```GRANT```, ```REVOKE``` e ```DENY```. Combinados, esses três comandos oferecem aos administradores a flexibilidade para definir e remover permissões de banco de dados de forma extremamente granular.

- ```GRANT``` - é utilizado para adicionar novas permissões para um usuário
- ```REVOKE``` - é utilizado para remover o acesso de banco de dados de um usuário
- ```DENY``` - utilizado para impedir explicitamente que um usuário receba uma permissão especial

### DQL

A DQL, linguagem de consulta de dados, é utilizada justamente para este fim. É aqui que iremos concentrar nossos esforços nessa e na próxima aula. O comando chave dentro de DQL é:
- ```SELECT``` - Usado para buscar dados em tabelas


# Comandos DQL

## SELECT, FROM

O primeiro comando que iremos mostrar é o ```SELECT``` ```FROM```. A sintaxe para esse comando é:
```sql
SELECT coluna1, coluna2,..., colunan
FROM table1
```

precisamos informar as colunas que queremos trazer e a tabela que contém essas colunas.

In [23]:
query = """
SELECT firstName, email
FROM employees
LIMIT 10
"""
df_employee = pd.read_sql(query,con)
df_employee

Unnamed: 0,firstName,email
0,Diane,dmurphy@classicmodelcars.com
1,Mary,mpatterso@classicmodelcars.com
2,Jeff,jfirrelli@classicmodelcars.com
3,William,wpatterson@classicmodelcars.com
4,Gerard,gbondur@classicmodelcars.com
5,Anthony,abow@classicmodelcars.com
6,Leslie,ljennings@classicmodelcars.com
7,Leslie,lthompson@classicmodelcars.com
8,Julie,jfirrelli@classicmodelcars.com
9,Steve,spatterson@classicmodelcars.com


In [14]:
query3 = "SELECT * FROM products"
products = pd.read_sql(query3,con)
products

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,1:10,Min Lin Diecast,"This replica features working kickstand, front...",7933,48.81,95.70
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.30
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,1:10,Highway 66 Mini Classics,"Official Moto Guzzi logos and insignias, saddl...",6625,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,1:10,Red Start Diecast,"Model features, official Harley Davidson logos...",5582,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,1:10,Motor City Art Classics,Features include: Turnable front wheels; steer...,3252,85.68,136.00
...,...,...,...,...,...,...,...,...,...
105,S700_3505,The Titanic,Ships,1:700,Carousel DieCast Legends,"Completed model measures 19 1/2 inches long, 9...",1956,51.09,100.17
106,S700_3962,The Queen Mary,Ships,1:700,Welly Diecast Productions,Exact replica. Wood and Metal. Many extras inc...,5088,53.63,99.31
107,S700_4002,American Airlines: MD-11S,Planes,1:700,Second Gear Diecast,Polished finish. Exact replia with official lo...,8820,36.27,74.03
108,S72_1253,Boeing X-32A JSF,Planes,1:72,Motor City Art Classics,"10\"" Wingspan with retractable landing gears.C...",4857,32.77,49.66


In [30]:
query3 = """
SELECT productCode
, productName
, productLine
, buyPrice 
FROM products
"""
products = pd.read_sql(query3,con)
products

Unnamed: 0,productCode,productName,productLine,buyPrice
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,48.81
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,98.58
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,68.99
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,91.02
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,85.68
...,...,...,...,...
105,S700_3505,The Titanic,Ships,51.09
106,S700_3962,The Queen Mary,Ships,53.63
107,S700_4002,American Airlines: MD-11S,Planes,36.27
108,S72_1253,Boeing X-32A JSF,Planes,32.77


## WHERE

Até agora trouxemos todos os registros ou os n primeiros registros. Mas e se quisermos  fazer algum filtro?

```sql
SELECT coluna1, coluna2,..., colunan
FROM table1
WHERE condicao1
```

In [19]:
query3 = """
SELECT productCode
, productName
, productLine
, buyPrice 
FROM products
where productLine = 'Motorcycles'
"""
products = pd.read_sql(query3,con)
products

Unnamed: 0,productCode,productName,productLine,buyPrice
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,48.81
1,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,68.99
2,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,91.02
3,S12_2823,2002 Suzuki XREO,Motorcycles,66.27
4,S18_2625,1936 Harley Davidson El Knucklehead,Motorcycles,24.23
5,S18_3782,1957 Vespa GS150,Motorcycles,32.95
6,S24_1578,1997 BMW R 1100 S,Motorcycles,60.86
7,S24_2000,1960 BSA Gold Star DBD34,Motorcycles,37.32
8,S24_2360,1982 Ducati 900 Monster,Motorcycles,47.1
9,S32_1374,1997 BMW F650 ST,Motorcycles,66.92


Podemos utilizar as palavras chave ```OR``` e ```AND``` para construir filtros mais complexos.

In [22]:
query3 = """
SELECT productCode
, productName
, productLine
, buyPrice 
FROM products
where productLine = 'Motorcycles'
and productName like '%Harley%'
"""
products = pd.read_sql(query3,con)
products

Unnamed: 0,productCode,productName,productLine,buyPrice
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,48.81
1,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,91.02
2,S18_2625,1936 Harley Davidson El Knucklehead,Motorcycles,24.23


In [26]:
query = """
SELECT *
FROM payments
WHERE customerNumber = 124 OR customerNumber = 131 AND amount <=30000
"""

df_payments = pd.read_sql(query,con)
df_payments

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount
0,124,AE215433,2005-03-05,101244.59
1,124,BG255406,2004-08-28,85410.87
2,124,CQ287967,2003-04-11,11044.3
3,124,ET64396,2005-04-16,83598.04
4,124,HI366474,2004-12-27,47142.7
5,124,HR86578,2004-11-02,55639.66
6,124,KI131716,2003-08-15,111654.4
7,124,LF217299,2004-03-26,43369.3
8,124,NT141748,2003-11-25,45084.38
9,131,CL442705,2003-03-12,22292.62


Note que a query retorna os regitros onde customerNumber = 124 ou 131, mas a última condição só é aplicada para o último customerNumber.
Como resolver isso?

In [31]:
query = """
SELECT *
FROM payments
WHERE (customerNumber = 124 OR customerNumber = 131) 
AND amount <=30000
"""

df_payments = pd.read_sql(query,con)
df_payments

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount
0,124,CQ287967,2003-04-11,11044.3
1,131,CL442705,2003-03-12,22292.62


> ATENÇÃO: Sempre use parênteses para especificar a ordem de aplicação dos filtros.

Poderíamos atingir o mesmo resultado passando uma lista de customerNumber e utilizando a função ```IN```

In [29]:
query = """
SELECT *
FROM payments
WHERE (customerNumber in (124, 131)) 
AND amount <=30000
"""

df_payments = pd.read_sql(query,con)
df_payments

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount
0,124,CQ287967,2003-04-11,11044.3
1,131,CL442705,2003-03-12,22292.62


## AGG (MAX, MIN, DISTINCT, COUNT, SUM, STD, AVG)

Essas funções trazem resumos de colunas. Por exemplo, podemos calcular a média de alguma coluna ou trazer seu valor máximo e mínimo.

```sql
SELECT FUNC1(coluna1), FUNC2(coluna2),
FROM table1
```

In [None]:
query="""
SELECT MAX(amount) AS MAX_AMOUNT, AVG(amount) AS AVG_AMOUNT
FROM payments
"""
df_amount_max_avg = pd.read_sql(query,con)
df_amount_max_avg

Unnamed: 0,MAX_AMOUNT,AVG_AMOUNT
0,120166.58,32431.645531


## ORDER BY

Podemos ordernar as tabelas e nossas queries com o comando ```ORDER BY```

```sql
SELECT coluna1, coluna2,..., colunan
FROM table1
ORDER BY coluna1
```

In [None]:
query = """
SELECT *
FROM payments
WHERE customerNumber IN (124,131)
ORDER BY customerNumber DESC, paymentDate ASC
"""

df_payments2 = pd.read_sql(query,con)
df_payments2

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount
0,131,CL442705,2003-03-12,22292.62
1,131,NB445135,2004-09-11,35321.97
2,131,MA724562,2004-12-02,50025.35
3,124,CQ287967,2003-04-11,11044.3
4,124,KI131716,2003-08-15,111654.4
5,124,NT141748,2003-11-25,45084.38
6,124,LF217299,2004-03-26,43369.3
7,124,BG255406,2004-08-28,85410.87
8,124,HR86578,2004-11-02,55639.66
9,124,HI366474,2004-12-27,47142.7


## GROUP BY

Assim como no pandas, podemos agrupar nossos dados de acordo com uma coluna específica e extrair informações agregadas, como médias, somas e etc.

```sql
SELECT FUNC1(coluna1), FUNC2(coluna2)
FROM table1
GROUP BY coluna1
```

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/03.08-split-apply-combine.png" height=600 width=600>

In [33]:
query = """
SELECT customerNumber, SUM(amount) AS TOTAL_AMOUNT
FROM payments
GROUP BY customerNumber
ORDER BY customerNumber
, TOTAL_AMOUNT DESC
"""

tot_amount_group = pd.read_sql(query,con)
tot_amount_group

Unnamed: 0,customerNumber,TOTAL_AMOUNT
0,103,22314.36
1,112,80180.98
2,114,180585.07
3,119,116949.68
4,121,104224.79
...,...,...
93,486,77726.59
94,487,42570.37
95,489,29586.15
96,495,65541.74


## HAVING

E se depois de agregarmos nossos dados quisermos aplicar algum filtro? 

In [34]:
query = """
SELECT customerNumber, SUM(amount) AS TOTAL_AMOUNT
FROM payments
WHERE customerNumber>200
GROUP BY customerNumber
HAVING TOTAL_AMOUNT >=50000
ORDER BY customerNumber, TOTAL_AMOUNT DESC
"""

tot_amount_group = pd.read_sql(query,con)
tot_amount_group

Unnamed: 0,customerNumber,TOTAL_AMOUNT
0,201,61167.18
1,202,70122.19
2,204,55577.26
3,205,93803.3
4,209,75859.32
5,216,68520.47
6,227,89909.8
7,233,68977.67
8,239,80375.24
9,240,71783.75


Se usarmos o ```WHERE```, cometeremos um erro!. depois de agrupar os nossos dados, utilizamos a função ```HAVING```para filtrar os registros.

# CASE WHEN

Às vezes precisamos aplicar regras baseadas em condições para extrair ou criar novas colunas a partir das quais já possuímos. Por exemplo, poderíamos categorizar a coluna amount, criando faixas de valores. Para isso, utilizamos a expressão ```CASE WHEN```.

```sql
SELECT 
        CASE 
            WHEN condicao1 THEN valor1
            WHEN condicao2 THEN valor2
            ELSE default
        END AS nome da nova_coluna
FROM table1
```

In [35]:
query="""
SELECT customerNumber, amount,
CASE
  WHEN amount>= 10000 and amount < 20000 THEN 'FAIXA1'
  WHEN amount>= 20000 and amount < 50000 THEN 'FAIXA2'
  ELSE 'FAIXA3'
END AS faixas_amount
FROM payments
"""
#mecessario colocar "," no final da linha que antecede ao CASE
df_faixas = pd.read_sql(query,con)
df_faixas

Unnamed: 0,customerNumber,amount,faixas_amount
0,103,6066.78,FAIXA3
1,103,14571.44,FAIXA1
2,103,1676.14,FAIXA3
3,112,14191.12,FAIXA1
4,112,32641.98,FAIXA2
...,...,...,...
268,495,59265.14,FAIXA3
269,495,6276.60,FAIXA3
270,496,30253.75,FAIXA2
271,496,32077.44,FAIXA2


# Exercícios

* Traga os valores máximo, mínimo, total e a quantidade de pagamentos realizados para cada empregado em uma única tabela.
* Retorne uma tabela contendo os datas e a quantidade de pagamentos ordenada pela quantidade de pagamentos de maneira decrescente.
* Retorne uma tabela com os dias da semana e a quantidade transações totais para cada dia, ordenada pela quantidade de transações e dia da semana em que houve a maior soma agregada de pagamentos de maneira decrescente.