# **Python com SQL**

In [None]:
import pandas as pd
import sqlite3



* Um Banco de Dados é uma estrutura arquitetada para armazenar e manipular dados (inclusive para grandes volumes de dados), de modo que as tabelas podem ou não se relacionar.
* Como o SQL pode ser útil para um profissional Dados?
    * Geralmente os dados em um banco relacional serão o principal insumo para a criação de dashboards, relatórios e projetos de Data Science (podemos fazer consultas e trazer os dados para o Pandas, e então limpar e analisar os dados, gerar visualizações e construir modelos de Machine Learning).
* SQL (Structured Query Language ou Linguagem de Consulta Estrutura) é a linguagem padrão para administrar e consultar banco de dados relacional.
* Neste sentido, o profissional de Dados precisa construir consultas (query) sólidas e eficientes para acessar os dados da empresa em que estiver inserido, para então criar projetos de dados e agregar valor para a empresa.

#### Subconjuntos do SQL



Podemos dividir a linguagem SQl de acordo com as operações realizadas no banco de dados, vejamos os principais comandos:

DML - Linguagem de Manipulação de Dados

* INSERT (inserção de um registro)
* UPDATE (atualização de valores)
* DELETE (remoção de linhas)

DDL - Linguagem de Definição de Dados

* CREATE (criar objetos no banco de dados, tabela por exemplo)
* DROP (apagar objetos no banco de dados, tabela por exemplo)
* ALTER (alterar um objeto no banco de dados, adicionar uma coluna em uma tabela)

DCL - Linguagem de Controle de Dados

* GRANT (autoriza o usuário a realizar operações)
* REVOKE (remove/restringe as operações que um usuário pode realizar)

DTL - Linguagem de Transação de Dados

* COMMIT (finaliza uma transação)
* ROLLBACK (descarta mudanças desde o último COMMIT ou ROLLBACK)


DQL - Linguagem de Consulta de Dados

* SELECT (realiza consultas)

Resumindo, podemos dizer que os principais comandos são:

* SELECT
* INSERT
* UPDATE
* DELETE

#### Variáveis globais

In [None]:
# cria conexão com o SQL
db_name = 'enem'
conn    = sqlite3.connect(f'{db_name}.db')
tb_full_name  = 'tb_enem'
tb_quest_name = 'tb_dados_socioeconomicos'
# dados enem
df    = pd.read_csv('dados_enem_2021_BA.csv')
quest = pd.read_csv('dados_enem_2021_BA_questoes_socieconomicas.csv')

#### Cria banco de dados

* Insere os dados da tabela full

In [None]:
# name : nome da tabela
# index = False : se False, não irá inserir o index do DataFrame na tabela
# if_exists = 'append' : insere os novos valores na tabela existente
# con : define a conexão
df.to_sql(
    name = tb_full_name,
    index = False,
    if_exists = 'append',
    con = conn
)

* Insere os dados do questionário sócioeconômico

In [None]:
quest.to_sql(
    name = tb_quest_name,
    index = False,
    if_exists = 'append',
    con = conn
)

### Comandos SQL

#### SELECT

Usado para selecionar colunas específicas:
    
```sql
SELECT column_1, column_2, ..., column_n
FROM my_table;
```


Para selecionar todas as colunas:

```sql
SELECT * FROM my_table;
````

In [None]:
# seleciona colunas específicas
query = """
SELECT NU_INSCRICAO, TP_SEXO
FROM tb_enem
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# seleciona todas as colunas
query = """
SELECT * FROM tb_enem
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Filtro

**Tabela**

* Exemplos

In [None]:
# retorna apenas candidatos do sexo feminino
query = """
SELECT NU_INSCRICAO, TP_SEXO, TP_ENSINO
FROM tb_enem
WHERE
    TP_SEXO = 'F'
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# retorna apenas candidatos do sexo feminino - usando NOT
query = """
SELECT NU_INSCRICAO, TP_SEXO, TP_ENSINO
FROM tb_enem
WHERE
    NOT TP_SEXO = 'M'
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# retorna apenas candidatos do sexo feminino, que fizeram prova em Salvador
query = """
SELECT NU_INSCRICAO, TP_SEXO, TP_ENSINO, NO_MUNICIPIO_PROVA
FROM tb_enem
WHERE
    TP_SEXO = 'F'
    AND NO_MUNICIPIO_PROVA = 'Salvador'
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# retorna apenas candidatos do sexo feminino, que fizeram prova em Salvador (usando o operador IN)
query = """
SELECT NU_INSCRICAO, TP_SEXO, TP_ENSINO, NO_MUNICIPIO_PROVA
FROM tb_enem
WHERE
    TP_SEXO NOT IN  ('M')
    AND NO_MUNICIPIO_PROVA IN ('Salvador')
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# retorna apenas candidatos do sexo feminino, que fizeram prova em Salvador ou Feira de Santana
query = """
SELECT NU_INSCRICAO, TP_SEXO, TP_ENSINO, NO_MUNICIPIO_PROVA
FROM tb_enem
WHERE
    (NO_MUNICIPIO_PROVA = 'Salvador' OR NO_MUNICIPIO_PROVA = 'Feira de Santana')
    AND TP_SEXO = 'F'
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# filtra candidatos que possuem nota em matemática maior que 830 e fizeram prova em Salvador
query = """
SELECT NU_INSCRICAO, TP_SEXO, NU_NOTA_MT, NO_MUNICIPIO_PROVA
FROM tb_enem
WHERE
    NU_NOTA_MT >= 830
    AND NO_MUNICIPIO_PROVA = 'Salvador'
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

* Between

O operador `BETWEEN` seleciona valores dentre de um range (numérico, textual ou de temporal). Neste operador, os valores inicial e final são incluídos.

Sintaxe operador `BETWEEN`:

```sqlite
SELECT column_1
FROM my_table
WHERE column_1 BETWEEN value_1 AND value_2;
```

In [None]:
# seleciona registros cujos alunos tenham nota em Matemática entre 930 e 980
query = """
SELECT NU_INSCRICAO, TP_SEXO, NU_NOTA_MT
FROM tb_enem
WHERE NU_NOTA_MT BETWEEN 930 AND 980;
"""

tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Distinct

O comando `SELECT DISTINCT` retorna apenas os valores únicos, equivalante ao comando `.unique()` do Pandas ou ainda `.distinct()` do PySpark. Sintaxe:

```sql
SELECT DISTINCT column
FROM my_table;
```

In [None]:
# colunas distintas da coluna NO_MUNICIPIO_PROVA
query = """
SELECT DISTINCT NO_MUNICIPIO_PROVA
FROM tb_enem
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Ordenação

O comando `ORDER BY` é utilizado para ordernar, em ordem ascendente ou descendente, os da consulta.

O default é ordenar os resultado na ordem ascendente. Sintaxe:

```sql
SELECT column_1, column_2
FROM my_table
ORDER BY column_1, column_2 ASC|DESC;
```

In [None]:
#
query = """
SELECT NU_INSCRICAO, TP_SEXO, NU_NOTA_MT, NU_NOTA_CN
FROM tb_enem
WHERE
    NO_MUNICIPIO_PROVA = 'Salvador'
ORDER BY NU_NOTA_MT DESC, NU_NOTA_CN DESC
LIMIT 5
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Agregação

Vamos aprender a usar funções para resumir os dados. Por exemplo, obter o valor mínimo, máximo ou a média de uma variável.

Funções MIN() e MAX()


* A função MIN() retorna o menor valor de uma coluna selecionada.
* A função MAX() retorna o maior valor de uma coluna selecionada.

Sintaxe MIN

```sql
SELECT MIN(column)
FROM my_table
WHERE condition;
```



Sintaxe MAX

```sql
SELECT MAX(column)
FROM my_table
WHERE condition;
```

In [None]:
# nota mínima e máxima de matemática
query = """
SELECT
    MIN(NU_NOTA_MT), MAX(NU_NOTA_MT)
FROM tb_enem
WHERE
    NU_NOTA_MT != 0
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

In [None]:
# nota mínima e máxima de matemática e ciências da natureza
query = """
SELECT
    MIN(NU_NOTA_MT) as min_nota_mt,
    MAX(NU_NOTA_MT) as max_nota_mt,
    MIN(NU_NOTA_CN) as min_nota_cn,
    MAX(NU_NOTA_CN) as max_nota_cn
FROM tb_enem
WHERE
    NU_NOTA_MT != 0
    AND NU_NOTA_CN != 0
    AND NO_MUNICIPIO_PROVA = 'Salvador'
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

COUNT(), AVG(), SUM()

* A função COUNT() retorna o número de linhas que corresponde a um critério especificado;
* A função AVG() retorna o valor médio de uma coluna numérica;
* A função SUM() retorna a soma de uma coluna numérica.


Sintaxe COUNT

```sql
SELECT COUNT(column)
FROM my_table
WHERE condition;
```

Sintaxe AVG

```sql
SELECT AVG(column)
FROM my_table
WHERE condition;
```

Sintaxe SUM

```sql
SELECT SUM(column)
FROM my_table
WHERE condition;
```

* Sumário descritivo da nota de matemática

In [None]:
# nota mínima e máxima de matemática
query = """
SELECT
    MIN(NU_NOTA_MT) as min_nota_mt,
    ROUND(AVG(NU_NOTA_MT), 2) as avg_nota_mt,
    MAX(NU_NOTA_MT) as max_nota_mt
FROM tb_enem
WHERE
    NU_NOTA_MT != 0
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

* Quantidade de inscritos em Salvador

In [None]:
# quantidade de inscritos em Salvador
query = """
SELECT
    COUNT(NU_INSCRICAO)
FROM tb_enem
WHERE NO_MUNICIPIO_PROVA = 'Salvador'
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

* Quantidade de municípios distintos dos candidatos

In [None]:
# quantidade de municípios distintos
query = """
SELECT
    COUNT(DISTINCT NO_MUNICIPIO_PROVA)
FROM tb_enem
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Agrupamento

Podemos agrupar os dados e seguidamente aplicar funções de agregação, como média, soma, máximo, mínimo, dentre outras. Sintaxe:

```sql
SELECT * FROM my_table
WHERE condition
GROUP BY column;
```

* Proporção de inscritos por gênero

In [None]:
#
query = """
SELECT
    TP_SEXO as sexo,
    COUNT(NU_INSCRICAO) as quantidade_inscritos
FROM tb_enem
GROUP BY TP_SEXO
ORDER BY quantidade_inscritos DESC
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

* Quantidade de inscritos e desempenho escolar por município

In [None]:

query = """
SELECT
    NO_MUNICIPIO_PROVA            as municipio_prova,
    COUNT(NU_INSCRICAO)           as quantidade_inscritos,
    MIN(NU_NOTA_MT)               as min_nota_mt,
    ROUND(AVG(NU_NOTA_MT), 2)     as avg_nota_mt,
    MAX(NU_NOTA_MT)               as max_nota_mt,
    MIN(NU_NOTA_CN)               as min_nota_cn,
    ROUND(AVG(NU_NOTA_CN), 2)     as avg_nota_cn,
    MAX(NU_NOTA_CN)               as max_nota_cn
FROM tb_enem
WHERE
    NU_NOTA_MT != 0
    AND NU_NOTA_CN != 0
GROUP BY municipio_prova
ORDER BY quantidade_inscritos DESC, max_nota_mt DESC, max_nota_cn DESC
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Joins

Usamo `JOIN` para fazer junção de dados de duas ou mais tabelas, a partir de uma coluna em comum entre que estas tabelas compartilhem.

É muito comum buscarmos informações em várias tabelas distintas, para a produção de relatórios, dashboards e modelagem.


Diferentes tipos de JOINS:

* INNER JOIN: retorna os registros com intersecção em ambas as tabelas.
* LEFT JOIN: retorna todos os registros da tabela da esquerda e os registros em comum com a tabela da direta.
* RIGHT JOIN: retorna todos os registros da tabela da direita e os registros em comum com a tabela da esquerda.
* FULL JOIN: retorna todos os registros quando existe correspondência na tabela da esquerda ou da direita.

<img src = 'https://www.w3schools.com/sql/img_innerjoin.gif' />

<img src = 'https://www.w3schools.com/sql/img_leftjoin.gif' />

<img src = 'https://www.w3schools.com/sql/img_rightjoin.gif' />

<img src = 'https://www.w3schools.com/sql/img_fulljoin.gif' />

Sintaxe básica:


```sqlite
SELECT
    t1.column_1
    t2.column_2
FROM my_table_1       as t1
INNER JOIN my_table_2 as t2
ON t1.column_1 = t2.column_2;
```

Fonte: W3Schools.

* Join da tabela do ENEM com as informações sócioeconômicas

In [None]:
# retorna uma query com resultados descritovs para a prova de matemática a partir de alguns filtros
# Escolaridade dos pais até Ensino Médio e Renda declarada de até 2 K
query = """
SELECT
    t1.NO_MUNICIPIO_PROVA  as municipio,
    count(t1.NU_INSCRICAO) as quantidade_inscritos,
    min(t1.NU_NOTA_MT)     as min_nota_mt,
    avg(t1.NU_NOTA_MT)     as avg_nota_mt,
    max(t1.NU_NOTA_MT)     as max_nota_mt
FROM tb_enem as t1
LEFT JOIN tb_dados_socioeconomicos as t2
ON t1.NU_INSCRICAO = t2.NU_INSCRICAO
WHERE
    t2.Q001 NOT IN ('F', 'G', 'H')
    AND t2.Q002 NOT IN ('F', 'G', 'H')
    AND t2.Q006 IN ('A', 'B', 'C', 'D')
    AND NU_NOTA_MT != 0
GROUP BY municipio
ORDER BY quantidade_inscritos DESC, max_nota_mt DESC
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### Case When

Quando queremos aplicar regras baseadas em condições podemos utilizar a expressão `CASE`. Se a condição for verdadeira, o retorno será o valor especificado. Funciona como uma instrução if-then-else. Caso nenhuma condição seja verdadeira, a expressão retorna o valor especificado no `ELSE`.

Sintaxe:
    
```sqlite

SELECT
    column_1,
    CASE
        WHEN column_2 > 10 THEN 'A'
        WHEN column_3 = 10 THEN 'B'
        ELSE 'C'
    END AS column_cat
FROM my_table;
```

In [None]:
# trata algumas colunas usando CASE WHEN
query = """
SELECT
    NU_INSCRICAO,
    CASE
        WHEN TP_SEXO = 'F' THEN 'Feminino'
        WHEN TP_SEXO = 'M' THEN 'Masculino'
        WHEN TP_SEXO IS NULL THEN 'missing'
        ELSE 'verificar'
    END AS TP_SEXO,
    CASE
        WHEN TP_ESTADO_CIVIL = 0 THEN 'Não informado'
        WHEN TP_ESTADO_CIVIL = 1 THEN 'Solteiro(a)'
        WHEN TP_ESTADO_CIVIL = 2 THEN 'Casado(a)/Mora com companheiro(a)'
        WHEN TP_ESTADO_CIVIL = 3 THEN 'Divorciado(a)/Desquitado(a)/Separado(a)'
        WHEN TP_ESTADO_CIVIL = 4 THEN 'Viúvo(a)'
        WHEN TP_ESTADO_CIVIL IS NULL THEN 'missing'
        ELSE 'verificar'
    END AS TP_ESTADO_CIVIL,
    CASE
        WHEN TP_COR_RACA = 0 THEN 'Não declarado'
        WHEN TP_COR_RACA = 1 THEN 'Branca'
        WHEN TP_COR_RACA = 2 THEN 'Preta'
        WHEN TP_COR_RACA = 3 THEN 'Parda'
        WHEN TP_COR_RACA = 4 THEN 'Amarela'
        WHEN TP_COR_RACA = 5 THEN 'Indígena'
        WHEN TP_COR_RACA = 6 THEN 'Não dispõe da informação'
        WHEN TP_COR_RACA IS NULL THEN 'missing'
    END AS TP_COR_RACA,
    CASE
        WHEN TP_ESCOLA = 1 THEN 'Não respondeu'
        WHEN TP_ESCOLA = 2 THEN 'Pública'
        WHEN TP_ESCOLA = 3 THEN 'Privada'
        ELSE 'missing'
    END AS TP_ESCOLA,
    CASE
        WHEN TP_DEPENDENCIA_ADM_ESC = 1 THEN 'Federal'
        WHEN TP_DEPENDENCIA_ADM_ESC = 2 THEN 'Estadual'
        WHEN TP_DEPENDENCIA_ADM_ESC = 3 THEN 'Municipal'
        WHEN TP_DEPENDENCIA_ADM_ESC = 4 THEN 'Privada'
        WHEN TP_DEPENDENCIA_ADM_ESC IS NULL THEN 'missing'
        ELSE 'verificar'
    END AS TP_DEPENDENCIA_ADM_ESC,
    CASE
        WHEN TP_LOCALIZACAO_ESC = 1 THEN 'Urbana'
        WHEN TP_LOCALIZACAO_ESC = 2 THEN 'Rural'
        WHEN TP_LOCALIZACAO_ESC IS NULL THEN 'missing'
        ELSE 'verificar'
    END AS TP_LOCALIZACAO_ESC
FROM tb_enem
"""
tb_query = pd.read_sql_query(query, conn)
display(tb_query)

#### SQL vs Pandas

**Consulta, Valores únicos, count e limit**


Seleção de colunas
```sqlite
SELECT column
FROM my_table;
```

```python
df['column']

df.column

df.loc[:, 'column']
```

Head
```sqlite
SELECT * FROM my_table
LIMIT 5;
```

```python
df.head()

df.head(n = 5)
```

Valores distintos
```sqlite
SELECT DISTINCT column_1
FROM my_table;
```

```python
df.column_1.unique()
```

Contagem de valores únicos

```sqlite
SELECT COUNT(DISTINCT column_1)
FROM my_table;
```

```python
df.column.nunique()
```



**Filtros**


Condição simples

```sqlite
SELECT *
FROM my_table
WHERE column_1 = 10;
```

```python
df.query('column_1 == 10')

df[(df.column_1 == 10)]
```


Condição múltipla
```sqlite
SELECT column_3
FROM my_table
WHERE
    column_1 > 10
    AND column_2 = 'A';
```

```python
df.query("(column_1 > 10) & (column_2 == 'A')")['column_3']

df[(df.column_1 > 10) & (df.column_2 == 'A')]['column_3']
```

Operador IN


```sqlite
SELECT * FROM my_table
WHERE column_1 IN ('A', 'B');
```

```python
df[df.column_1.isin(['A', 'B'])]
```

NOT IN


```sqlite
SELECT column_1, column_2 FROM my_table
WHERE column_1 NOT IN ('A', 'B');
```

```python
df[~(df.column_1.isin(['A', 'B']))]['column_1', 'column_2']
```

Agregação


```sql
SELECT
    MIN(column_1) AS min,
    AVG(column_1) AS avg,
    MAX(column_1) AS max
FROM my_table;
```


```python
df.agg({'column_1': ['min', 'mean', 'max']})
```

Ordenação


```sql
SELECT
    column_1,
    column_2
FROM my_table
ORDER BY column_1 DESC, column_2 DESC;
```

```python
df.sort_values(['column_1', 'column_2'], ascending = [False, False])
```

Agrupamento

```sql
SELECT
    column_1,
    column_2,
    count(column_3)
FROM my_table
GROUP BY 1, 2
ORDER BY 3 DESC;
```


```python
df.groupby(by = ['column_1', 'column_2'])['column_3'].count().sort_values(ascending = False)
```


Join


```sqlite
SELECT
    t1.column_1,
    t2.column_2
FROM my_table_1 AS t1
INNER JOIN my_table_2 AS t2
    ON t1.column_1 = t2.column_2;
```


```python
my_table_1.merge(my_table_2,
                 left_on  = 'column_1',
                 right_on = 'column_2',
                 how      = 'inner'
                )
```

