# Aula 4: SQL

## Introdução

Nesta aula veremos as principais queries de consulta em sql

## Conexao no db4free via sqlalchemy

In [1]:
import yaml
import sqlalchemy
import pandas as pd
from pandasql import sqldf

In [2]:
# Load SQL credentials
with open('credentials.yml', 'r') as file:
    credentials = yaml.load(file, Loader=yaml.FullLoader)

- A engine deve estar no formato:
- mysql://`user`:`password`@`host`:`port`/`database`

In [3]:
engine = sqlalchemy.create_engine(f'mysql://{credentials["user"]}:{credentials["password"]}@{credentials["host"]}:{credentials["port"]}/{credentials["database"]}') # connect to server

## GROUP BY

- Podemos agrupar a tabela por uma chave e sumarizar os valores 
- Por exemplo, podemos analisar o número de cada `product_category` 
- `GROUP BY` sempre está acompanhando de alguma função de agregação: `COUNT()`, `SUM()`, `AVG()`

In [4]:
AtrasoCartaoCredito = pd.read_csv('AtrasoCartaoCredito.csv')

In [5]:
query = '''

SELECT GrupoEconomico, COUNT(*)
FROM AtrasoCartaoCredito 
GROUP BY GrupoEconomico

'''

# pd.read_sql_query(query, engine)
sqldf(query)

Unnamed: 0,GrupoEconomico,COUNT(*)
0,1,216
1,2,184
2,3,491


## ORDER BY

Podemos ordernar a consulta por alguma coluna com `ORDER BY` em ordem crescente

In [6]:
query = '''

SELECT GrupoEconomico, COUNT(*)
FROM AtrasoCartaoCredito 
GROUP BY GrupoEconomico
ORDER BY GrupoEconomico

'''

# pd.read_sql_query(query, engine)
sqldf(query)

Unnamed: 0,GrupoEconomico,COUNT(*)
0,1,216
1,2,184
2,3,491


- Ou em ordem descrescente
- Também podemos renomear a coluna com o alias `AS`

In [7]:
query = '''

SELECT GrupoEconomico, COUNT(*) AS num_GrupoEconomico
FROM AtrasoCartaoCredito 
GROUP BY GrupoEconomico
ORDER BY GrupoEconomico DESC

'''

# pd.read_sql_query(query, engine)
sqldf(query)

Unnamed: 0,GrupoEconomico,num_GrupoEconomico
0,3,491
1,2,184
2,1,216


## HAVING

Quando queremos aplicar um filtro após fazer o `GROUP BY`, usamos o comando `HAVING`

In [8]:
query = '''

SELECT GrupoEconomico, COUNT(*) AS num_GrupoEconomico
FROM AtrasoCartaoCredito 
GROUP BY GrupoEconomico
HAVING COUNT(*) > 200

'''

# pd.read_sql_query(query, engine)
sqldf(query)

Unnamed: 0,GrupoEconomico,num_GrupoEconomico
0,1,216
1,3,491
