# Consultando bancos de dados usando SQL

O primeiro passo é carregar e explorar os dados. Usamos pandas para carregar os dados e tudo o que fazemos é armazená-los em variáveis.

In [1]:
import pandas as pd
from pandasql import sqldf

Ao trabalhar com SQL, é prática comum chamar tabelas (também conhecidas como DataFrames) no singular. Isso permite uma melhor leitura do código SQL. Por exemplo, em um banco de dados contendo experimentos, podemos usar posteriormente `experiment.concentration` para descrever a concentração de um medicamento que foi usado para expor as células.

In [2]:
experiment = pd.read_csv("../../data/experiments.csv")
measurement = pd.read_csv("../../data/measurements.csv")

Em seguida, combinamos essas tabelas em um banco de dados. Portanto, definimos uma função que pode consultar o banco de dados.

In [3]:
query_database = lambda q: sqldf(q, globals())

# Select From
Em seguida, definimos uma consulta em SQL. SQL tem um formato bastante legível para humanos. Normalmente começamos definindo o que queremos ler (`SELECT`) e de onde (`FROM`).

In [4]:
query = """
SELECT * 
FROM measurement
"""

query_database(query)

Unnamed: 0.1,Unnamed: 0,image_ID,time_after_exposure_in_s,number_of_cells
0,0,1,0,99
1,1,1,1,52
2,2,1,2,33
3,3,1,3,25
4,4,1,4,21
...,...,...,...,...
95,95,10,5,52
96,96,10,6,54
97,97,10,7,54
98,98,10,8,54


A propósito, o SQL não diferencia maiúsculas de minúsculas por si só, mas normalmente você encontra palavras de comando SQL em letras maiúsculas.

In [5]:
query = """
select * 
from measurement
"""

query_database(query)

Unnamed: 0.1,Unnamed: 0,image_ID,time_after_exposure_in_s,number_of_cells
0,0,1,0,99
1,1,1,1,52
2,2,1,2,33
3,3,1,3,25
4,4,1,4,21
...,...,...,...,...
95,95,10,5,52
96,96,10,6,54
97,97,10,7,54
98,98,10,8,54


Você também pode selecionar colunas específicas pelo nome. Aqui também o SQL não diferencia maiúsculas de minúsculas. A coluna selecionada `concentration` aparece como `Concentration` porque esse é o seu nome no banco de dados.

In [6]:
query = """
select Comment, concentration
from experiment
"""

query_database(query)

Unnamed: 0,Comment,Concentration
0,High dose,50
1,Medium dose,20
2,Control,0
3,Super high dose,1000


## Ordenando tabelas

Esta tabela também pode ser ordenada usando a declaração `ORDER BY`, por exemplo, para ver o maior número de células. Neste caso, ordenamos a coluna de forma decrescente usando a declaração `DESC`. A ordem ascendente `ASC` seria o padrão.

In [7]:
query = """
SELECT * 
FROM measurement
ORDER BY number_of_cells DESC
"""

query_database(query)

Unnamed: 0.1,Unnamed: 0,image_ID,time_after_exposure_in_s,number_of_cells
0,10,2,0,201
1,75,8,5,161
2,50,6,0,158
3,78,8,8,158
4,70,8,0,157
...,...,...,...,...
95,47,5,7,8
96,38,4,8,7
97,48,5,8,7
98,39,4,9,6


## Especificando o número de linhas para consultar

Caso uma tabela seja muito grande, recuperar todas as linhas pode levar muito tempo. Para obter insights sobre os dados de qualquer maneira, pode fazer sentido `LIMIT` a tabela às 10 primeiras linhas.

In [8]:
query = """
SELECT * 
FROM measurement
ORDER BY number_of_cells DESC
LIMIT 10;
"""

query_database(query)

Unnamed: 0.1,Unnamed: 0,image_ID,time_after_exposure_in_s,number_of_cells
0,10,2,0,201
1,75,8,5,161
2,50,6,0,158
3,78,8,8,158
4,70,8,0,157
5,77,8,7,157
6,76,8,6,154
7,60,7,0,153
8,64,7,4,153
9,66,7,6,153


## Exercício
Determine o maior `time_after_exposure_in_s` aplicado em qualquer experimento.