# Extraindo Dados com SELECT

Nesta seção, aprenderemos o comando SQL mais comum. `SELECT` é usado para recuperar dados de uma ou mais tabelas. Ele também pode transformar dados antes de serem retornados. No entanto, é uma operação somente leitura, portanto, não altera as tabelas subjacentes.

## Configuração
Primeiro, faça a configuração. Baixe o arquivo de banco de dados SQLite `company_operations.db` e conecte-se a ele. Também execute `pandas` para exibir os resultados da nossa consulta SQL como um `DataFrame`.

In [None]:
import sqlite3
import pandas as pd
import urllib.request

# baixe o banco de dados SQLite e conecte-se a ele
urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')

## Selecionando Colunas

Vamos primeiro selecionar todas as colunas da tabela `CUSTOMER`.

In [None]:
sql = "SELECT * FROM CUSTOMER"

pd.read_sql(sql, conn)

Observe que o asterisco `*` indica a seleção de todas as colunas, e o `FROM` é precedido pela tabela da qual você está selecionando as colunas, que é `CUSTOMER`. Podemos ver que há 10 clientes nesta tabela.

Se você quiser limitar sua consulta apenas aos 5 primeiros resultados, adicione `LIMIT 5` para interromper o retorno de dados após 5 registros. Isso é útil se houver muitos registros e você quiser apenas uma amostra de registros para ver a aparência dos dados.

In [None]:
sql = "SELECT * FROM CUSTOMER LIMIT 5"

pd.read_sql(sql, conn)

Observe que você também pode selecionar colunas específicas separadas por vírgulas. Isso é útil para capturar apenas as colunas de seu interesse, além de reduzir a quantidade de dados a serem recuperados. Abaixo, recuperamos apenas as colunas `CUSTOMER_NAME` e `ADDRESS`.

In [None]:
sql = "SELECT CUSTOMER_NAME, ADDRESS FROM CUSTOMER"

pd.read_sql(sql, conn)

Se quiser ver quais tabelas estão disponíveis em um banco de dados, você pode solicitar a documentação ao administrador do banco de dados ou usar uma ferramenta de interface gráfica do usuário que exiba as tabelas. Em um ambiente Python, você precisará de um comando SQL para sua plataforma de banco de dados que liste todas as tabelas.

No SQLite, há uma tabela administrativa oculta chamada `sqlite_master` que permite listar todos os objetos em um banco de dados. Aprenderemos mais sobre a palavra-chave `WHERE`, mas observe que ela nos permite filtrar apenas objetos `table`.

In [None]:
sql = "SELECT NAME FROM sqlite_master WHERE type='table'"

pd.read_sql(sql, conn)

## Expressões e Funções

Vamos dar uma olhada na tabela `PRODUCT`.

In [None]:
sql = "SELECT * FROM PRODUCT"

pd.read_sql(sql, conn)

Digamos que queremos reduzir cada preço em 10%. Podemos multiplicar cada preço por `0,9` criando um novo campo como uma expressão. Chamaremos isso de `REDUCED_PRICE`. Isso não modifica a tabela, mas transforma os dados antes de serem retornados. O cálculo desse `REDUCED_PRICE` é feito somente dentro desta consulta, de forma semelhante a uma fórmula no Excel. É isso que torna o SQL ótimo. Ele permite que os dados armazenados sejam simples e mínimos, mas podemos sobrepor cálculos e manipulações a eles dentro de uma consulta.

In [None]:
sql = """
SELECT PRODUCT_NAME,
PRICE,
PRICE * 0.9 AS REDUCED_PRICE

FROM PRODUCT
"""

pd.read_sql(sql, conn)

Observe como posso escrever minha consulta SQL em várias linhas para maior legibilidade, e aproveitei a sintaxe de aspas duplas triplas do Python `"""` para aproveitar isso.

Os operadores matemáticos que você pode encontrar em todas as plataformas SQL são os seguintes:

|Símbolo | Operação
|--------|------------------
|+       | Soma dois números
|-       | Subtrai dois números
|*       | Multiplica dois números
|/       | Divide dois números
|%       | Divide, mas retorna o resto

Observe que esses operadores matemáticos funcionam apenas entre valores ou campos numéricos. Esses símbolos podem ser usados ​​em outros contextos, como o `*` que pode significar "selecionar todas as colunas", mas entre dois números é uma multiplicação.

Agora, digamos que queremos calcular uma `PROCESS_FEE` para cada preço, que é `.00047` multiplicado por `PRICE`.

In [None]:
sql = """
SELECT PRODUCT_NAME,
PRICE,
PRICE * .00047 AS PROCESS_FEE

FROM PRODUCT
"""

pd.read_sql(sql, conn)

Se quisermos arredondar esses valores para duas casas decimais, precisamos usar uma função. Funções são muito parecidas com funções em Python. Elas têm um nome, abrem com parênteses, aceitam argumentos e retornam um resultado. Aqui está a função `ROUND()` para duas casas decimais no campo `REDUCED_PRICE`.

In [None]:
sql = """
SELECT PRODUCT_NAME,
PRICE,
ROUND(PRICE * .00047, 2) AS PROCESS_FEE

FROM PRODUCT
"""

pd.read_sql(sql, conn)

Ao trabalhar com texto, o operador `||` pode ser usado para concatenar texto (embora algumas plataformas de banco de dados utilizem a função `CONCAT()`). Se quiséssemos mesclar vários campos na tabela `CUSTOMER` para criar um `SHIP_ADDRESS`, poderíamos fazer assim. Observe como os espaços `' `` e as vírgulas `' ,'` são preenchidos entre cada campo.

In [None]:
sql = """
SELECT CUSTOMER_NAME,
ADDRESS || ' ' || CITY || ', ' || STATE || ' ' || ZIP AS SHIP_ADDRESS
FROM CUSTOMER
"""

pd.read_sql(sql, conn)

## Comentar Código e Regras de Sintaxe

Você pode comentar código em SQL usando um hífen duplo `--` ou a sintaxe multilinha `/* */`. Essas opções serão ignoradas pelo mecanismo SQL e podem ser uma maneira útil de fornecer contexto e explicações ao seu código SQL.

```sql
-- isto é um comentário

/*
Este é um
comentário multilinha
*/
```

SQL não diferencia maiúsculas de minúsculas, portanto, palavras-chave, campos e nomes de tabelas podem ser maiúsculos ou minúsculos, independentemente de como são nomeados no armazenamento. Você verá que as consultas geralmente terminam com um ponto e vírgula `;`, mas isso só é necessário ao executar vários comandos SQL simultaneamente. Normalmente, a execução de vários comandos SQL ocorre na gravação de dados, não na seleção de dados.

# Exercício

Complete a consulta SQL abaixo substituindo os pontos de interrogação `?`. Recupere todos os registros da tabela `CUSTOMER`, mas pegue os campos `CUSTOMER_NAME` e `CATEGORY`. Concatene também `CITY` e `STATE` com uma vírgula no meio e nomeie essa expressão `LOCATION`.

In [None]:
sql = "SELECT ? FROM ?"

pd.read_sql(sql, conn)

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
sql = "SELECT CUSTOMER_NAME, CATEGORY, CITY || ', ' || STATE AS LOCATION FROM CUSTOMER"

pd.read_sql(sql, conn)