# SQL

Nesta seção, discutiremos o que é SQL e como configurar o SQLite em um ambiente Python. Se você não está familiarizado com SQL (structured query language), pode ser uma boa ideia fazer o outro curso da Anaconda *[Introdução ao SQL](https://learning.anaconda.cloud/introduction-to-sql)*.

## O que é SQL (Structured Query Language?) 

**SQL** significa linguagem de consulta estruturada e é usada para recuperar, manipular e gravar dados. Neste curso, daremos ênfase à recuperação e manipulação de dados para fins analíticos. Embora SQL seja tradicionalmente associado a bancos de dados relacionais, SQL continua popular o suficiente para ser implementado em bancos de dados NoSQL ("Not only SQL"), bem como em plataformas de "big data" como Apache Spark e Trino. Mesmo com 50 anos de existência, SQL continua sendo uma habilidade necessária para qualquer profissional de dados e uma linguagem essencial para trabalhar com dados.

## O que são bancos de dados relacionais?

**Sistemas de gerenciamento de banco de dados (SGBD)** são repositórios que contêm tabelas que podem ter relacionamentos entre si. Se você tiver uma tabela chamada `EMPLOYEE` e outra chamada `EMPLOYEE_AIR_TRAVEL` que rastreia seus voos para viagens de negócios, podemos esperar que esta última tabela tenha um campo (talvez chamado `BOOKED_EMPLOYEE_ID` que o vincule ao `EMPLOYEE_ID` da primeira tabela.

![](./resource/uXeyKTO9.svg)

Armazenar dados dessa maneira, separando diferentes tipos de dados, é chamado de **normalização**, e reduz eficientemente o espaço de armazenamento e minimiza a duplicação de dados. Afinal, por que armazenaríamos o `FIRST_NAME` e o `LAST_NAME` de cada funcionário para cada reserva de `EMPLOYEE_AIR_TRAVEL`? Em vez disso, usamos apenas um número inteiro para referenciar as informações do funcionário.

É importante observar que, em um contexto analítico, um **data warehouse** é uma entidade com a qual você interage frequentemente. Bancos de dados relacionais podem ser usados ​​para operações em tempo real. Exemplos seriam um banco de dados que gerencia a bagagem e os clientes que circulam por um aeroporto em tempo real ou captura e atende pedidos em um site de compras. Não realizamos consultas analíticas nesses bancos de dados, pois isso pode causar lentidão. Em vez disso, temos dados que são regularmente extraídos, transformados e carregados (ETL) em um data warehouse que atende usuários analíticos que buscam obter insights do negócio sem interromper os bancos de dados operacionais.

Existem outros tipos de repositórios que armazenam e fornecem interfaces com dados, como data lakes, data lakehouses e data fabrics. Mas, em geral, você descobrirá que o SQL pode ser usado para interagir com muitas dessas plataformas de dados. Para nossos propósitos, usaremos uma plataforma de banco de dados relacional (SQLite), que é integrada ao Python. Mas você pode estender esse conhecimento para outras plataformas de dados.

## Por que SQLite?

**SQLite** é uma plataforma de banco de dados relacional, assim como [PostgreSQL](https://www.postgresql.org), [Oracle](https://www.oracle.com/database/technologies/appdev/sql.html), ou [Microsoft SQL Server](https://www.microsoft.com/en-us/sql-server). No entanto, o que o torna único é que ele não requer um servidor. Em vez disso, o banco de dados é simplesmente armazenado como um arquivo em sua máquina local e você usa uma biblioteca ou interface de usuário para abri-lo. O Python já possui suporte ao SQLite por padrão, então você não precisa instalá-lo. Ele também está em conformidade com a [DBI API 2.0 especificada pela PEP 249](https://docs.python.org/3/library/sqlite3.html). Isso significa que outros pacotes de plataforma de banco de dados que atendem a esse padrão (incluindo [Microsoft SQL Server](https://pypi.org/project/pymssql/) e [Oracle](https://pypi.org/project/cx-Oracle/)) podem ser trabalhados da mesma forma que usaremos o SQLite. Portanto, tudo o que você aprender neste treinamento pode ser aplicado à maioria das principais plataformas de banco de dados!

> Se você deseja escrever SQL em um banco de dados SQLite com uma interface gráfica de usuário, existem muitas Ferramentas que oferecem isso. Meus favoritos são [SQLiteOnline](https://docs.python.org/3/library/sqlite3.html) e [SQLiteStudio](https://sqlitestudio.pl/).

## Configurando

Como mencionado anteriormente, o SQLite já vem integrado ao Python 3. Se você usa outras plataformas, como [Microsoft SQL Server](https://pypi.org/project/pymssql/) ou [Oracle](https://pypi.org/project/cx-Oracle/), será necessário executar `pip install` nos respectivos pacotes que atendem ao padrão DBI-API 2.0.

No entanto, precisamos obter o arquivo SQLite contendo um banco de dados de exemplo com o qual trabalharemos com os exemplos. Para facilitar, podemos baixar o arquivo diretamente do [repositório do Github](https://github.com/thomasnield/anaconda_intro_to_sql/) e colocá-lo em nosso diretório Python de trabalho.

In [None]:
import urllib.request
#urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")

Agora estamos prontos para nos conectar ao banco de dados. Criaremos uma conexão usando o pacote `sqlite3`.

In [None]:
import sqlite3

conn = sqlite3.connect('company_operations.db')

Também incluiremos `pandas`, que possui uma função `read_sql` muito útil para executar uma consulta SQL em uma conexão e empacotar os resultados em um `DataFrame`.

In [None]:
import pandas as pd

sql = "SELECT * FROM EMPLOYEE_AIR_TRAVEL"
pd.read_sql(sql, conn)

Observe acima que exibimos os resultados da consulta em um `DataFrame`. Vamos falar sobre a execução de consultas a seguir.

## Por que SQL em vez de Pandas?

Como aprenderemos a fazer análises com SQL, você pode estar se perguntando por que não usar o Pandas, já que ele também pode executar muitas dessas tarefas. SQL e Pandas não são concorrentes, mas sim duas ferramentas diferentes para dois ambientes distintos. Quando você tem muitos terabytes de dados armazenados em um banco de dados relacional, provavelmente não conseguirá processar esses dados localmente em sua máquina usando o Pandas. Faz sentido deixar o SQL fazer a computação pesada no lado do servidor (que é otimizado para processar os dados que está armazenando) e deixar o Pandas simplesmente receber os resultados. Por outro lado, o SQL pode estar menos equipado para tarefas de aprendizado de máquina e mesclar fontes de dados distintas, ou executar algoritmos mais elaborados para os quais Python e Pandas estão mais bem equipados.

Geralmente, é uma boa prática ao trabalhar com um banco de dados relacional fazer com que o servidor de banco de dados faça o trabalho de computação sempre que possível e que o ambiente Python consuma os resultados. Mantenha ambas as ferramentas em mãos e use-as em situações em que façam sentido.

## Executando Consultas

Espero que você já tenha trabalhado com SQL antes. Caso contrário, confira o outro curso da Anaconda *[Introdução ao SQL](https://learning.anaconda.cloud/introduction-to-sql)*. Aqui, faremos uma revisão básica da operação `SELECT` e das tarefas comuns que realizaremos.

`SELECT * FROM CUSTOMER` selecionará todos os campos da tabela `CUSTOMER`.

In [None]:
sql = "SELECT * FROM CUSTOMER"
pd.read_sql(sql, conn)

In [None]:
sql = "SELECT CUSTOMER_ID, CUSTOMER_NAME FROM CUSTOMER"
pd.read_sql(sql, conn)

Para filtrar linhas com base em uma ou mais condições, use a cláusula `WHERE`. Use as palavras-chave `AND` e `OR` para especificar várias condições, usando `AND` para exigir que todas as condições sejam atendidas ou `OR` para pelo menos uma condição.

In [None]:
sql = """
SELECT * FROM CUSTOMER 
WHERE STATE = 'TX' AND CATEGORY = 'COMMERCIAL'
"""

pd.read_sql(sql, conn)

Use parênteses para agrupar várias condições, como a ocorrência de `NEVE` ou granizo. Para que haja granizo, é preciso que haja chuva e que a temperatura seja menor ou igual a 32°F, portanto, tratamos isso como uma única condição.

In [None]:
sql = """
SELECT * FROM WEATHER_MONITOR 
WHERE SNOW > 0 OR (RAIN = 1 AND TEMPERATURE <= 32)
"""

pd.read_sql(sql, conn)

Use funções como `SUM`, `MIN`, `MAX`, `COUNT` e `AVG` para agregar uma coluna. Abaixo, obtemos a precipitação total quando os tornados ocorreram.

In [None]:
sql = """
SELECT SUM(RAIN) FROM WEATHER_MONITOR 
WHERE TORNADO = 1 
"""

pd.read_sql(sql, conn)

Use `GROUP BY` para segmentar (ou agrupar) funções de agregação com base em um ou mais campos/expressões. Abaixo, obtemos o total de chuva por cada data de relatório.

In [None]:
sql = """
SELECT REPORT_DATE, 
SUM(RAIN) AS TOTAL_RAIN

FROM WEATHER_MONITOR 
WHERE TORNADO = 1 
GROUP BY REPORT_DATE 
"""

pd.read_sql(sql, conn)

Outra nuance a ser observada é que valores numéricos (incluindo valores binários 1/0), bem como valores de ponto flutuante, não precisam estar entre aspas ao declarar um valor. Mas textos, datas/horas e outros tipos de dados normalmente precisam envolver os valores entre aspas, como mostrado abaixo.

In [None]:
sql = """
SELECT * FROM WEATHER_MONITOR
WHERE REPORT_CODE = '3J3YUUD'
"""

pd.read_sql(sql, conn)


## EXERCÍCIO

Complete a consulta SQL abaixo (substituindo os pontos de interrogação "?") para encontrar a temperatura mínima e máxima por ano desde 1º de março de 2024.

In [None]:
sql = """
SELECT strftime('%m', REPORT_DATE) AS YEAR, 
? AS MIN_TEMP, 
? AS MAX_TEMP

FROM WEATHER_MONITOR
WHERE ? >= ?
GROUP BY ?
"""

pd.read_sql(sql, conn)


### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
sql = """
SELECT strftime('%m', REPORT_DATE) AS YEAR, 
MIN(TEMPERATURE) AS MIN_TEMP, 
MAX(TEMPERATURE) AS MAX_TEMP

FROM WEATHER_MONITOR
WHERE REPORT_DATE >= '2024-03-01'
GROUP BY 1 
"""

pd.read_sql(sql, conn)