# Filtrando dados com WHERE

Nesta seção, aprenderemos como filtrar registros com base em uma condição. Isso é feito com a cláusula `WHERE` de uma consulta SQL.

## Configuração
Primeiro, faça a configuração. Baixe o arquivo de banco de dados SQLite `company_operations.db` e conecte-se a ele. Também inclua `pandas` para exibir os resultados da nossa consulta SQL como um `DataFrame`.

In [None]:
import sqlite3
import pandas as pd
import urllib.request

# baixe o banco de dados SQLite e conecte-se a ele
urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')

Vamos dar uma olhada na tabela `WEATHER_MONITOR` e extrair 10 registros dela. Observe que se trata de dados meteorológicos que capturam diversas medições, incluindo `RAIN` e `LIGHTNING`, bem como indicadores VERDADEIRO/FALSO como `LIGHTNING`, `HAIL` e `TORNADO`, que serão 1 e 0, respectivamente (1 para VERDADEIRO, 0 para FALSO).

## Filtrando Expressões Numéricas

Primeiramente, abordaremos a filtragem de dados com operações numéricas, algumas das quais se estenderão a outros tipos de dados, como texto.

In [None]:
sql = "SELECT * FROM WEATHER_MONITOR LIMIT 10"

pd.read_sql(sql, conn)

Digamos que queremos encontrar todos os registros com uma temperatura de exatamente 64°F. Podemos simplesmente usar um operador `=` em uma condição `WHERE` como esta:

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TEMPERATURE = 64

"""

pd.read_sql(sql, conn)

Para obter todos os registros que não são de 64 graus, você pode usar o operador `!=` ou `<>` que expressa "não é igual a".

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TEMPERATURE != 64

"""

pd.read_sql(sql, conn)

Para obter todos os registros dentro de um intervalo de valores, você pode usar o operador `BETWEEN`. Para obter todos os registros com temperatura entre 10 e 20 graus, defina `BETWEEN` no campo `TEMPERATURE`.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TEMPERATURE BETWEEN 10 AND 20
"""

pd.read_sql(sql, conn)

O `BETWEEN` é inclusivo, portanto, incluirá 10 e 20 graus. Se você quiser excluir os limites e retornar apenas registros exclusivamente entre 10 e 20 graus, use os operadores comparativos `>` e `<` com um `AND` para qualificar ambas as condições.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TEMPERATURE > 10 AND TEMPERATURE < 20

"""

pd.read_sql(sql, conn)

O `BETWEEN` inclusivo também pode ser realizado usando `>=` e `<=`.

Digamos que queremos obter registros onde o `LOCATION_ID` é 5, 20 ou 35. Podemos fazer isso usando um `OR` que especifica que pelo menos uma condição deve ser verdadeira.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE LOCATION_ID = 5 
OR LOCATION_ID = 20 
OR LOCATION_ID = 35

"""

pd.read_sql(sql, conn)

Isso demonstra que o operador `OR` permite que uma condição seja composta por múltiplas condições, onde pelo menos uma delas deve ser verdadeira. Mas, para este problema específico, podemos usar o operador `IN` para qualificar um conjunto de valores em um conjunto.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE LOCATION_ID IN  (5, 20, 35)

"""

pd.read_sql(sql, conn)

Você também pode negar uma condição precedendo-a com a palavra-chave `NOT`. Para obter todos os registros em que `LOCATION_ID` não seja 5, 20 ou 35, execute esta consulta:

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE LOCATION_ID NOT IN  (5, 20, 35)

"""

pd.read_sql(sql, conn)

## Filtrando Valores Booleanos

Ao encontrar campos binários (1 = VERDADEIRO, 0 = FALSO), também chamados de booleanos, você simplesmente qualifica da mesma forma que faria com outros números. Aqui, encontramos registros onde um tornado foi avistado (1).

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TORNADO = 1

"""

pd.read_sql(sql, conn)

Você também pode qualificar registros onde um tornado não foi avistado (0).

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE TORNADO = 0

"""

pd.read_sql(sql, conn)

Tenha cuidado ao misturar as operações `E` e `OU`, pois isso pode desorganizar as condições, confundindo pessoas e máquinas. Por exemplo, suponha que quiséssemos encontrar registros onde houvesse neve ou granizo. Para que haja granizo, é preciso que haja chuva e que a temperatura seja menor ou igual a 0°C. Agora, estude a consulta abaixo e pergunte a si mesmo quais condições pertencem ao `E` e ao `OU`?

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE SNOW > 0 OR RAIN > 0 AND TEMPERATURE <= 32

"""

pd.read_sql(sql, conn)

Tecnicamente, isso funciona, embora misturar `E` e `OU` dessa forma possa gerar confusão e até mesmo erros em consultas mais complexas. Por isso, é uma boa ideia forçar uma ordem de operações com parênteses, para que as condições sejam agrupadas adequadamente e avaliadas na ordem pretendida. Isso deve ser feito mesmo que seja apenas para fins de clareza. Abaixo, organizamos a consulta para que a condição de granizo seja agrupada em uma única condição.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE SNOW > 0 OR (RAIN > 0 AND TEMPERATURE <= 32)

"""

pd.read_sql(sql, conn)

## Filtrando Expressões de Texto

Digamos que você queira consultar um registro com um dado `REPORT_CODE`. Como esse campo é um texto e não um número, você precisa especificar o código de relatório `'YJA6G3I'` entre aspas simples. Isso ocorre porque valores numéricos não podem ser nomes de colunas ou tabelas, portanto, não precisamos usar aspas em torno de valores numéricos literais. Mas precisamos usar aspas em torno de valores de texto para que o mecanismo SQL não se confunda ao procurar esse valor como um nome de coluna ou tabela.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR
WHERE REPORT_CODE = 'YJA6G3I'

"""

pd.read_sql(sql, conn)


Esta regra se aplica a outros operadores que aprendemos anteriormente, incluindo o uso do operador `IN`. Abaixo, veremos três códigos de relatório.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR
WHERE REPORT_CODE  IN ('YJA6G3I', 'M511XRH', 'S4ED81Y')

"""

pd.read_sql(sql, conn)


Alguns operadores são específicos para texto, como a concatenação `||` ou `LIKE`, que nos permite associar texto a curingas. Aqui está uma operação `LIKE` que busca códigos de relatório que tenham um `Y` na primeira posição e um `D` na terceira. O `_` na string de padrão é um curinga para um caractere, e o `%` é um curinga para qualquer número de caracteres.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR
WHERE REPORT_CODE LIKE 'Y_D%'

"""

pd.read_sql(sql, conn)


Existem também funções específicas para trabalhar com strings, como `length()` e `substr()`. Aqui, usamos uma operação de substring para extrair os 5 caracteres do meio do código do relatório de 7 caracteres. O primeiro argumento é a string, o segundo é o caractere inicial e o terceiro é o número de caracteres a serem extraídos a partir dessa posição.

In [None]:
sql = """

SELECT REPORT_CODE, substr(REPORT_CODE, 2, 5) FROM WEATHER_MONITOR 

"""

pd.read_sql(sql, conn)


Você pode ver todas as funções que o SQLite oferece [em sua documentação](https://www.sqlite.org/lang_corefunc.html).

## Filtrando Datas e Horas

Datas e horas podem ser um pouco complicadas em SQL, pois cada plataforma as trata de forma diferente. Normalmente, você deseja estabelecer o fuso horário em seus dados de data e hora, armazenando datas como [Horário Médio de Greenwich (GMT)](https://en.wikipedia.org/wiki/Greenwich_Mean_Time) ou [Tempo Universal Coordenado (UTC)](https://en.wikipedia.org/wiki/Coordinated_Universal_Time). Assim, você pode rastrear em qual fuso horário os dados foram registrados e ajustá-los para o horário local de acordo.

Para simplificar, vamos trabalhar apenas com a coluna `REPORT_DATE`. Se quisermos obter todos os registros em que `REPORT_DATE` seja posterior a `2021-05-15`, posso fornecer essa data em uma string no formato `aaaa-MM-dd`. Este é o [padrão ISO 8601](https://en.wikipedia.org/wiki/ISO_8601) para formatação de datas. O SQLite reconhecerá isso como uma data em vez de uma string simples.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE REPORT_DATE > '2021-05-15' 

"""

pd.read_sql(sql, conn)


Cada plataforma SQL provavelmente terá uma maneira diferente de extrair o mês, o dia ou outros componentes de uma data ou hora. O SQLite também possui uma maneira específica de trabalhar com datas e horas. Se quisermos filtrar por registros de 2021, podemos usar `strftime()` para extrair o ano usando uma [sintaxe de formatação especial](https://www.sqlite.org/lang_datefunc.html), onde `%Y` extrairá o componente do ano.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE strftime('%Y', REPORT_DATE) = '2021'

"""

pd.read_sql(sql, conn)


Você pode converter o ano de uma string para um inteiro usando o operador `CAST`.

In [None]:
sql = """

SELECT * FROM WEATHER_MONITOR 
WHERE CAST(strftime('%Y', REPORT_DATE) AS INTEGER) = 2021

"""

pd.read_sql(sql, conn)


Você pode obter a data de hoje usando `DATE('now')` e usar isso para qualificar consultas para a data de hoje.

In [None]:
sql = """
SELECT DATE('now')
"""

pd.read_sql(sql, conn)


Você também pode obter a hora UTC atual usando a função `TIME()`. Observe o formato, que é compatível com o padrão ISO 8601.

In [None]:
sql = """
SELECT TIME('now')
"""

pd.read_sql(sql, conn)


Você também pode trabalhar com data e hora completas, além de adicionar e subtrair diferentes operações de calendário. Isso captura a data de ontem.

In [None]:
sql = """
SELECT DATETIME('now', '-1 day')
"""

pd.read_sql(sql, conn)


Seguindo o formato ISO 6201, você pode transformar qualquer sequência de caracteres formatada corretamente em `DATA`, `HORA` ou `DATAHORA` e executar qualquer lógica comparativa ou de calendário que desejar.

In [None]:
sql = """
SELECT DATETIME('2022-10-19 18:58:12') AS MY_DATE_TIME
"""

pd.read_sql(sql, conn)


# EXERCÍCIO

Complete a consulta abaixo para encontrar todos os registros onde houve um tornado e granizo, OU a chuva foi superior a 5 polegadas e a temperatura foi de pelo menos 70°F.

In [None]:
sql = """
SELECT * FROM WEATHER_MONITOR
WHERE ?
"""

pd.read_sql(sql, conn)

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
sql = """
SELECT * FROM WEATHER_MONITOR
WHERE (TORNADO = 1 AND HAIL = 1) OR (RAIN > 5 AND TEMPERATURE >= 70)
"""

pd.read_sql(sql, conn)