## Filtrando, Classificando e Calculando Dados com SQL


### Noções básicas de filtragem com SQL

Foi apresentado o básico de como realmente adquirir dados de uma tabela usando os comandos SELECT e FROM. Mas isso é apenas parte da história, porque a maioria dos bancos de dados contém milhares ou até milhões de registros. Muitas vezes não queremos olhar para todos esses dados. Nesta aula, vamos passar por cima da filtragem com SQL. 

Filtragem é extremamente importante porque nos permite **restringir os dados que deseja recuperar**. Filtragem também é usado quando você está fazendo análise para obter algo muito específico sobre os dados que você deseja analisar como parte do seu modelo. Depois desta aula, você deve ser capaz de descrever o básico de filtragem de seus dados, usar a cláusula **where** com operadores comuns, usar a cláusula **between** e explicar o conceito de um valor nulo.

Filtrar SQL é importante porque temos algumas opções sobre onde podemos filtrar nossos dados e obter específicos. Mas há alguns benefícios enormes quando estamos fazendo isso diretamente com o SQL em vez de depender do aplicativo cliente para fazê-lo.

Primeiro de tudo, quando filtramos nossos dados para baixo, muitas vezes isso reduzirá o número de registros que estamos recuperando. Em vez de apenas ir e pegar uma tabela inteira e puxar cada coluna e linha dela, podemos obter dados específicos sobre o que queremos obter dessa tabela. E, posteriormente, isso reduz a quantidade de dados que estamos retirando do sistema.

<div class="alert alert-info">
    
**Reduzir a quantidade de dados que você está analisando acelerará o desempenho da consulta, o que, por sua vez, acelerará nosso processamento geral**.

</div>
    
Também ajuda quando adicionamos a filtragem no nível do banco de dados porque isso reduz a tensão no lado do cliente do aplicativo que irá, também, permitir que ele seja executado melhor. Antes de ir e puxar uma tabela inteira para um programa como o nosso para começar a fazer análise, filtre esses dados antes mesmo de puxá-los. Significa que você não terá tantos dados para analisar quando estiver analisando.

Novamente, queremos tentar enviar tantos filtros para baixo quanto possível porque os bancos de dados são realmente otimizados para fazer isso. Isso também ajuda a garantir que não estamos sobrecarregando nosso aplicativo cliente, e finalmente garante que estamos recebendo os dados que queremos e precisamos.

Para fazer isso, usamos o que é chamado de cláusula **where**. E a cláusula where *vem depois que usamos nosso select e from*.

![image.png](attachment:image.png)

Você tem que selecionar suas colunas e, em seguida, escolher qual tabela você deseja as colunas. E, em seguida, você adiciona junto com o valor do operador do nome da coluna.

Há alguns operadores diferentes que você pode usar. Você poderia usar igual, não igual a, maior que, menor então, maior que ou igual a, menor ou igual a, entre, e é nulo.

![image-2.png](attachment:image-2.png)

Vamos passar por alguns aplicativos e exemplos de cada um desses operadores. No primeiro exemplo, vamos filtrar apenas uma única condição. Para isso, novamente, selecionamos nosso *ProductName*, nosso *UnitPrice*, nossos *SupplierIDs*. Mas queremos **apenas olhar para os fornecedores e o UnitPrice para o produto chamado tofu**. Então, depois do FROM, vamos adicionar onde o nome do produto é igual, e, em seguida, inserimos o que queremos que seja igual. Neste caso, o **tofu é uma variável de string**. Então vamos colocar a string em aspas individuais. 

![image-4.png](attachment:image-4.png)

Como você pode ver, o resultado é uma única linha onde o nome do produto é tofu. Temos também, o preço unitário e ID do fornecedor. Para isso, neste exemplo, se tivéssemos vários registros chamados tofu, veríamos mais linhas.

![image-5.png](attachment:image-5.png)

Mas neste exemplo, acontece que temos apenas um registro chamado tofu. Então só vemos uma linha.

Outra maneira de fazer isso é **filtrar em um único valor**. No último exemplo tivemos uma string, então, uma única condição. Mas talvez queiramos olhar para produtos cujos preços são maiores do que ou igual a 75. Então, neste exemplo, vamos pegar as colunas nas quais estamos interessados e vamos obter os dados das tabelas de produtos. Mas desta vez vamos olhar para os registros onde o preço unitário é maior ou igual a 75. 

![image-6.png](attachment:image-6.png)

Como você pode ver agora, temos vários registros recuperados. Mas se você olhar para o preço unitário, todos os registros para este preço unitário é maior que ou acima de um valor de 75. 

![image-7.png](attachment:image-7.png)

Uma dica, talvez eu realmente não precise do preço unitário em meus dados. Eu só quero filtrar os registros que são maiores que 75. Antes de executar isso, eu não precisava puxar o preço unitário como uma das colunas. Mas o que eu gosto de fazer é deixá-lo lá para incluí-lo apenas por um tempo. Só para ter certeza de que estou realmente recebendo o que acho que estou recebendo. 
Quando você está apenas começando a escrever consultas e testá-las, recomenda-se deixar algumas das colunas para o que você está filtrando lá dentro. Mas se você não precisa delas, então você definitivamente não precisa puxá-la para dentro. 

Outra maneira que podemos filtrar é **procurando por não correspondências**. Talvez você não tenha apenas uma lista de um produto que você quer ir atrás, como tofu, talvez você tenha um monte de produtos. Mas você sabe que não quer um produto específico ou um par de produtos. Seria fácil apenas dizer me dê tudo, exceto em branco.

Novamente, vamos olhar para os produtos e seus preços de diferentes fornecedores. Mas para esta consulta, **não queremos incluir um nome de produto específico, Alice Mutton**. Então, basicamente, queremos puxar todos os registros, exceto isso. Vamos adicionar nosso operador, neste caso, **não iguais <>**. Como este é um valor de string, vamos adicionar essas aspas simples em torno da string que queremos filtrar.

![image-8.png](attachment:image-8.png)

O que é realmente útil, porém, é que você pode filtrar por um intervalo de valores. Isso é um pouco diferente porque ele não tem um operador. O que ele usa é BETWEEN e, AND.

![image-9.png](attachment:image-9.png)

Ainda é o mesmo formato, mas desta forma **podemos filtrar onde as unidades e ações estão entre 15 e 80**. E então ele realmente rola fora da língua na forma como você escreve porque você vai colocar a coluna em que você está interessado, UnitsInStock, e então entre os dois números que você está procurando. Então, para fazer isso, eu só quero colocar entre 15, e quero ter certeza de incluir AND antes da próxima condição.

![image-10.png](attachment:image-10.png)

Aqui, você pode ver que em UnitsInStock o resultado estão todos entre 15 e 80. 

Outro exemplo que vamos passar é **filtrar por valor nulo**. Neste exemplo, o que estamos fazendo é filtrar para algo que é NULL. É realmente importante, novamente, lembrar a diferença entre nulos e zeros. 

<div class="alert alert-info">
    
**Um nulo é muito diferente de ter um preço que é zero. Um nulo significa que na verdade não há dados nesta coluna**. 
    
</div>

Se você quiser olhar para algo onde você sabe que o preço é 0 ou é uma string vazia, então você precisa digitar isso como sua condição. Se você quiser procurar algo onde não há apenas nenhuma informação para essa coluna, que é onde você gostaria de simplesmente usar é NULL. Aqui vamos usar onde o nome do produto é nulo.

![image-11.png](attachment:image-11.png)

Talvez estejamos fazendo algum perfil de nossos dados e queremos ver, há algum registro faltando nesta coluna?

Esta é uma ótima maneira apenas de verificar e ver. A coluna que representa os nomes dos produtos tem algum tipo de informação para cada registro?

Então, para esta consulta, estou pedindo os registros que têm valor nulo do nome do produto. Como eu não recebo valores retornados com esta pesquisa, isso significa que todos os nomes de produtos têm algum valor neles. Novamente, lembre-se da diferença entre um zero ou um fluxo vazio.

Para concluir, lembre-se dos diferentes operadores que temos para isso. Igual, não igual, maior que, menor que, maior que ou igual a, menor ou igual a, juntamente com entre, e é nulo. Lembre-se também de usar sempre sua cláusula where, e então sinta-se livre para ser criativo. Para muitas consultas, você terá a opção de selecionar. E, na maioria das vezes, você estará filtrando para baixo com a cláusula where em alguma coluna respectiva para limitar o número de registros retornados.

### Filtragem avançada: IN, OR e NOT

Se você já experimentou alguns dos operadores mostrados aqui, você vai entender que eles são muito poderosos e você pode fazer muito com eles. Nós vamos apenas expandir sobre eles um pouco passando por cima dos operadores **IN, OR e NOT**.

Nessa etapa, vamos diferenciar entre o uso dos operadores IN e BETWEEN, discutir a importância da ordem de operação ao usar esses operadores e, explicar como e quando usar o operador NOT. Mas, primeiro vamos discutir IN. 

Para usar o operador **IN**, o que vamos fazer é **especificar um intervalo de condições**. Isto é semelhante a BETWEEN, onde você poderia dizer que é entre duas variáveis. Você também pode fazer um número muito específico de condições e ter condições adicionais. Para fazer isso, você vai colocar seus valores entre parênteses, e você vai ter uma lista de valores delimitada por vírgulas. 

![image.png](attachment:image.png)

Neste exemplo, o que vamos fazer é procurar fornecedores, mas queremos uma lista individual disso. Queremos apenas os fornecedores 9, 10 e 11. Outro exemplo seria ter fornecedores talvez 1, 5 e 10. Isto é algo em que BETWEEN não teria sido útil, porque não estamos procurando uma gama de valores, mas estamos à procura de valores específicos. Neste exemplo, iremos com nossa instrução SELECT, de WHERE estamos obtendo, e adicionaremos onde o *SupplierID* está **IN**. Indicaremos os valores 9, 10 e 11 neste exemplo. Você também pode adicionar valores de **string**, mas lembre-se, ele têm que ser adicionados com **aspas simples para indicar que eles são valores de string**. 

![image-2.png](attachment:image-2.png)

Como você pode ver pelos resultados retornados, o que temos é um *ID de produto* e o *preço unitário* desses produtos. Mas limitamos nossos resultados aos fornecedores que são 9,10 e 11. 

![image-3.png](attachment:image-3.png)

Outro operador é o operador **OR**. Uma coisa importante a saber sobre isso é que **um sistema de gerenciamento de banco de dados não avaliará a segunda condição se a primeira condição for atendida**. Então você não vai querer usar isso para algo quando você quiser verificar para ambos os valores. Lembre-se de que você gostaria de usar AND nessa instância. Para este exemplo, você está usando o *ProductName*. Eu quero ter certeza de que eu sou muito específico e que eu quero Tofu sobre Konbu. Porque uma vez que encontrar Tofu, ele não vai me dar os outros nomes de produtos. 

![image-4.png](attachment:image-4.png)

Isso é realmente útil se isso é realmente o que você quer. Mas se não, apenas seja realmente específico sobre o pedido em que você está colocando os itens em sua consulta. 

Você pode estar pensando que IN e OR podem realizar a mesma coisa, e eles podem, dependendo de como as coisas são escritas. Eu não poderia ter escrito isso em vez de ter dito, onde o nome do produto é igual a Tofu ou Konbu. Ou se eu quisesse, ambos para escolher onde o nome do produto IN e , em seguida, entre parênteses, levanta os dois valores. Mas há alguns benefícios em usar um contra o outro. Se você estiver usando IN, IN oferece muito mais opções em quantas coisas você pode listar. Com IN, você pode listar várias coisas. Eu poderia ter listado dez nomes de produtos diferentes e trazer tudo de volta. OR, ele só vai me dar dois. E **IN realmente é executado mais rápido do que OR**, então esse é outro benefício para usar IN. 

Com IN, você não precisa pensar na ordem em que você está colocando suas diferentes condições. E outro benefício, e provavelmente o principal benefício de usar IN, é que **podemos usar outra instrução SELECT para subconsultas**. Outra coisa que você pode usar com OR, no entanto, é AND. Você pode obter alguns resultados diferentes se você não tiver cuidado. 

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

Neste exemplo, o que estou procurando são produtos em que tenho um grupo específico de fornecedores. Mas eu também tenho um preço unitário específico que eu quero que ele esteja acima também. Eu poderia escrevê-lo como eu fiz no primeiro exemplo. Eu tenho minha instrução SELECT, e eu tenho de onde é. E eu tenho onde SupplierID é igual a 9 ou igual a 11, e eu também adiciono o preço unitário maior que 15. O que você vai notar é que estou recebendo alguns preços unitários que não são maiores que 15. E assim uma das coisas a entender sobre por que isso está acontecendo é porque **o SQL está processando o OR antes do AND**. E uma das maneiras de limitar isso é usar parênteses. 

![image-7.png](attachment:image-7.png)

![image-8.png](attachment:image-8.png)

No próximo exemplo, você pode ver que tem a mesma instrução exata e a consulta. Exceto que, foi adicionado os parênteses em torno do SupplierID e, em seguida, ter AND UnitPrice. Agora você pode ver que está realmente recebendo todos os valores que queria. Todos os meus preços unitários são maiores que 15, e meu SupplierID são apenas aqueles de 9 e 11. 

Uma coisa importante a entender aqui é apenas a **ordem das operações ao usar AND e os operadores OR**. Você não precisa usar um parêntese, mas é sempre muito bom apenas ter o hábito de fazê-lo. Desta forma, você não está contando com a ordem padrão de operações, mas você realmente nunca pode ter certeza demais. Então, eu recomendo apenas **ter o hábito de usar o parêntese ao usar OR e AND juntos**. 

A última coisa que vamos passar para filtrar é o operador **NOT**. Esta é apenas uma maneira de excluir diferentes opções. Novamente, esta é uma ótima maneira quando você quer praticamente tudo, mas talvez haja apenas algumas variáveis que você não quer. Então, neste exemplo, eu estou procurando por funcionários diferentes, mas eu não quero nenhum dos funcionários que são de Londres ou Seattle. Então, para fazer isso, eu vou apenas colocar, onde NOT City é igual a Londres, AND, em seguida, NOT City é igual a Seattle. 

![image-9.png](attachment:image-9.png)

Novamente, usando aspas simples para denotar as cidades Londres e Seattle. E como você pode ver em nossos resultados, ele retornou tudo, exceto por aquelas duas cidades que eu tinha especificado para não incluir. 

![image-10.png](attachment:image-10.png)

Então, nesta parte, passamos por cima usando os operadores IN, OU, AND, NOT. Lembre-se, com IN e OR, você pode realizar algumas das mesmas coisas. Mas há alguns benefícios em usar IN versus OR em determinados casos. Novamente, se você estiver usando OR e AND juntos, realmente tenha cuidado com sua ordem de operações e use parênteses. E o uso do NOT é bastante simples. Então, basta manter isso em sua caixa de ferramentas como você está pensando através de seus designs de consulta.