## Filtrando, Classificando e Calculando Dados com SQL


### Noções básicas de filtragem com SQL

Foi apresentado o básico de como realmente adquirir dados de uma tabela usando os comandos SELECT e FROM. Mas isso é apenas parte da história, porque a maioria dos bancos de dados contém milhares ou até milhões de registros. Muitas vezes não queremos olhar para todos esses dados. Nesta aula, vamos passar por cima da filtragem com SQL. 

Filtragem é extremamente importante porque nos permite **restringir os dados que deseja recuperar**. Filtragem também é usado quando você está fazendo análise para obter algo muito específico sobre os dados que você deseja analisar como parte do seu modelo. Depois desta aula, você deve ser capaz de descrever o básico de filtragem de seus dados, usar a cláusula **WHERE** com operadores comuns, usar a cláusula **BETWEEN** e explicar o conceito de um valor nulo.

Filtrar SQL é importante porque temos algumas opções sobre onde podemos filtrar nossos dados e obter específicos. Mas há alguns benefícios enormes quando estamos fazendo isso diretamente com o SQL em vez de depender do aplicativo cliente para fazê-lo.

Primeiro de tudo, quando filtramos nossos dados para baixo, muitas vezes isso reduzirá o número de registros que estamos recuperando. Em vez de apenas ir e pegar uma tabela inteira e puxar cada coluna e linha dela, podemos obter dados específicos sobre o que queremos obter dessa tabela. E, posteriormente, isso reduz a quantidade de dados que estamos retirando do sistema.

<div class="alert alert-info">
    
**Reduzir a quantidade de dados que você está analisando acelerará o desempenho da consulta, o que, por sua vez, acelerará nosso processamento geral**.

</div>
    
Também ajuda quando adicionamos a filtragem no nível do banco de dados porque isso reduz a tensão no lado do cliente do aplicativo que irá, também, permitir que ele seja executado melhor. Antes de ir e puxar uma tabela inteira para um programa como o nosso para começar a fazer análise, filtre esses dados antes mesmo de puxá-los. Significa que você não terá tantos dados para analisar quando estiver analisando.

Novamente, queremos tentar enviar tantos filtros para baixo quanto possível porque os bancos de dados são realmente otimizados para fazer isso. Isso também ajuda a garantir que não estamos sobrecarregando nosso aplicativo cliente, e finalmente garante que estamos recebendo os dados que queremos e precisamos.

Para fazer isso, usamos o que é chamado de cláusula **WHERE**. E a cláusula where *vem depois que usamos nosso select e from*.

![image.png](attachment:image.png)

Você tem que selecionar suas colunas e, em seguida, escolher qual tabela você deseja as colunas. E, em seguida, você adiciona junto com o valor do operador do nome da coluna.

Há alguns operadores diferentes que você pode usar. Você poderia usar igual, não igual a, maior que, menor então, maior que ou igual a, menor ou igual a, entre, e é nulo.

![image-2.png](attachment:image-2.png)

Vamos passar por alguns aplicativos e exemplos de cada um desses operadores. No primeiro exemplo, vamos filtrar apenas uma única condição. Para isso, novamente, selecionamos nosso *ProductName*, nosso *UnitPrice*, nossos *SupplierIDs*. Mas queremos **apenas olhar para os fornecedores e o UnitPrice para o produto chamado tofu**. Então, depois do FROM, vamos adicionar onde o nome do produto é igual, e, em seguida, inserimos o que queremos que seja igual. Neste caso, o **tofu é uma variável de string**. Então vamos colocar a string em aspas individuais. 

![image-4.png](attachment:image-4.png)

Como você pode ver, o resultado é uma única linha onde o nome do produto é tofu. Temos também, o preço unitário e ID do fornecedor. Para isso, neste exemplo, se tivéssemos vários registros chamados tofu, veríamos mais linhas.

![image-5.png](attachment:image-5.png)

Mas neste exemplo, acontece que temos apenas um registro chamado tofu. Então só vemos uma linha.

Outra maneira de fazer isso é **filtrar em um único valor**. No último exemplo tivemos uma string, então, uma única condição. Mas talvez queiramos olhar para produtos cujos preços são maiores do que ou igual a 75. Então, neste exemplo, vamos pegar as colunas nas quais estamos interessados e vamos obter os dados das tabelas de produtos. Mas desta vez vamos olhar para os registros onde o preço unitário é maior ou igual a 75. 

![image-6.png](attachment:image-6.png)

Como você pode ver agora, temos vários registros recuperados. Mas se você olhar para o preço unitário, todos os registros para este preço unitário é maior que ou acima de um valor de 75. 

![image-7.png](attachment:image-7.png)

Uma dica, talvez eu realmente não precise do preço unitário em meus dados. Eu só quero filtrar os registros que são maiores que 75. Antes de executar isso, eu não precisava puxar o preço unitário como uma das colunas. Mas o que eu gosto de fazer é deixá-lo lá para incluí-lo apenas por um tempo. Só para ter certeza de que estou realmente recebendo o que acho que estou recebendo. 
Quando você está apenas começando a escrever consultas e testá-las, recomenda-se deixar algumas das colunas para o que você está filtrando lá dentro. Mas se você não precisa delas, então você definitivamente não precisa puxá-la para dentro. 

Outra maneira que podemos filtrar é **procurando por não correspondências**. Talvez você não tenha apenas uma lista de um produto que você quer ir atrás, como tofu, talvez você tenha um monte de produtos. Mas você sabe que não quer um produto específico ou um par de produtos. Seria fácil apenas dizer me dê tudo, exceto em branco.

Novamente, vamos olhar para os produtos e seus preços de diferentes fornecedores. Mas para esta consulta, **não queremos incluir um nome de produto específico, Alice Mutton**. Então, basicamente, queremos puxar todos os registros, exceto isso. Vamos adicionar nosso operador, neste caso, **não iguais <>**. Como este é um valor de string, vamos adicionar essas aspas simples em torno da string que queremos filtrar.

![image-8.png](attachment:image-8.png)

O que é realmente útil, porém, é que você pode filtrar por um intervalo de valores. Isso é um pouco diferente porque ele não tem um operador. O que ele usa é BETWEEN e, AND.

![image-9.png](attachment:image-9.png)

Ainda é o mesmo formato, mas desta forma **podemos filtrar onde as unidades e ações estão entre 15 e 80**. E então ele realmente rola fora da língua na forma como você escreve porque você vai colocar a coluna em que você está interessado, UnitsInStock, e então entre os dois números que você está procurando. Então, para fazer isso, eu só quero colocar entre 15, e quero ter certeza de incluir AND antes da próxima condição.

![image-10.png](attachment:image-10.png)

Aqui, você pode ver que em UnitsInStock o resultado estão todos entre 15 e 80. 

Outro exemplo que vamos passar é **filtrar por valor nulo**. Neste exemplo, o que estamos fazendo é filtrar para algo que é NULL. É realmente importante, novamente, lembrar a diferença entre nulos e zeros. 

<div class="alert alert-info">
    
**Um nulo é muito diferente de ter um preço que é zero. Um nulo significa que na verdade não há dados nesta coluna**. 
    
</div>

Se você quiser olhar para algo onde você sabe que o preço é 0 ou é uma string vazia, então você precisa digitar isso como sua condição. Se você quiser procurar algo onde não há apenas nenhuma informação para essa coluna, que é onde você gostaria de simplesmente usar é NULL. Aqui vamos usar onde o nome do produto é nulo.

![image-11.png](attachment:image-11.png)

Talvez estejamos fazendo algum perfil de nossos dados e queremos ver, há algum registro faltando nesta coluna?

Esta é uma ótima maneira apenas de verificar e ver. A coluna que representa os nomes dos produtos tem algum tipo de informação para cada registro?

Então, para esta consulta, estou pedindo os registros que têm valor nulo do nome do produto. Como eu não recebo valores retornados com esta pesquisa, isso significa que todos os nomes de produtos têm algum valor neles. Novamente, lembre-se da diferença entre um zero ou um fluxo vazio.

Para concluir, lembre-se dos diferentes operadores que temos para isso. Igual, não igual, maior que, menor que, maior que ou igual a, menor ou igual a, juntamente com entre, e é nulo. Lembre-se também de usar sempre sua cláusula where, e então sinta-se livre para ser criativo. Para muitas consultas, você terá a opção de selecionar. E, na maioria das vezes, você estará filtrando para baixo com a cláusula where em alguma coluna respectiva para limitar o número de registros retornados.

### Filtragem avançada: IN, OR e NOT

Se você já experimentou alguns dos operadores mostrados aqui, você vai entender que eles são muito poderosos e você pode fazer muito com eles. Nós vamos apenas expandir sobre eles um pouco passando por cima dos operadores **IN, OR e NOT**.

Nessa etapa, vamos diferenciar entre o uso dos operadores IN e BETWEEN, discutir a importância da ordem de operação ao usar esses operadores e, explicar como e quando usar o operador NOT. Mas, primeiro vamos discutir IN. 

Para usar o operador **IN**, o que vamos fazer é **especificar um intervalo de condições**. Isto é semelhante a BETWEEN, onde você poderia dizer que é entre duas variáveis. Você também pode fazer um número muito específico de condições e ter condições adicionais. Para fazer isso, você vai colocar seus valores entre parênteses, e você vai ter uma lista de valores delimitada por vírgulas. 

![image.png](attachment:image.png)

Neste exemplo, o que vamos fazer é procurar fornecedores, mas queremos uma lista individual disso. Queremos apenas os fornecedores 9, 10 e 11. Outro exemplo seria ter fornecedores talvez 1, 5 e 10. Isto é algo em que BETWEEN não teria sido útil, porque não estamos procurando uma gama de valores, mas estamos à procura de valores específicos. Neste exemplo, iremos com nossa instrução SELECT, de WHERE estamos obtendo, e adicionaremos onde o *SupplierID* está **IN**. Indicaremos os valores 9, 10 e 11 neste exemplo. Você também pode adicionar valores de **string**, mas lembre-se, ele têm que ser adicionados com **aspas simples para indicar que eles são valores de string**. 

![image-2.png](attachment:image-2.png)

Como você pode ver pelos resultados retornados, o que temos é um *ID de produto* e o *preço unitário* desses produtos. Mas limitamos nossos resultados aos fornecedores que são 9,10 e 11. 

![image-3.png](attachment:image-3.png)

Outro operador é o operador **OR**. Uma coisa importante a saber sobre isso é que **um sistema de gerenciamento de banco de dados não avaliará a segunda condição se a primeira condição for atendida**. Então você não vai querer usar isso para algo quando você quiser verificar para ambos os valores. Lembre-se de que você gostaria de usar AND nessa instância. Para este exemplo, você está usando o *ProductName*. Eu quero ter certeza de que eu sou muito específico e que eu quero Tofu sobre Konbu. Porque uma vez que encontrar Tofu, ele não vai me dar os outros nomes de produtos. 

![image-4.png](attachment:image-4.png)

Isso é realmente útil se isso é realmente o que você quer. Mas se não, apenas seja realmente específico sobre o pedido em que você está colocando os itens em sua consulta. 

Você pode estar pensando que IN e OR podem realizar a mesma coisa, e eles podem, dependendo de como as coisas são escritas. Eu não poderia ter escrito isso em vez de ter dito, onde o nome do produto é igual a Tofu ou Konbu. Ou se eu quisesse, ambos para escolher onde o nome do produto IN e , em seguida, entre parênteses, levanta os dois valores. Mas há alguns benefícios em usar um contra o outro. Se você estiver usando IN, IN oferece muito mais opções em quantas coisas você pode listar. Com IN, você pode listar várias coisas. Eu poderia ter listado dez nomes de produtos diferentes e trazer tudo de volta. OR, ele só vai me dar dois. E **IN realmente é executado mais rápido do que OR**, então esse é outro benefício para usar IN. 

Com IN, você não precisa pensar na ordem em que você está colocando suas diferentes condições. E outro benefício, e provavelmente o principal benefício de usar IN, é que **podemos usar outra instrução SELECT para subconsultas**. Outra coisa que você pode usar com OR, no entanto, é AND. Você pode obter alguns resultados diferentes se você não tiver cuidado. 

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

Neste exemplo, o que estou procurando são produtos em que tenho um grupo específico de fornecedores. Mas eu também tenho um preço unitário específico que eu quero que ele esteja acima também. Eu poderia escrevê-lo como eu fiz no primeiro exemplo. Eu tenho minha instrução SELECT, e eu tenho de onde é. E eu tenho onde SupplierID é igual a 9 ou igual a 11, e eu também adiciono o preço unitário maior que 15. O que você vai notar é que estou recebendo alguns preços unitários que não são maiores que 15. E assim uma das coisas a entender sobre por que isso está acontecendo é porque **o SQL está processando o OR antes do AND**. E uma das maneiras de limitar isso é usar parênteses. 

![image-7.png](attachment:image-7.png)

![image-8.png](attachment:image-8.png)

No próximo exemplo, você pode ver que tem a mesma instrução exata e a consulta. Exceto que, foi adicionado os parênteses em torno do SupplierID e, em seguida, ter AND UnitPrice. Agora você pode ver que está realmente recebendo todos os valores que queria. Todos os meus preços unitários são maiores que 15, e meu SupplierID são apenas aqueles de 9 e 11. 

Uma coisa importante a entender aqui é apenas a **ordem das operações ao usar AND e os operadores OR**. Você não precisa usar um parêntese, mas é sempre muito bom apenas ter o hábito de fazê-lo. Desta forma, você não está contando com a ordem padrão de operações, mas você realmente nunca pode ter certeza demais. Então, eu recomendo apenas **ter o hábito de usar o parêntese ao usar OR e AND juntos**. 

A última coisa que vamos passar para filtrar é o operador **NOT**. Esta é apenas uma maneira de excluir diferentes opções. Novamente, esta é uma ótima maneira quando você quer praticamente tudo, mas talvez haja apenas algumas variáveis que você não quer. Então, neste exemplo, eu estou procurando por funcionários diferentes, mas eu não quero nenhum dos funcionários que são de Londres ou Seattle. Então, para fazer isso, eu vou apenas colocar, onde NOT City é igual a Londres, AND, em seguida, NOT City é igual a Seattle. 

![image-9.png](attachment:image-9.png)

Novamente, usando aspas simples para denotar as cidades Londres e Seattle. E como você pode ver em nossos resultados, ele retornou tudo, exceto por aquelas duas cidades que eu tinha especificado para não incluir. 

![image-10.png](attachment:image-10.png)

Então, nesta parte, passamos por cima usando os operadores IN, OU, AND, NOT. Lembre-se, com IN e OR, você pode realizar algumas das mesmas coisas. Mas há alguns benefícios em usar IN versus OR em determinados casos. Novamente, se você estiver usando OR e AND juntos, realmente tenha cuidado com sua ordem de operações e use parênteses. E o uso do NOT é bastante simples. Então, basta manter isso em sua caixa de ferramentas como você está pensando através de seus designs de consulta.

### Usando Wildcards em SQL

Você já encontrou dados em que sabia o início ou o fim de algo, mas não sabia o resto? Ou talvez você saiba que algo é como outra coisa, mas um pouco diferente. Bem, ao continuar nossa discussão com filtragem neste módulo, vamos dar o próximo passo e **discutir o uso dos caracteres Wildcards (curingas) e do operador LIKE**. 

O uso de Wildcards é uma técnica realmente poderosa, especialmente quando se trata de **valores de string ou dados de texto**.

Como cientistas de dados, muitas vezes analisamos esses valores ou talvez apenas puxe uma parte das informações de uma coluna ou campo. Os curingas são usados com frequência ao fazer diferentes tipos de análise e recuperar seus dados. **Um curinga é um caractere especial usado para corresponder partes de um valor**. O que você está fazendo é procurar por um padrão composto de texto literal. O início de uma frase, o fim de uma frase e você pode extrair dados para isso com base nas condições de pesquisa. Uma das coisas que você usará com este é o operador **LIKE**. LIKE é tecnicamente um predicado, não um operador. Mas muitas vezes, ele só é referido como um operador.

Uma coisa que precisamos saber sobre o LIKE é que ele **pode ser usado para variáveis de string e tipos de dados não-texto**. Portanto, esses curingas não podem ser usados para dados numéricos. Novamente, porém, isso é realmente útil para cientistas de dados quando você está trabalhando com strings e você está trabalhando com dados de texto. Porque em algum momento, você provavelmente vai querer fazer alguma análise de texto e você vai querer parar para baixo as colunas ou os dados que você está recuperando de uma maneira fácil. Curingas permitem que você faça exatamente isso.

### Usando Wildcard %


![image.png](attachment:image.png)

Para usar o curinga, o que você fará é **adicionar um sinal de porcentagem antes, depois ou no meio do que você está procurando**. Então, por exemplo, eu amo pizza e estou sempre à procura de boa pizza. Então, talvez no meu conjunto de dados, eu queira encontrar coisas com a palavra *pizza* nele. Há muitas maneiras de procurar por isso:

- Se eu **adicionar o curinga antes da palavra pizza**, eu vou encontrar **qualquer coisa ou qualquer frase que termine com a palavra pizza**.


- Se eu adicionar o **curinga após a palavra pizza**, ele vai pegar **qualquer coisa depois da palavra pizza**.


- Se eu quero pizza no **meio de tudo**, então eu vou adicionar os **curingas em ambos os lados da palavra**.

Curingas se tornam úteis porque muitas vezes você verá os dados que têm apenas toda a cadeia de informações nele. No banco de dados *Northwind*, algumas das descrições de produtos irão dizer-lhe quantas onças uma unidade contém, e, em seguida, ele continua a dizer-lhe quantos pacotes estão na caixa. Mas talvez você só queira saber o pacote de palavras ou a caixa da lista das variáveis de string. Esta é uma ótima maneira de começar a analisar essa informação que pode ser difícil de recuperar. Ele também pode ajudar na *decluttering* coisas ou apenas fazendo uma pesquisa geral.

Outra maneira de usar um curinga é no **meio de duas letras**. 

![image-2.png](attachment:image-2.png)

Eu posso procurar algo que **começa com S e termina com E**. Em seguida, por sua vez, iria pegar meu nome, Sadie, porque meu nome começa com S e termina com E. Não é comum, mas pode ser útil se você está procurando por e-mails diferentes. Neste exemplo, eu estou procurando talvez alguém cujos e-mails são Tom ou estou apenas interessado em todos os e-mails que começam com T.

Eu vou colocar **t**, então eu vou colocar meu curinga. E talvez eu esteja particularmente interessado nesses e-mails que são @gmail.com. Nesses registros, estou procurando especificamente por todos os endereços do Gmail. Este é um exemplo em que você usaria um **curinga bem no meio**, onde ele começa com uma frase e termina com uma frase. 

É importante notar que **os curingas não corresponderão a valores nulos**. Novamente, lembre-se que os nulos não são realmente nenhum valor na coluna. Você não conseguiria usar um curinga nesses casos. 

### Usando Wildcard Sublinhar (_)

Você pode usar curingas com sublinhados. Neste exemplo, vamos ter WHERE size(tamanho) e LIKE, em seguida, **sublinhar pizza**.

![image-3.png](attachment:image-3.png)

> Isso vai produzir uma saída, **onde termina na palavra pizza e então, traz tudo antes disso**.

Isso não é suportado pelo DB2, que é um sistema bastante popular. Mas eu acho que é importante saber porque a maioria dos outros sistemas suportam isso.

![image-3.png](attachment:image-3.png)

Você pode fazê-lo em outro exemplo onde você apenas tem sua **pizza curinga** e ele vai produzir os mesmos resultados. 

Outro é **usar colchetes para especificar um caractere em um local específico dentro de uma string**. Eu não vou entrar em muitos detalhes sobre isso, porque nesta aula, estamos usando SQLite, e os colchetes usados dessa maneira não são suportados pelo SQLite.

Mas esteja ciente de que **existem diferentes maneiras de usar curingas em diferentes sistemas de gerenciamento de banco de dados**. Novamente, é realmente importante conhecer seu sistema de gerenciamento de banco de dados relacional e em quais curingas ele usa. Mas, novamente, o conceito por trás de curingas são todos iguais, em todos os sistemas. 

Há algumas **desvantagens em usar curingas**:

- **Consultas usando curingas demoram um pouco mais para serem executadas**. Se você puder usar outro operador, como iguais, maiores ou menor que, irá alcançar os mesmos resultados e você obterá um desempenho muito melhor do seu sistema. 

No entanto, curingas são realmente úteis porque eles **podem ajudá-lo a encontrar uma maior variedade de coisas**, como uma frase que termina em algo ou começa com algo. Às vezes, eles são a única opção que você tem. Mas se for possível, use outro operador. E, finalmente, tenha cuidado em onde você está colocando seus curingas. Lembre-se que é recomendado que, quando você está iniciando uma nova consulta, comece devagar, construa sobre ela e faça alguns testes simples antes de adicioná-la à sua consulta maior.

## Classificando com ORDER BY

Existem um monte de técnicas para obter dados e filtrá-los para o que se está procurando. Mas você notou alguma coisa? Não há ordem lógica para esses dados. É apenas retornar na mesma ordem em que foi inserido ou capturado no banco de dados para começar. Não está em nenhuma ordem numérica ou classificação, ascendente ou descendente de acordo com o alfabeto. É essencialmente apresentado em uma ordem aleatória. 

Bem, nesta aula, vamos trazer alguma **ordem para esse caos**, utilizando a cláusula **ORDER BY** para resolver nossos dados. 

Então este é um conceito muito simples, mas como você vai ver com a maioria das coisas iguais, eles são conceitos bem simples, mas eles são realmente poderosos quando você adicioná-los juntos. Estas pequenas dicas e truques que você usa quando você está escrevendo suas consultas ou olhando seus dados, apenas coisas simples como ser capaz de classificar seus dados pode realmente ajudá-lo a entender os resultados e o que você está recebendo de volta. 

Para **classificar dados com SQL**, usamos a cláusula **ORDER BY**. A classificação de dados de uma maneira específica pode ser realmente útil ao visualizar dados, caso contrário, nossos dados poderiam ser retornados de uma maneira que torna um pouco mais difícil de interpretar. Os dados em tabelas geralmente não são ordenados consistentemente, pois os dados podem ser atualizados, excluídos ou alterados a qualquer momento. Muitas vezes, você realmente não pode confiar nos dados que estão sendo retornados em qualquer ordem lógica. Então, se você realmente quer olhar para seus dados em uma determinada ordem, é sempre bom ser específico sobre a ordem em que você deseja que eles estejam. 


### Porquê ordernar dados?

Muitas vezes quando você está olhando para dados, você não vai ser capaz de olhar para todos os registros. **Classificar seus dados de forma lógica pode ajudar você ver facilmente as informações que você deseja no topo**. É realmente útil ser específico sempre sobre seus dados que você está recuperando, mas também, sobre como você deseja fazer isso. 

![image.png](attachment:image.png)

> **ORDER BY permite classificar dados por colunas específicas**. 

Porém, existem algumas regras ao usar ORDER BY. 

- Ele pode tomar vários nomes de coluna;
- Você pode ordenar por uma coluna ou pode ordenar por todas as colunas, e assim vai da forma que você deseja adicioná-las. Se você estiver fazendo várias colunas, você só quer ter certeza de que está adicionando uma vírgula depois disso;
- Você pode classificar por uma coluna que você não recuperou;
- Pode não estar em sua instrução SELECT, mas você ainda pode usar a coluna para classificar seus dados, o que é realmente útil; 
- ORDER BY deve ser sempre a última cláusula na instrução SELECT. 

Apenas uma espécie de toque final, sempre arredondar para cima com a adição do ORDER BY no final. Então, para fazer isso, você pode classificar por posição da coluna. 

![image-2.png](attachment:image-2.png)

Aqui no final da minha consulta, eu tenho ordem por **colunas dois e três na tabela**, ou você pode até mesmo classificá-lo pelos nomes reais da coluna. Eu costumo utilizar os nomes das colunas, e isso mantém as coisas realmente consistentes. Se eu estiver olhando para a minha tabela de produtos, e classificá-la pelos nomes dos produtos, e, em seguida, pelo preço unitário deles, então eu simplesmente adicionaria isso em **ORDER BY *nomes de produtos*, vírgula *preço unitário***. 

Há também algumas direções como com qualquer tipo de classificação, para que você possa classificar tanto em **ordem ascendente, ASC**, ou **decrescente, DESC**. E então, isso só é aplicado ao nome da coluna que prossegue diretamente. Se você estiver usando ordem decrescente e tiver preço unitário, ele não vai fazer isso para todas as colunas após usar DESC. Você tem que especificar cada coluna individual para crescente e decrescente, se você quiser que seja assim. Então, a idéia de ordenação é um conceito bastante simples. Mas como você pode ver, é realmente útil, e apenas certificando-se de que quando você está recuperando seus dados, você está visualizando como você quer ver, e realmente apenas chegando ao núcleo desses resultados. Então é recomendado que você explore, e use ORDER BY para ajudá-lo a entender todos os dados que você está analisando.

## Math Operations

Há muito mais que podemos realmente fazer com nossos dados. Vamos falar sobre o uso de **cálculos matemáticos básicos** com nossos dados. Depois desse vídeo, você poderá realizar cálculos matemáticos básicos usando seus dados, discutir com mais detalhes o conceito e a ordem das operações e descrever o que pode ser feito em termos de análise usando operadores matemáticos e SQL juntos. 

Com os cálculos matemáticos, agora estamos abordando algumas técnicas que podemos usar na análise, mas também poder usá-las no SQL e enviá-las para o banco de dados. Como já falamos em muitos casos, quanto mais pudermos acessar o banco de dados e ter o poder de processamento do banco de dados, melhor. Novamente, geralmente trabalhamos com grandes quantidades de dados, então realmente queremos reduzir essa pressão sobre o aplicativo cliente. Quanto mais perto pudermos fazer isso da fonte, melhor seremos a longo prazo. Então, vamos começar com alguns simples. 

![image.png](attachment:image.png)

Temos a **adição, subtração, multiplicação e divisão**. Como você pode ver no lado esquerdo, temos seus operadores padrão para isso. 

Neste exemplo, o que eu quero fazer é colocar o total de unidades em ordem. E eu quero que isso seja multiplicado pelo preço unitário para obter o custo total do pedido. O que vou fazer é tratar isso como faria com qualquer outra coluna que estou recuperando. 

Aqui, eu tenho meu **SELECT**. Eu tenho as diferentes colunas nas quais estou interessado. Tenho meus *IDs de produto, unidades no pedido e preço unitário*. E então, eu listo exatamente como faria em qualquer coluna, mas adiciono meus **operadores**. Aqui, tenho **minhas unidades e pedidos multiplicam o preço unitário**. E então, estou usando um alias, **AS**, para o nome que eu quero que essa nova coluna receba, e esse será o custo total do pedido. E então eu vou dizer de onde eu quero isso. 

![image-2.png](attachment:image-2.png)

> Como você pode ver, agora posso recuperar quatro colunas diferentes: a ID do produto, as unidades no pedido, o preço unitário e, em seguida, minha nova coluna calculada, que é o custo total do pedido. 

Novamente, gosto de usar esses outros filtros quando estou calculando algo pela primeira vez, apenas para fazer algumas verificações pontuais para ter certeza de que meus cálculos estão corretos. Não preciso ter o preço unitário e as unidades do pedido. Eu poderia ter simplesmente selecionado o ID do produto e calculado o novo campo.

Em outro exemplo, você pode começar a adicionar esses operadores. E, com qualquer matemática que você estiver fazendo, ela seguirá sua ordem normal de operações. 

>**A ideia de que as coisas entre parênteses são tratadas primeiro, depois as potências são expoentes, multiplicação, divisão, adição e subtração.** 

Então, neste exemplo, agora vou combinar divisão com subtração. 

![image-3.png](attachment:image-3.png)

Entre parênteses, vou colocar primeiro qual operador eu quero que aconteça. Para isso, tenho meu preço unitário menos meu desconto, dividido pela quantidade. E eles têm isso listado como meu custo total. Novamente, ele segue as mesmas regras. Você só quer listar seus operadores nesse novo cálculo de campo, como faria com qualquer outra coluna que esteja recuperando. 

Então, esses são exemplos bem simples, mas, novamente, muito poderosos quando você começa a somá-los. Apenas **tome cuidado com sua ordem de operação**. Então, se for um novo cálculo que você está fazendo, eu inseriria os outros campos no início apenas para verificar o cálculo e se você pode prosseguir e remover esses campos posteriormente ao criar sua consulta. Porém, é sempre bom realizar uma verificação de segurança e garantir que você esteja obtendo os resultados realmente desejados.

## Funções Agregadas

É hora de realmente mergulhar fundo na análise de dados examinando algumas das funções agregadas encontradas no SQL. As **funções agregadas fornecem várias maneiras de resumir seus dados**, o que, por sua vez, realmente ajuda você a analisá-los e ver o que você tem.

>**As funções agregadas são usadas para todos os tipos de coisas e podem ser muito úteis para encontrar os valores mais altos ou mais baixos, o número total de registros, o valor médio etc.**

Elas realmente se baseiam em alguns desses operadores matemáticos sobre os quais falamos anteriormente. Exceto que elas são apenas **funções pré-integradas**, o que torna muito fácil começar a agregar e resumir alguns de seus dados. 

![image.png](attachment:image.png)

Muitas vezes, na estatística descritiva, estamos conhecendo e entendendo nossos dados. Vamos usar muitos desses diferentes tipos de funções agregadas. As funções agregadas que podemos usar são:

- **AVG**: obter a média dos valores da coluna
- **COUNT**: conte o número de valores
- **MIN**: encontre o valor mínimo em uma coluna
- **MAX**: encontre o valor máximo em uma coluna
- **SUM**: some os valores totais da coluna

Neste exemplo, para média, usaremos nossa declaração SELECT. E então, assim como listaremos nossas colunas que queremos recuperar, você as listará como uma coluna que deseja recuperar. Mas antes de colocar sua coluna, você vai entrar e **adicionar a função que deseja**. 

![image-2.png](attachment:image-2.png)

Nesse caso, tenho o **AVG** porque quero o preço unitário médio. Para essa declaração, também adicionarei meu alias, **AS**, para renomear essa coluna, porque não vou apenas inserir o preço unitário. Agora é a média do preço unitário, e isso é da tabela de produtos. 

> Algo a ser observado aqui é que as **linhas que contêm nenhum valor ou nenhum valor nulo serão ignoradas pela função média.**

Continuando, a função **COUNT** é muito útil quando queremos ter uma ideia do conteúdo de uma tabela. Isso é útil apenas para entender quantos registros estão em uma tabela ou quantos registros contêm informações. Se você fizer um COUNT com uma estrela e parênteses (*), você **contará todas as linhas em uma tabela**. E isso pode ser com todos os valores ou nenhum valor, porque isso é apenas contar qualquer linha em uma tabela.

![image-3.png](attachment:image-3.png)

Você também pode contar uma coluna individual apenas selecionando contagem e, em seguida, o nome da coluna. Isso então **contará as linhas dessa coluna específica e ignorará os valores nulos**. 

![image-4.png](attachment:image-4.png)

Esses são dois exemplos diferentes. Aquele em que estamos procurando todos os registros da tabela de clientes. E então, um em que estamos apenas contando os IDs de clientes da tabela de clientes.

Aqui, podemos obter os mesmos resultados ou resultados diferentes se não houver valores na coluna de ID do cliente. Apenas uma espécie de nota das diferenças existentes. É claro que você pode simplesmente contar uma das colunas para ter uma visão geral da tabela. Mas então você está perdendo qualquer valor nulo que possa não estar lhe dando uma imagem clara da tabela completa. Se você realmente quiser uma **visão geral da tabela**, use a contagem de estrelas SELECT.

Outra função agregada que temos é **MIN** e **MAX**. Isso é realmente ótimo. Novamente, você está começando a entender seus dados. Você acabou de receber uma nova tabela e quer ver a aparência de alguns desses dados. É sempre bom ter uma variedade de seus dados. Extrair algo como qual é o valor mínimo, qual é o valor máximo, começa a dar uma ideia do que são as distribuições. E há potenciais discrepâncias muito altas nesses dados. E tudo isso pode ser feito no banco de dados. É muito útil fazer isso, se possível. Para usar isso corretamente, vamos **colocar nossa função entre parênteses**. Vamos colocar a coluna na qual queríamos trabalhar, então temos **SELECT MAX(UnitPrice)**. Eu sempre uso um alias porque, caso contrário, o nome da coluna ficará em branco.

![image-5.png](attachment:image-5.png)

Por isso, é útil lembrar o que eu estava realmente tentando fazer aqui. Outra coisa a ser observada é que, novamente, os valores nulos serão ignorados com as funções MIN e MAX.

![image-6.png](attachment:image-6.png)

Se você estiver apenas usando essa função, esteja ciente de que quando os valores nulos são ignorados e quando não são.

Finalmente, temos a **função agregada SUM**. Novamente, você pode usar isso de forma semelhante às outras funções agregadas. Vá em frente e indique SUM, a coluna que você deseja somar, como você deseja nomeá-la e, em seguida, de onde você quer que ela seja. Para isso, também podemos adicioná-los a algumas de suas funções de cálculo matemático. 

![image-7.png](attachment:image-7.png)

Neste exemplo, quero analisar o preço unitário em unidades em estoque. Quero obter um total disso, mas também quero somar tudo isso. 

![image-8.png](attachment:image-8.png)

Agora eu tenho o preço total de todos os produtos com o preço unitário e as unidades em estoque. Agora você pode ver como, com os operadores matemáticos em algumas dessas funções agregadas, você pode realmente começar a entender melhor seus dados e, agora, até mesmo começar a fazer algumas análises e inserir seus próprios dados.

Antes de concluirmos, quero abordar mais uma coisa importante para usar com funções agregadas, que é a **palavra distinta**.

>**Se a palavra distinta não for específica em uma instrução, o SQL sempre assumirá que você deseja todos os dados.**

![image-9.png](attachment:image-9.png)

Por exemplo, você pode ter um cliente que está em uma mesa várias vezes. Se você está simplesmente contando com seus IDs de clientes e não faz distinção para contar apenas os IDs de clientes distintos, **você pode estar recebendo registros duplicados**. E isso é muito útil para executar consultas em que você está contando de forma distinta e para ver onde pode haver algumas duplicatas em potencial em uma coluna. 

Há algumas coisas que você deve ter em mente ao usar **DISTINCT** com nossa função agregada de contagem. Você **não pode usar DISTINCT na função COUNT com a estrela**. Basta ter isso em mente, não apenas para saber quando e onde você pode usar DISTINCT, mas também para pensar quando você quer usar DISTINCT e quando não quer.

## Grouping Data with SQL

Anteriormente, analisamos o uso de funções agregadas, como média, mínima, máxima e soma. No entanto, uma das coisas que não resolvemos é **em que você está realmente agregando essas funções**. Em todos os exemplos que examinamos anteriormente, o que vimos foi como extrair um único campo e agregar em um único campo. Bem, isso é útil. Muitas vezes, analisamos o preço total de algo e talvez queiramos analisá-lo para clientes ou produtos e precisamos escolher como vamos agregar essa função. 

A partir de agora, você poderá realizar agregações adicionais usando a cláusula **GROUP BY** e **HAVING**. Discuta como os **NULLs** são ou não afetados pelas cláusulas GROUP BY e HAVING e como usar as cláusulas GROUP BY e ORDER BY juntas para classificar melhor seus dados.

Vamos começar com um exemplo de agrupamento. Digamos que, neste exemplo, **queremos saber o número de clientes que temos, mas queremos saber isso por cada região**. Na última lição, analisamos como contar os IDs de clientes e ver nosso número total de clientes. Mas agora, o que vamos fazer é adicionar essa parte da região.

![image.png](attachment:image.png)

Se tivéssemos apenas nossa declaração de seleção com a região selecionada e, em seguida, nossa função agregada contasse os IDs de clientes como o total de clientes da tabela de clientes, receberíamos um erro de retorno. Como não estamos satisfeitos, ok, como você quer que eu conte os IDs dos clientes? É aí que adicionamos esse grupo por meio de uma cláusula. Agora, depois desse formulário, colocamos a cláusula **GROUP BY** e pelo que queremos que ela seja agrupada.

Algumas coisas importantes a serem observadas sobre o GROUP BYs é que **podemos agrupá-lo por várias colunas**. Podemos ter mais colunas do que apenas regiões. Por exemplo, talvez queiramos saber região, cidade, país. Podemos listar todos eles em nossa cláusula GROUP BY. Vamos apenas adicionar uma vírgula após cada coluna que queremos listar. Uma das coisas a serem observadas que é realmente importante é que **todos os campos que você extrai com a função agregada precisam estar na cláusula GROUP BY, exceto o cálculo agregado**. Mesmo que você queira agrupar apenas por essa região, ela também precisará ser resumida em todas as outras colunas. Portanto, certifique-se de listá-los em ordem.

Outra coisa a ser observada é que você tem **NULLs** em uma de suas categorias, como sua região. Digamos que você tenha as regiões da Califórnia, Idaho, Texas, Nebraska. Mas você também tem algumas das outras regiões que estão em branco. Eles não têm valores. NULL será, na verdade, agrupado como sua própria categoria.

Isso é útil porque ajuda você a **garantir que não esteja perdendo nenhum dado**. Agora que começamos a usar funções agregadas e a agrupá-las, também é importante saber como a filtragem com a cláusula **WHERE** funciona para alguns desses agregados. **WHERE não funciona para grupos, pois filtra em linhas**. Portanto, precisamos usar a cláusula **HAVING ao filtrar com uma função agregada para agrupá-las**.

![image-2.png](attachment:image-2.png)

Neste exemplo, **queremos a contagem de pedidos para clientes. Mas queremos ver apenas o total de pedidos dos clientes que receberam mais de dois pedidos**. Então, para fazer isso, selecionaremos nossos *IDs de clientes* e, em seguida, contaremos todos os *registros* como pedidos. Vamos pegar isso da nossa tabela de *pedidos (Orders)*. E então, como queremos analisar isso de cada cliente individual, vamos agrupá-lo por nossa *ID de cliente*. Então, para ter certeza de que estamos selecionando apenas os clientes que tiveram pedidos maiores ou iguais a 2, colocaremos nossa cláusula **HAVING** de **HAVING COUNT** maior ou igual a 2. 

Novamente, lembre-se de que **WHERE filtra antes de os dados serem agrupados e, depois os filtros HAVING depois que os dados são agrupados**. As linhas serão eliminadas pela cláusula WHERE e serão incluídas na cláusula GROUP BY. Isso é importante apenas para saber quando você deve usar WHERE versus HAVING. Ambos são muito poderosos. Ambos têm propósitos diferentes. Apenas certifique-se de anotar quando cada um é apropriado, para que você não perca nenhum dado que deva ser contado. Outra coisa a ser observada ao trabalhar com GROUP BYs é que **é sempre uma boa prática usar a cláusula de ORDER BY**. 

![image-3.png](attachment:image-3.png)

O **GROUP BY não classifica os dados de nenhuma forma. Ele apenas os agrupa**. Em nossos exemplos anteriores, temos uma lista de estados, uma lista de regiões. Não vai classificar essas regiões em ordem alfabética. Isso só vai agrupá-los por diferentes regiões. Eu sempre recomendo usar um ORDER BY nesse tipo de situação. Isso só torna um pouco mais fácil ler seus dados. É apenas uma boa prática para entrar.

## Putting it All Together

Agora, você tem muitas declarações excelentes à sua disposição e pode realmente usá-las para escrever algumas consultas poderosas. À medida que você começa a escrever consultas cada vez mais complexas, certifique-se sempre de testá-las ao longo do caminho. Especialmente quando você está fazendo alguns desses agregados no começo. Teste para ver quantos registros você tinha antes e, em seguida, quantos registros você tinha depois de terminar a agregação. Realmente, certifique-se de que você está entendendo o que está fazendo. No SQL, é muito fácil obter resultados, então, **só porque você pode recuperar dados, não significa que sejam os dados que você pretendia obter**.

Lembre-se de alguns dos motivos pelos quais filtramos em SQL antes de obter os dados em vez de filtrar no aplicativo cliente. Novamente, muitas vezes estamos fazendo isso para aumentar nosso desempenho e, portanto, não processamos tantos dados do lado do cliente. Mas isso também nos ajuda a entender nossos dados. Ser realmente específico sobre os valores que estamos procurando, encontrando uma faixa de valores, encontrando valores em branco. Isso nos ajuda em nossas estatísticas descritivas. Algumas dessas funções agregadas, como observar o mínimo e o máximo das coisas. E isso pode realmente nos ajudar a entender nossos dados e o que está acontecendo. Agora que você aprendeu algumas cláusulas diferentes que podem ser usadas com sua declaração SELECT, acho que é bom, apenas para ter como referência, a estrutura formal dela. Antes disso, vimos sobre como selecionar dados e obtê-los de algum lugar. Agora, adicionamos algumas cláusulas diferentes e **é importante lembrar a ordem em que elas entram**.

E acabei de listá-los em ordem aqui, começando com o **SELECT**. Então, novamente, sempre teremos essa declaração SELECT no início. Vamos dizer de onde a obtemos e, em seguida, usaremos nossa cláusula **WHERE** se precisarmos fazer qualquer filtragem em nível de linha. Novamente, se tivermos uma função agregada em nossa instrução SELECT, queremos ter certeza de que estamos incluindo essa cláusula **GROUP BY**. Então, se tivermos o GROUP BY, talvez queiramos fazer alguns agrupamentos e filtragem de níveis. Então, precisaremos dessa cláusula **HAVING**. **ORDER BY** é sempre a última coisa que colocamos em nossa consulta. E isso só vai ordenar a ordem das coisas da maneira que você determinar. 

![image.png](attachment:image.png)

Você pode ver, no lado direito, que listei se a declaração é necessária ou não. Alguns deles, você pode ver, nem sempre são obrigatórios. Isso apenas fornece um esboço estruturado muito bom para muitas das declarações e cláusulas comuns que você usará e a ordem em que elas devem estar ao escrever instruções SQL. Agora, neste momento, você deve ter muito para começar. Espero que você se divirta muito brincando com algumas dessas diferentes funções agregadas, filtrando seus dados e vendo como eles mudam. Tudo bem, vá lá e experimente.