<a href="https://colab.research.google.com/github/orlandojsjunior/Data_Science-explorando_e_analisando_dados/blob/main/Explorando_e_analisando_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Para saber mais: método query

O método query() do Pandas permite filtrar dados de um DataFrame utilizando uma expressão de consulta semelhante à linguagem SQL. Ele permite que você selecione linhas com base em condições específicas definidas na expressão de consulta, facilitando a filtragem dos dados. Isso é bastante útil ao lidar com grandes conjuntos de dados e condições de filtragem simples e complexas.

Ele aceita um texto (string) contendo a expressão de consulta e retorna um DataFrame contendo apenas as linhas que atendem às condições especificadas. A expressão de consulta pode incluir operadores lógicos como and, or e not, bem como operadores de comparação como ==, <, >, <= e >=.

Vamos ver alguns exemplos?


# Query para filtrar dados em uma coluna

Vamos utilizar aqui, em nossos exemplos, a base de dados da Serenatto, que você pode baixar por meio deste [link](https://cdn3.gnarususercontent.com.br/3675-data-science-analise-exploratoria/Projeto/Base_Atividades/serenatto_2sem_2023.csv). Primeiro, vamos trazer o método query() aplicado a filtragem de apenas uma coluna:

In [11]:
import pandas as pd

vendas = pd.read_csv("https://raw.githubusercontent.com/orlandojsjunior/Data_Science-explorando_e_analisando_dados/main/Dados/serenatto_2sem_2023.csv")

vendas.query('produto == "Tiramisù" ').head()

# Neste exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que o produto seja “Tiramisù”. 
# Para efeito de visualização colocamos o head() para aparecer apenas os 5 primeiros valores.


Unnamed: 0,id,data,produto,valor,metodo_pagamento
1,2721,2023-07-02,Tiramisù,10.0,Cartão de Débito
2,2722,2023-07-02,Tiramisù,10.0,Cartão de Crédito
15,2735,2023-07-06,Tiramisù,10.0,Cartão de Crédito
30,2750,2023-07-07,Tiramisù,10.0,Cartão de Débito
31,2751,2023-07-07,Tiramisù,10.0,Cartão de Débito


# Query para filtrar dados de duas ou mais colunas 

Este método também pode ser utilizado para filtrar dados em duas ou mais colunas, combinando as condições com operadores lógicos.

In [12]:
vendas.query('valor > 10 and metodo_pagamento != "Dinheiro" ')

# Neste outro exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que o valor do produto é maior que 10 e o método de pagamento é qualquer um, exceto “Dinheiro”.

Unnamed: 0,id,data,produto,valor,metodo_pagamento
0,2720,2023-07-01,Risoto de Funghi,13.0,Cartão de Débito
5,2725,2023-07-03,Salada Niçoise,11.0,PIX
7,2727,2023-07-04,Lasanha,11.5,PIX
8,2728,2023-07-04,Gnocchi,10.5,PIX
18,2738,2023-07-06,Salada Niçoise,11.0,Cartão de Débito
...,...,...,...,...,...
822,3542,2023-12-26,Lasanha,11.5,Cartão de Débito
830,3550,2023-12-28,Lasanha,11.5,PIX
831,3551,2023-12-28,Lasanha,11.5,PIX
836,3556,2023-12-28,Salada Niçoise,11.0,Cartão de Crédito


# Query com o operador @

Além disso, o método query() permite referenciar variáveis externas dentro da expressão de consulta usando o operador @. Sendo bastante útil para criar consultas dinâmicas com base em variáveis definidas previamente.

In [13]:
# Definindo uma variável externa
produtos = ['Café au lait', 'Espresso', 'Cappuccino']

vendas.query('produto in @produtos and metodo_pagamento == "PIX" ')

#Neste exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que tenham os produtos passados pela lista produtos e que o método de pagamento seja em PIX.

Unnamed: 0,id,data,produto,valor,metodo_pagamento
9,2729,2023-07-04,Espresso,2.5,PIX
42,2762,2023-07-10,Café au lait,4.0,PIX
64,2784,2023-07-14,Espresso,2.5,PIX
76,2796,2023-07-16,Café au lait,4.0,PIX
77,2797,2023-07-16,Café au lait,4.0,PIX
130,2850,2023-07-29,Café au lait,4.0,PIX
174,2894,2023-08-08,Café au lait,4.0,PIX
185,2905,2023-08-11,Cappuccino,5.5,PIX
251,2971,2023-08-27,Espresso,2.5,PIX
278,2998,2023-08-31,Cappuccino,5.5,PIX


Para que você aprenda bastante sobre o [método query()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html) é importante recorrer também a [documentação Pandas](https://pandas.pydata.org/docs/index.html).