# **2.0- Analisando os dados**

- 2.1- Um pouco sobre o Método query( ). 
- 2.2- Utilizando o método query( ) para filtrar dados em uma coluna.
- 2.3- Utilizando o método query( ) para filtrar dados em duas ou mais colunas.
- 2.4- Utilizando o método query( ) com o operador **@**.
- 2.5- Exibindo todas as linhas de um DataFrame no console.
- 2.6- Um pouco sobre o Método groupby( ).


**2.1- Método Query( )**

- O método **query( )** do Pandas permite filtrar dados de um DataFrame utilizando uma expressão de consulta semelhante a linguagem SQL. Ele permite que você selecione linhas com base em condições específicas definidas ne expressão da consulta, facilitando a filtragem dos dados. Isso é bastante útil ao lidar com grandes conjuntos de dados e condições de filtragem simples e complexas.

- Ele aceita um texto (string) contendo a expressão de consulta e retorna um DataFrame contendo apenas as linhas que atendem às condições especificadas. A expressão de consulta pode incluir operadores lógicos como **and**, **or** e **not**, bem como operadores de comparação como **==**, **<**, **>**, **<=** e **>=**.

**2.2- Query para filtrar dados em uma coluna**

- Vamos utilizar aqui, em nosssos exemplos, a base de dados da "serenatto_2sem_2023.csv".

- Primeiro, vamos trazer o método query( ) aplicando a filtragem de apenas uma coluna:

In [3]:
import pandas as pd
baseSerenatto = pd.read_csv("https://raw.githubusercontent.com/gitdowellington/primeiros-passos-data-science/refs/heads/main/1.analise-exploratoria/base-dados/serenatto_2sem_2023.csv")
baseSerenatto.query("produto == 'Tiramisù'").head()

Unnamed: 0,id,data,produto,valor,metodo_pagamento
1,2721,2023-07-02,Tiramisù,10.0,Cartão de Débito
2,2722,2023-07-02,Tiramisù,10.0,Cartão de Crédito
15,2735,2023-07-06,Tiramisù,10.0,Cartão de Crédito
30,2750,2023-07-07,Tiramisù,10.0,Cartão de Débito
31,2751,2023-07-07,Tiramisù,10.0,Cartão de Débito


- Neste exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que o produto seja "Tiramisù". Pra efeito de visualização colocamos o head( ) para aparecer apenas os 05 primeiros registros.

**2.3- Query para filtrar dados de duas ou mais colunas**

- Este método também pode ser utilizado para filtrar dados em duas ou mais colunas, combinando as condições com operadores lógicos.

In [4]:
baseSerenatto.query("valor > 10 and metodo_pagamento != 'Dinheiro'").head()

Unnamed: 0,id,data,produto,valor,metodo_pagamento
0,2720,2023-07-01,Risoto de Funghi,13.0,Cartão de Débito
5,2725,2023-07-03,Salada Niçoise,11.0,PIX
7,2727,2023-07-04,Lasanha,11.5,PIX
8,2728,2023-07-04,Gnocchi,10.5,PIX
18,2738,2023-07-06,Salada Niçoise,11.0,Cartão de Débito


- Neste outro exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que o valor do produto é maior que 10 e o método de pagamento é qualquer um, exceto "Dinheiro".

**2.4- Query com o operador @**

- Além disso, o método query( ) permite referenciar variáveis externas dentro da expressão de consulta usando o operador @. Sendo bastante útil para criar consultas com base em variáveis definidas previamente.

In [5]:
produtos = ['Café au lait', 'Espresso', 'Cappuccino']

baseSerenatto.query("produto in @produtos and metodo_pagamento == 'PIX'").head()

Unnamed: 0,id,data,produto,valor,metodo_pagamento
9,2729,2023-07-04,Espresso,2.5,PIX
42,2762,2023-07-10,Café au lait,4.0,PIX
64,2784,2023-07-14,Espresso,2.5,PIX
76,2796,2023-07-16,Café au lait,4.0,PIX
77,2797,2023-07-16,Café au lait,4.0,PIX


- Neste exemplo, estamos filtrando o DataFrame para selecionar apenas as linhas em que tenham os produtos passados pela lista **produtos** e que o método de pagamento seja em PIX.

**2.5- Exibindo todas as linhas de um DataFrame no console**

- Quando trabalhamos com DataFrames em Python, especialmente em ambientes como o VS Code, é comum que, por padrão, apenas um número limitado de linhas seja exibido no console para evitar grandes saídas e tornar a visualização mais gerenciável. No entanto, há situações em que precisamos ver todas as linhas de um DataFrame para uma análise mais completa.

**Solução:**

- Para exibir todas as linhas de um DataFrame no console do VS Code, podemos utilizar a função set_option da biblioteca Pandas, que permite configurar diversas opções de exibição, conforme o código abaixo:

In [6]:
pd.set_option('display.max_rows', None)

**Resetando as configurações previamente definidas:**

In [7]:
pd.reset_option('display')

**2.6- Método groupby( )**

- O método groupby( ) é uma das ferramentas mais poderosas do Pandas, fundamental para análise de dados. Ele permite que você agrupe seus dados com base em uma ou mais colunas e em seguida, aplique funções de agregação a esses grupos.

- No exemplo abaixo vamos analisar o nome de cada produto com seus respectivos valores que são vendidos no estabelecimento:


In [8]:
precos_produtos = baseSerenatto.groupby("produto")["valor"].unique()

precos_produtos = pd.DataFrame(precos_produtos)
precos_produtos

Unnamed: 0_level_0,valor
produto,Unnamed: 1_level_1
Baguete,[3.0]
Bruschetta,[7.0]
Café au lait,[4.0]
Canapé de Salmão,[9.5]
Cappuccino,[5.5]
Croissant,[5.0]
Espresso,[2.5]
Gelato,[6.0]
Gnocchi,[10.5]
Lasanha,[11.5]


- No exemplo abaixo vamos analisar o valor total arrecadado nas vendas de cada produto:

In [9]:
baseSerenatto.groupby("produto")['valor'].sum()

produto
Baguete             123.0
Bruschetta          259.0
Café au lait        212.0
Canapé de Salmão    456.0
Cappuccino          209.0
Croissant           150.0
Espresso            110.0
Gelato              240.0
Gnocchi             525.0
Lasanha             471.5
Limoncello          414.0
Macaron             164.5
Panini              322.5
Pizza Margherita    468.0
Quiche Lorraine     328.0
Ratatouille         323.0
Risoto de Funghi    598.0
Salada Niçoise      495.0
Tiramisù            460.0
Éclair              193.5
Name: valor, dtype: float64

- No exemplo abaixo vamos verificar a quantidade de vendas que cada produto teve:

In [10]:
baseSerenatto.groupby("produto")['produto'].value_counts()

produto
Baguete             41
Bruschetta          37
Café au lait        53
Canapé de Salmão    48
Cappuccino          38
Croissant           30
Espresso            44
Gelato              40
Gnocchi             50
Lasanha             41
Limoncello          46
Macaron             47
Panini              43
Pizza Margherita    39
Quiche Lorraine     41
Ratatouille         38
Risoto de Funghi    46
Salada Niçoise      45
Tiramisù            46
Éclair              43
Name: count, dtype: int64