### Query (Consulta) de Dados no DataFrame do Pandas

In [19]:
# Importando a biblioteca
import pandas as pd

In [20]:
# Criando o DataFrame
df_dsa = pd.read_csv("dados/dataset.csv")

In [21]:
# Exibindo o DataFrame
df_dsa.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [22]:
# Verificando valores vazios
df_dsa.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [23]:
# Preenchendo valores
df_dsa['Quantidade'] = df_dsa['Quantidade'].fillna(value=3.0)

In [24]:
# Exibindo o DataFrame
df_dsa.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


Realizando a Query

In [25]:
# Checando os valores mínimo e máximo da coluna Valor_Venda
# 2. .Valor_Venda - Acessando um Atributo (Coluna)
# O que é? O primeiro ponto (.) é um operador de acesso. Ele permite que você 
# "entre" no DataFrame e pegue uma parte específica dele. Neste caso, você está 
# acessando a coluna chamada Valor_Venda.

# Sintaxe Alternativa: Uma outra forma muito comum de fazer a mesma coisa é usando 
# colchetes e aspas: df_dsa['Valor_Venda']. A forma com o ponto (.) é muitas vezes 
# mais rápida de digitar, mas a forma com colchetes ([]) é mais robusta, especialmente 
# se o nome da sua coluna tiver espaços ou caracteres especiais (ex: df_dsa['Valor da Venda']).

df_dsa.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valor_Venda) é de 0.44 a 22638. Vamos fazer uma consulta e retornar todas as vendas dentro de um range de valores. Fazemos isso
com a instrução abaixo:

O método .query() é uma das minhas ferramentas favoritas na biblioteca pandas. É uma forma muito poderosa e, ao mesmo tempo, elegante e legível de filtrar linhas de um DataFrame com base em uma ou mais condições.

In [28]:
# Gerando um novo dataframe apenas com o intervalo de vendas entre 229 e 10000
df2 = df_dsa.query('229 < Valor_Venda < 10000')

In [29]:
# Verificando o valor min e max do novo DataFrame
df2.Valor_Venda.describe()

count    2357.000000
mean      766.679142
std       856.315136
min       229.544000
25%       323.100000
50%       490.320000
75%       859.200000
max      9892.740000
Name: Valor_Venda, dtype: float64

In [30]:
# gerando novo DF com valores acima da média
df3 = df2.query('Valor_Venda > 766')

In [31]:
# Exibindo o Df
df3.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
11,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002033,Technology,Konftel 250 Conference phone - Charcoal black,911.424,4.0
24,CA-2015-106320,2015-09-25,EB-13870,Consumer,United States,West,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,1044.63,3.0
