# Filtrando informações nos dataframes


## Resumo

Um dos grandes potenciais do pandas é para tratar condições.

E a forma com que analisamos condições no dataframe é diferente do que já fizemos até agora no curso, vamos ver como funciona.

- Preparando as bases de dados

In [2]:
import pandas as pd
#importando os arquivos
vendas_df = pd.read_csv(r'Contoso - Vendas.csv', sep=';')
produtos_df = pd.read_csv(r'Contoso - Cadastro Produtos.csv', sep=';')
lojas_df = pd.read_csv(r'Contoso - Lojas.csv', sep=';')
clientes_df = pd.read_csv(r'Contoso - Clientes.csv', sep=';')

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail do Cliente
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin,rbrumfieldmy@ameblo.jp
1,880458,23/11/2017,23/11/2017,0,306,235,10,6825,8,0,Litware Home Theater System 7.1 Channel M710 B...,Loja Contoso Europe Online,rbrumfieldmy@ameblo.jp
2,191019,20/03/2017,21/03/2017,1,172,376,2,6825,9,0,Adventure Works Laptop12 M1201 Silver,Loja Contoso Hartford,rbrumfieldmy@ameblo.jp
3,18610,08/01/2017,10/01/2017,2,200,448,2,6825,48,0,WWI Desktop PC1.80 E1801 Black,Loja Contoso Catalog,rbrumfieldmy@ameblo.jp
4,287704,23/04/2017,26/04/2017,3,76,280,1,6825,10,0,Contoso Home Theater System 2.1 Channel M1210 ...,Loja Contoso Beaumont No.1,rbrumfieldmy@ameblo.jp
...,...,...,...,...,...,...,...,...,...,...,...,...,...
980637,878244,23/11/2017,23/11/2017,0,110,889,4,347,12,1,Contoso Bluetooth Notebook Mouse E70 Silver,Loja Contoso Orlando,edowner9m@imdb.com
980638,920243,09/12/2017,10/12/2017,1,261,1367,5,38781,13,0,Contoso Expandable 3-Handset Cordless Phone Sy...,Loja Contoso Damascus No.1,ruben31@adventure-works.com
980639,467482,21/06/2017,25/06/2017,4,115,269,1,553,10,0,Contoso Home Theater System 4.1 Channel M1400 ...,Loja Contoso New York No.1,akuhnertfc@themeforest.net
980640,853643,13/11/2017,20/11/2017,7,115,809,4,38860,6,0,Contoso Dual USB Power Adapter - power adapter...,Loja Contoso New York No.1,anne5@adventure-works.com


### Primeiro, vamos aplicar uma função normalmente. Qual o % das vendas que foi devolvido?

- Para isso vamos somar as quantidades nas colunas correspondentes. Lembrando, o % vai ser: Total Devolvido / Total Vendido.

In [59]:
qtd_vendida = vendas_df['Quantidade Vendida'].sum()
qtd_devolvida = vendas_df['Quantidade Devolvida'].sum()
print('{:.2%}'.format(qtd_devolvida/qtd_vendida))

1.17%


### Agora, se quisermos fazer a mesma análise apenas para 1 loja. Queremos filtrar apenas os itens da Loja Contoso Europe Online e saber o % de devolução dessa loja.

- Para isso, vamos precisar filtrar. A forma de filtrar nos dataframes é uma "simples" comparação

In [58]:
vendas_loja_europeol_vend = vendas_df[vendas_df['ID Loja'] == 306]
#display(vendas_loja_europeol)
qtd_vend_europeol = vendas_loja_europeol_vend['Quantidade Vendida'].sum()
qtd_devolv_europeol = vendas_loja_europeol_vend['Quantidade Devolvida'].sum()
print('{:.2%}'.format(qtd_devolv_europeol/qtd_vend_europeol))

1.33%


### Vamos fazer em 2 passos para entender certinho o que está acontecendo.

In [57]:
#vendas_loja_europeol_vend = vendas_df[vendas_df['ID Loja'] == 306]
loja306 = vendas_df['ID Loja'] == 306
vendas_loja_europeol_vend = vendas_df[loja306]
#display(vendas_loja_europeol_vend)
qtd_v_europeol = vendas_loja_europeol_vend['Quantidade Vendida'].sum()
qtd_d_europeol = vendas_loja_europeol_vend['Quantidade Devolvida'].sum()
print('{:.2%}'.format(qtd_d_europeol/qtd_v_europeol))

1.33%


### Desafio: e se eu quisesse criar uma tabela apenas com as vendas da Loja Contoso Europe Online e que não tiveram nenhuma devolução. Quero criar essa tabela e saber quantas vendas são.

- Repare que nesse caso são 2 condições, como fazemos isso?

In [81]:
#tudo junto
df_loja306semdev = vendas_df[(vendas_df['ID Loja'] == 306)&(vendas_df['Quantidade Devolvida']==0)]
#display(df_loja306semdev)
r1_qtd_vend_l306 = df_loja306semdev['Quantidade Vendida'].sum()
print('Quantidade de vendas com devolução: {}\nQuantidade de vendas sem devolução: {}\nProporção final das vendas: {:.2%}'.format(qtd_v_europeol,r1_qtd_vend_l306,r1_qtd_vend_l306/qtd_v_europeol))
print()
#separado
loja306 = vendas_df['ID Loja'] == 306
loja_qtddev0 = vendas_df['Quantidade Devolvida'] == 0
df_loja306_qtddev0 = vendas_df[loja306 & loja_qtddev0]
#display(df_loja306_qtddev0)
r2_qtd_vend_l306 = df_loja306_qtddev0['Quantidade Vendida'].sum()
print('Quantidade de vendas com devolução: {}\nQuantidade de vendas sem devolução: {}\nProporção final das vendas: {:.2%}'.format(qtd_v_europeol,r2_qtd_vend_l306,r2_qtd_vend_l306/qtd_v_europeol))

Quantidade de vendas com devolução: 616845
Quantidade de vendas sem devolução: 481657
Proporção final das vendas: 78.08%

Quantidade de vendas com devolução: 616845
Quantidade de vendas sem devolução: 481657
Proporção final das vendas: 78.08%


### Eu criei utilizando o groupby sendo mais direto e objetivo 

In [75]:
loja_europeol = vendas_df.groupby(vendas_df['ID Loja'] == 306).sum()
qtd_vend = loja_europeol['Quantidade Vendida'][1]
qtd_devolv = loja_europeol['Quantidade Devolvida'][1]

print('Proporção de devolução da loja {:.2%} - Qtd Devolvida: {} / Qtd Vendida: {}'.format(qtd_devolv/qtd_vend,qtd_devolv,qtd_vend))
print()
print('A loja EuropeOnline representa {:.2%} na quantidade total vendida,\nObservação: A quantidade vendida foi {} e o total da rede foi {}.'.format(qtd_vend/qtd_vendida,qtd_vend,qtd_vendida))

Proporção de devolução da loja 1.33% - Qtd Devolvida: 8174 / Qtd Vendida: 616845

A loja EuropeOnline representa 5.20% na quantidade total vendida,
Observação: A quantidade vendida foi 616845 e o total da rede foi 11851928.


In [84]:
#select sum(qtd_vendida) as 'qtd_total' from vendas_df
#where ('ID Loja' == 306) & ('qtd_devolvida' == 0)
loja306 = vendas_df['ID Loja'] == 306
loja_europeol_full = vendas_df[loja306]
loja306_devolv = loja_europeol_full['Quantidade Devolvida'] == 0
loja306_final = loja_europeol_full[loja306_devolv]
qtd_vend_l306 = loja306_final['Quantidade Vendida'].sum()
print('Quantidade de vendas com devolução: {}\nQuantidade de vendas sem devolução: {}\nProporção final das vendas: {:.2%}'.format(qtd_v_europeol,qtd_vend_l306,qtd_vend_l306/qtd_v_europeol))

Quantidade de vendas com devolução: 616845
Quantidade de vendas sem devolução: 481657
Proporção final das vendas: 78.08%


In [87]:
df_loja306_trat = vendas_df[(vendas_df['ID Loja'] == 306)&(vendas_df['Quantidade Devolvida']==0)]
qtd_vend_l306 = df_loja306_trat['Quantidade Vendida'].sum()
print('Quantidade de vendas com devolução: {}\nQuantidade de vendas sem devolução: {}\nProporção final das vendas: {:.2%}'.format(qtd_v_europeol,qtd_vend_l306,qtd_vend_l306/qtd_v_europeol))

Quantidade de vendas com devolução: 616845
Quantidade de vendas sem devolução: 481657
Proporção final das vendas: 78.08%
