# Filtrando informações nos dataframes


## Resumo

Um dos grandes potenciais do pandas é para tratar condições.

E a forma com que analisamos condições no dataframe é diferente do que já fizemos até agora no curso, vamos ver como funciona.

- Preparando as bases de dados

In [1]:
import pandas as pd
#importando os arquivos
vendas_df = pd.read_csv(r'Contoso - Vendas - 2017.csv', sep=';', encoding='ISO-8859-1')
produtos_df = pd.read_csv(r'Contoso - Cadastro Produtos.csv', sep=';', encoding='ISO-8859-1')
lojas_df = pd.read_csv(r'Contoso - Lojas.csv', sep=';', encoding='ISO-8859-1')
clientes_df = pd.read_csv(r'Contoso - Clientes.csv', sep=';', encoding='ISO-8859-1')

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
display(vendas_df)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail do Cliente
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin,rbrumfieldmy@ameblo.jp
1,880458,23/11/2017,23/11/2017,0,306,235,10,6825,8,0,Litware Home Theater System 7.1 Channel M710 B...,Loja Contoso Europe Online,rbrumfieldmy@ameblo.jp
2,191019,20/03/2017,21/03/2017,1,172,376,2,6825,9,0,Adventure Works Laptop12 M1201 Silver,Loja Contoso Hartford,rbrumfieldmy@ameblo.jp
3,18610,08/01/2017,10/01/2017,2,200,448,2,6825,48,0,WWI Desktop PC1.80 E1801 Black,Loja Contoso Catalog,rbrumfieldmy@ameblo.jp
4,287704,23/04/2017,26/04/2017,3,76,280,1,6825,10,0,Contoso Home Theater System 2.1 Channel M1210 ...,Loja Contoso Beaumont No.1,rbrumfieldmy@ameblo.jp
...,...,...,...,...,...,...,...,...,...,...,...,...,...
980637,878244,23/11/2017,23/11/2017,0,110,889,4,347,12,1,Contoso Bluetooth Notebook Mouse E70 Silver,Loja Contoso Orlando,edowner9m@imdb.com
980638,920243,09/12/2017,10/12/2017,1,261,1367,5,38781,13,0,Contoso Expandable 3-Handset Cordless Phone Sy...,Loja Contoso Damascus No.1,ruben31@adventure-works.com
980639,467482,21/06/2017,25/06/2017,4,115,269,1,553,10,0,Contoso Home Theater System 4.1 Channel M1400 ...,Loja Contoso New York No.1,akuhnertfc@themeforest.net
980640,853643,13/11/2017,20/11/2017,7,115,809,4,38860,6,0,Contoso Dual USB Power Adapter - power adapter...,Loja Contoso New York No.1,anne5@adventure-works.com


### Primeiro, vamos aplicar uma função normalmente. Qual o % das vendas que foi devolvido?

- Para isso vamos somar as quantidades nas colunas correspondentes. Lembrando, o % vai ser: Total Devolvido / Total Vendido.

In [10]:
qtde_vendida = vendas_df['Quantidade Vendida'].sum()
print(qtde_vendida)
qtde_devolvida = vendas_df['Quantidade Devolvida'].sum()
print(qtde_devolvida)
Percentual_devolvido = (qtde_devolvida / qtde_vendida) #* 100
print('{:.2%}'.format(Percentual_devolvido))

11851928
138931
1.17%


### Agora, se quisermos fazer a mesma análise apenas para 1 loja. Queremos filtrar apenas os itens da Loja Contoso Europe Online e saber o % de devolução dessa loja.

- Para isso, vamos precisar filtrar. A forma de filtrar nos dataframes é uma "simples" comparação

In [14]:
qtde_vendida_loja = vendas_df[vendas_df["ID Loja"] == 306]
qtde_vendida = qtde_vendida_loja['Quantidade Vendida'].sum()
qtde_devolvida = qtde_vendida_loja['Quantidade Devolvida'].sum()
Percentual_devolvido = (qtde_devolvida / qtde_vendida) #* 100
print('{:.2%}'.format(Percentual_devolvido))


1.33%


### Vamos fazer em 2 passos para entender certinho o que está acontecendo.

In [21]:
##qtde_vendida_loja = vendas_df[vendas_df["ID Loja"] == 306]
loja306 = (vendas_df['ID Loja'] == 306) & (vendas_df['Quantidade Devolvida'] != 0)
qtde_vendida_loja = vendas_df[loja306]
display(qtde_vendida_loja)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail do Cliente
439,706556,24/09/2017,26/09/2017,2,306,2505,9,29375,160,1,Contoso Touch Stylus Pen E150 Red,Loja Contoso Europe Online,aaron53@adventure-works.com
524,493093,30/06/2017,30/06/2017,0,306,1507,1,24151,20,1,The Phone Company Smart phones Unlocked M300 Pink,Loja Contoso Europe Online,sheena11@adventure-works.com
599,825655,03/11/2017,03/11/2017,0,306,577,10,29334,8,1,Contoso Projector 720p M620 Black,Loja Contoso Europe Online,alexandra63@adventure-works.com
709,567217,30/07/2017,30/07/2017,0,306,1504,1,26050,10,1,The Phone Company Smart phones 160x160 M26 Pink,Loja Contoso Europe Online,misty18@adventure-works.com
710,145431,01/03/2017,04/03/2017,3,306,512,8,26050,6,1,Adventure Works LCD17W E203 White,Loja Contoso Europe Online,misty18@adventure-works.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...
884526,698993,21/09/2017,29/09/2017,8,306,1302,9,7097,9,1,Contoso Telephoto Conversion Lens M350 Silver,Loja Contoso Europe Online,lmacconnel2q@barnesandnoble.com
884579,884544,25/11/2017,28/11/2017,3,306,1303,10,31328,8,1,Contoso Telephoto Conversion Lens M350 Blue,Loja Contoso Europe Online,rosa10@adventure-works.com
884927,721786,30/09/2017,30/09/2017,0,306,168,9,36694,18,1,SV 16xDVD M310 Black,Loja Contoso Europe Online,elizabeth8@adventure-works.com
885153,919950,09/12/2017,09/12/2017,0,306,1082,10,32336,12,1,Contoso SLR Camera M143 Silver,Loja Contoso Europe Online,ashlee17@adventure-works.com


### Desafio: e se eu quisesse criar uma tabela apenas com as vendas da Loja Contoso Europe Online e que não tiveram nenhuma devolução. Quero criar essa tabela e saber quantas vendas são.

- Repare que nesse caso são 2 condições, como fazemos isso?

In [24]:
#tudo junto
loja306semdev = (vendas_df['ID Loja'] == 306) & (vendas_df['Quantidade Devolvida'] != 0)
##display(vendas_df[loja306semdev])

#separado
loja306 = vendas_df['ID Loja'] == 306
semdev = vendas_df['Quantidade Devolvida'] != 0
loja306semdev2 = vendas_df[loja306 & semdev]
print(loja306semdev2)

        Numero da Venda Data da Venda Data do Envio  ID Canal  ID Loja  \
439              706556    24/09/2017    26/09/2017         2      306   
524              493093    30/06/2017    30/06/2017         0      306   
599              825655    03/11/2017    03/11/2017         0      306   
709              567217    30/07/2017    30/07/2017         0      306   
710              145431    01/03/2017    04/03/2017         3      306   
...                 ...           ...           ...       ...      ...   
884526           698993    21/09/2017    29/09/2017         8      306   
884579           884544    25/11/2017    28/11/2017         3      306   
884927           721786    30/09/2017    30/09/2017         0      306   
885153           919950    09/12/2017    09/12/2017         0      306   
885178           978360    31/12/2017    03/01/2018         3      306   

        ID Produto  ID Promocao  ID Cliente  Quantidade Vendida  \
439           2505            9       29375 