# Filtrando informações nos dataframes


## Resumo

Um dos grandes potenciais do pandas é para tratar condições.

E a forma com que analisamos condições no dataframe é diferente do que já fizemos até agora no curso, vamos ver como funciona.

- Preparando as bases de dados

In [1]:
import pandas as pd
#importando os arquivos
vendas_df = pd.read_csv(r'C:\Users\ricar\Documents\GitHub\Python_Impressionador\Pandas\dados\Contoso - Vendas - 2017.csv', sep=';', encoding='ISO-8859-1')
produtos_df = pd.read_csv(r'C:\Users\ricar\Documents\GitHub\Python_Impressionador\Pandas\dados\Contoso - Cadastro Produtos.csv', sep=';', encoding='ISO-8859-1')
lojas_df = pd.read_csv(r'C:\Users\ricar\Documents\GitHub\Python_Impressionador\Pandas\dados\Contoso - Lojas.csv', sep=';', encoding='ISO-8859-1')
clientes_df = pd.read_csv(r'C:\Users\ricar\Documents\GitHub\Python_Impressionador\Pandas\dados\Contoso - Clientes.csv', sep=';', encoding='ISO-8859-1')

#limpando apenas as colunas que queremos
clientes_df = clientes_df[['ID Cliente', 'E-mail']]
produtos_df = produtos_df[['ID Produto', 'Nome do Produto']]
lojas_df = lojas_df[['ID Loja', 'Nome da Loja']]

#mesclando e renomeando os dataframes
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail': 'E-mail do Cliente'})
vendas_df.head(100)

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail do Cliente
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin,rbrumfieldmy@ameblo.jp
1,2,01/01/2017,06/01/2017,5,308,1586,2,18469,9,1,SV DVD 55DVD Storage Binder M56 Black,Loja Contoso North America Reseller,cshawd4@technorati.com
2,3,01/01/2017,01/01/2017,0,294,1444,5,19730,13,1,"The Phone Company Touch Screen Phones 26-2.2"" ...",Loja Contoso Tehran No.2,kgorriekd@bandcamp.com
3,4,01/01/2017,01/01/2017,0,251,1468,5,29326,6,1,Contoso Touch Screen Phones - CRT M11 Black,Loja Contoso Singapore,angela49@adventure-works.com
4,5,01/01/2017,07/01/2017,6,94,1106,2,22617,4,1,Contoso SLR Camera M146 Orange,Loja Contoso Grand Prairie,jacob4@adventure-works.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,01/01/2017,09/01/2017,8,310,1250,5,8731,6,0,Contoso Travel Charger for S-Series Battery E3...,Loja Contoso Asia Reseller,mkernellkc@pen.io
96,97,01/01/2017,01/01/2017,0,310,513,5,22532,6,0,Adventure Works LCD15 E100 White,Loja Contoso Asia Reseller,benjamin30@adventure-works.com
97,98,01/01/2017,09/01/2017,8,307,796,5,36137,6,0,Contoso USB Data Link - direct connect adapter...,Loja Contoso Asia Online,kaitlyn6@adventure-works.com
98,99,01/01/2017,03/01/2017,2,306,1269,10,26238,8,0,Contoso Carrying Case E312 Blue,Loja Contoso Europe Online,edward17@adventure-works.com


### Primeiro, vamos aplicar uma função normalmente. Qual o % das vendas que foi devolvido?

- Para isso vamos somar as quantidades nas colunas correspondentes. Lembrando, o % vai ser: Total Devolvido / Total Vendido.

In [2]:
qtde_vendida = vendas_df['Quantidade Vendida'].sum()
qtde_devolvida = vendas_df['Quantidade Devolvida'].sum()
porcentagem = qtde_devolvida / qtde_vendida
print(f'{porcentagem:.2%}')

1.17%


### Agora, se quisermos fazer a mesma análise apenas para 1 loja. Queremos filtrar apenas os itens da Loja Contoso Europe Online e saber o % de devolução dessa loja.

- Para isso, vamos precisar filtrar. A forma de filtrar nos dataframes é uma "simples" comparação

In [3]:
loja = vendas_df[vendas_df['ID Loja'] == 306]
qtde_vendida = loja['Quantidade Vendida'].sum()
qtde_devolvida = loja['Quantidade Devolvida'].sum()
porcentagem = qtde_devolvida / qtde_vendida
print(f'{porcentagem:.2%}')

1.33%


### Vamos fazer em 2 passos para entender certinho o que está acontecendo.

In [4]:
loja306 = vendas_df['ID Loja'] == 306
loja = vendas_df[loja306]
qtde_vendida = loja['Quantidade Vendida'].sum()
qtde_devolvida = loja['Quantidade Devolvida'].sum()
porcentagem = qtde_devolvida / qtde_vendida
print(f'{porcentagem:.2%}')

1.33%


### Desafio: e se eu quisesse criar uma tabela apenas com as vendas da Loja Contoso Europe Online e que não tiveram nenhuma devolução. Quero criar essa tabela e saber quantas vendas são.

- Repare que nesse caso são 2 condições, como fazemos isso?

In [5]:
#tudo junto
loja306 = vendas_df[(vendas_df['ID Loja'] == 306) & (vendas_df['Quantidade Devolvida'] == 0)]
loja306.head(3)

#separado
#loja306 = vendas_df[vendas_df['ID Loja'] == 306]
#loja306 = loja306[loja306['Quantidade Devolvida'] == 0]
#loja306.head(3)


Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail do Cliente
98,99,01/01/2017,03/01/2017,2,306,1269,10,26238,8,0,Contoso Carrying Case E312 Blue,Loja Contoso Europe Online,edward17@adventure-works.com
165,166,01/01/2017,02/01/2017,1,306,1107,10,7242,16,0,"Contoso SLR Camera 35"" M358 Orange",Loja Contoso Europe Online,khanhard6r@taobao.com
166,167,01/01/2017,05/01/2017,4,306,242,10,34277,16,0,Contoso Home Theater System 7.1 Channel M1700 ...,Loja Contoso Europe Online,marshall24@adventure-works.com
