# Filtrando informações nos dataframes


## Resumo

Um dos grandes potenciais do pandas é para tratar condições.

E a forma com que analisamos condições no dataframe é diferente do que já fizemos até agora no curso, vamos ver como funciona.

### Criando nossos dataframes

In [None]:
#importando biblioteca pandas
import pandas as pd
#importando biblioteca para ler characteres diferentes 
import chardet

#importando biblioteca para criação de gráficos e visualizações de dados
import matplotlib.pyplot as plt


In [None]:
with open("Contoso - Cadastro Produtos.csv", "rb") as f:
    result = chardet.detect(f.read(100000))  # Analisa parte do arquivo
    encoding_detected = result['encoding']

print(f"Codificação detectada: {encoding_detected}")

# Agora, tentar abrir o arquivo com a codificação correta
cadastro = pd.read_csv("Contoso - Cadastro Produtos.csv",sep=';', encoding=encoding_detected)
cadastro

- Preparando as bases de dados

In [5]:

#às vezes precisaremos mudar o encoding. Possiveis valores para testar:
#encoding='latin1', encoding='ISO-8859-1', encoding='utf-8', encoding='cp1252'
#lendo cada arquivo csv da pasta
vendas_df = pd.read_csv('Contoso - Vendas - 2017.csv', sep=';')
produtos_df = pd.read_csv("Contoso - Cadastro Produtos.csv",sep=';', encoding=encoding_detected)
lojas_df = pd.read_csv('Contoso - Lojas.csv',sep=';', encoding=encoding_detected)
cadastro = pd.read_csv("Contoso - Cadastro Produtos.csv",sep=';', encoding=encoding_detected)
clientes_df = pd.read_csv('Contoso - Clientes.csv',sep=';', encoding=encoding_detected)

#usaremos o display para ver todos os dataframes
#display(vendas_df)


In [None]:
#usaremos o display para ver todos os dataframes
display(vendas_df)
display(produtos_df)
display(lojas_df)
display(clientes_df)

### Vamos tirar as colunas inúteis do clientes_df ou pegar apenas as colunas que quisermos

In [None]:
#apagando colunas inuteis no df de cliente com .drop(), passando o eixo 1 que corresponde as colunas 
clientes_df = clientes_df.drop(['Unnamed: 7','Unnamed: 8','Unnamed: 9','Unnamed: 10'], axis=1)
clientes_df 

In [None]:
#selecionando colunas 
clientes_df = clientes_df[['ÿID Cliente','E-mail' ]]

#selecionando colunas no df de produtos
produtos_df = produtos_df[['ID Produto', 'ÿNome da Marca']]

#selecionando colunas no df lojas
lojas_df  = lojas_df[['ÿID Loja', 'Nome da Loja']]

#printando um df com display
display(produtos_df)

In [None]:

#renomeandocoluna ÿID Loja lojas_df
lojas_df = lojas_df.rename(columns={'ÿID Loja': 'ID Loja'})
lojas_df

In [None]:
#renomeando coluna ÿID Cliente no clientes_df
clientes_df = clientes_df.rename(columns={'ÿID Cliente' : 'ID Cliente',
                                          'E-mail': 'E-mail do Cliente'})
clientes_df

In [None]:
#juntando os dataframes- passando o novo dataframe que recebe o antigo.merge(df que quer juntar, on='coluna que quer juntar')
#on='coluna que quer juntar' = nome da coluna que faz referencia as duas tabelas
vendas_df = vendas_df.merge(produtos_df, on='ID Produto')
vendas_df = vendas_df.merge(lojas_df, on='ID Loja')
#merge e mudando o nome da coluna 
vendas_df = vendas_df.merge(clientes_df, on='ID Cliente').rename(columns={'E-mail do Cliente_y': 'E-mail do Cliente'})

#printando o novo df de vendas que contem novas colunas
display(vendas_df)


### Primeiro, vamos aplicar uma função normalmente. Qual o % das vendas que foi devolvido?

- Para isso vamos somar as quantidades nas colunas correspondentes. Lembrando, o % vai ser: Total Devolvido / Total Vendido.

In [25]:
qtde_vendida = vendas_df['Quantidade Vendida'].sum()
#qtde_vendida
qtde_devolvida = vendas_df['Quantidade Devolvida'].sum()

#printando o percentual da divisão  e descobrindo a taxa de devolução global= todas as lojas
print('A taxa de devolução equivale a: {:.2%}'.format(qtde_devolvida / qtde_vendida))

A taxa de devolução equivale a: 1.17%


### Agora, se quisermos fazer a mesma análise apenas para 1 loja. Queremos filtrar apenas os itens da Loja Contoso Europe Online e saber o % de devolução dessa loja.

- Para isso, vamos precisar filtrar. A forma de filtrar nos dataframes é uma "simples" comparação

In [22]:
#criando df só com as informações necessárias
#Criando variavel para loja e filtrando dentro do df a tabela e a coluna ID loja é igual a 306
vendas_loja_europe = vendas_df[vendas_df['ID Loja']== 306]
#display(vendas_loja_europe)

#aplicando filtro para colunas 'Quantidade Vendida' e 'Quantidade Devolvida'
qtde_vendida = vendas_loja_europe['Quantidade Vendida'].sum()

qtde_devolvida = vendas_loja_europe['Quantidade Devolvida'].sum()

print('A taxa de devolução equivale a : {:.2%}'.format(qtde_devolvida / qtde_vendida))

A taxa de devolução é: 1.33%


### Vamos fazer em 2 passos para entender certinho o que está acontecendo.

In [27]:
#vendas_loja_europe = vendas_df[vendas_df['ID Loja']== 306]
#A variavel criada é uma comparação que cria uma LISTA de valores booleans falsos e verdadeiros
loja306 = vendas_df['ID Loja']== 306
#display(loja_306)
#acessando a lista loja306
vendas_loja_europe = vendas_df[loja306]
display(vendas_loja_europe)



Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,ÿNome da Marca_x,Nome da Loja_x,E-mail do Cliente_x,ÿNome da Marca_y,Nome da Loja_y,E-mail do Cliente
98,99,01/01/2017,03/01/2017,2,306,1269,10,26238,8,0,Contoso,Loja Contoso Europe Online,edward17@adventure-works.com,Contoso,Loja Contoso Europe Online,edward17@adventure-works.com
165,166,01/01/2017,02/01/2017,1,306,1107,10,7242,16,0,Contoso,Loja Contoso Europe Online,khanhard6r@taobao.com,Contoso,Loja Contoso Europe Online,khanhard6r@taobao.com
166,167,01/01/2017,05/01/2017,4,306,242,10,34277,16,0,Contoso,Loja Contoso Europe Online,marshall24@adventure-works.com,Contoso,Loja Contoso Europe Online,marshall24@adventure-works.com
186,187,01/01/2017,06/01/2017,5,306,1479,10,23132,8,0,The Phone Company,Loja Contoso Europe Online,cynthia4@adventure-works.com,The Phone Company,Loja Contoso Europe Online,cynthia4@adventure-works.com
198,199,01/01/2017,03/01/2017,2,306,819,10,5363,4,0,Contoso,Loja Contoso Europe Online,svirgoea4@blogtalkradio.com,Contoso,Loja Contoso Europe Online,svirgoea4@blogtalkradio.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
980579,980580,31/12/2017,06/01/2018,6,306,771,10,6539,8,0,Contoso,Loja Contoso Europe Online,hgauntleyf0@smh.com.au,Contoso,Loja Contoso Europe Online,hgauntleyf0@smh.com.au
980580,980581,31/12/2017,01/01/2018,1,306,591,10,32061,8,0,Contoso,Loja Contoso Europe Online,gina18@adventure-works.com,Contoso,Loja Contoso Europe Online,gina18@adventure-works.com
980581,980582,31/12/2017,31/12/2017,0,306,1388,10,22838,8,0,Contoso,Loja Contoso Europe Online,alexa14@adventure-works.com,Contoso,Loja Contoso Europe Online,alexa14@adventure-works.com
980582,980583,31/12/2017,03/01/2018,3,306,1354,10,33450,8,0,Contoso,Loja Contoso Europe Online,alexis3@adventure-works.com,Contoso,Loja Contoso Europe Online,alexis3@adventure-works.com


### Desafio: e se eu quisesse criar uma tabela apenas com as vendas da Loja Contoso Europe Online e que não tiveram nenhuma devolução. Quero criar essa tabela e saber quantas vendas são.

- Repare que nesse caso são 2 condições, como fazemos isso?

In [32]:
#tudo junto
loja_europe_0 = vendas_df[(vendas_df['ID Loja']== 306) & (vendas_df['Quantidade Devolvida'] == 0)]
#display(loja_europe_0)
#criando comparação separado
loja306 = vendas_df['ID Loja'] == 306
qtde_devolvida_0 = vendas_df['Quantidade Devolvida'] == 0

#acessando as listas comparativas criadas individualmente e lendo elas no dataframe 
loja_europe_qtde_0 = vendas_df[loja306 & qtde_devolvida_0]
display(loja_europe_qtde_0)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,ÿNome da Marca_x,Nome da Loja_x,E-mail do Cliente_x,ÿNome da Marca_y,Nome da Loja_y,E-mail do Cliente
98,99,01/01/2017,03/01/2017,2,306,1269,10,26238,8,0,Contoso,Loja Contoso Europe Online,edward17@adventure-works.com,Contoso,Loja Contoso Europe Online,edward17@adventure-works.com
165,166,01/01/2017,02/01/2017,1,306,1107,10,7242,16,0,Contoso,Loja Contoso Europe Online,khanhard6r@taobao.com,Contoso,Loja Contoso Europe Online,khanhard6r@taobao.com
166,167,01/01/2017,05/01/2017,4,306,242,10,34277,16,0,Contoso,Loja Contoso Europe Online,marshall24@adventure-works.com,Contoso,Loja Contoso Europe Online,marshall24@adventure-works.com
186,187,01/01/2017,06/01/2017,5,306,1479,10,23132,8,0,The Phone Company,Loja Contoso Europe Online,cynthia4@adventure-works.com,The Phone Company,Loja Contoso Europe Online,cynthia4@adventure-works.com
198,199,01/01/2017,03/01/2017,2,306,819,10,5363,4,0,Contoso,Loja Contoso Europe Online,svirgoea4@blogtalkradio.com,Contoso,Loja Contoso Europe Online,svirgoea4@blogtalkradio.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
980579,980580,31/12/2017,06/01/2018,6,306,771,10,6539,8,0,Contoso,Loja Contoso Europe Online,hgauntleyf0@smh.com.au,Contoso,Loja Contoso Europe Online,hgauntleyf0@smh.com.au
980580,980581,31/12/2017,01/01/2018,1,306,591,10,32061,8,0,Contoso,Loja Contoso Europe Online,gina18@adventure-works.com,Contoso,Loja Contoso Europe Online,gina18@adventure-works.com
980581,980582,31/12/2017,31/12/2017,0,306,1388,10,22838,8,0,Contoso,Loja Contoso Europe Online,alexa14@adventure-works.com,Contoso,Loja Contoso Europe Online,alexa14@adventure-works.com
980582,980583,31/12/2017,03/01/2018,3,306,1354,10,33450,8,0,Contoso,Loja Contoso Europe Online,alexis3@adventure-works.com,Contoso,Loja Contoso Europe Online,alexis3@adventure-works.com
