In [1]:
import pandas as pd
from datetime import time 

In [2]:
df = pd.read_csv("supermarket_sales.csv")

### Criando abaixo alguns exemplos práticos de busca de dados usando GroupBy e outros tipos de filtro

In [3]:
#fazendo um filtro simples de quanto foi gasto em cada cidade
df.groupby('City')[['Total']].sum()

Unnamed: 0_level_0,Total
City,Unnamed: 1_level_1
Mandalay,106197.672
Naypyitaw,110568.7065
Yangon,106200.3705


In [44]:
#realizando simples para contar quantas compras foram feitas em cada tipo de categoria 
df.groupby('Payment')[['Payment']].count()

Unnamed: 0_level_0,Payment
Payment,Unnamed: 1_level_1
Cash,344
Credit card,311
Ewallet,345


In [45]:
#quanto cada genero gastou em média
df.groupby('Gender')[['Total']].mean()

Unnamed: 0_level_0,Total
Gender,Unnamed: 1_level_1
Female,335.095659
Male,310.789226


In [46]:
#quanto de cada genero existe nas cidades
df.groupby(['City','Gender']) [['Gender']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Gender
City,Gender,Unnamed: 2_level_1
Mandalay,Female,162
Mandalay,Male,170
Naypyitaw,Female,178
Naypyitaw,Male,150
Yangon,Female,161
Yangon,Male,179


In [47]:
#Custo médio de um produto em cada categoria
df.groupby('Product line')[['Unit price']].mean()

Unnamed: 0_level_0,Unit price
Product line,Unnamed: 1_level_1
Electronic accessories,53.551588
Fashion accessories,57.153652
Food and beverages,56.008851
Health and beauty,54.854474
Home and lifestyle,55.316937
Sports and travel,56.993253


In [4]:
#Quantos produtos no geral foram vendidos após as 20:00 horas
df[ df['Time'] >= '20:00'] [['Quantity']].sum()

Quantity    402
dtype: int64

In [5]:
#exemplos abaixo de conversão da coluna time para tipo time no Python com pandas 
df['Time'] = pd.to_datetime(df['Time'], format='%H:%M').dt.time

In [6]:
#teste do exercicio acima para testar conversão de dados e o resultado
df[ df['Time'] >= time(20)] [['Quantity']].sum()
#type(df['Time'][0])

Quantity    402
dtype: int64

#### Qual foi o gasto médio das pessoas no mês 3  (podendo testar 1 ou 2)

In [7]:
#primeiro converto a coluna Date para datetime a fim de poder trabalhar melhor com ela e criar uma nova coluna que terá só o ano e mês
df['Date'] = pd.to_datetime(df['Date'])

#depois de converter a coluna utilizo ela para criar uma nova coluna com somente o ano e mês para facilitar na comparação do exercício
df['ANO-MES'] = df['Date'].apply(lambda x: "{}".format(x.year)) + df['Date'].apply(lambda x: "-{:02d}".format(x.month))

#Agora sim eu realizo o filtro para buscar qual foi o Lucro Médio das vendas no mês 3
pm_m3 = df[ df['ANO-MES'] == '2019-03' ]['Total'].mean()

print("Lucro médio do mês 3: {:.2f}".format(pm_m3))

Lucro médio do mês 3: 317.26


In [4]:
#Quantas vendas foram realizadas em cada mês presente na tabela toda
df.groupby('ANO-MES')[['ANO-MES']].count()

Unnamed: 0_level_0,ANO-MES
ANO-MES,Unnamed: 1_level_1
2019-01,352
2019-02,303
2019-03,345


In [52]:
#Busque e mostre qual foi o total médio de vendas em cada mês e armazene em uma nova variavel 
df_media_mes = df.groupby('ANO-MES')[['Total']].mean()
df_media_mes

Unnamed: 0_level_0,Total
ANO-MES,Unnamed: 1_level_1
2019-01,330.374625
2019-02,320.85602
2019-03,317.262339


In [41]:
#Qual foi a média de vendas em cada Branch(filial) 

df.groupby('Branch')[['Total']].mean()

Unnamed: 0_level_0,Total
Branch,Unnamed: 1_level_1
A,312.354031
B,319.872506
C,337.099715


In [48]:
#Filtre todos os dados mas somente da City de Yangon e armazene em uma nova variavel
df_yangon = df[ df['City'] == 'Yangon']
df_yangon.head(3)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,522.83,4.761905,26.1415,9.1
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,1/27/2019,20:33,Ewallet,465.76,4.761905,23.288,8.4


In [11]:
#Qual foi o valor mais alto de compra na cidade de Yangon
df_yangon['Total'].max()

1039.29

In [13]:
#Qual foi a média de Rating atribuida pelos consumidores da cidade de Yangon
df[ df['City'] == 'Yangon']['Rating'].mean()


7.027058823529413

In [32]:
df_yangon.head(2)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating,ANO-MES
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,2019-01-05,13:08,Ewallet,522.83,4.761905,26.1415,9.1,2019-01
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,2019-03-03,13:23,Credit card,324.31,4.761905,16.2155,7.4,2019-03


In [12]:
#Qual a média de renda bruta(gross income) dos clientes em todas as cidades onde foram realizadas compras
df.groupby('City')[['gross income']].mean()

Unnamed: 0_level_0,gross income
City,Unnamed: 1_level_1
Mandalay,15.232024
Naypyitaw,16.052367
Yangon,14.874001


In [15]:
#Quantos consumidores são membros e quantos não são de acordo com as compras realizadas

membros = df[ df['Customer type'] == 'Member']['Customer type'].count()
no_mem = df[ df['Customer type'] == 'Normal']['Customer type'].count()

print("Temos {} consumidores membros e {} não membros".format(membros,no_mem))

Temos 501 consumidores membros e 499 não membros


In [None]:
#Qual a quantidade de produtos vendidos em cada cidade
df.groupby(['City','Branch'])[['Quantity']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity
City,Branch,Unnamed: 2_level_1
Mandalay,B,332
Naypyitaw,C,328
Yangon,A,340


In [29]:
#Identifique todas as vendas que ocorreram no dia 03/03/2019, mas só mostre a cidade, total, genero, data e quantidade
df[ df['Date'] == '03/03/2019'][['City','Date','Gender','Quantity','Total']]

Unnamed: 0,City,Date,Gender,Quantity,Total
2,Yangon,2019-03-03,Male,7,340.5255
39,Mandalay,2019-03-03,Male,8,253.008
109,Naypyitaw,2019-03-03,Male,10,860.685
172,Naypyitaw,2019-03-03,Male,8,175.14
176,Yangon,2019-03-03,Male,8,186.228
186,Mandalay,2019-03-03,Female,8,793.716
295,Naypyitaw,2019-03-03,Female,5,272.58
453,Yangon,2019-03-03,Male,1,26.25
461,Mandalay,2019-03-03,Female,10,767.025
590,Naypyitaw,2019-03-03,Male,6,293.139


In [4]:
#filtre todas as vendas que possuem quantidade de produtos maiores ou iguais a 8
df[ df['Quantity'] >= 8 ][['City','Date','Gender','Quantity','Total']]

Unnamed: 0,City,Date,Gender,Quantity,Total
3,Yangon,1/27/2019,Male,8,489.048
7,Naypyitaw,2/24/2019,Female,10,772.380
13,Yangon,2/7/2019,Male,10,453.495
14,Yangon,3/29/2019,Female,10,749.490
25,Yangon,3/22/2019,Female,8,441.756
...,...,...,...,...,...
988,Naypyitaw,3/29/2019,Male,10,864.570
989,Mandalay,1/28/2019,Male,8,633.108
991,Mandalay,1/24/2019,Female,10,804.300
993,Mandalay,2/22/2019,Male,10,183.645


In [15]:
#Crie um filtro que mostre a porcentagem de vendas que foram contabilizadas em cada cidade de acordo com o total

df_citys = df[['City','Quantity','Total']].copy() #criando um novo data frame com algumas colunas do original

#criando percentual total de cada venda em cada cidade de acordo com o total vendido
df_citys['percentual de venda'] = (( df_citys['Total']/df_citys['Total'].sum()) *100)

#somando o percentual obtido de cada venda ma agrupando por cidade
df_citys.groupby('City')[['percentual de venda']].sum()

#df_citys.groupby('City') [['Total']].sum()/100

Unnamed: 0_level_0,percentual de venda
City,Unnamed: 1_level_1
Mandalay,32.881921
Naypyitaw,34.235322
Yangon,32.882757


In [47]:
#realize um filtro que mostre em porcentagem o total de compras realizadas em ambos os sexos
df_gender = df[['Gender','Unit price','Quantity','Total']].copy()

df_gender['percentual de compra'] =  ( df_gender['Total']/df_gender['Total'].sum() )*100 
df_gender.groupby('Gender')[['percentual de compra']].sum()

Unnamed: 0_level_0,percentual de compra
Gender,Unnamed: 1_level_1
Female,51.981489
Male,48.018511


In [54]:
#mostre somente os primeiros 3 registros da massa de dados
df.head(3)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating,ANO-MES
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,2019-01-05,13:08:00,Ewallet,522.83,4.761905,26.1415,9.1,2019-01
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,2019-03-08,10:29:00,Cash,76.4,4.761905,3.82,9.6,2019-03
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,2019-03-03,13:23:00,Credit card,324.31,4.761905,16.2155,7.4,2019-03
