# Explorando o Dataset Supermarket Sales

In [32]:
import pandas as pd  # Importa a biblioteca pandas, que é usada para manipulação e análise de dados.

df_data = pd.read_csv('Datasets/supermarket_sales.csv')  
# Lê o arquivo CSV localizado no caminho 'Datasets/supermarket_sales.csv' e armazena os dados em um DataFrame chamado df_data.

print(df_data)  # Exibe todo o conteúdo do DataFrame df_data no console


      Invoice ID Branch       City Customer type  Gender  \
0    750-67-8428      A     Yangon        Member  Female   
1    226-31-3081      C  Naypyitaw        Normal  Female   
2    631-41-3108      A     Yangon        Normal    Male   
3    123-19-1176      A     Yangon        Member    Male   
4    373-73-7910      A     Yangon        Normal    Male   
..           ...    ...        ...           ...     ...   
995  233-67-5758      C  Naypyitaw        Normal    Male   
996  303-96-2227      B   Mandalay        Normal  Female   
997  727-02-1313      A     Yangon        Member    Male   
998  347-56-2442      A     Yangon        Normal    Male   
999  849-09-3807      A     Yangon        Member  Female   

               Product line  Unit price  Quantity   Tax 5%      Total  \
0         Health and beauty       74.69         7  26.1415   548.9715   
1    Electronic accessories       15.28         5   3.8200    80.2200   
2        Home and lifestyle       46.33         7  16.2155  

### 1. Qual o faturamento total por filial?

In [30]:
# Agrupa os dados por cidade, calcula a soma das colunas 'Total' e 'gross income' para cada cidade,
# e organiza o resultado em ordem alfabética pelo nome da cidade.
(df_data.groupby('City')[['Total', 'gross income']].sum()).sort_values('City')


Unnamed: 0_level_0,Total,gross income
City,Unnamed: 1_level_1,Unnamed: 2_level_1
Mandalay,106197.672,5057.032
Naypyitaw,110568.7065,5265.1765
Yangon,106200.3705,5057.1605


### 2. Qual o percentual de participação na receita de cada tipo de produto?

In [12]:
# Calcula a participação percentual do total de vendas para cada linha de produto, dividindo o total de vendas por produto
# pelo total geral de vendas, ordenando em ordem decrescente e multiplicando por 100 para obter a porcentagem.
(df_data.groupby('Product line')['Total'].sum() / df_data.groupby('Product line')['Total'].sum().sum()).sort_values(ascending=False) * 100


Product line
Food and beverages        17.384094
Sports and travel         17.067648
Electronic accessories    16.824497
Fashion accessories       16.814702
Home and lifestyle        16.677232
Health and beauty         15.231828
Name: Total, dtype: float64

### 3. Como está distribuído o tipo de produto consumido por gênero? 

In [23]:
# Agrupa os dados por linha de produto e gênero, somando os totais de vendas para cada combinação. Em seguida, 
# reorganiza os dados em uma tabela dinâmica onde as linhas representam as linhas de produto e as colunas representam os gêneros.
df_data.groupby(['Product line', 'Gender'])[['Total']].sum().pivot_table(index= 'Product line', columns='Gender')


Unnamed: 0_level_0,Total,Total
Gender,Female,Male
Product line,Unnamed: 1_level_2,Unnamed: 2_level_2
Electronic accessories,27102.0225,27235.509
Fashion accessories,30437.4,23868.495
Food and beverages,33170.9175,22973.9265
Health and beauty,18560.9865,30632.7525
Home and lifestyle,30036.8775,23825.0355
Sports and travel,28574.721,26548.1055


### 4. Qual foi o faturamento por mês?

In [26]:
# Converte a coluna 'Date' para o tipo datetime, facilitando a manipulação de datas.
df_data['Date'] = pd.to_datetime(df_data['Date'])

# Cria uma nova coluna 'Month' extraindo o mês de cada data na coluna 'Date'.
df_data['Month'] = df_data['Date'].apply(lambda x: x.month)

# Cria uma nova coluna 'Year' extraindo o ano de cada data na coluna 'Date'.
df_data['Year'] = df_data['Date'].apply(lambda x: x.year)

# Agrupa os dados por mês ('Month') e soma os valores da coluna 'Total' para cada mês.
df_data.groupby(['Month'])['Total'].sum()


Month
1    116291.868
2     97219.374
3    109455.507
Name: Total, dtype: float64

### 5. Qual foi a média de avalização por cada filial em janeiro de 2019?

In [31]:
# Filtra o DataFrame para selecionar apenas as linhas do ano de 2019 e do mês de janeiro (mês 1),
# e, em seguida, calcula a média dos valores na coluna 'Rating' para esse período específico.
df_data[(df_data['Year'] == 2019) & (df_data['Month'] == 1)]['Rating'].mean()


np.float64(7.017613636363635)

### 6. Como se distribui o gasto por tipo de consumidor em cada filial? 

In [28]:
# Agrupa os dados por 'Customer type' (tipo de cliente) e 'City' (cidade),
# depois soma os valores na coluna 'Total' para cada combinação de tipo de cliente e cidade.
df_data.groupby(['Customer type', 'City'])['Total'].sum()


Customer type  City     
Member         Mandalay     53704.6860
               Naypyitaw    56881.2825
               Yangon       53637.4755
Normal         Mandalay     52492.9860
               Naypyitaw    53687.4240
               Yangon       52562.8950
Name: Total, dtype: float64