In [1]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [2]:
vendas = pd.read_parquet("data/puc_vendas.parquet")
print(f"Shape: {vendas.shape}")
vendas.head()

Shape: (9271036, 20)


Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO
0,782344,55750557.0,Pessoa Física,F,1980-11-18,10085918,VONAU FLASH 4MG 10CP,MEDICAMENTOS,REFERENCIA,764,RS,80400,PORTO ALEGRE,2024-04-11 17:13:25,1.0,,47.03,12.7,47.03,34.33
1,759507,55750557.0,Pessoa Física,F,1980-11-18,10106687,APTANUTRI PREMIUM 3,NUTRICAO,NUTRICAO LEITES,764,RS,80400,PORTO ALEGRE,2024-02-19 15:47:17,1.0,,73.99,14.8,73.99,59.19
2,742082,55750557.0,Pessoa Física,F,1980-11-18,10037705,TORRADA ISABELA 142G TRADICIONAL,CONVENIENCIA,CONVENIENCIA PERECIVEIS,764,RS,80400,PORTO ALEGRE,2024-01-05 19:48:52,1.0,,5.99,0.0,5.99,5.99
3,747733,55750557.0,Pessoa Física,F,1980-11-18,10004419,OZEMPIC 1MG 4AGULHAS NOVOFINE,MEDICAMENTOS,PBM ESPECIAL,764,RS,80400,PORTO ALEGRE,2024-01-20 14:41:56,1.0,,1220.52,254.37,1220.52,966.15
4,748216,55750557.0,Pessoa Física,F,1980-11-18,10030435,NOVALGINA 1G 20CP OPELLA,MEDICAMENTOS,REFERENCIA ONEROSOS,764,RS,80400,PORTO ALEGRE,2024-01-22 16:48:36,1.0,100271131.0,41.51,5.52,41.51,35.99


## Null Value Exploration

In [3]:
vendas.isnull().sum()

COD_CUPOM                          0
COD_CLIENTE                      178
CLIENTE_FISICO_JURIDICO        10051
SEXO_CLIENTE                  103541
DTNASCIMENTO_CLIENTE         1078012
COD_SKU                            0
SKU                                0
CATEGORIA_SKU                      0
SUBCATEGORIA_SKU                   0
COD_LOJA                           0
UF_CIDADE                          0
COD_CIDADE                         0
NOME_CIDADE                        0
DATA_CUPOM                         0
UNIDADES                           0
IDENTIFICADOR_PROMOCIONAL    6735816
PRECO_REGULAR                      0
TOTAL_DESCONTO                    73
TOTAL_BRUTO                        0
TOTAL_LIQUIDO                      0
dtype: int64

In [4]:
vendas[vendas.COD_CLIENTE.isnull()].sort_values(by='COD_CUPOM').head(11)

Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO
4731659,15949,,,,,10019572,DOZEMAST SL 1000MCG,MEDICAMENTOS,REFERENCIA ONEROSOS,130,RS,80400,PORTO ALEGRE,2024-06-12 16:14:20.129,1.0,,102.5,23.58,102.5,78.92
2662362,15949,,,,,94266,NEUTROFER 150MG 30CP,MEDICAMENTOS,REFERENCIA ONEROSOS,130,RS,80400,PORTO ALEGRE,2024-06-12 16:14:20.129,1.0,,34.67,7.97,34.67,26.7
432428,26166,,,,,100003272,HIDRALYTE 500ML LARA,MEDICAMENTOS,SIMILAR,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:23:15.175,1.0,,16.5,0.0,16.5,16.5
668722,26166,,,,,100000921,HIDRALYTE 500ML AGUA,MEDICAMENTOS,SIMILAR,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:23:15.175,1.0,,16.5,0.0,16.5,16.5
1592351,26166,,,,,10004405,PARACETAMOL 750MG 20CP REV GEN PRAT,MEDICAMENTOS,GENERICOS OTC/MIP,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:23:15.175,1.0,100327108.0,16.58,8.29,16.58,8.29
5703497,26166,,,,,10036576,ESC CAB SECADORA BRITANIA SOFT BEC07R BI,PERFUMARIA,PERFUMARIA,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:23:15.175,1.0,100341357.0,169.9,10.0,169.9,159.9
8517361,26166,,,,,10025042,HIDRALI 500ML UVA RO,MEDICAMENTOS,SIMILAR,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:23:15.175,1.0,,16.5,0.0,16.5,16.5
4731636,26176,,,,,10104602,ENALAPRIL 10MG 30CP GEN CIMED,MEDICAMENTOS,GENERICOS,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:57:34.417,2.0,100337102.0,20.16,26.94,40.32,13.38
8517351,26176,,,,,10104653,HIDROCLOROTIAZIDA 25,MEDICAMENTOS,GENERICOS,1400,RS,80400,PORTO ALEGRE,2024-06-12 15:57:34.417,2.0,,6.21,0.0,12.42,12.42
8517369,26186,,,,,10004578,PRESERV PRUDENCE LV8 PG6,PERFUMARIA,PERFUMARIA,1400,RS,80400,PORTO ALEGRE,2024-06-12 16:41:19.694,1.0,,15.99,0.0,15.99,15.99


In [5]:
vendas[vendas.COD_CUPOM == 15949].sort_values(by='DATA_CUPOM').reset_index(drop=True)

Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO
0,15949,40770136.0,Pessoa Física,F,1997-06-17,10036714,LAVA ROUPAS TIXAN YPE LIQ 900ML PRIMAVER,CONVENIENCIA,CONVENIENCIA BAZAR,249,RS,80400,PORTO ALEGRE,2024-02-07 12:29:54.000,1.0,100287211.0,12.9,4.0,12.9,8.9
1,15949,40770136.0,Pessoa Física,F,1997-06-17,10020374,ENERGETICO MONSTER MANGO LOCO 473ML,CONVENIENCIA,BEBIDAS,249,RS,80400,PORTO ALEGRE,2024-02-07 12:29:54.000,3.0,100287234.0,10.0,6.3,30.0,23.7
2,15949,29152878.0,Pessoa Física,M,1985-07-19,93316,LORATADINA 10MG 12CP LORATAMED CIMED,MEDICAMENTOS,SIMILAR,1078,RS,80400,PORTO ALEGRE,2024-02-24 22:55:48.000,1.0,,13.9,0.0,13.9,13.9
3,15949,29152878.0,Pessoa Física,M,1985-07-19,11864,DORFLEX 300+35+50MG 10CP OPELLA AV*,MEDICAMENTOS,REFERENCIA AVULSO,1078,RS,80400,PORTO ALEGRE,2024-02-24 22:55:48.000,1.0,,7.57,0.0,7.57,7.57
4,15949,0.0,Pessoa Física,M,,100017901,HEPATOVIT ABACAXI 10ML VITAMEDIC AV*,MEDICAMENTOS,SIMILAR AVULSO,190,RS,80400,PORTO ALEGRE,2024-03-09 10:18:51.000,1.0,,1.59,0.0,1.59,1.59
5,15949,0.0,Pessoa Física,M,,100012979,ESTOMAZIL 5G ENV EFERV GUARANA HYPERA,MEDICAMENTOS,REFERENCIA AVULSO,190,RS,80400,PORTO ALEGRE,2024-03-09 10:18:51.000,1.0,,3.1,0.0,3.1,3.1
6,15949,0.0,Pessoa Física,M,,10095671,ESTOMAZIL 5G ENV EFERV LARANJA HYPERA,MEDICAMENTOS,REFERENCIA AVULSO,190,RS,80400,PORTO ALEGRE,2024-03-09 10:18:51.000,1.0,,3.1,0.0,3.1,3.1
7,15949,46394621.0,Pessoa Física,F,1973-07-12,1706,"NEOVLAR 0,25+0,05MG 21DRG GEN",MEDICAMENTOS,ANTICONCEPCIONAIS ONEROSOS,496,RS,80400,PORTO ALEGRE,2024-03-12 11:08:03.000,1.0,,9.01,0.0,9.01,9.01
8,15949,26224238.0,Pessoa Física,M,1962-10-02,10037576,MEL DE ABELHA FLORA NECTAR 280G,MEDICAMENTOS,LIBERADOS,1075,RS,80400,PORTO ALEGRE,2024-03-13 20:22:07.000,1.0,,14.9,0.0,14.9,14.9
9,15949,26224238.0,Pessoa Física,M,1962-10-02,11154,"SORO FISIOLOGICO 0,9",MEDICAMENTOS,HOSPITALARES,1075,RS,80400,PORTO ALEGRE,2024-03-13 20:22:07.000,1.0,,17.99,0.0,17.99,17.99


**We have rows were a lot of information about the user is missing. Sometimes, COD_CLIENTE, CLIENTE_FISICO_JURIDICO, SEXO_CLIENTE and DTNASCIMENTO_CLIENTE are all missing (indexes 20 & 21), which would result in a very difficult client inference. In the cases where some variables are given, the data inputation could be much much easier. A table with the client's data should be created. We could just drop them all if data inputation is to hard.**

## Pricing Exploration

In [6]:
vendas[
    (vendas.TOTAL_DESCONTO.isnull()) &
    (vendas.IDENTIFICADOR_PROMOCIONAL.isnull()) &
    (vendas.TOTAL_LIQUIDO != vendas.TOTAL_BRUTO)
].reset_index(drop=True)

Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO


In [7]:
vendas[
    ((vendas.PRECO_REGULAR * vendas.UNIDADES) != vendas.TOTAL_BRUTO) 
]

Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO


**No error in prices. Not having a promotion code means the product is not in a selling campaing, which not always means it won't have any discount. The point is there aren't any rows where no discount was given, the product was in a promotion and yet the price paid was different than the full price. This is good, we don't have any price problem.**

## Is COD_CUPOM a primary key for the sales? 

In [8]:
unique_counts = vendas.groupby('COD_CUPOM').agg({
    'COD_CLIENTE': 'nunique',
    'DATA_CUPOM': 'nunique',
    'COD_LOJA': 'nunique'
})

# Define the bins for histogram
max_value = unique_counts.max().max()
bins = np.arange(1, max_value + 2)

# Calculate histograms
freq_clientes, _ = np.histogram(unique_counts['COD_CLIENTE'], bins=bins)
freq_datas, _ = np.histogram(unique_counts['DATA_CUPOM'], bins=bins)
freq_lojas, _ = np.histogram(unique_counts['COD_LOJA'], bins=bins)

# Create subplots
fig = make_subplots(rows=3, cols=1, shared_xaxes=True,
                    subplot_titles=("Número de Clientes e Datas por Compra",
                                    "Número de Clientes e Lojas por Compra",
                                    "Número de Datas e Lojas por Compra"))

# Plot Número de Clientes por Compra vs. Número de Datas por Compra
fig.add_trace(go.Bar(x=bins[:-1], y=freq_clientes, name='Número de Clientes', marker_color='blue'), row=1, col=1)
fig.add_trace(go.Bar(x=bins[:-1], y=freq_datas, name='Número de Datas', marker_color='orange'), row=1, col=1)

# Plot Número de Clientes por Compra vs. Número de Lojas por Compra
fig.add_trace(go.Bar(x=bins[:-1], y=freq_clientes, name='Número de Clientes', marker_color='blue'), row=2, col=1)
fig.add_trace(go.Bar(x=bins[:-1], y=freq_lojas, name='Número de Lojas', marker_color='green'), row=2, col=1)

# Plot Número de Datas por Compra vs. Número de Lojas por Compra
fig.add_trace(go.Bar(x=bins[:-1], y=freq_datas, name='Número de Datas', marker_color='orange'), row=3, col=1)
fig.add_trace(go.Bar(x=bins[:-1], y=freq_lojas, name='Número de Lojas', marker_color='green'), row=3, col=1)

# Update layout
fig.update_layout(height=900, width=800, title_text="Distribuição do Número por Compra", showlegend=True)

# Show the plot
fig.show()

**The presented charts reveal that there are purchases where the number of associated customers, dates, and stores are not consistent with each other. For example, some purchases have more than one customer, but the number of customers does not match the number of dates or the number of stores. This suggests that multiple transactions or records are being aggregated under the same purchase code (COD_CUPOM), but with significant variations in the associated attributes (customers, dates, and stores). This misalignment may indicate data integrity issues, such as errors in the way transactions are recorded or inconsistencies in how the data was aggregated. If these data are used for analyses, such as evaluating consumer behavior or sales efficiency in different stores, these inconsistencies may lead to inaccurate or misleading conclusions, compromising the quality of decisions based on these data. Therefore, it is essential to investigate and correct these discrepancies to ensure the accuracy and reliability of subsequent analyses.**

## What's the distribution of purchases per client?

In [9]:
compras_por_cliente = vendas.groupby('COD_CLIENTE')['COD_CUPOM'].nunique()

# Define the bins and labels
bins = [1, 2, 5, 10, 20, 50, 100, compras_por_cliente.max() + 1]
labels = ['1 compra', '2-4 compras', '5-10 compras', '10-20 compras', '20-50 compras', '50-100 compras', 'Mais de 100']

# Bin the data
compras_por_cliente_binned = pd.cut(compras_por_cliente, bins=bins, labels=labels, right=False)

# Create a DataFrame for plotting
df_plot = compras_por_cliente_binned.value_counts().reset_index()
df_plot.columns = ['Número de Compras por Cliente', 'Frequência']
df_plot.sort_values('Número de Compras por Cliente', inplace=True)

# Plot using Plotly Express
fig = px.bar(df_plot, x='Número de Compras por Cliente', y='Frequência', 
             color='Número de Compras por Cliente', 
             title='Distribuição do Número de Compras por Código do Cliente',
             labels={'Número de Compras por Cliente': 'Número de Compras por Cliente', 'Frequência': 'Frequência'},
             color_discrete_sequence=px.colors.sequential.Viridis)

# Customize layout
fig.update_layout(xaxis_title='Número de Compras por Cliente', 
                  yaxis_title='Frequência',
                  xaxis_tickangle=-45,
                  width=800, height=600)

fig.show()

In [10]:
vendas.groupby('COD_CLIENTE')['COD_CUPOM'].nunique().agg(['min', 'mean', 'median', 'max'])

min            1.000000
mean           4.971531
median         2.000000
max       484719.000000
Name: COD_CUPOM, dtype: float64

**The vast majority of clients has up to 4 purchases. There's one client who appeared in more than 400.000 distinct COD_CUPOMs. Wtf?**. 

In [11]:
compras_por_cliente = vendas.groupby('COD_CLIENTE')['COD_CUPOM'].nunique()
compras_por_cliente.head(1)

COD_CLIENTE
0.0    484719
Name: COD_CUPOM, dtype: int64

**Client with COD_CLIENTE 0.0 is the one. Ask them if this is a mistake, a test or something else. It obviously ain't a legit client.**

## What's the distribution between Pessoa Fisica and Juridica?

In [12]:
# Copy the original dataframe and fill NaN values
vendas_temp = vendas.copy()
vendas_temp['CLIENTE_FISICO_JURIDICO'] = vendas_temp['CLIENTE_FISICO_JURIDICO'].fillna('unknown')

# Group by 'CLIENTE_FISICO_JURIDICO' and count unique 'COD_CUPOM'
distribuicao_de_clientes = vendas_temp.groupby('CLIENTE_FISICO_JURIDICO')['COD_CUPOM'].nunique().reset_index()

# Rename columns for clarity
distribuicao_de_clientes.columns = ['Tipo de Cliente', 'Número de Compras Únicas']

# Plot using Plotly Express with counts on top of each bar
fig = px.bar(distribuicao_de_clientes, x='Tipo de Cliente', y='Número de Compras Únicas',
             title='Distribuição de Clientes por Tipo',
             labels={'Tipo de Cliente': 'Tipo de Cliente', 'Número de Compras Únicas': 'Número de Compras Únicas'},
             color='Tipo de Cliente',
             color_discrete_sequence=px.colors.qualitative.Set1,
             text='Número de Compras Únicas')

# Customize layout
fig.update_layout(xaxis_title='Tipo de Cliente', yaxis_title='Número de Compras Únicas', width=800, height=600)

# Display the text on top of each bar
fig.update_traces(textposition='outside')

# Show the plot
fig.show()


**Vast majority of purchases were made by Pessoa Fisica**.

## What's the distribution between Male and Female in Pessoa Fisica clients

In [13]:
# Calculate the gender count by dropping duplicates and counting unique values
gender_count = vendas[["COD_CLIENTE", "SEXO_CLIENTE"]].drop_duplicates()["SEXO_CLIENTE"].value_counts().reset_index()

# Rename columns for clarity
gender_count.columns = ['Sexo do Cliente', 'Contagem']

# Plot using Plotly Express with counts on top of each bar
fig = px.bar(gender_count, x='Sexo do Cliente', y='Contagem',
             title='Distribuição de Clientes por Gênero',
             labels={'Sexo do Cliente': 'Gênero', 'Contagem': 'Número de Clientes'},
             color='Sexo do Cliente',
             color_discrete_sequence=px.colors.qualitative.Set2,
             text='Contagem')

# Customize layout
fig.update_layout(xaxis_title='Gênero', yaxis_title='Número de Clientes', width=800, height=600)

# Display the text on top of each bar
fig.update_traces(textposition='outside')

# Show the plot
fig.show()

**Basically equal distribution between male and female Pessoa Fisica**.

## How is the client's age distribution? 

In [14]:
# Prepare the data
clientes_data = vendas[['COD_CLIENTE', 'DTNASCIMENTO_CLIENTE']].drop_duplicates()
clientes_data['DTNASCIMENTO_CLIENTE'] = pd.to_datetime(clientes_data['DTNASCIMENTO_CLIENTE'], errors='coerce')
clientes_data['IDADE'] = (pd.to_datetime('today') - clientes_data['DTNASCIMENTO_CLIENTE']).dt.days // 365

# Define bins and labels
bins = [1, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 100]
labels = ['1-10 anos', '10-15 anos', '15-20 anos', '20-25 anos', '25-30 anos', '30-40 anos', 
          '40-50 anos', '50-60 anos', '60-70 anos', '70-80 anos', '80 ou mais']

# Create age groups
clientes_data['Faixa_Etaria'] = pd.cut(clientes_data['IDADE'], bins=bins, labels=labels, right=False)

# Count the number of clients in each age group
faixa_etaria_count = clientes_data['Faixa_Etaria'].value_counts().sort_index().reset_index()
faixa_etaria_count.columns = ['Faixa Etária', 'Número de Clientes']

# Plot using Plotly Express
fig = px.bar(faixa_etaria_count, x='Faixa Etária', y='Número de Clientes',
             title='Distribuição de Clientes por Faixa Etária',
             labels={'Faixa Etária': 'Faixa Etária', 'Número de Clientes': 'Número de Clientes'},
             color='Faixa Etária',
             color_discrete_sequence=px.colors.sequential.Viridis,
             text='Número de Clientes')

# Customize layout
fig.update_layout(xaxis_title='Faixa Etária', yaxis_title='Número de Clientes', width=800, height=600)

# Display the text on top of each bar
fig.update_traces(textposition='outside')

# Show the plot
fig.show()

**Vast majority of clients between 30 and 60 years. A lot of clients between 0 and 10 years. Ask them, check to see if is an error.**

## How is the distribution of the categories of the purchases

In [15]:
# Calculate the sorted counts of purchases by product category
sorted_counts = vendas['CATEGORIA_SKU'].value_counts().sort_values(ascending=False).reset_index()

# Rename columns for clarity
sorted_counts.columns = ['Categoria de Produto', 'Número de Compras']

# Plot using Plotly Express with counts on top of each bar
fig = px.bar(sorted_counts, x='Categoria de Produto', y='Número de Compras',
             title='Distribuição de Compras por Categoria de Produto',
             labels={'Categoria de Produto': 'Categoria de Produto', 'Número de Compras': 'Número de Compras'},
             color='Categoria de Produto',
             color_discrete_sequence=px.colors.sequential.Viridis,
             text='Número de Compras')

# Customize layout
fig.update_layout(xaxis_title='Categoria de Produto', yaxis_title='Número de Compras', width=1000, height=600)

# Display the text on top of each bar
fig.update_traces(textposition='outside')

# Show the plot
fig.show()

In [16]:
# Calculate the sorted counts of purchases by product subcategory
sorted_counts = vendas["SUBCATEGORIA_SKU"].value_counts().sort_values(ascending=False).reset_index()

# Rename columns for clarity
sorted_counts.columns = ['Subcategoria de Produto', 'Número de Compras']

# Plot using Plotly Express without counts on top of each bar
fig = px.bar(sorted_counts, x='Subcategoria de Produto', y='Número de Compras',
             title='Distribuição de Compras por Subcategoria de Produto',
             labels={'Subcategoria de Produto': 'Subcategoria de Produto', 'Número de Compras': 'Número de Compras'},
             color='Subcategoria de Produto',
             color_discrete_sequence=px.colors.sequential.Viridis)

# Customize layout
fig.update_layout(xaxis_title='Subcategoria de Produto', yaxis_title='Número de Compras', width=2000, height=1000)

# Rotate x-axis labels for better readability
fig.update_xaxes(tickangle=90)

# Show the plot
fig.show()

**Self explanatory**

## How many sales each store has?

In [17]:
vendas.head()

Unnamed: 0,COD_CUPOM,COD_CLIENTE,CLIENTE_FISICO_JURIDICO,SEXO_CLIENTE,DTNASCIMENTO_CLIENTE,COD_SKU,SKU,CATEGORIA_SKU,SUBCATEGORIA_SKU,COD_LOJA,UF_CIDADE,COD_CIDADE,NOME_CIDADE,DATA_CUPOM,UNIDADES,IDENTIFICADOR_PROMOCIONAL,PRECO_REGULAR,TOTAL_DESCONTO,TOTAL_BRUTO,TOTAL_LIQUIDO
0,782344,55750557.0,Pessoa Física,F,1980-11-18,10085918,VONAU FLASH 4MG 10CP,MEDICAMENTOS,REFERENCIA,764,RS,80400,PORTO ALEGRE,2024-04-11 17:13:25,1.0,,47.03,12.7,47.03,34.33
1,759507,55750557.0,Pessoa Física,F,1980-11-18,10106687,APTANUTRI PREMIUM 3,NUTRICAO,NUTRICAO LEITES,764,RS,80400,PORTO ALEGRE,2024-02-19 15:47:17,1.0,,73.99,14.8,73.99,59.19
2,742082,55750557.0,Pessoa Física,F,1980-11-18,10037705,TORRADA ISABELA 142G TRADICIONAL,CONVENIENCIA,CONVENIENCIA PERECIVEIS,764,RS,80400,PORTO ALEGRE,2024-01-05 19:48:52,1.0,,5.99,0.0,5.99,5.99
3,747733,55750557.0,Pessoa Física,F,1980-11-18,10004419,OZEMPIC 1MG 4AGULHAS NOVOFINE,MEDICAMENTOS,PBM ESPECIAL,764,RS,80400,PORTO ALEGRE,2024-01-20 14:41:56,1.0,,1220.52,254.37,1220.52,966.15
4,748216,55750557.0,Pessoa Física,F,1980-11-18,10030435,NOVALGINA 1G 20CP OPELLA,MEDICAMENTOS,REFERENCIA ONEROSOS,764,RS,80400,PORTO ALEGRE,2024-01-22 16:48:36,1.0,100271131.0,41.51,5.52,41.51,35.99


In [18]:
# Calculate the top 5 stores by the number of unique purchase codes
top_stores = vendas.groupby('COD_LOJA')['COD_CUPOM'].nunique().sort_values(ascending=False).head().reset_index()

# Rename columns for clarity
top_stores.columns = ['Código da Loja', 'Número de Compras Únicas']

# Convert store IDs to strings to treat them as categorical data
top_stores['Código da Loja'] = top_stores['Código da Loja'].astype(str)

# Plot using Plotly Express with a discrete color sequence
fig = px.bar(top_stores, x='Código da Loja', y='Número de Compras Únicas',
             title='Top 5 Lojas por Número de Compras Únicas',
             labels={'Código da Loja': 'Código da Loja', 'Número de Compras Únicas': 'Número de Compras Únicas'},
             color='Código da Loja',
             color_discrete_sequence=px.colors.qualitative.Set2)

# Customize layout
fig.update_layout(xaxis_title='Código da Loja', yaxis_title='Número de Compras Únicas', width=800, height=600)

# Show the plot
fig.show()

# How are our rows distributed over time?

In [19]:
# Convert DATA_CUPOM to datetime if not already done
vendas['DATA_CUPOM'] = pd.to_datetime(vendas['DATA_CUPOM'], errors='coerce')

# Create a new column that contains only the date (without time)
vendas['DATA_CUPOM_DATE'] = vendas['DATA_CUPOM'].dt.date

# Group by the new date column and count unique COD_CUPOM values
cupons_over_time = vendas.groupby('DATA_CUPOM_DATE')['COD_CUPOM'].nunique().reset_index()

# Plot using Plotly Express
fig = px.line(cupons_over_time, x='DATA_CUPOM_DATE', y='COD_CUPOM',
              title='Número de Cupons Únicos ao Longo do Tempo (por Data)',
              labels={'DATA_CUPOM_DATE': 'Data', 'COD_CUPOM': 'Número de Cupons Únicos'},
              width=1800, height=600)

# Customize layout
fig.update_layout(xaxis_title='Data', yaxis_title='Número de Cupons Únicos')

# Show the plot
fig.show()

## Proportion of purchases with and without promotion

In [20]:
# Calculate the number of sales with and without promotions
sales_with_promotion = vendas[vendas.IDENTIFICADOR_PROMOCIONAL.notnull()].shape[0]
sales_without_promotion = vendas[vendas.IDENTIFICADOR_PROMOCIONAL.isnull()].shape[0]

# Create a DataFrame for plotting
promotion_data = pd.DataFrame({
    'Tipo de Venda': ['Com Promoção', 'Sem Promoção'],
    'Número de Vendas': [sales_with_promotion, sales_without_promotion]
})

# Plot using Plotly Express
fig = px.bar(promotion_data, x='Tipo de Venda', y='Número de Vendas',
             title='Comparação de Vendas com e sem Promoção',
             labels={'Tipo de Venda': 'Tipo de Venda', 'Número de Vendas': 'Número de Vendas'},
             color='Tipo de Venda',
             color_discrete_sequence=px.colors.qualitative.Set2)

# Customize layout
fig.update_layout(xaxis_title='Tipo de Venda', yaxis_title='Número de Vendas', width=800, height=600)

# Show the plot
fig.show()

## Prices and Discounts Analysis

In [21]:
# Calculate the average sale price
average_sale_price = vendas['TOTAL_LIQUIDO'].mean()
average_discount_price = vendas['TOTAL_DESCONTO'].mean()
average_items_bought = vendas['UNIDADES'].mean()

# Display the result
print(f"Average Sale Price: R${average_sale_price:.2f}")
print(f"Average Discount Price: R${average_discount_price:.2f}")
print(f"Average Number of Items Bought: {average_items_bought:.2f} items")


Average Sale Price: R$27.54
Average Discount Price: R$7.05
Average Number of Items Bought: 1.20 items
