# Desafio Tecnico

## Importação de Bibliotecas

In [73]:
# Imports
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## Pré-processamento e Análise

In [74]:
# Carregar dados
df = pd.read_csv("../data/commerce_dataset.csv", sep=";", decimal=".")
df.head(5)

Unnamed: 0,invoice_id,branch,city,customer_type,gender,product_line,unit_price,quantity,vat,total,dtme,tme,payment_method,cogs,gross_margin_pct,gross_income,rating,time_of_day,day_name,month_name
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,2019-01-05 00:00:00,13:08:00,Ewallet,522.83,4.7619,26.1415,9.1,afternoon,Saturday,January
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,2019-03-08 00:00:00,10:29:00,Cash,76.4,4.7619,3.82,9.6,morning,Friday,March
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,2019-03-03 00:00:00,13:23:00,Credit card,324.31,4.7619,16.2155,7.4,afternoon,Sunday,March
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,2019-01-27 00:00:00,20:33:00,Ewallet,465.76,4.7619,23.288,8.4,evening,Sunday,January
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86.31,7,30.2085,634.3785,2019-02-08 00:00:00,10:37:00,Ewallet,604.17,4.7619,30.2085,5.3,morning,Friday,February


In [75]:
# Vericar se existem valores nulos e duplicados

# Verificar valores nulos
missing_values = df.isnull().sum()

# Verificar valores duplicados
duplicated_values = df.duplicated().sum()

print(f"Valores nulos: {missing_values}\n")
print(f"Valores duplicados: {duplicated_values}")

Valores nulos: invoice_id          0
branch              0
city                0
customer_type       0
gender              0
product_line        0
unit_price          0
quantity            0
vat                 0
total               0
dtme                0
tme                 0
payment_method      0
cogs                0
gross_margin_pct    0
gross_income        0
rating              0
time_of_day         0
day_name            0
month_name          0
dtype: int64

Valores duplicados: 0


In [76]:
# Tratar os dados

# Convertendo as colunas para o tipo de dados correto - datetime64[ns]
df["dtme"] = pd.to_datetime(df["dtme"])
# Criar novas colunas para o mês e o trimestre
df["month"] = df["dtme"].dt.month
df["quarter"] = df["dtme"].dt.quarter

# Verificar se os tipos de dados foram convertidos corretamente
print(df.dtypes)

invoice_id                  object
branch                      object
city                        object
customer_type               object
gender                      object
product_line                object
unit_price                 float64
quantity                     int64
vat                        float64
total                      float64
dtme                datetime64[ns]
tme                         object
payment_method              object
cogs                       float64
gross_margin_pct           float64
gross_income               float64
rating                     float64
time_of_day                 object
day_name                    object
month_name                  object
month                        int32
quarter                      int32
dtype: object


In [77]:
# Ver os tipos de dados
print(df.dtypes)

invoice_id                  object
branch                      object
city                        object
customer_type               object
gender                      object
product_line                object
unit_price                 float64
quantity                     int64
vat                        float64
total                      float64
dtme                datetime64[ns]
tme                         object
payment_method              object
cogs                       float64
gross_margin_pct           float64
gross_income               float64
rating                     float64
time_of_day                 object
day_name                    object
month_name                  object
month                        int32
quarter                      int32
dtype: object


In [78]:
# Ver os dados tratados
df.describe()

Unnamed: 0,unit_price,quantity,vat,total,dtme,cogs,gross_margin_pct,gross_income,rating,month,quarter
count,1000.0,1000.0,1000.0,1000.0,1000,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,55.67213,5.51,15.379369,322.966749,2019-02-14 00:05:45.600000,307.58738,4.7619,15.379369,6.9727,1.993,1.0
min,10.08,1.0,0.5085,10.6785,2019-01-01 00:00:00,10.17,4.7619,0.5085,4.0,1.0,1.0
25%,32.875,3.0,5.924875,124.422375,2019-01-24 00:00:00,118.4975,4.7619,5.924875,5.5,1.0,1.0
50%,55.23,5.0,12.088,253.848,2019-02-13 00:00:00,241.76,4.7619,12.088,7.0,2.0,1.0
75%,77.935,8.0,22.44525,471.35025,2019-03-08 00:00:00,448.905,4.7619,22.44525,8.5,3.0,1.0
max,99.96,10.0,49.65,1042.65,2019-03-30 00:00:00,993.0,4.7619,49.65,10.0,3.0,1.0
std,26.494628,2.923431,11.708825,245.885335,,234.17651,0.0,11.708825,1.71858,0.835254,0.0


## Análise e Visualização de Dados

In [79]:
# 1 - Total de vendas no período
total_sales = df["total"].sum()
print(f"Total de vendas no período foi de R$ {total_sales:.2f}")

Total de vendas no período foi de R$ 322966.75


In [80]:
# 2 - Número total de produtos vendidos
total_products_sold = df["quantity"].sum()
print(f"Total de produtos vendidos no período foi de {total_products_sold}")

Total de produtos vendidos no período foi de 5510


In [81]:
# 3 - Média de preço unitário de linha de produtos

# Retornar a média de preço unitário por linha de produto
average_unit_price = df.groupby("product_line")["unit_price"].mean()

# Transformando a Series em DataFrame e resetando o índice
average_unit_price_df = average_unit_price.reset_index()

# Core personalizada para o gráfico
color_pink_foam_7 = [
    "#54bebe",
    "#90cfcf",
    "#c2e0df",
    "#f1f1f1",
    "#ebb0bf",
    "#dd6e90",
    "#c80064",
]

# Criando um gráfico de barras personalizado com Plotly
fig = px.bar(
    average_unit_price_df,
    x="product_line",
    y="unit_price",
    color="product_line",
    color_discrete_sequence=color_pink_foam_7,
    labels={"unit_price": "Média de Preço Unitário", "product_line": "Linha de Produto"},
)

# Personalizando o layout do gráfico
fig.update_layout(
    xaxis_title="Linha de Produto",
    yaxis_title="Preço Unitário Médio",
    title="Média de Preço Unitário por Linha de Produto",
    title_font=dict(size=32),
    xaxis_tickangle=-45,
    # yaxis=dict(range=[average_unit_price_df["unit_price"].min(), average_unit_price_df["unit_price"].max()]),  # Definindo o limite do eixo y
    yaxis=dict(range=[50, 60]),
    # height=800,
    showlegend=False,
)

fig.show()

In [82]:
# 4 - Linha de produto mais vendido (em termos de quantidade)

# Agrupar a quantidade vendida por linha de produto e somar
quantity_per_product_line = df.groupby("product_line")["quantity"].sum().reset_index()

# Encontrar a linha de produto mais vendida -> idxmax() retorna o índice do valor máximo
most_sold_product = quantity_per_product_line.loc[quantity_per_product_line["quantity"].idxmax(), "product_line"]

# Adicionar uma coluna para identificar a linha de produto mais vendida
quantity_per_product_line["is_most_sold"] = quantity_per_product_line["product_line"] == most_sold_product

# Grafico
color_deemphasized = [
    "#F0CBC5",
    "#FF2E63",
]

# Criando um gráfico de barras com Plotly
fig = px.bar(
    quantity_per_product_line,
    x="product_line",
    y="quantity",
    color="is_most_sold",
    labels={"product_line": "Linha de Produto", "quantity": "Quantidade Vendida"},
    color_discrete_map={False: color_deemphasized[0], True: color_deemphasized[1]},
)

# Personalizando o layout do gráfico
fig.update_layout(
    xaxis_title="Linha de Produto",
    yaxis_title="Quantidade Vendida",
    title="Linha de Produto Mais Vendida",
    title_font=dict(size=32),
    xaxis_tickangle=-45,
    autosize=False,
    yaxis=dict(range=[800, 1000]),
    showlegend=False,  # Escondendo a legenda
)

# Exibindo o gráfico
fig.show()


In [83]:
# 5 - As 5 linhas de produtos mais bem avaliados (média de rating mais alta)

average_rating = df.groupby("product_line")["rating"].mean().reset_index()
top5_product_lines = average_rating.nlargest(5, "rating").index
average_rating["is_top5"] = average_rating.index.isin(top5_product_lines)

# Grafico
color_deemphasized = [
    "#F0CBC5",
    "#FF2E63",  # Cor Forte v3 - crimson_v3
]

# Criando um gráfico de barras com Plotly
fig = px.bar(
    average_rating,
    x="product_line",
    y="rating",
    color="is_top5",
    labels={"product_line": "Linha de Produto", "rating": "Avaliação Média"},
    color_discrete_map={False: color_deemphasized[0], True: color_deemphasized[1]},
)

# Personalizando o layout do gráfico
fig.update_layout(
    xaxis_title="Linha de Produto",
    yaxis_title="Avaliação Média",
    title="Top 5 Linhas de Produtos Mais Bem Avaliados",
    title_font=dict(size=32),
    xaxis_tickangle=-45,
    autosize=True,
    # height=800,
    yaxis=dict(range=[6, average_rating["rating"].max()]),  # Definindo o limite do eixo y para o range dos valores
    showlegend=False,  # Escondendo a legenda
)

# Exibindo o gráfico
fig.show()



In [84]:
# 6 - Loja com o maior volume de vendas
sales_per_branch = df.groupby("branch")["total"].sum().reset_index()
top_sales_branch = sales_per_branch.loc[sales_per_branch["total"].idxmax(), "branch"]
sales_per_branch["is_top"] = sales_per_branch["branch"] == top_sales_branch

# Grafico
color_deemphasized = [
    "#F0CBC5",
    "#FF2E63",  # Cor Forte v3 - crimson_v3
]

# Criando um gráfico de barras com Plotly
fig = px.bar(
    sales_per_branch,
    x="branch",
    y="total",
    color="is_top",
    labels={"branch": "Loja", "total": "Volume de Vendas"},
    color_discrete_map={False: color_deemphasized[0], True: color_deemphasized[1]},
)

# Personalizando o layout do gráfico
fig.update_layout(
    xaxis_title="Loja",
    yaxis_title="Volume de Vendas",
    title="Loja com Maior Volume de Vendas",
    title_font=dict(size=32),
    xaxis_tickangle=-45,
    autosize=False,
    # height=800,
    yaxis=dict(range=[100_000, sales_per_branch["total"].max()]),  # Definindo o limite do eixo y para o range dos valores
    showlegend=False,  # Escondendo a legenda
)

# Exibindo o gráfico
fig.show()


In [85]:
# 7 - Preparando para calcular o método de pagamento mais popular por loja e mês
pagamento_por_loja_mes = df.groupby(["branch", "month", "payment_method"])["invoice_id"].count().reset_index()
pivot_pagamento = pagamento_por_loja_mes.pivot_table(index=["branch", "month"], columns="payment_method", values="invoice_id", fill_value=0)
pivot_normalizado = pivot_pagamento.div(pivot_pagamento.sum(axis=1), axis=0)

# Grafico
# Preparar os dados
pivot_normalizado = pivot_normalizado.reset_index()
pivot_normalizado = pivot_normalizado.melt(
    id_vars=["branch", "month"], var_name="payment_method", value_name="value"
)

# Criar uma nova coluna combinando 'branch' e 'month'
pivot_normalizado["branch_month"] = (
    pivot_normalizado["branch"]
    + " "
    + pivot_normalizado["month"].astype(str)
)

# Multiplicar a coluna 'value' por 100
pivot_normalizado["value"] = (
    pivot_normalizado["value"] * 100
)

# Criar o gráfico de barras empilhadas
fig = px.bar(
    pivot_normalizado,
    x="branch_month",
    y="value",
    color="payment_method",
    text="value",  # Adicionando o valor no topo das barras
    barmode="stack",
    labels={
        "branch_month": "Loja e Mês",
        "value": "Proporção (%)",
        "payment_method": "Método de Pagamento",
    },
    color_discrete_map={
        "Ewallet": "#54bebe",
        "Credit card": "#f1f1f1",
        "Cash": "#ff2e63",
    },
)

# Personalizar o texto das barras
fig.update_traces(
    texttemplate="%{text:.2f}%",  # Formatar o texto para mostrar duas casas decimais
    textposition="inside",
    textfont_size=12,
    # textfont_color="white",
)

# Personalizar o layout do gráfico
fig.update_layout(
    xaxis_title="Loja e Mês",
    yaxis_title="Proporção (%)",
    title="Método de Pagamento Mais Popular por Loja e Mês",
    title_font=dict(size=24),
    xaxis_tickangle=-45,
    autosize=False,
    # height=800,
    showlegend=True,
)

# Exibir o gráfico
fig.show()



In [86]:
# 8 - As 3 linhas de produtos com mais quantidades vendidas por gênero do cliente
gender_product_sales = df.groupby(["gender", "product_line"])["quantity"].sum().reset_index()
top_gender_product_sales = gender_product_sales.groupby("gender").apply(lambda x: x.nlargest(3, "quantity")).reset_index(drop=True)
gender_product_sales["is_top_3"] = gender_product_sales.apply(lambda x: True if (x["gender"], x["product_line"]) in list(zip(top_gender_product_sales["gender"], top_gender_product_sales["product_line"])) else False, axis=1)

# Grafico
# Separando os dados por gênero
male_data = gender_product_sales[gender_product_sales["gender"] == "Male"]
female_data = gender_product_sales[gender_product_sales["gender"] == "Female"]

# Definindo as cores padrão para todas as barras
male_colors = [
    "#F0CBC5",
] * len(male_data)
female_colors = [
    "#F0CBC5",
] * len(female_data)

# Alterando a cor das barras para '#FF2E63' se 'is_top_3' for True
male_colors = [
    "#FF2E63" if is_top_3 else color
    for color, is_top_3 in zip(male_colors, male_data["is_top_3"])
]
female_colors = [
    "#FF2E63" if is_top_3 else color
    for color, is_top_3 in zip(female_colors, female_data["is_top_3"])
]

# Criando as séries de barras
male_bars = go.Bar(
    name="Male",
    x=male_data["product_line"],
    y=male_data["quantity"],
    marker_color=male_colors,
)

female_bars = go.Bar(
    name="Female",
    x=female_data["product_line"],
    y=female_data["quantity"],
    marker_color=female_colors,
)

# Criando o gráfico de barras
fig = go.Figure(data=[male_bars, female_bars])

# Atualizando o layout para empilhar as barras lado a lado
fig.update_layout(
    barmode="group",
    title_text="Top 3 Linhas de Produtos Mais Vendidos por Gênero",
    xaxis_title="Linha de Produto",
    yaxis_title="Quantidade Vendida",
    title_font=dict(size=24),
    xaxis_tickangle=-45,
    autosize=False,
    yaxis=dict(range=[300, 600]),  # Definindo o limite inferior do eixo y
    # height=800,
    showlegend=False,
)

# Exibir o gráfico
fig.show()






In [87]:
# 9 - Produto mais lucrativo (maior receita gross_income) por filial (branch)
most_profitable_product_by_branch = df.groupby(["branch", "product_line"])["gross_income"].sum().reset_index()
most_profitable_product_by_branch = most_profitable_product_by_branch.sort_values(["branch", "gross_income"], ascending=[True, False]).drop_duplicates(["branch"])

# Grafico
# Definindo a escala de cores
colors = [
    "#54bebe",
    "#f1f1f1",
    "#ff2e63",
]

# Convertendo o índice multi-nível em colunas
most_profitable_product_by_branch = most_profitable_product_by_branch.reset_index()

# Criando o gráfico de barras
fig = go.Figure()

# Criando uma série de dados para cada filial
for branch, color in zip(most_profitable_product_by_branch["branch"].unique(), colors):
    branch_data = most_profitable_product_by_branch[most_profitable_product_by_branch["branch"] == branch]
    fig.add_trace(
        go.Bar(
            name=branch,
            x=branch_data["product_line"],
            y=branch_data["gross_income"],
            marker_color=color,
        )
    )

# Atualizando o layout do gráfico
fig.update_layout(
    title_text="Produto Mais Lucrativo por Filial",
    xaxis_title="Filial",
    yaxis_title="Lucro",
    title_font=dict(size=32),
    xaxis_tickangle=-45,
    autosize=False,
    yaxis=dict(range=[800, 1200]),  # Definindo o limite inferior do eixo y
    # height=800,
    showlegend=True,
)

# Exibir o gráfico
fig.show()


In [88]:
# 10 - Produto mais lucrativo (maior receita gross_income) por quarter
gross_income_by_quarter_product = df.groupby(["quarter", "product_line"])["gross_income"].sum().reset_index()
most_profitable_each_quarter = gross_income_by_quarter_product.loc[gross_income_by_quarter_product.groupby("quarter")["gross_income"].idxmax()]
gross_income_by_quarter_product["most_profitable"] = gross_income_by_quarter_product.apply(lambda x: ("Most Profitable" if (x["quarter"], x["product_line"]) in most_profitable_each_quarter[["quarter", "product_line"]].values else "Other"), axis=1)

# Grafico
# Cores
color_pink_foam_palette_divergent_6 = [
    "#54bebe",
    "#90cfcf",
    "#c2e0df",
    "#f1f1f1",
    "#ff9ea7",
    "#ff2e63",
]

# Ordenando o DataFrame por gross_income
gross_income_by_quarter_product = gross_income_by_quarter_product.sort_values(by="gross_income")

# Mapeando as cores para os produtos em ordem
color_mapping = dict(
    zip(gross_income_by_quarter_product["product_line"], color_pink_foam_palette_divergent_6)
)

# Criando o gráfico de rosquinha
fig = go.Figure(
    data=[
        go.Pie(
            labels=gross_income_by_quarter_product["product_line"],
            values=gross_income_by_quarter_product["gross_income"],
            hole=0.45,
            pull=[
                0.2 if i == "Most Profitable" else 0
                for i in gross_income_by_quarter_product["most_profitable"]
            ],
            marker=dict(
                colors=[
                    color_mapping[product]
                    for product in gross_income_by_quarter_product["product_line"]
                ]
            ),  # Use a paleta de cores personalizada
        )
    ]
)  # hole parameter creates the donut shape

# Atualizando o layout do gráfico
fig.update_layout(
    title_text="Produto Mais Lucrativo por Quarter",
    title_font=dict(size=32),
    autosize=False,
    # height=800,
    showlegend=True,
)

# Exibir o gráfico
fig.show()



In [89]:
# 11 - Período do dia em que ocorre o maior número de vendas
sales_by_time_of_day = df["time_of_day"].value_counts().reset_index()
sales_by_time_of_day.columns = ["time_of_day", "sales_count"]
sales_by_time_of_day["time_of_day"] = pd.Categorical(sales_by_time_of_day["time_of_day"], categories=["morning", "afternoon", "evening"], ordered=True)
sales_by_time_of_day = sales_by_time_of_day.sort_values("time_of_day")

# Grafico
# Mapeando as cores para os períodos do dia
color_mapping = {
    "morning": "#54bebe",
    "afternoon": "#f1f1f1",
    "evening": "#ff2e63",
}

# Criando o gráfico de barras
fig = go.Figure(
    data=[
        go.Bar(
            x=sales_by_time_of_day["time_of_day"],
            y=sales_by_time_of_day["sales_count"],
            marker_color=[
                color_mapping[time] for time in sales_by_time_of_day["time_of_day"]
            ],
        )
    ]
)

# Atualizando o layout do gráfico
fig.update_layout(
    title_text="Número de Vendas por Período do Dia",
    xaxis_title="Período do Dia",
    yaxis_title="Número de Vendas",
    autosize=False,
    # height=800,
    showlegend=False,
)

# Exibir o gráfico
fig.show()

In [90]:
# 12 - Vendas por quarter, por região e por categoria de produtos -> Treemap
vendas_por_quarter_cidade_categoria = df.groupby(["quarter", "city", "product_line"])["total"].sum().reset_index()

# Grafico
# Cores padrão do projeto
color_pink_foam_palette_divergent = [
    "#54bebe",
    "#f1f1f1",
    "#ff2e63",
]

# Invertendo a lista de cores
color_pink_foam_palette_divergent_r = color_pink_foam_palette_divergent[::-1]

# Criação do gráfico de treemap
fig = px.treemap(
    vendas_por_quarter_cidade_categoria,
    path=["quarter", "city", "product_line"],
    values="total",
    color="total",
    color_continuous_scale=color_pink_foam_palette_divergent,
    # color_discrete_sequence=color_pink_foam_palette_divergent,
)

# Atualizando o layout do gráfico
fig.update_traces(
    root_color="lightgrey",  # Adicionando cor de fundo
    marker=dict(cornerradius=5),  # Adicionando bordas arredondadas
    # hoverinfo="label",  # Adicionando informações ao passar o mouse
)

fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))

# Atualizando o layout do gráfico
fig.update_layout(
    title_text="Tree Map - Análise de Vendas por Trimestre, Cidade e Categoria",
    title_font=dict(size=18),
    autosize=False,
    height=800,
)
