In [57]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import datetime as dt 
import seaborn as sns 
import plotly.express as px 
import plotly.graph_objects as go
from plotly.subplots import make_subplots


In [58]:
try:
    df=pd.read_csv("grocery_chain_data.csv")
    print("Dados Carregados com sucesso")
except FileExistsError:
    print("Arquivo grocery_chain_data.csv não encontrado.Verifique o caminho.")    
except Exception as e:
    print(f"Erro inesperado ao Carregar os dados: {e}")
    
    df.head()  

Dados Carregados com sucesso


In [59]:
df.head()  

Unnamed: 0,customer_id,store_name,transaction_date,aisle,product_name,quantity,unit_price,total_amount,discount_amount,final_amount,loyalty_points
0,2824,GreenGrocer Plaza,2023-08-26,Produce,Pasta,2.0,7.46,14.92,0.0,14.92,377
1,5506,ValuePlus Market,2024-02-13,Dairy,Cheese,1.0,1.85,1.85,3.41,-1.56,111
2,4657,ValuePlus Market,2023-11-23,Bakery,Onions,4.0,7.38,29.52,4.04,25.48,301
3,2679,SuperSave Central,2025-01-13,Snacks & Candy,Cereal,3.0,5.5,16.5,1.37,15.13,490
4,9935,GreenGrocer Plaza,2023-10-13,Canned Goods,Orange Juice,5.0,8.66,43.3,1.5,41.8,22


In [60]:
df.rename(columns={
    'customer_id':'Customer_ID',
    'store_name':'Store_Name',
    'transaction_date':'Transaction_Date',
    'aisle':'Aisle',
    'product_name':'Product_Name',
    'quantity':'Quantity',
    'unit_price':'Unit_Price',
    'total_amount':'Total_Amount',
    'discount_amount':'Discount_Amount',
    'final_amount':'Final_Amount',
    'loyalty_points':'Loyalty_Points'
}, inplace=True)
                  

In [61]:
df.head()

Unnamed: 0,Customer_ID,Store_Name,Transaction_Date,Aisle,Product_Name,Quantity,Unit_Price,Total_Amount,Discount_Amount,Final_Amount,Loyalty_Points
0,2824,GreenGrocer Plaza,2023-08-26,Produce,Pasta,2.0,7.46,14.92,0.0,14.92,377
1,5506,ValuePlus Market,2024-02-13,Dairy,Cheese,1.0,1.85,1.85,3.41,-1.56,111
2,4657,ValuePlus Market,2023-11-23,Bakery,Onions,4.0,7.38,29.52,4.04,25.48,301
3,2679,SuperSave Central,2025-01-13,Snacks & Candy,Cereal,3.0,5.5,16.5,1.37,15.13,490
4,9935,GreenGrocer Plaza,2023-10-13,Canned Goods,Orange Juice,5.0,8.66,43.3,1.5,41.8,22


In [62]:
df.shape
df.info()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980 entries, 0 to 1979
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Customer_ID       1980 non-null   int64  
 1   Store_Name        1955 non-null   object 
 2   Transaction_Date  1980 non-null   object 
 3   Aisle             1980 non-null   object 
 4   Product_Name      1980 non-null   object 
 5   Quantity          1980 non-null   float64
 6   Unit_Price        1980 non-null   float64
 7   Total_Amount      1980 non-null   float64
 8   Discount_Amount   1980 non-null   float64
 9   Final_Amount      1980 non-null   float64
 10  Loyalty_Points    1980 non-null   int64  
dtypes: float64(5), int64(2), object(4)
memory usage: 170.3+ KB


Customer_ID          0
Store_Name          25
Transaction_Date     0
Aisle                0
Product_Name         0
Quantity             0
Unit_Price           0
Total_Amount         0
Discount_Amount      0
Final_Amount         0
Loyalty_Points       0
dtype: int64

In [63]:
df.dtypes

Customer_ID           int64
Store_Name           object
Transaction_Date     object
Aisle                object
Product_Name         object
Quantity            float64
Unit_Price          float64
Total_Amount        float64
Discount_Amount     float64
Final_Amount        float64
Loyalty_Points        int64
dtype: object

In [64]:

primeira_data = df['Transaction_Date'].min()
print(f"Primeira data de análise: {primeira_data}")
ultima_data = df['Transaction_Date'].max()
print(f"Última data de análise: {ultima_data}")


Primeira data de análise: 2023-08-07
Última data de análise: 2025-08-05


In [65]:
store_names = df['Store_Name'].unique()
print(store_names)

['GreenGrocer Plaza' 'ValuePlus Market' 'SuperSave Central'
 'Corner Grocery' 'City Fresh Store' 'QuickStop Market'
 'FreshMart Downtown' 'MegaMart Westside' 'FamilyFood Express' nan]


In [None]:
receita_total=df['Total_Amount'].sum()
print("Receita Total",receita_total)

receita_mercado = df.groupby("Store_Name")["Final_Amount"].sum().sort_values(ascending=False).reset_index()




total_receita = receita_mercado['Final_Amount'].sum()
receita_mercado['Percentage'] = (receita_mercado['Final_Amount'] / total_receita) * 100

receita_mercado['Percentage_Text'] = receita_mercado['Percentage'].apply(lambda x: f'{x:.2f}%')

fig = px.bar(
    receita_mercado, 
    x='Store_Name', 
    y='Final_Amount',
    title='Receita Total por Mercado',
    labels={'Store_Name': 'Mercado', 'Final_Amount': 'Receita Total'},
    height=500, 
    width=800  
)

fig.update_traces(
    text=receita_mercado['Percentage_Text'],
    textposition='outside'
)

fig.update_layout(
    xaxis_title_text='Mercado',
    yaxis_title_text='Receita Total',
    title_x=0.5 
)

fig.show()


Receita Total 90887.1


**Insights para este KPI**

A receita total de todos os mercados somadas é de U$90.887.1

Ao analisar o gráfico identificamos que GreenGrocer Plaza tem um volume superior aos demais mercados de 12.22%,ao analisar  mercados como ValuePlus Market,FreshMart Dowtown,QuickStop Market,Family Food Express,identificamos potêncial de aumento de receitas através de campanhas desenvolvidas exclusivamente para o perfil dos clientes de cada mercado.

Family Food Express tem a menor participação, com 9,54%. Isso o torna o principal candidato a receber atenção imediata para campanhas de aumento de receita.


È importante entender quais são ás praticas aplicadas nos mercados GreenGrocer Plaza, SuperSave Central e City Fresh Store,estes apresentam uma participação entre 11% e 12%

Ás campanhas podem focar em atrair novos clientes e fidelizar os clientes,para essa estratégia podemos analisar o perfil de consumo dos clientes de cada mercado para criar um plano de ação efetivo.

Para os mercados com receita entre 11 % e 12% sugiro trabalhar em campanhas para garantir o aumento da performance.




In [67]:
ticket_medio=df['Final_Amount'].sum()/df['Transaction_Date'].count()
print("Ticket Médio Consolidado",ticket_medio)

ticket_medio_mercado = (df.groupby("Store_Name")['Final_Amount'].sum() / 
                        df.groupby("Store_Name")['Transaction_Date'].count()).reset_index()
ticket_medio_mercado.columns = ["Store_Name", "Ticket_Medio"]

ticket_medio_mercado['Percentage']=(ticket_medio_mercado['Ticket_Medio']/ticket_medio)*100
ticket_medio_mercado['Percentage_Text'] = ticket_medio_mercado['Percentage'].apply(lambda x:f'{x:.2f}%')


fig2 = px.bar(
    ticket_medio_mercado, 
    x="Store_Name", 
    y="Ticket_Medio", 
    title="Ticket Médio por Mercado", 
    text="Percentage_Text"
)

fig2.update_traces(textposition='outside')

fig2.show()


Ticket Médio Consolidado 41.43298484848485


**Insights para este KPI**

O Ticket Médio Consolidado 41.43298

Os mercados QuickStop Market,ValuePlus e FamilyFood Express,
apresentam um Ticket Médio inferior a 100%.

Ao adotar ás sugestões sugeridas no KPI a cima,teremos um impacto automático neste aumento do Ticket Médio por mercado.

Foco no Cliente: Promover programas de fidelidade que incentivem o cliente a gastar mais para alcançar benefícios ou descontos.

Ações de Vendas:Implementar campanhas de "Compre 2, Leve 3" ou "Compre e Ganhe". Outra ideia é fazer sugestões de produtos complementares no momento da compra (e.g., "Se você está levando carne, que tal adicionar um molho especial?").

GreenGrocer Plaza lidera com 108,40%, o que o torna um benchmark para os demais. Analisar as estratégias dele pode oferecer insights valiosos para os mercados com desempenho mais fraco.

In [68]:
clientes_consolidado=df['Customer_ID'].nunique()
print("Clientes Ativos Consolidados",clientes_consolidado)

clientes_mercado=df.groupby("Store_Name")['Customer_ID'].nunique().reset_index()
clientes_mercado.columns=["Store_Name","Clientes_Ativos"]

fig3=px.bar(clientes_mercado,x="Store_Name",y="Clientes_Ativos",
            title="Clientes Ativos por Mercado",text="Clientes_Ativos")
fig.update_traces(texttemplate='%{text}',textposition='outside')
fig3.show()

Clientes Ativos Consolidados 1798


**Insights para este KPI**

Um ponto de atenção ao avaliar nesse gráfico, é o que os mercados que apresentam a menor receita e menor ticket médio,apresentam maior número de clientes ativos,isso reforça a necessidade de campanhas voltadas para fidelização de clientes.

Acredito que seja importante criar um programa de fidelidade e campanhas que incentivem o cliente a comprar mais de um produto,seguindo o exemplo a seguir.

Exemplo:Implementar campanhas de "Compre 2, Leve 3" ou "Compre e Ganhe". Outra ideia é fazer sugestões de produtos complementares no momento da compra (e.g., "Se você está levando carne, que tal adicionar um molho especial?").

O insight principal é que o alto número de clientes ativos não está se traduzindo em alta receita. Isso sugere que os clientes estão visitando o mercado, mas gastando pouco por visita. O foco não é apenas em "fidelizar", mas sim em aumentar o valor de cada transação desses clientes já fiéis.


Outro ponto a ser levado em consideração é que o FreshMart Dowtown e QuickStop Market são mercados que apresentam  ticket médio e receita total superior a alguns dos mercados avaliados.


In [None]:
compras_por_cliente = df.groupby('Customer_ID')['Transaction_Date'].count()
clientes_fieis = compras_por_cliente[compras_por_cliente > 1].index

df_fieis = df[df['Customer_ID'].isin(clientes_fieis)]

freq_media_mercado_fieis = (
    df_fieis.groupby("Store_Name")['Transaction_Date'].count() /
    df_fieis.groupby("Store_Name")['Customer_ID'].nunique()
).reset_index()

freq_media_mercado_fieis.columns = ["Store_Name", "Freq_Media_Fieis"]

fig = px.bar(
    freq_media_mercado_fieis,
    x="Store_Name",
    y="Freq_Media_Fieis",
    title="Frequência Média de Compra por Mercado (Clientes Fiéis)",
    text="Freq_Media_Fieis"
)

# 5. Ajusta o formato do texto e a posição
fig.update_traces(
    texttemplate='%{text:.2f}',
    textposition='outside'
)

fig.show()


**Insights para este KPI**

A estratégia para aumentar a frequência de compra deve ser aplicada de forma uniforme em todos os mercados, pois todos apresentam o mesmo problema. A rede precisa de ações que incentivem os clientes a fazer uma segunda compra dentro do período analisado.

Implementar campanhas de e-mail ou SMS para clientes que fizeram uma compra única, oferecendo um desconto para a segunda compra.

Criar um programa de pontos ou um sistema de recompensas que incentive a recorrência. Por exemplo, "faça 3 compras em um mês e ganhe um produto ou desconto exclusivo".

Oferecer um cupom de desconto na nota fiscal que só pode ser usado na próxima visita. Isso cria um motivo claro para o cliente retornar em breve.



In [70]:
df['Transaction_Date'] = pd.to_datetime(df['Transaction_Date'])


df['YearMonth'] = df['Transaction_Date'].dt.to_period('M').astype(str)


receita_mensal = df.groupby('YearMonth')['Final_Amount'].sum().reset_index()


receita_mensal['Crescimento_%']  = receita_mensal['Final_Amount'].pct_change() * 100


receita_mensal.dropna(inplace=True)

fig5 = px.line(
    receita_mensal,
    x="YearMonth",
    y="Crescimento_%",
    markers=True,
    title="Crescimento Mensal da Receita (%)"
)

fig5.show()

**Insights para este KPI**

A principal conclusão é que, embora existam picos de sucesso, a falta de estabilidade no crescimento da receita é um risco para a saúde financeira do negócio. 

È Preciso identificar uma estratégia para buscar um crescimento mais consistente, o foco é manter uma base solida de receita mês a mês

In [71]:
clientes_mensal = df.groupby(['YearMonth'])['Customer_ID'].unique()

data_churn = []
for i in range(1, len(clientes_mensal)):
    ativos = set(clientes_mensal.iloc[i-1])
    novos = set(clientes_mensal.iloc[i])
    perdidos = ativos - novos
    
    churn_rate = len(perdidos) / len(ativos) * 100
    
    data_churn.append({
        'YearMonth': str(clientes_mensal.index[i]),
        'Churn_%': churn_rate,
        'Clientes Perdidos': len(perdidos),
        'Clientes Ativos (Mês Anterior)': len(ativos)
    })

churn_df = pd.DataFrame(data_churn)

# Cria um gráfico de subplots com dois eixos Y
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adiciona a linha da taxa de churn (%)
fig.add_trace(
    go.Scatter(
        x=churn_df['YearMonth'],
        y=churn_df['Churn_%'],
        name="Taxa de Churn (%)",
        mode='lines+markers',
        marker=dict(color='blue')
    ),
    secondary_y=False,
)

# Adiciona a barra de clientes ativos no mês anterior
fig.add_trace(
    go.Bar(
        x=churn_df['YearMonth'],
        y=churn_df['Clientes Ativos (Mês Anterior)'],
        name="Clientes Ativos (Mês Anterior)",
        marker=dict(color='lightgray', opacity=0.6)
    ),
    secondary_y=True,
)

# Adiciona a barra de clientes perdidos
fig.add_trace(
    go.Bar(
        x=churn_df['YearMonth'],
        y=churn_df['Clientes Perdidos'],
        name="Clientes Perdidos",
        marker=dict(color='orange', opacity=0.8)
    ),
    secondary_y=True,
)

# Ajusta o layout e os títulos do gráfico
fig.update_layout(
    title_text="Análise de Churn de Clientes",
    barmode='overlay',
    yaxis=dict(title="Taxa de Churn (%)"),
    yaxis2=dict(title="Contagem de Clientes", overlaying='y', side='right')
)

fig.show()
    

**Insights para este KPI**

A alta taxa de Churn,mostra que na maioria dos meses não há retenção dos clientes.

A barra laranja apresenta números muito próximo do número de "Clientes Ativos (Mês Anterior)" o que reforça o problema de não retenção. Por exemplo, em abril de 2024, a contagem de clientes perdidos foi quase a mesma que o número de clientes ativos do mês anterior.

O principal insight aqui é que a empresa tem uma séria deficiência na fidelização de clientes. Embora ela possa estar conseguindo atrair novos clientes, ela não está conseguindo mantê-los. O ciclo de vida do cliente é de apenas uma compra.

In [72]:
ltv_consolidado = df.groupby("Customer_ID")['Final_Amount'].sum().mean()
print("Receita Média por Cliente:", ltv_consolidado)

ltv_mercado = df.groupby(["Store_Name", "Customer_ID"])['Final_Amount'].sum().groupby("Store_Name").mean().reset_index()
ltv_mercado.columns = ["Store_Name", "LTV_Medio"]

# Adicionando a porcentagem de cada mercado em relação ao LTV consolidado
ltv_mercado['Percentage'] = (ltv_mercado['LTV_Medio'] / ltv_consolidado) * 100
ltv_mercado['Percentage_Text'] = ltv_mercado['Percentage'].apply(lambda x: f'{x:.2f}%')

fig7 = px.bar(ltv_mercado, x="Store_Name", y="LTV_Medio", 
              title="Receita Média por Cliente por Mercado", text="Percentage_Text")
fig7.update_traces(textposition='outside')
fig7.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig7.show()

Receita Média por Cliente: 45.62697997775306


**Insights para este KPI**

Os mercados FamilyFood Express,QuickStop Market e ValuePlus Market apresentam receita média por cliente abaixo de 90%,curiosamente esses mercados estão entre os que apresentam o maior índice desconto.

Os mercados estão oferendo descontos,sem ter condições financeiras,isso não é produtivo para a saúde financeira na empresa.

O gráfico mostra claramente que o GreenGrocer Plaza tem a melhor performance, com um LTV de 100,72% em relação à média geral. 

É fundamental entender quais estratégias ele usa para garantir que cada cliente gere um valor tão alto.

A primeira e mais urgente ação é revisar a política de descontos nesses três mercados,desconto é algo que dever ser utilizado de forma estratégica não como uma prática diária.

In [73]:
desconto_rate = (df['Discount_Amount'].sum() / df['Total_Amount'].sum()) * 100
print("Percentual de Descontos sobre Receita:", desconto_rate)

desconto_mercado = (df.groupby("Store_Name")['Discount_Amount'].sum() /  df.groupby("Store_Name")['Total_Amount'].sum() * 100).reset_index()
desconto_mercado.columns = ["Store_Name", "Desconto_%"]

# Adicionando a etapa de formatação do texto
desconto_mercado['Percentage_Text'] = desconto_mercado['Desconto_%'].apply(lambda x: f'{x:.2f}%')

fig8 = px.bar(desconto_mercado, x="Store_Name", y="Desconto_%", 
 title="Percentual de Desconto por Mercado", text="Percentage_Text")
fig8.update_traces(textposition='outside')
fig8.show()           

Percentual de Descontos sobre Receita: 9.737124410394875


In [74]:
top_produtos = df.groupby("Product_Name")['Final_Amount'].sum().sort_values(ascending=False).head(10).reset_index()

fig9 = px.bar(top_produtos, x="Product_Name", y="Final_Amount", 
              title="Top 10 Produtos por Receita", text="Final_Amount")
fig9.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig9.show()

**Insights para este KPI**

Os produtos que lideram o ranking de receita são Tomatoes (Tomates), Bread (Pão) e Potatoes (Batatas), todos com receita acima de 5k. Esses itens são a base da receita e devem ser prioridade na gestão de estoque,a diferença de receita entre o primeiro e o último colocado é de aproximadamente 15%.
Estratégias para Aumentar a Receita dos Produtos de Baixo Desempenho: Os produtos no final da lista, como Cereal, Pasta e Orange Juice, podem ter sua receita elevada com promoções direcionadas.

In [75]:
participacao = df.groupby("Store_Name")['Final_Amount'].sum()
participacao = (participacao / participacao.sum() * 100).reset_index()
participacao.columns = ["Store_Name", "Participacao_%"]

fig10 = px.pie(participacao, names="Store_Name", values="Participacao_%", 
               title="Participação na Receita por Mercado", hole=0.3)
fig10.show()

**Insights para este KPI**

Este gráfico apresenta que a receita não está concentrada em uma única loja,sendo distribuída de forma relativamente uniforme entre os mercados.

Os três principais — GreenGrocer Plaza (12,2%), SuperSave Central (12,2%) e City Fresh Store (12,1%) — têm uma participação praticamente idêntica.
FamilyFood Express (9,54%), QuickStop Market (10,1%) e FreshMart Downtown (10,1%). Esses mercados são os alvos mais importantes para campanhas de aumento de receita.

A  baixa participação de FamilyFood Express faz sentido quando vemos que ele tem o menor Ticket Médio e o maior Churn. Essa é a prova de que a falta de fidelização e o baixo valor gasto por cliente estão impactando diretamente sua participação na receita.