# Case: Análise de Vendas de uma Empresa de E-commerce:

**Sobre a Empresa**

A Global Mart é uma empresa de e-commerce de médio porte que opera em três grandes regiões: América do Norte, Europa e Ásia. A empresa oferece uma ampla gama de produtos, incluindo eletrônicos, vestuário, bens para o lar, livros e brinquedos. Fundada há 10 anos, a Global Mart tem como missão fornecer uma experiência de compra conveniente e personalizada para clientes de todo o mundo.

Nos últimos dois anos, a empresa tem enfrentado desafios relacionados à retenção de clientes e variação nos padrões de compra entre as regiões. Embora tenha uma base sólida de clientes recorrentes, a competição acirrada no mercado e as diferenças culturais nas preferências de compra entre as regiões têm causado flutuações nas vendas.

**Dados Gerais**

*   Fundação: 2013;
*   Número de Clientes: 2000 clientes ativos;
*   Número de Funcionários: 300;
* Regiões de Operação: América do Norte, Europa, Ásia;
*Categorias de Produtos: Eletrônicos, Vestuário, Bens para o Lar, Livros, Brinquedos;
* Canal de Vendas: Exclusivamente online.




**Desafios Enfrentados**

* **Retenção de Clientes:** A empresa tem uma taxa de churn de aproximadamente 15%, o que está acima da média para o setor de e-commerce.

* **Diferenças Regionais:** Os hábitos de consumo variam significativamente entre as regiões, e a empresa está tentando ajustar suas estratégias de marketing e ofertas de produtos para melhor atender cada mercado.

* **Concorrência:** Concorrentes maiores e mais bem estabelecidos estão aumentando a pressão sobre a empresa, especialmente no setor de eletrônicos.

**Objetivos da Empresa**

* **Aumentar a retenção de clientes:** Identificar os principais motivos pelos quais os clientes deixam de comprar e implementar soluções para diminuir a taxa de churn.

* **Otimizar o mix de produtos:** Compreender melhor quais produtos são mais populares em cada região e ajustar o inventário e as campanhas de marketing de acordo.

* **Melhorar a experiência do cliente:** Usar dados para personalizar a experiência de compra, oferecendo recomendações de produtos mais relevantes para cada cliente com base em seu comportamento de compra anterior.

**Objetivos do Case**

1. **Análise Geral de Vendas**

* Quais foram as regiões com maior e menor volume de vendas?
*Como foi a evolução das vendas ao longo do ano?
*Qual a média de vendas por cliente?

2. **Segmentação de Clientes**

* Qual a distribuição de clientes por faixa etária e região?
* Qual a relação entre as diferentes faixas etárias e o volume de compras?
* Qual foi o comportamento de compra dos clientes mais recorrentes?

3. **Análise de Produtos**

* Quais foram os produtos mais vendidos e os menos vendidos?
* Qual o ticket médio por categoria de produto?
* Existe alguma correlação entre o tipo de produto e a região de venda?

4. **Churn (Perda de Clientes)**

* Qual a taxa de churn ao longo do ano?
* Quais padrões de comportamento indicam maior chance de churn?

In [2]:
#Instalando o pacote Pandas
!pip install pandas



In [3]:
# Importando os pacotes Pandas, Io e Google Drive. O arquivo base está inserido no Google Drive,
# assim o caminho para ele deve ser indicado
import pandas as pd
import io
from google.colab import drive
drive.mount('/content/drive')
file_path = '/content/drive/MyDrive/Experimental Data/global_meta.csv'


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
df = pd.read_csv(file_path)
df.dtypes

In [None]:
df.count()

In [5]:
df.head()

Unnamed: 0,order_id,customer_id,region,age,product_category,order_date,order_value,quantity,customer_lifetime_value,last_order_date,churn
0,1,739,Asia,45,Home Goods,2023-04-08,566.49,2,3376.34,2023-11-20,0
1,2,883,Europe,65,Electronics,2023-11-29,15.81,1,3930.37,2023-05-03,0
2,3,15,North America,48,Home Goods,2023-05-15,87.72,3,975.21,2023-03-31,0
3,4,192,Asia,36,Books,2023-01-17,882.45,3,4150.2,2023-10-31,0
4,5,985,Europe,46,Home Goods,2023-04-20,87.1,2,2385.25,2023-11-03,0


In [None]:
df.info

* **Quais foram as regiões com maior e menor volume de vendas?**

In [None]:
# Agrupar as vendas por região e calcular o total de vendas
sales_by_region = df.groupby('region')['order_value'].sum().reset_index()

# Ordenar os resultados do maior para o menor volume de vendas
sales_by_region = sales_by_region.sort_values(by='order_value', ascending=False)

# Exibir o resultado
print(sales_by_region)

In [None]:
# Região com maior volume de vendas
max_sales_region = sales_by_region.iloc[0]
print(f"Região com maior volume de vendas: {max_sales_region['region']} com {max_sales_region['order_value']} em vendas.")

# Região com menor volume de vendas
min_sales_region = sales_by_region.iloc[-1]
print(f"Região com menor volume de vendas: {min_sales_region['region']} com {min_sales_region['order_value']} em vendas.")

import seaborn as sns
import matplotlib.pyplot as plt

# Criar gráfico de barras para as vendas por região
sns.barplot(x='region', y='order_value', data=sales_by_region)
plt.title('Volume Total de Vendas por Região')
plt.ylabel('Volume de Vendas ($)')
plt.xlabel('Região')
plt.show()

* **Como foi a evolução das vendas ao longo do ano?**

In [23]:
# Converter a coluna de datas para o formato datetime
df['order_date'] = pd.to_datetime(df['order_date'])

# Verificar se a conversão foi bem-sucedida
print(df['order_date'].dtype)

datetime64[ns]


In [24]:
# Criar uma nova coluna que combina mês e ano
df['month_year'] = df['order_date'].dt.to_period('M')  # M para mês e ano

In [None]:
# Agrupar as vendas por mês/ano
sales_by_month = df.groupby('month_year')['order_value'].sum().reset_index()

# Verificar o resultado
print(sales_by_month)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Criar um gráfico de linha para mostrar a evolução das vendas
plt.figure(figsize=(10,6))

# Convert 'month_year' to strings
sales_by_month['month_year'] = sales_by_month['month_year'].astype(str)

sns.lineplot(x='month_year', y='order_value', data=sales_by_month, marker='o')

# Títulos e rótulos
plt.title('Evolução das Vendas ao Longo do Ano')
plt.xlabel('Mês/Ano')
plt.ylabel('Volume de Vendas ($)')
plt.xticks(rotation=45)  # Rotacionar as datas para melhor visualização

# Mostrar o gráfico
plt.show()

* **Qual a média de vendas por cliente?**

In [None]:
# Agrupar vendas por cliente
sales_per_customer = df.groupby('customer_id')['order_value'].sum().reset_index()

# Verificar o total de vendas por cliente
print(sales_per_customer.head())

In [None]:
# Calcular a média de vendas por cliente
average_sales_per_customer = sales_per_customer['order_value'].mean()

# Exibir o resultado
print(f"A média de vendas por cliente é: ${average_sales_per_customer:.2f}")


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Criar um histograma da distribuição de vendas por cliente
plt.figure(figsize=(10,6))
sns.histplot(sales_per_customer['order_value'], bins=30, kde=True)

# Títulos e rótulos
plt.title('Distribuição de Vendas por Cliente')
plt.xlabel('Total de Vendas ($)')
plt.ylabel('Número de Clientes')

# Mostrar o gráfico
plt.show()

* **Qual a distribuição de clientes por faixa etária e região?**

In [None]:
# Definir os limites das faixas etárias e os rótulos
bins = [18, 24, 34, 44, 54, 64, 74, 100]  # Faixas etárias
labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75+']

# Criar uma nova coluna com as faixas etárias
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)

# Verificar a nova coluna de faixas etárias
print(df[['age', 'age_group']].head())

In [None]:
# Agrupar os clientes por faixa etária e região
age_region_distribution = df.groupby(['age_group', 'region'])['customer_id'].count().reset_index()

# Renomear a coluna para 'customer_count'
age_region_distribution = age_region_distribution.rename(columns={'customer_id': 'customer_count'})

# Verificar o resultado
print(age_region_distribution)


In [None]:
# Transformar os dados para o formato de tabela dinâmica (pivot table) para criar o heatmap
heatmap_data = age_region_distribution.pivot(index='age_group', columns='region', values='customer_count')

# Criar o heatmap
plt.figure(figsize=(10,6))
sns.heatmap(heatmap_data, annot=True, fmt="d", cmap="YlGnBu")

# Títulos e rótulos
plt.title('Distribuição de Clientes por Faixa Etária e Região')
plt.xlabel('Região')
plt.ylabel('Faixa Etária')

plt.show()

* **Qual a relação entre as diferentes faixas etárias e o volume de compras?**

In [None]:
# Definir os limites das faixas etárias e os rótulos
bins = [18, 24, 34, 44, 54, 64, 74, 100]
labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75+']

# Criar uma nova coluna com as faixas etárias
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)

# Verificar a nova coluna de faixas etárias
print(df[['age', 'age_group']].head())


In [None]:
# Agrupar os dados pela faixa etária e calcular o volume total de compras
sales_by_age_group = df.groupby('age_group')['order_value'].sum().reset_index()

# Verificar o resultado
print(sales_by_age_group)


In [None]:
# Agrupar por faixa etária e calcular a média de compras por cliente
average_sales_by_age_group = df.groupby('age_group')['order_value'].mean().reset_index()

# Verificar o resultado
print(average_sales_by_age_group)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Criar gráfico de barras para o volume de compras por faixa etária
plt.figure(figsize=(10,6))
sns.barplot(x='age_group', y='order_value', data=sales_by_age_group)

# Títulos e rótulos
plt.title('Volume Total de Compras por Faixa Etária')
plt.xlabel('Faixa Etária')
plt.ylabel('Volume de Compras ($)')

plt.show()

* **Qual foi o comportamento de compra dos clientes mais recorrentes?**

In [None]:
# Contar o número de pedidos por cliente
order_counts = df.groupby('customer_id')['order_id'].count().reset_index()

# Renomear a coluna para indicar o número de pedidos
order_counts = order_counts.rename(columns={'order_id': 'order_count'})

# Identificar os clientes mais recorrentes (com mais de um pedido)
recurring_customers = order_counts[order_counts['order_count'] > 1]

# Verificar os clientes recorrentes
print(recurring_customers.head())

In [None]:
# Filtrar o DataFrame original para apenas os clientes recorrentes
df_recurring = df[df['customer_id'].isin(recurring_customers['customer_id'])]

# Calcular o volume total de compras e o valor médio por pedido para os clientes recorrentes
customer_behavior = df_recurring.groupby('customer_id').agg(
    total_sales=('order_value', 'sum'),
    average_order_value=('order_value', 'mean'),
    order_count=('order_id', 'count')
).reset_index()

# Verificar o resultado
print(customer_behavior.head())

In [None]:
# Converter a coluna de datas para o formato datetime
df_recurring['order_date'] = pd.to_datetime(df_recurring['order_date'])

# Calcular a diferença de dias entre as compras para cada cliente
df_recurring['days_between_orders'] = df_recurring.groupby('customer_id')['order_date'].diff()

# Calcular a frequência média de compras (em dias) para cada cliente
average_frequency = df_recurring.groupby('customer_id')['days_between_orders'].mean().reset_index()

# Verificar o resultado
print(average_frequency.head())


In [None]:
# Unir as informações de comportamento dos clientes com a frequência média de compras
customer_behavior_full = pd.merge(customer_behavior, average_frequency, on='customer_id')

# Verificar o resultado final
print(customer_behavior_full.head())

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Gráfico de dispersão para ver a relação entre volume de compras e frequência de compras
plt.figure(figsize=(10,6))
sns.scatterplot(x='days_between_orders', y='total_sales', data=customer_behavior_full)

# Títulos e rótulos
plt.title('Volume Total de Compras vs Frequência de Compras (Clientes Recorrentes)')
plt.xlabel('Frequência de Compras (Dias entre Pedidos)')
plt.ylabel('Volume Total de Compras ($)')

plt.show()

* **Quais foram os produtos mais vendidos e os menos vendidos?**

In [None]:
# Agrupar os dados pelo produto e somar as quantidades vendidas
product_sales = df.groupby('product_category')['quantity'].sum().reset_index()

# Renomear a coluna para "total_sales"
product_sales = product_sales.rename(columns={'quantity': 'total_sales'})

# Verificar o resultado
print(product_sales.head())

In [None]:
# Classificar os produtos do mais vendido ao menos vendido
product_sales_sorted = product_sales.sort_values(by='total_sales', ascending=False).reset_index(drop=True)

# Verificar os produtos mais vendidos
print(product_sales_sorted.head())

# Verificar os produtos menos vendidos
print(product_sales_sorted.tail())


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Selecionar os 10 produtos mais vendidos
top_10_products = product_sales_sorted.head(10)

# Criar gráfico de barras dos produtos mais vendidos
plt.figure(figsize=(10,6))
sns.barplot(x='total_sales', y='product_category', data=top_10_products, palette="viridis")

# Títulos e rótulos
plt.title('Top 10 Produtos Mais Vendidos')
plt.xlabel('Quantidade Vendida')
plt.ylabel('Produto')

plt.show()

# Selecionar os 10 produtos menos vendidos
bottom_10_products = product_sales_sorted.tail(10)

# Criar gráfico de barras dos produtos menos vendidos
plt.figure(figsize=(10,6))
sns.barplot(x='total_sales', y='product_category', data=bottom_10_products, palette="magma")

# Títulos e rótulos
plt.title('Top 10 Produtos Menos Vendidos')
plt.xlabel('Quantidade Vendida')
plt.ylabel('Produto')

plt.show()

* **Qual o ticket médio por categoria de produto?**

In [None]:
# Agrupar por categoria de produto e calcular o valor total e o número de pedidos
category_sales = df.groupby('product_category').agg(
    total_sales=('order_value', 'sum'),
    total_orders=('order_id', 'count')  # Use o número de pedidos como proxy
).reset_index()

# Verificar o resultado
print(category_sales)

In [None]:
# Calcular o ticket médio por categoria
category_sales['ticket_medio'] = category_sales['total_sales'] / category_sales['total_orders']

# Verificar o resultado
print(category_sales)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Criar gráfico de barras para o ticket médio por categoria
plt.figure(figsize=(10,6))
sns.barplot(x='ticket_medio', y='product_category', data=category_sales, palette="Blues_d")

# Títulos e rótulos
plt.title('Ticket Médio por Categoria de Produto')
plt.xlabel('Ticket Médio ($)')
plt.ylabel('Categoria de Produto')

plt.show()

* **Existe alguma correlação entre o tipo de produto e a região de venda?**

In [None]:
# Criar uma tabela cruzada para mostrar a distribuição de produtos por região
cross_tab = pd.crosstab(df['product_category'], df['region'])

# Verificar a tabela de contingência
print(cross_tab)

In [None]:
# Normalizar a tabela de contingência para mostrar proporções
cross_tab_normalized = pd.crosstab(df['product_category'], df['region'], normalize='index')

# Verificar a tabela de contingência normalizada
print(cross_tab_normalized)


In [None]:
cross_tab.plot(kind='bar', stacked=True, figsize=(10,7))

# Títulos e rótulos
plt.title('Distribuição de Produtos por Região')
plt.xlabel('Categoria de Produto')
plt.ylabel('Número de Vendas')
plt.legend(title='Região')

plt.show()


In [None]:
from scipy.stats import chi2_contingency

# Aplicar o teste do qui-quadrado à tabela de contingência
chi2, p, dof, expected = chi2_contingency(cross_tab)

# Verificar os resultados do teste do qui-quadrado
print(f'Qui-quadrado: {chi2}')
print(f'P-valor: {p}')

# Interpretação:
if p < 0.05:
    print("Há uma correlação significativa entre o tipo de produto e a região de venda.")
else:
    print("Não há correlação significativa entre o tipo de produto e a região de venda.")


* **Qual a taxa de churn ao longo do ano?**

In [63]:
# Converter a coluna 'order_date' para o formato datetime
df['order_date'] = pd.to_datetime(df['order_date'])

# Extrair o ano e o mês de cada pedido
df['year_month'] = df['order_date'].dt.to_period('M')


In [None]:
# Identificar os clientes únicos que compraram em cada mês
active_customers_per_month = df.groupby('year_month')['customer_id'].nunique().reset_index()

# Renomear as colunas
active_customers_per_month.columns = ['month', 'active_customers']

# Verificar o número de clientes ativos por mês
print(active_customers_per_month)

In [None]:
# Obter todos os meses em que cada cliente fez uma compra
customer_last_purchase = df.groupby('customer_id')['year_month'].max().reset_index()

# Renomear a coluna
customer_last_purchase.columns = ['customer_id', 'last_purchase_month']

# Mesclar essa informação com o DataFrame original
df = pd.merge(df, customer_last_purchase, on='customer_id')

# Identificar clientes que pararam de comprar
df['is_churn'] = df['year_month'] > df['last_purchase_month']

# Calcular a quantidade de clientes que fizeram churn a cada mês
churn_per_month = df.groupby('year_month')['is_churn'].sum().reset_index()

# Verificar o resultado
print(churn_per_month)

In [None]:
# Calcular a taxa de churn (clientes que pararam de comprar no mês anterior)
churn_per_month['churn_rate'] = churn_per_month['is_churn'] / active_customers_per_month['active_customers'].shift(1)

# Verificar o resultado final
print(churn_per_month)

In [None]:
import matplotlib.pyplot as plt

# Convert Period objects to strings for plotting
churn_per_month['year_month_str'] = churn_per_month['year_month'].astype(str)

# Criar gráfico de linha para visualizar a taxa de churn
plt.figure(figsize=(10,6))
plt.plot(churn_per_month['year_month_str'], churn_per_month['churn_rate'], marker='o')

# Títulos e rótulos
plt.title('Taxa de Churn ao Longo do Ano')
plt.xlabel('Mês')
plt.ylabel('Taxa de Churn (%)')

plt.grid(True)
plt.show()