In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio
pio.templates.default = "plotly_white"
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('ecommerce_customer_data.csv')
df
                       
    

In [None]:
df = df.rename(columns={
    'User_ID': 'ID do Usuário',
    'Gender': 'Gênero',
    'Age': 'Idade',
    'Location': 'Localização',
    'Device_Type': 'Tipo de Dispositivo',
    'Product_Browsing_Time': 'Tempo de Navegação do Produto',
    'Total_Pages_Viewed': 'Total de Páginas Visualizadas',
    'Items_Added_to_Cart': 'Itens Adicionados ao Carrinho',
    'Total_Purchases': 'Total de Compras - Usuário'
})

df.set_index('ID do Usuário')

df

In [None]:
df.shape

In [None]:
df.info()

In [None]:
# Lista das colunas numéricas e categóricas
colunas_numericas = ['Idade', 'Tempo de Navegação do Produto', 'Total de Páginas Visualizadas', 'Itens Adicionados ao Carrinho', 'Total de Compras - Usuário']
colunas_categoricas = ['Gênero', 'Localização', 'Tipo de Dispositivo']

# Criar DataFrames separados para colunas categóricas e numéricas
df_numericas = df[colunas_numericas]
df_categoricas = df[colunas_categoricas]


df_numericas.head()






In [None]:
df_categoricas.head()

In [None]:
df_numericas.describe()

In [None]:
# Configurações de estilo
sns.set(style="whitegrid")

# Plotar histograma da distribuição de idade
plt.figure(figsize=(10, 6))
sns.histplot(df['Idade'], bins=20, kde=True, color='skyblue')
plt.title('Distribuição de Idade dos Usuários')
plt.xlabel('Idade')
plt.ylabel('Contagem')
plt.show()

In [None]:
# Plotar gráfico de barras empilhadas da distribuição da idade por gênero
plt.figure(figsize=(10, 6))
sns.histplot(data=df, x='Idade', hue='Gênero', multiple='stack', palette='pastel')
plt.title('Distribuição da Idade por Gênero')
plt.xlabel('Idade')
plt.ylabel('Contagem')
plt.legend(title='Gênero')
plt.show()

In [None]:
# Calcular a média da idade para cada gênero
idade_por_genero = df.groupby('Gênero')['Idade'].mean()

# Encontrar o gênero com a maior idade média
genero_maior_idade = idade_por_genero.idxmax()
idade_media_maxima = idade_por_genero.max()

print(f"O gênero com a maior idade média é '{genero_maior_idade}' com uma idade média de {idade_media_maxima:.2f} anos.")

In [None]:
# Calcular a média da idade para o sexo feminino
media_idade_feminino = df['Idade'].mean()

print(f"A média da idade para o sexo feminino é: {media_idade_feminino:.2f} anos.")

In [None]:
# Contagem de usuários por gênero
contagem_genero = df['Gênero'].value_counts()

# Plotar gráfico de barras da distribuição por gênero
plt.figure(figsize=(8, 6))
sns.barplot(x=contagem_genero.index, y=contagem_genero.values, palette='pastel')
plt.title('Distribuição por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Contagem de Usuários')
plt.show()

In [None]:
# Plotar violin plot da distribuição do tempo de navegação do produto por sexo e idade
plt.figure(figsize=(12, 8))
sns.violinplot(data=df, x='Gênero', y='Tempo de Navegação do Produto', hue='Idade', inner='quartile', palette='muted')
plt.title('Distribuição do Tempo de Navegação do Produto por Sexo e Idade')
plt.xlabel('Gênero')
plt.ylabel('Tempo de Navegação do Produto (minutos)')
plt.legend(title='Idade')
plt.show()



In [None]:
# Plotar histograma da distribuição do total de páginas visualizadas
plt.figure(figsize=(10, 6))
sns.histplot(df['Total de Páginas Visualizadas'], bins=20, kde=True, color='salmon')
plt.title('Distribuição do Total de Páginas Visualizadas')
plt.xlabel('Total de Páginas Visualizadas')
plt.ylabel('Contagem')
plt.show()

In [None]:
# Criar um FacetGrid com Seaborn
g = sns.FacetGrid(df, col='Gênero', hue='Idade', col_wrap=2, height=6)

# Mapear o histograma para cada subplot
g.map(sns.histplot, 'Total de Páginas Visualizadas', bins=20, kde=True)

# Adicionar título para cada subplot
g.set_titles('{col_name}')

# Adicionar título geral
plt.subplots_adjust(top=0.9)
g.fig.suptitle('Distribuição do Total de Páginas Visualizadas por Sexo e Idade', fontsize=16)

# Exibir os subplots
plt.show()


In [None]:
# Plotar histograma da distribuição de itens adicionados ao carrinho
plt.figure(figsize=(10, 6))
sns.histplot(df['Itens Adicionados ao Carrinho'], bins=20, kde=True, color='lightgreen')
plt.title('Distribuição de Itens Adicionados ao Carrinho')
plt.xlabel('Itens Adicionados ao Carrinho')
plt.ylabel('Contagem')
plt.show()


In [None]:
# Criar um FacetGrid com Seaborn
g = sns.FacetGrid(df, col='Gênero', hue='Idade', col_wrap=2, height=6)

# Mapear o histograma para cada subplot
g.map(sns.histplot, 'Itens Adicionados ao Carrinho', bins=20, kde=True)

# Adicionar título para cada subplot
g.set_titles('{col_name}')

# Adicionar título geral
plt.subplots_adjust(top=0.9)
g.fig.suptitle('Distribuição de Itens Adicionados ao Carrinho por Sexo e Idade', fontsize=16)

# Exibir os subplots
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de estilo
sns.set(style="whitegrid")

# Plotar histograma da distribuição do total de compras por usuário
plt.figure(figsize=(10, 6))
sns.histplot(df['Total de Compras - Usuário'], bins=20, kde=True, color='purple')
plt.title('Distribuição do Total de Compras por Usuário')
plt.xlabel('Total de Compras')
plt.ylabel('Contagem')
plt.show()


In [None]:
# Plotar gráfico de densidade da distribuição do total de compras por usuário
plt.figure(figsize=(10, 6))
sns.kdeplot(df['Total de Compras - Usuário'], color='purple', fill=True)
plt.title('Distribuição do Total de Compras por Usuário')
plt.xlabel('Total de Compras')
plt.ylabel('Densidade')
plt.show()


In [None]:
# Plotar gráfico de violino da distribuição do total de compras por usuário por sexo e idade
plt.figure(figsize=(12, 8))
sns.violinplot(data=df, x='Gênero', y='Total de Compras - Usuário', hue='Idade', inner='quartile', palette='muted')
plt.title('Distribuição do Total de Compras por Usuário por Sexo e Idade')
plt.xlabel('Gênero')
plt.ylabel('Total de Compras')
plt.legend(title='Idade')
plt.show()


In [None]:
# Plotar gráfico de caixas da distribuição do total de compras por usuário por sexo e idade
plt.figure(figsize=(12, 8))
sns.boxplot(data=df, x='Gênero', y='Total de Compras - Usuário', hue='Idade', palette='muted')
plt.title('Distribuição do Total de Compras por Usuário por Sexo e Idade')
plt.xlabel('Gênero')
plt.ylabel('Total de Compras')
plt.legend(title='Idade')
plt.show()


In [None]:
# Calcular o total de páginas visualizadas e total de compras para cada usuário
df['Total_Paginas'] = df['Total de Páginas Visualizadas']
df['Total_Compras'] = df['Total de Compras - Usuário']

# Agrupar os usuários por faixa etária e sexo e calcular a soma do total de páginas visualizadas e total de compras
grupo_usuario = df.groupby(['Gênero', 'Idade']).agg({'Total_Paginas': 'sum', 'Total_Compras': 'sum'}).reset_index()

# Encontrar os grupos com os maiores valores de navegação e compras
mais_navegacao = grupo_usuario.loc[grupo_usuario['Total_Paginas'].idxmax()]
mais_compras = grupo_usuario.loc[grupo_usuario['Total_Compras'].idxmax()]

print("Faixa etária e sexo dos que mais navegam:")
print(mais_navegacao)

print("\nFaixa etária e sexo dos que mais efetuam compras:")
print(mais_compras)


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Agrupar os usuários por faixa etária e sexo e calcular a soma do total de páginas visualizadas e total de compras
grupo_usuario = df.groupby(['Gênero', 'Idade']).agg({'Total_Paginas': 'sum', 'Total_Compras': 'sum'}).reset_index()

# Plotar gráfico de barras para total de páginas visualizadas
plt.figure(figsize=(12, 6))
sns.barplot(data=grupo_usuario, x='Idade', y='Total_Paginas', hue='Gênero', palette='muted')
plt.title('Total de Páginas Visualizadas por Faixa Etária e Sexo')
plt.xlabel('Faixa Etária')
plt.ylabel('Total de Páginas Visualizadas')
plt.legend(title='Gênero')
plt.show()

# Plotar gráfico de barras para total de compras
plt.figure(figsize=(12, 6))
sns.barplot(data=grupo_usuario, x='Idade', y='Total_Compras', hue='Gênero', palette='muted')
plt.title('Total de Compras por Faixa Etária e Sexo')
plt.xlabel('Faixa Etária')
plt.ylabel('Total de Compras')
plt.legend(title='Gênero')
plt.show()


In [None]:
# Configurações de estilo
sns.set(style="whitegrid")

# Plotar gráfico de barras comparando o tempo de navegação do produto por gênero
plt.figure(figsize=(10, 6))
sns.barplot(data=df, x='Gênero', y='Tempo de Navegação do Produto', palette='muted')
plt.title('Tempo de Navegação do Produto por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Tempo de Navegação do Produto (minutos)')
plt.show()

# Plotar boxplot comparando o total de páginas visualizadas por gênero
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='Gênero', y='Total de Páginas Visualizadas', palette='muted')
plt.title('Total de Páginas Visualizadas por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Total de Páginas Visualizadas')
plt.show()

# Plotar gráfico de violino comparando o número de itens adicionados ao carrinho por gênero
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='Gênero', y='Itens Adicionados ao Carrinho', palette='muted')
plt.title('Itens Adicionados ao Carrinho por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Itens Adicionados ao Carrinho')
plt.show()

In [None]:
import scipy.stats as stats

# Separar os dados de compras por gênero
compras_homem = df[df['Gênero'] == 'Masculino']['Total de Compras - Usuário']
compras_mulher = df[df['Gênero'] == 'Feminino']['Total de Compras - Usuário']

# Realizar o teste t de Student para comparar as médias das compras entre homens e mulheres
t_statistic, p_value = stats.ttest_ind(compras_homem, compras_mulher)

# Imprimir o resultado do teste
print("Resultado do teste t de Student:")
print(f"Estatística t: {t_statistic}")
print(f"Valor p: {p_value}")

# Plotar a distribuição das compras por gênero
plt.figure(figsize=(10, 6))
sns.histplot(df, x='Total de Compras - Usuário', hue='Gênero', kde=True, palette='muted')
plt.title('Distribuição do Total de Compras por Gênero')
plt.xlabel('Total de Compras')
plt.ylabel('Contagem')
plt.legend(title='Gênero')
plt.show()


In [None]:
# Agrupar os dados por localização geográfica e calcular métricas de interesse
grupo_localizacao = df.groupby('Localização').agg({
    'Tempo de Navegação do Produto': 'mean',
    'Total de Páginas Visualizadas': 'mean',
    'Total de Compras - Usuário': 'sum'
}).reset_index()

# Plotar gráficos para avaliar o comportamento de navegação e padrões de compra por localização geográfica
plt.figure(figsize=(12, 8))

# Gráfico de barras para tempo médio de navegação do produto por localização
plt.subplot(2, 2, 1)
sns.barplot(data=grupo_localizacao, x='Localização', y='Tempo de Navegação do Produto', palette='muted')
plt.title('Tempo Médio de Navegação do Produto por Localização')
plt.xlabel('Localização')
plt.ylabel('Tempo de Navegação do Produto (minutos)')

# Gráfico de barras para média de páginas visualizadas por localização
plt.subplot(2, 2, 2)
sns.barplot(data=grupo_localizacao, x='Localização', y='Total de Páginas Visualizadas', palette='muted')
plt.title('Média de Páginas Visualizadas por Localização')
plt.xlabel('Localização')
plt.ylabel('Total de Páginas Visualizadas')

# Gráfico de barras para total de compras por localização
plt.subplot(2, 1, 2)
sns.barplot(data=grupo_localizacao, x='Localização', y='Total de Compras - Usuário', palette='muted')
plt.title('Total de Compras por Localização')
plt.xlabel('Localização')
plt.ylabel('Total de Compras')

plt.tight_layout()
plt.show()


In [None]:
# Agrupar os dados por tipo de dispositivo e calcular métricas de interesse
grupo_dispositivo = df.groupby('Tipo de Dispositivo').agg({
    'Tempo de Navegação do Produto': 'mean',
    'Total de Páginas Visualizadas': 'mean',
    'Total de Compras - Usuário': 'sum'
}).reset_index()

# Plotar gráficos para comparar o comportamento de navegação e padrões de compra por tipo de dispositivo
plt.figure(figsize=(12, 8))

# Gráfico de barras para tempo médio de navegação do produto por tipo de dispositivo
plt.subplot(2, 2, 1)
sns.barplot(data=grupo_dispositivo, x='Tipo de Dispositivo', y='Tempo de Navegação do Produto', palette='muted')
plt.title('Tempo Médio de Navegação do Produto por Tipo de Dispositivo')
plt.xlabel('Tipo de Dispositivo')
plt.ylabel('Tempo de Navegação do Produto (minutos)')

# Gráfico de barras para média de páginas visualizadas por tipo de dispositivo
plt.subplot(2, 2, 2)
sns.barplot(data=grupo_dispositivo, x='Tipo de Dispositivo', y='Total de Páginas Visualizadas', palette='muted')
plt.title('Média de Páginas Visualizadas por Tipo de Dispositivo')
plt.xlabel('Tipo de Dispositivo')
plt.ylabel('Total de Páginas Visualizadas')

# Gráfico de barras para total de compras por tipo de dispositivo
plt.subplot(2, 1, 2)
sns.barplot(data=grupo_dispositivo, x='Tipo de Dispositivo', y='Total de Compras - Usuário', palette='muted')
plt.title('Total de Compras por Tipo de Dispositivo')
plt.xlabel('Tipo de Dispositivo')
plt.ylabel('Total de Compras')

plt.tight_layout()
plt.show()


In [None]:
# Calcular a matriz de correlação
correlacao = df[['Idade', 'Total de Compras - Usuário', 'Tempo de Navegação do Produto', 'Total de Páginas Visualizadas', 'Itens Adicionados ao Carrinho']].corr()

# Plotar heatmap da matriz de correlação
plt.figure(figsize=(10, 8))
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt=".2f", vmin=-1, vmax=1)
plt.title('Matriz de Correlação')
plt.show()


In [None]:
# Calcular o CLV para cada cliente (soma do Total de Compras - Usuário)
clv_por_cliente = df.groupby('ID do Usuário')['Total de Compras - Usuário'].sum().reset_index()
clv_por_cliente.columns = ['ID do Usuário', 'CLV']


In [None]:
# Segmentar os clientes em grupos com base no CLV
clv_por_cliente['Segmento'] = pd.qcut(clv_por_cliente['CLV'], q=4, labels=['Baixo', 'Médio-Baixo', 'Médio-Alto', 'Alto'])


In [None]:
# Contar o número de clientes em cada segmento
contagem_segmentos = clv_por_cliente['Segmento'].value_counts().reset_index()
contagem_segmentos.columns = ['Segmento', 'Número de Clientes']

# Plotar gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(data=contagem_segmentos, x='Segmento', y='Número de Clientes', palette='viridis')
plt.title('Segmentos de Clientes com Base no Valor da Vida Útil do Cliente (CLV)')
plt.xlabel('Segmento')
plt.ylabel('Número de Clientes')
plt.show()


In [None]:
# Obter o número total de usuários
total_usuarios = len(df)

# Calcular a taxa de conversão para cada etapa do funil de conversão
taxa_visitas = len(df) / total_usuarios * 100
taxa_visualizacao_produtos = len(df[df['Total de Páginas Visualizadas'] > 0]) / total_usuarios * 100
taxa_adicao_carrinho = len(df[df['Itens Adicionados ao Carrinho'] > 0]) / total_usuarios * 100


In [None]:
# Calcular a taxa de conversão para cada etapa do funil de conversão
taxa_visitas = len(df) / total_usuarios * 100
taxa_visualizacao_produtos = len(df[df['Total de Páginas Visualizadas'] > 0]) / total_usuarios * 100
taxa_adicao_carrinho = len(df[df['Itens Adicionados ao Carrinho'] > 0]) / total_usuarios * 100
taxa_compra = len(df[df['Total de Compras - Usuário'] > 0]) / total_usuarios * 100

# Criar um DataFrame com as taxas de conversão
funil_conversao = pd.DataFrame({
    'Etapa do Funil': ['Visitas ao Site', 'Visualização de Produtos', 'Adição ao Carrinho', 'Compra'],
    'Taxa de Conversão (%)': [taxa_visitas, taxa_visualizacao_produtos, taxa_adicao_carrinho, taxa_compra]
})

# Plotar um gráfico de barras para visualizar o funil de conversão
plt.figure(figsize=(10, 6))
sns.barplot(data=funil_conversao, x='Etapa do Funil', y='Taxa de Conversão (%)', palette='viridis')
plt.title('Funil de Conversão dos Clientes')
plt.xlabel('Etapa do Funil')
plt.ylabel('Taxa de Conversão (%)')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Calcular a taxa de rotatividade dos clientes (churn rate)
total_clientes_ativos_inicial = len(df['ID do Usuário'].unique())
total_clientes_ativos_final = len(df[df['Total de Compras - Usuário'] > 0]['ID do Usuário'].unique())

churn_rate = (total_clientes_ativos_inicial - total_clientes_ativos_final) / total_clientes_ativos_inicial * 100

print("Taxa de Rotatividade dos Clientes (Churn Rate): {:.2f}%".format(churn_rate))


In [None]:
df.columns

In [None]:
# Calcular o total de usuários únicos
total_usuarios = df['Idade'].nunique()

# Calcular o total de compras por gênero
total_compras_genero = df.groupby('Idade')['Total de Compras - Usuário'].sum()

# Calcular a taxa de conversão por gênero
taxa_conversao_genero = (total_compras_genero / total_usuarios) * 100

# Visualizar a taxa de conversão por gênero
plt.figure(figsize=(10, 6))
sns.barplot(x=taxa_conversao_genero.index, y=taxa_conversao_genero.values)
plt.title('Taxa de Conversão por Idade')
plt.xlabel('Idade')
plt.ylabel('Taxa de Conversão (%)')
plt.show()

# Calcular a taxa de conversão média
taxa_conversao_media = (total_compras_genero.sum() / total_usuarios) * 100


print(f'Taxa de conversão média: {taxa_conversao_media:.2f}%')

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Simulação de dados fictícios
# Usando o DataFrame atual, sem gerar dados fictícios
# Certifique-se de substituir 'df' pelo nome do seu DataFrame real
total_usuarios = df['Gênero'].nunique()  # Total de usuários únicos
total_compras = df.groupby('Gênero')['Total de Compras - Usuário'].sum()

# Calcular a taxa de conversão por gênero
taxa_conversao_genero = (total_compras / total_usuarios) * 100

# Visualizar a taxa de conversão por gênero
plt.figure(figsize=(10, 6))
sns.barplot(x=taxa_conversao_genero.index, y=taxa_conversao_genero.values)
plt.title('Taxa de Conversão por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Taxa de Conversão (%)')
plt.show()

# Calcular a taxa de conversão média
taxa_conversao_media = (total_compras.sum() / total_usuarios) * 100

print(f'Taxa de conversão média: {taxa_conversao_media:.2f}%')
