In [1]:
pip install matplotlib



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

# Carregar a base de dados
df = pd.read_csv('//content//drive//MyDrive//Colab Notebooks//Itau estagio//Ecommerce_DBS.csv')

# Excluir colunas não utilizadas
df = df.drop(columns=['Longituide', 'Latitude','Country','State','Total Purchase Amount','Customer ID'], errors='ignore')

# Limpar os valores ausentes
df = df.dropna()

# Verificar se há valores ausentes restantes
print("*Analise se possui mais algum Missing Values na Data Frame\n")
print(df.isnull().sum(),'\n')

In [None]:
# Converter a coluna de data para datetime
df['Purchase Date'] = pd.to_datetime(df['Purchase Date'], format='%d/%m/%Y', dayfirst=True)


# Filtrar os dados dos últimos 3 anos
data_limite = datetime.now() - pd.DateOffset(years=3)
df_ultimos_3_anos = df[df['Purchase Date'] >= data_limite]

In [None]:
# Agrupar por produto e somar a quantidade vendida
produtos_mais_vendidos = df_ultimos_3_anos.groupby('Product Category')['Quantity'].sum().reset_index()

# Ordenar do mais vendido para o menos vendido
produtos_mais_vendidos = produtos_mais_vendidos.sort_values(by='Quantity', ascending=False)

print("*Produto mais vendido e sua quantidade:\n")
print(produtos_mais_vendidos.head(),"\n")

In [None]:
# Encontrar o produto mais barato e mais caro
produto_mais_barato = df.loc[df['Product Price'].idxmin()]
produto_mais_caro = df.loc[df['Product Price'].idxmax()]

print('Pergunta: Qual o produto mais caro e o mais barato?\n')
print(f"Produto mais barato: {produto_mais_barato['Product Category']} - Preço: {produto_mais_barato['Product Price']}")
print(f"Produto mais caro: {produto_mais_caro['Product Category']} - Preço: {produto_mais_caro['Product Price']}\n")

In [None]:
# Agrupar por categoria e somar a quantidade vendida
categorias_vendidas = df.groupby('Product Category')['Quantity'].sum().reset_index()

# Categoria mais vendida e menos vendida
categoria_mais_vendida = categorias_vendidas.loc[categorias_vendidas['Quantity'].idxmax()]
categoria_menos_vendida = categorias_vendidas.loc[categorias_vendidas['Quantity'].idxmin()]

print('Pergunta: Qual a categoria de produto mais vendida e menos vendida? Qual a categoria mais e menos cara?\n')

print(f"Categoria mais vendida: {categoria_mais_vendida['Product Category']} - Quantidade vendida: {categoria_mais_vendida['Quantity']}")
print(f"Categoria menos vendida: {categoria_menos_vendida['Product Category']} - Quantidade vendida: {categoria_menos_vendida['Quantity']}\n")

print(f"Categoria mais cara: {produto_mais_barato['Product Category']} - Preço maximo: {produto_mais_barato['Product Price']}")
print(f"Categoria menos cara: {produto_mais_caro['Product Category']} - Preço minimo: {produto_mais_caro['Product Price']}\n")


In [None]:
# Encontrar o produto com melhor e pior NPS
produto_melhor_nps = df.loc[df['NPS'].idxmax()]
produto_pior_nps = df.loc[df['NPS'].idxmin()]

print('Pergunta: Qual o produto com o melhor e o pior NPS?\n')
print(f"Produto com melhor NPS: {produto_melhor_nps['Product Category']} - NPS: {produto_melhor_nps['NPS']}")
print(f"Produto com pior NPS: {produto_pior_nps['Product Category']} - NPS: {produto_pior_nps['NPS']}\n")

In [None]:
# Agrupar por produto e calcular a distribuição de gênero e idade média
publico_produto = df.groupby('Product Category').agg({
    'Gender': lambda x: x.value_counts().idxmax(),  # Gênero mais frequente
    'Customer Age ': 'mean',  # Idade média
    'Source': lambda x: x.value_counts().idxmax()  # Canal de venda mais frequente
}).reset_index()

print('*Analise de Generos e idade médias referente ao produto que escolhem e o canal utilizado \n')
print(publico_produto,"\n")

In [None]:
# Agrupar por canal de venda e calcular a idade média
idade_canal = df.groupby('Source')['Customer Age '].mean().reset_index()

print('*Analsie por idade média referente ao canal que utilizam\n')
print(idade_canal,"\n")

In [None]:
# Visualização: Produtos mais vendidos nos últimos 3 anos
plt.figure(figsize=(10, 6))
plt.bar(produtos_mais_vendidos['Product Category'], produtos_mais_vendidos['Quantity'])
plt.xlabel('Produto-Categoria')
plt.ylabel('Quantidade Vendida')
plt.title('Produtos Mais Vendidos nos Últimos 3 Anos')
plt.xticks(rotation=45)
plt.show()

# Visualização: Idade média por canal de venda
plt.figure(figsize=(10, 6))
plt.bar(idade_canal['Source'], idade_canal['Customer Age '])
plt.xlabel('Canal de Venda')
plt.ylabel('Idade Média')
plt.title('Idade Média por Canal de Venda')
plt.xticks(rotation=45)
plt.show()
