### Importando bibliotecas e arquivos

In [253]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
from IPython.display import Image

In [163]:
df = pd.read_csv('dataset\ecommerce_dataset_us.csv',sep = '\t')

In [164]:
df.sample()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID
118302,546427,21447,12 IVORY ROSE PEG PLACE SETTINGS,12,03/11/2019 14:29,1.25,14606.0


### Processo preliminar de tratamento de dados

In [165]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 7 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 28.9+ MB


In [166]:
#Alteração de coluna InvoiceDate (Data do pedido) de object para datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [167]:
#Confirmação se o CustomerID = 0 existe
df[df['CustomerID']=='0']['CustomerID'].count()

0

In [168]:
#Preenchimento de valores vazio na coluna CostumerID (ID de Cliente)
df['CustomerID'] = df['CustomerID'].fillna(0)

#Alteração de tipo de dados float64 para int64
df['CustomerID'] = df['CustomerID'].astype('int64')

In [169]:
#A coluna InvoiceNo não pode ter seu tipo alterado por conter códigos com letras
df['InvoiceNo'].sort_values(ascending = False)

541717    C581569
541716    C581569
541715    C581568
541541    C581499
540448    C581490
           ...   
3          536365
1          536365
5          536365
6          536365
0          536365
Name: InvoiceNo, Length: 541909, dtype: object

In [170]:
#A coluna StockCode não pode ter seu tipo alterado por conter códigos com letras
df['StockCode'].sort_values(ascending = False)

40383                m
178556    gift_0001_50
245516    gift_0001_50
239744    gift_0001_50
42057     gift_0001_50
              ...     
6166             10002
143465           10002
142              10002
11382            10002
22380            10002
Name: StockCode, Length: 541909, dtype: object

### Processo de identificação de informações

In [210]:
#Criação de coluna total com cálculo do total vendido em valor
df['TotalValor'] = df['Quantity']*df['UnitPrice']

In [172]:
#Produtos mais vendidos por quantidade
mais_vendidos = (
    df.groupby(['Description'])['Quantity']
    .sum()
    .reset_index(name = 'TotalUnid')
    .sort_values('TotalUnid', ascending = False)
)

mais_vendidos_top_10 = mais_vendidos.head(10)

In [173]:
#Produtos mais vendidos por valor total arrecadado
mais_vendidos_valor = (
    df.groupby(['Description'])['TotalValor']
    .sum()
    .reset_index(name = 'TotalValor')
    .sort_values('TotalValor',ascending = False)
)

mais_vendidos_valor_top_10 = mais_vendidos_valor.head(10)

In [174]:
#Produtos mais vendidos com a média de valor cobrado por unidade
df_media_preco = (
    df.groupby(['Description'])['UnitPrice']
    .mean()
    .reset_index(name = 'AveragePrice')
    .sort_values('AveragePrice', ascending = False)
)

df_media_preco_top_10 = df_media_preco.head(10)

In [176]:
#Média de valores gastos por Pedido
media_invoice = (
    df.groupby(['InvoiceNo'])['TotalValor']
    .sum()
    .reset_index(name = 'TotalValor')
    .sort_values('TotalValor',ascending = False)
)

In [183]:
#Média de valores gastos por cliente
media_cliente = (
    df.groupby(['CustomerID'])['TotalValor']
    .sum()
    .reset_index(name = 'TotalValor')
    .sort_values('TotalValor',ascending = False)
)

#Média de gastos por cliente, removendo o CustomerID 0 criado anteriormente
media_cliente = media_cliente[media_cliente['CustomerID']!=0]

In [186]:
#Total de pedidos por cliente
total_pedidos_cliente = (
    df.groupby(['CustomerID'])['InvoiceNo']
    .count()
    .reset_index(name = 'TotalPedidos')
    .sort_values('TotalPedidos', ascending=False)
)

total_pedidos_cliente = media_pedidos_cliente[media_pedidos_cliente['CustomerID']!=0]

In [228]:
#Retirando os CustomerID = 0
df_filtrado = df[df['CustomerID']!=0]

#Quantidade de itens por pedido
qtd_itens_invoice = (
    df_filtrado.groupby(['InvoiceNo'])['Quantity']
    .sum()
    .reset_index(name = 'QtdItens')
    .sort_values('QtdItens', ascending=False)
)

#Retirada de somas negativas em quantidade de itens
qtd_itens_invoice = qtd_itens_invoice[qtd_itens_invoice['QtdItens']>0]

#Média da quantidade de itens por pedido
media_por_invoice = qtd_itens_invoice['QtdItens'].mean().astype('int64').round()

print(f"Média da quantidade de itens por InvoiceNo: {media_por_invoice}")

Média da quantidade de itens por InvoiceNo: 279


### Apresentação de dados - Gráficos

In [259]:
#Boxplot - Quantidade de itens por pedido

graph_itens_invoice = px.box(
    qtd_itens_invoice,
    x = 'QtdItens',
    points = 'all')
graph_itens_invoice

Image(graph_itens_invoice.to_image(format='png'))


ValueError: 
Image export using the "kaleido" engine requires the kaleido package,
which can be installed using pip:
    $ pip install -U kaleido


In [240]:
qtd_itens_invoice.describe()

Unnamed: 0,QtdItens
count,18536.0
mean,279.547691
std,976.796524
min,1.0
25%,74.0
50%,155.0
75%,291.0
max,80995.0


O gráfico apresenta dois outliers muito distantes da maioria apresentada no gráfico, para melhorar a apresentaçao do mesmo, os valores foram retirados na apresentação abaixo.

In [251]:
qtd_itens_invoice_sem_max = qtd_itens_invoice[qtd_itens_invoice['QtdItens']<65000]

#Boxplot - Quantidade de itens por pedido, sem valores acima de 65000

graph_itens_invoice_ret = px.box(
    qtd_itens_invoice_sem_max,
    x = 'QtdItens',
    title = 'Gráfico de caixa - Quantidade de Itens abaixo de 65.000',
    points = 'all')
graph_itens_invoice_ret