# 1 - Importação de bibliotecas e dados

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Importação do módulo OS, que permite interage com o Sistema Operacional
import os
# Definindo caminho para o arquivo bruto
dataset_path = r"data/OnlineRetail.csv"
# Alguns arquivos usam ISO-8859-1 para caracteres especiais
df = pd.read_csv(dataset_path, encoding="ISO-8859-1")

# 2 - Análise Exploratória des Dados (EDA)

## 2.1 Visualização do dataframe

In [2]:
display(df)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,09-12-2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,09-12-2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,09-12-2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,09-12-2011 12:50,4.15,12680.0,France


## 2.2 Tipo de dado em cada coluna

- **InvoiceNo:** Número da fatura da compra.
- **StockCode:** Código do item vendido.
- **Description:** Nome do produto.
- **Quantity:** Quantidade adquirida.
- **InvoiceDate:** Data da compra.
- **UnitPrice:** Preço unitário do produto.
- **CustomerID:** Identificador do cliente.
- **Country:** País do cliente.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


- Linhas: 54.1909
- Colunas: 8
- Consumo de memória: 33.1 MB

## 2.3 Quantidade de valores nulos em cada coluna

In [4]:
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

## 2.4 Quantidade de valores não-nulos em cada coluna

In [5]:
df.notnull().sum()

InvoiceNo      541909
StockCode      541909
Description    540455
Quantity       541909
InvoiceDate    541909
UnitPrice      541909
CustomerID     406829
Country        541909
dtype: int64

## 2.5 Nome de cada coluna
- Para verificar inconsistências como espaços no começo e no final dos nomes

In [6]:
df.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

## 2.6 Quantidade de linhas duplicadas no dataframe

In [7]:
print(df.duplicated().sum())

5268


## 2.7 Visualização das linhas duplicadas
- Como o InvoiceNo e o CostumeID são o mesmo, mas as outras colunas têm registros diferenes. Significa que o mesmo cliente comprou produtos diferentes, por tanto, não é necessário que essas linhas sejam removidas na fase de pré-processamento.

In [8]:
df[df.duplicated()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,01-12-2010 11:45,1.25,17908.0,United Kingdom
527,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,01-12-2010 11:45,2.10,17908.0,United Kingdom
537,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1,01-12-2010 11:45,2.95,17908.0,United Kingdom
539,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1,01-12-2010 11:45,4.95,17908.0,United Kingdom
555,536412,22327,ROUND SNACK BOXES SET OF 4 SKULLS,1,01-12-2010 11:49,2.95,17920.0,United Kingdom
...,...,...,...,...,...,...,...,...
541675,581538,22068,BLACK PIRATE TREASURE CHEST,1,09-12-2011 11:34,0.39,14446.0,United Kingdom
541689,581538,23318,BOX OF 6 MINI VINTAGE CRACKERS,1,09-12-2011 11:34,2.49,14446.0,United Kingdom
541692,581538,22992,REVOLVER WOODEN RULER,1,09-12-2011 11:34,1.95,14446.0,United Kingdom
541699,581538,22694,WICKER STAR,1,09-12-2011 11:34,2.10,14446.0,United Kingdom


## 2.8 Quantidade de valores únicos em cada coluna

In [9]:
df.nunique()

InvoiceNo      25900
StockCode       4070
Description     4223
Quantity         722
InvoiceDate    23260
UnitPrice       1630
CustomerID      4372
Country           38
dtype: int64

## 2.9 Análise Descritiva de colunas numéricas

- count: Quantidade de valores não nulos.
- mean: Média dos valores.
- std: Desvio padrão.
- min: Valor mínimo.
- 25% / 50% / 75%: Quartis.
- max: Valor máximo.
---
- As colunas Quantity e UnitPrice possuem valores negativos
- Isso pode indicar devolução de produtos

In [10]:
df.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


## 2.10 Analise Descritiva de colunas object

- count: Quantidade de valores não-nulos.
- unique: Quantidade de valores únicos.
- top: Moda.
- freq: Quantidade de vezes que a moda aparece.

In [11]:
df.describe(include="object")

Unnamed: 0,InvoiceNo,StockCode,Description,InvoiceDate,Country
count,541909,541909,540455,541909,541909
unique,25900,4070,4223,23260,38
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,31-10-2011 14:41,United Kingdom
freq,1114,2313,2369,1114,495478


## 2.11 Moda de cada coluna

In [12]:
df.mode()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,1,31-10-2011 14:41,1.25,17841.0,United Kingdom


## 2.12 Analisando coluna StockCode

A análise da coluna StockCode revelou padrões distintos em quatro códigos que são formados por um único caractere.  
Cada um deles têm um significado específico:

- **D** → Indica produtos com **desconto**, possivelmente relacionados a promoções ou itens descontinuados.  
- **M** → Associado a **manuais**, podendo representar produtos internos ou materiais de instrução.  
- **S** → Refere-se a **amostras** ("samples"), indicando itens distribuídos gratuitamente para testes ou demonstrações.  
- **B** → Relacionado a **ajustes de dívidas incobráveis** ("Adjust bad debt"), mostrando correções financeiras de valores que não podem ser recuperados.  

Esses códigos representam transações excepcionais.


In [13]:
df[df["StockCode"].astype(str).str.len() == 1]["StockCode"].unique()

array(['D', 'M', 'S', 'm', 'B'], dtype=object)

In [14]:
df[df["StockCode"].astype(str).str.len() == 1]["Description"].unique()

array(['Discount', 'Manual', 'SAMPLES', 'Adjust bad debt'], dtype=object)

In [15]:
df[df["StockCode"].astype(str).str.len() == 1]["Description"].nunique()

4

## 2.13 Visualizando e analisando colunas Quantity e UnitPrice
- Essas colunas possuem valores negativos e zeros, é necessário entender o contexto delas
- O prefixo das colunas podem indicar a natureza da transação:
    - InvoiceNo → Devoluções têm um prefixo "C", que significa **Cancelamento** ou **Crédito** para usar em compras futuras na loja.
    - CustomerID → Se o mesmo cliente aparece repetidamente com valores negativos, pode ser um sinal de devoluções.
    - InvoiceDate → Muitos valores negativos na mesma data pode indicar uma onda de devoluções após períodos de muitas vendas como black friday e natal.

### Colunas onde os valores são menores que zero
- Padrões percebidos
    - Quando `Quantity < 0`, o prefico começa de InvoiceNo com "C".
    - Quando `UnitPrice <= 0`, o prefixo da de InvoiceNo também começa com "C".
- Esses clientes:
    - Fizeram a devolução de algum produto e ficaram com saldo para compras futuras.
    - Compraram itens em promoção, por exemplo, compre dois e leve um de graça.
- O valor negativo de UnitPrice significa o saldo que o cliente tem na loja.
- O valor negativo em Quantity significa itens com descontos, defeituosos, manuais de instrução, amostras ou correções financeiras

In [16]:
df[(df["Quantity"] < 0) | (df["UnitPrice"] <= 0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
141,C536379,D,Discount,-1,01-12-2010 09:41,27.50,14527.0,United Kingdom
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,01-12-2010 09:49,4.65,15311.0,United Kingdom
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,01-12-2010 10:24,1.65,17548.0,United Kingdom
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,01-12-2010 10:24,0.29,17548.0,United Kingdom
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,01-12-2010 10:24,0.29,17548.0,United Kingdom
...,...,...,...,...,...,...,...,...
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,09-12-2011 09:57,0.83,14397.0,United Kingdom
541541,C581499,M,Manual,-1,09-12-2011 10:28,224.69,15498.0,United Kingdom
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,09-12-2011 11:57,10.95,15311.0,United Kingdom
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,09-12-2011 11:58,1.25,17315.0,United Kingdom


### Descrições das colunas onde os valores de UnitPrice é zero
- Analisando as descrições, percebe-se:
    - Produto danificado
    - Produto descartado
    - Produto molhado
    - Produto perdido
    - Erro de venda
    - Embalagem molhada
- Esses produtos não puderam ser vendidos por algum defeito ou erro de estoque e a loja os registrou com o preço zero como parte do controle interno.
- Esses registros não impactam a análise de vendas e podem ser removidos do dataframe
- Deixei a exibição apenas da quantidade de descrições para não poluir o notebook, mas basta tirar o comentário para ler as descrições

In [17]:
df[(df["UnitPrice"] == 0)]["Description"].nunique()
#df[(df["UnitPrice"] == 0)]["Description"].unique()

376

### Descrições das colunas onde os valores de UnitPrice é menor que zero
O fato de "Adjust bad debt" ser a única descrição quando UnitPrice é menor que zero indica que esses registros representam ajustes de dívida incobrável. Isso pode significar que a loja está lidando com transações onde o pagamento não foi recebido ou onde há necessidade de ajustar o saldo contábil devido a uma perda financeira.

Esse ajuste pode ocorrer por diversos motivos, como:

- Clientes que não realizaram o pagamento e a loja precisa registrar essa perda.
- Correções contábeis internas para remover valores que não podem ser recuperados.
- Cancelamento de vendas onde o pagamento não foi efetuado corretamente.

Esses registros não devem ser considerados como transações de venda, pois representam ajustes financeiros.


In [18]:
df[(df["UnitPrice"] < 0)]["Description"].unique()

array(['Adjust bad debt'], dtype=object)

### Analisando separadamente quando as colunas Quantity e UnitPrice têm valor zero ou negativo

A análise dos valores zero ou negativos nas colunas `Quantity` e `UnitPrice` revelou padrões que indicam diferentes tipos de registros no dataset:

1. **Problemas de qualidade e produtos danificados**: Muitos registros estão relacionados a produtos com defeitos, como itens quebrados, danificados, molhados ou mofados, que foram descartados e marcados no sistema com preço zero.

2. **Ajustes internos e correções de estoque**: Há registros de ajustes contábeis ou correções de inventário, onde a loja modificou dados sem afetar diretamente vendas, utilizando valores zerados para manter controle.

3. **Erros de registro e venda**: Alguns itens foram cadastrados incorretamente, seja por problemas de código de barras, identificação errada ou vendas realizadas em formatos errados, como conjuntos que deveriam ser vendidos separadamente.

4. **Produtos promocionais e amostras**: Alguns itens têm descrições indicando que foram distribuídos gratuitamente, seja como amostras, brindes ou itens de showroom.

5. **Devoluções e ajustes financeiros**: Valores negativos aparecem principalmente em registros associados a faturas canceladas e notas de crédito, indicando devoluções de clientes e ajustes em transações anteriores.

Esses padrões mostram que os valores zero e negativos não representam vendas normais e podem ser tratados separadamente ou removidos do dataset. Isso pode ajudar a evitar distorções nos cálculos financeiros e na avaliação de desempenho das vendas.


### Quando `Quantity` é zero

In [19]:
df[df["Quantity"] == 0].nunique()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

### Quando `Quantity` menor que zero

In [20]:
df[df["Quantity"] < 0].nunique()

InvoiceNo      5172
StockCode      2559
Description    2110
Quantity        329
InvoiceDate    4851
UnitPrice       574
CustomerID     1589
Country          30
dtype: int64

### Quando `UnitPrice` é zero

In [21]:
df[df["UnitPrice"] == 0].nunique()

InvoiceNo      2155
StockCode      1419
Description     376
Quantity        426
InvoiceDate    1722
UnitPrice         1
CustomerID       31
Country          10
dtype: int64

### Quando `UnitPrice` é menor que zero

In [22]:
df[df["UnitPrice"] < 0].nunique()

InvoiceNo      2
StockCode      1
Description    1
Quantity       1
InvoiceDate    2
UnitPrice      1
CustomerID     0
Country        1
dtype: int64

## 2.14 Analisando valores ausentes, inconsistências e outliers
- Registros de CustomerID ausentes devem ser removido pois não serão úteis para analisar o comportamento dos clientes
- Usando os registros de StockCode foi possível encontrar os valores corretos para corrigir Description

### Valores ausentes em CustomerID

In [23]:
df[df["CustomerID"].isnull()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,01-12-2010 11:52,0.00,,United Kingdom
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,01-12-2010 14:32,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,01-12-2010 14:32,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,01-12-2010 14:32,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,01-12-2010 14:32,1.66,,United Kingdom
...,...,...,...,...,...,...,...,...
541536,581498,85099B,JUMBO BAG RED RETROSPOT,5,09-12-2011 10:26,4.13,,United Kingdom
541537,581498,85099C,JUMBO BAG BAROQUE BLACK WHITE,4,09-12-2011 10:26,4.13,,United Kingdom
541538,581498,85150,LADIES & GENTLEMEN METAL SIGN,1,09-12-2011 10:26,4.96,,United Kingdom
541539,581498,85174,S/4 CACTI CANDLES,1,09-12-2011 10:26,10.79,,United Kingdom


### Valores ausentes em Description

In [24]:
df[df["Description"].isnull()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,01-12-2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,01-12-2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,01-12-2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,01-12-2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,01-12-2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535322,581199,84581,,-2,07-12-2011 18:26,0.0,,United Kingdom
535326,581203,23406,,15,07-12-2011 18:31,0.0,,United Kingdom
535332,581209,21620,,6,07-12-2011 18:35,0.0,,United Kingdom
536981,581234,72817,,27,08-12-2011 10:33,0.0,,United Kingdom


### Valores de Description encontrados através de StockCode
- Nesse exemplo, foram encontrado três valores em Description, sendo que o correto é o primeiro
- Para corrigir esse e outros valores, o primeiro valor único que não seja null deve substituir os outros

In [25]:
df[df["StockCode"] == "22139"]["Description"].unique()

array(['RETROSPOT TEA SET CERAMIC 11 PC ', nan, 'amazon'], dtype=object)

## Análise Descritiva de Quantity
- O valor máximo (80.995K) está muito acima do terceiro quartil (10.0) e afetando o valor do desvio padrão (218.08K)
- O valor mínimo (-80.995K) também está muito discrepante
- Esses outliers precisam ser tratados na etapa de pré-processamento

In [26]:
df["Quantity"].describe()

count    541909.000000
mean          9.552250
std         218.081158
min      -80995.000000
25%           1.000000
50%           3.000000
75%          10.000000
max       80995.000000
Name: Quantity, dtype: float64

## Análise Descritiva de UnitPrice
- Os valores de UnitPrice também possuem outliers que precisam ser tratados na etapa de pré-processamento

In [27]:
df["UnitPrice"].describe()

count    541909.000000
mean          4.611114
std          96.759853
min      -11062.060000
25%           1.250000
50%           2.080000
75%           4.130000
max       38970.000000
Name: UnitPrice, dtype: float64

# 3 - Pré-processamento de dados

## 3.1 Removendo registros ausentes de CustomerID 
- Remover os registros ausentes em CustomerID também removeu os de Description
- Não há mais necessidade de corrigir Description

In [28]:
df.dropna(subset=["CustomerID"], inplace=True)

In [29]:
df["Description"].isnull().unique()

array([False])

## 3.2 Removendo compras não realizadas de Quantity e UnitPrice
- Esses registros não são relevantes para analisar o comportamento dos clientes
- O objetivo do projeto é entender o padrão de compras dos clientes

In [30]:
df = df[df["Quantity"] > 0]
df = df[df["UnitPrice"] > 0]

## 3.3 Removendo outliers de Quantity e UnitPrice com o método IQR

O **IQR (Interquartile Range)**, que em português se chama **Amplitude Interquantil (AIQ)**, é um método estatístico que mede a dispersão dos dados e identifica outliers. Ele calcula a diferença entre **Q3 (75%)** e **Q1 (25%)**, definindo um intervalo esperado. Valores fora de `Q1 - 1.5 * IQR` e `Q3 + 1.5 * IQR` são considerados extremos e podem ser removidos ou analisados separadamente.

O método IQR foi utilizado para identificar e remover outliers na coluna Quantity. Foram calculados os quartis **Q1 (25%)** e **Q3 (75%)**, e os limites foram definidos como `Q1 - 1.5 * IQR` e `Q3 + 1.5 * IQR`. Apenas os registros dentro desse intervalo foram mantidos, garantindo que valores extremos não distorcessem a análise.

In [31]:
Q1 = df["Quantity"].quantile(0.25)
Q3 = df["Quantity"].quantile(0.75)
IQR = Q3 - Q1

df = df[(df["Quantity"] >= Q1 - 1.5 * IQR) & (df["Quantity"] <= Q3 + 1.5 * IQR)]

Q1 = df["UnitPrice"].quantile(0.25)
Q3 = df["UnitPrice"].quantile(0.75)
IQR = Q3 - Q1

df = df[(df["UnitPrice"] >= Q1 - 1.5 * IQR) & (df["UnitPrice"] <= Q3 + 1.5 * IQR)]

### **Análise Descritiva de Quantity e UnitPrice após a aplicação do IQR**

A aplicação do IQR reduziu a quantidade de registros de **541.909 para 338.151**, eliminando valores extremos que poderiam distorcer a análise.

#### **Principais mudanças antes e depois do IQR**
- **Média**:
  - `Quantity`: De **9.55** para **7.48**, mostrando que valores atípicos elevavam a média inicial.
  - `UnitPrice`: De **4.61** para **2.19**, indicando que preços extremos impactavam a média.

- **Desvio padrão**:
  - `Quantity`: De **218.08** para **6.77**, demonstrando uma redução significativa na dispersão dos dados.
  - `UnitPrice`: De **96.76** para **1.54**, tornando os preços mais consistentes.

- **Máximo**:
  - `Quantity`: De **80.995** para **27**, eliminando valores extremamente altos.
  - `UnitPrice`: De **38.970** para **7.50**, removendo preços anômalos.

- **Mínimo**:
  - `Quantity`: De **-80.995** para **1**, retirando valores negativos que não representavam compras reais.
  - `UnitPrice`: De **-11.062** para **0.001**, ajustando possíveis registros incorretos.

- **Mediana**:
  - `Quantity`: De **3** para **6**, refletindo um aumento nos valores centrais após a filtragem.
  - `UnitPrice`: De **2.08** para **1.65**, mostrando que a maioria dos preços se concentra em valores menores.

A filtragem pelo **IQR** estabilizou a distribuição dos dados, eliminando transações que poderiam distorcer as métricas e tornando a análise mais representativa do comportamento de compra dos clientes.  

In [32]:
df["Quantity"].describe()

count    338151.000000
mean          7.476917
std           6.770795
min           1.000000
25%           2.000000
50%           6.000000
75%          12.000000
max          27.000000
Name: Quantity, dtype: float64

In [33]:
df["UnitPrice"].describe()

count    338151.000000
mean          2.192017
std           1.544770
min           0.001000
25%           1.250000
50%           1.650000
75%           2.950000
max           7.500000
Name: UnitPrice, dtype: float64

## 3.4 Tratando os tipos de dados das colunas

### Visualizando os tipos de dado das colunas

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 338151 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    338151 non-null  object 
 1   StockCode    338151 non-null  object 
 2   Description  338151 non-null  object 
 3   Quantity     338151 non-null  int64  
 4   InvoiceDate  338151 non-null  object 
 5   UnitPrice    338151 non-null  float64
 6   CustomerID   338151 non-null  float64
 7   Country      338151 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 23.2+ MB


### **Correção e Padronização dos Dados**  

Os tipos de dados das colunas foram ajustados para garantir compatibilidade na análise, prevenindo inconsistências. Foram aplicadas transformações para padronizar a data e separar o horário das transações.  

1. **Correção dos tipos de dados**:  
   - `InvoiceNo`, `Quantity` → Convertidos para `int64`, garantindo valores inteiros.  
   - `UnitPrice` → Convertido para `float64`, permitindo cálculos financeiros.  
   - `StockCode`, `Description`, `CustomerID`, `Country` → Convertidos para `str`, garantindo uniformidade nos identificadores e categorias.  

2. **Transformação da coluna `InvoiceDate`**:  
   - Convertida para o formato `DD/MM/YYYY`, facilitando a leitura e a análise temporal.  
   - Criada a coluna `InvoiceTime`, armazenando apenas o horário para estudos detalhados sobre padrões de compra ao longo do dia.  

3. **Reorganização do DataFrame**:  
   - As colunas essenciais foram mantidas, garantindo um conjunto de dados limpo e otimizado para análise.  

Essas transformações asseguram que os dados estejam padronizados e prontos para serem utilizados na análise do comportamento de compras dos clientes.

In [35]:
# Corrigindo tipos de dados
df["InvoiceNo"] = df["InvoiceNo"].astype(str)
df["StockCode"] = df["StockCode"].astype(str)
df["Description"] = df["Description"].astype(str)
df["Quantity"] = df["Quantity"].astype(np.int64)
df["UnitPrice"] = df["UnitPrice"].astype(np.float64)
df["CustomerID"] = df["CustomerID"].astype(str)
df["Country"] = df["Country"].astype(str)

# Separando data e hora corretamente
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"], format="%d-%m-%Y %H:%M")
df["InvoiceTime"] = pd.to_datetime(df["InvoiceDate"]).dt.time  # Extraindo apenas o horário
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"]).dt.strftime("%d/%m/%Y") # Formato DD/MM/YYYY

# Reorganizando o dataframe deixando o InvoiceDate e InvoiceTime lado a lado
df = df[["InvoiceNo", "StockCode", "Description", "Quantity", "InvoiceDate", "InvoiceTime", "UnitPrice", "Country"]]

## Visualização do dataframe após as correções

In [36]:
df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,InvoiceTime,UnitPrice,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01/12/2010,08:26:00,2.55,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01/12/2010,08:26:00,3.39,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01/12/2010,08:26:00,2.75,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01/12/2010,08:26:00,3.39,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01/12/2010,08:26:00,3.39,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,09/12/2011,12:50:00,0.85,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,09/12/2011,12:50:00,2.10,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,09/12/2011,12:50:00,4.15,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,09/12/2011,12:50:00,4.15,France


# 4 - Levantamento de hipóteses