# Decomposição - Projeto E-Commerce: Identificar os perfis dos consumidores

# E-Commerce: Identificar os perfis dos consumidores

## **Objetivo do Projeto**

Segmentar usuários com base em seus perfis de consumo para desenvolver ofertas personalizadas.

---

## **Decomposição da Tarefa**

### Descrição Detalhada dos Dados

Nesta seção, vamos detalhar cada uma das colunas disponíveis no conjunto de dados para garantir um entendimento completo de cada atributo.

#### `InvoiceNo`
* **Descrição:** Esta coluna representa o identificador único para cada pedido realizado na loja online. Cada transação tem um número de fatura associado a ela, que pode ser usado para rastrear e analisar compras individuais ou agrupadas.

#### `StockCode`
* **Descrição:** O código de estoque é um identificador único para cada produto disponível na loja. Ele permite a identificação, rastreio, e análise de produtos específicos, independentemente de sua descrição ou preço.

#### `Description`
* **Descrição:** Este campo contém o nome ou uma breve descrição do item comprado. Pode ser usado para entender melhor o tipo de produto, sua categoria, ou outras características relevantes que não são capturadas pelo `StockCode`.

#### `Quantity`
* **Descrição:** Quantidade refere-se ao número de unidades de um produto específico que foram compradas em uma transação. Essa coluna é crucial para entender o volume de vendas, padrões de compra e preferências dos clientes.

#### `InvoiceDate`
* **Descrição:** Representa a data e, possivelmente, a hora em que o pedido foi realizado. A análise desta coluna pode revelar padrões sazonais, tendências diárias ou semanais nas vendas, e pode ser útil na previsão de vendas futuras.

#### `UnitPrice`
* **Descrição:** Este é o preço por unidade do item comprado. Quando multiplicado pela `Quantity`, dá o valor total da transação para aquele item. A análise desta coluna pode ajudar a identificar os itens mais lucrativos, variações de preço, e impactos de preço nas vendas.

#### `CustomerID`
* **Descrição:** Identificador único para cada cliente que faz uma compra na loja online. Isso permite o rastreio e análise do comportamento de compra individual, frequência de compras, preferências, entre outros aspectos relacionados ao cliente.

Compreender cada uma dessas colunas é fundamental para uma análise eficaz e para extrair insights significativos do conjunto de dados.


### 1. Preparação e pré-processamento de dados
   * Carregar o conjunto de dados `ecommerce_dataset_us.csv`
   * Estudar valores ausentes e decidir como lidar com eles
   * Verificar e lidar com valores duplicados
   * Renomear colunas, se necessário, para nomes mais intuitivos
   * Converta tipos de dados se necessário (por exemplo, `InvoiceDate` para datetime)

### 2. Análise exploratória de dados
   * Estatísticas descritivas para cada coluna
   * Distribuição de categorias de produtos
   * Frequência e padrões de compra por `CustomerID`

### 3. Segmentação de usuários
   * Utilizar técnicas de clusterização (ex.: K-means) para segmentar usuários
   * Analisar os clusters e atribuir rótulos significativos
   * Descrever os perfis de consumidor de cada cluster

### 4. Formular e testar hipóteses estatísticas

#### **Hipótese 1: Relação entre frequência de compras e categorias de produtos**
* **Declaração:** Usuários que compram com frequência elevada tendem a comprar uma variedade maior de categorias de produtos do que usuários que compram menos frequentemente.
   * **Teste:** Comparar a diversidade de `StockCode` (categorias de produtos) entre usuários de alta e baixa frequência.
   
#### **Hipótese 2: Relação entre preço unitário e frequência de compra**
* **Declaração:** Itens com um `UnitPrice` mais baixo são comprados com maior frequência.
   * **Teste:** Analisar a relação entre `UnitPrice` e a frequência de `InvoiceNo` associada a esse preço.

#### **Hipótese 3: Categoria de produto popular**
* **Declaração:** Existe uma categoria de produto (ou algumas categorias) que são mais frequentemente compradas do que outras.
   * **Teste:** Analisar a frequência de `StockCode` para identificar as categorias mais populares.

#### **Hipótese 4: Relação entre a data de compra e o volume de compras**
* **Declaração:** Há certos períodos (por exemplo, finais de semana ou feriados) em que o volume de compras é significativamente maior.
   * **Teste:** Analisar `InvoiceDate` em relação ao número de `InvoiceNo` para identificar padrões temporais.

Para testar essas hipóteses, podemos usar técnicas estatísticas adequadas, como testes t, ANOVA, regressão ou outros testes relevantes, dependendo da natureza dos dados e da hipótese específica.


### 5. Visualização em Dashboards
   * Implementar as sugestões de dashboards conforme mencionado:
       - **Sugestão 1**

### 6. Referências
   * Liste e descreva as fontes utilizadas no projeto, especificando as perguntas que cada fonte ajudou a responder

### 7. Apresentação de Conclusões
   * Resumir insights principais
   * Criar uma apresentação visual e exportar como PDF
   * Anexar link da apresentação ao projeto

---

## **Recursos e Ferramentas**
* Linguagem de programação: Python
* Bibliotecas: pandas, numpy, matplotlib, seaborn, sklearn
* Ferramenta de apresentação: Microsoft PowerPoint ou Google Slides

