🎯 Objetivo:

Objetivo principal: Entender o comportamento dos clientes e identificar fatores que influenciam a rotatividade (churn) em um comércio online.

Por que: Reduzir a perda de clientes e aumentar a receita por meio de ações baseadas em dados.

Decisões baseadas na análise: Estratégias de retenção, campanhas personalizadas, priorização de segmentos de clientes.


1. Definição do Problema e Hipóteses:

Definição de churn: 

-Cliente que não compra há mais de 60 dias.


Hipóteses sobre comportamento de clientes propensos a sair:

-Redução no volume de compras

-Longo tempo desde a última compra

-Frequência de compras baixa

-Ticket médio decrescente

2. Pré-processamento dos Dados:

-Importar o arquivo ecommerce_dataset_us.csv.

-Verificar e tratar os valores ausentes (especialmente em CustomerID)

-Verificar e remover valores duplicados

-Corrigir tipos de dados (Converter InvoiceDate para tipo datetime, garantir que Quantity e UnitPrice sejam numéricos, calcular coluna auxiliar: TotalPrice = Quantity * UnitPrice e outras correções necessárias)

3. Análise Exploratória de Dados (EDA):
 
-Número total de clientes únicos

-Distribuição de pedidos por cliente

-Distribuição de ticket médio por cliente

-Evolução de vendas ao longo do tempo

-Verificar sazonalidade ou datas com picos

4. Construção de Indicadores por Cliente:

-Data da última compra (last_purchase_date)

-Frequência de compras (número total de pedidos)

-Dias desde a última compra (last_purchase_days)

-Ticket médio (TotalSpent / NumOrders)

-Total gasto (TotalSpent)

5. Análise de Churn (Rotatividade)

-Definir um ponto de corte para churn (ex: last_purchase_days > 60 dias).

-Categorizar clientes em:

Ativos (compraram nos últimos 60 dias) e Inativos (não compram há 60 dias ou mais).

-Analisar as variáveis:

Comparar ticket médio entre ativos e inativos, Comparar frequência de compras.
Comparar tempo desde a última compra.

<div style="background-color: yellow; padding: 10px; border-radius: 4px;">
  
## - 1a Revisão do Bruno

Tainá, você começou muito bem a sua decomposição! Você definiu claramente o objetivo e já tem o pré-processamento e EDA bem claro. Na parte de definir a hipótese, apesar de você ter sugerido 4 hipóteses lembre-se que precisamos testa-las depois (teste de hipóteses), então precisamos **formular o teste**. Por Ex: Ticket Médio Descendente, concordo. Porém como testariámos isso confirmando com um rigor estatístico? Um exemplo correto seria: 

    - Hipótese Nula (H0): Os clientes de churn NÃO tem um ticket médio menor que os clientes de não churn.
    - Hipótese Alternativa (H1): Os clientes de churn tem um ticket médio menor que os clientes de não churn.
    
Perceba que neste caso estamos testando a diferença entre as médias dos dois grupos. O correto seria fazer um teste t então para validar essa hipótese que levantamos, se o valor p desse teste for menor que 0.05 nossa hipótese alternativa será confirmada. Vale a pena dar uma revisada em teste de hipóteses, é um conceito bem importante pra conseguir justamente aplicar na prática as análises e insights que geramos.
    
Outra possibilidade:
    
    - Hipótese Nula (H0): Os clientes de churn NÃO tem uma média de tempo da última compra maior que os clientes de não churn.
    - Hipótese Alteranativa (H1): Os clientes de churn tem uma média de tempo da última compra maior que os clientes de não churn.
    
Os indicadores também são os mais relevantes pro churn, porém pense em novas variáveis que podemos criar a partir das que já temos e que vão ser úteis nas nossas análises de churn (ajudando a diferenciar o cliente churn do cliente não-churn). Esse processo é o **feature engineering** (engenharia de variáveis) e costuma ser muito útil pra conseguirmos extrair insights mais profundos com os dados que já temos, ou inclusive aliar as variáveis que já temos com variáveis externas. Um exemplo seria incluir dados macroeconômicos demográficos, que em um contexto de churn costumam ser bem úteis (intuição: posso não conseguir estimar a renda do cliente BRUNO, mas consigo estimar a renda do estado, ou cidade dele - o que pode nos ajudar nas análises de churn).
    
E pra finalizar, na parte de análise de churn você pode complementar justamente com os testes para validar cada hipótese que vc levantou anteriormente. 

Foi um bom começo, Tainá! Foque nesses ajustes. Qualquer dúvida é só chamar.
</div>

🚩Análise de Churn 


Objetivo: Identificar padrões de comportamento entre clientes que abandonam o e-commerce e os que permanecem ativos.

Hipóteses para Testar: Vamos testar 3 Hipóteses.
1)Ticket Médio

H0: Clientes churn não têm ticket médio menor que os ativos.

H1: Clientes churn têm ticket médio menor que os ativos.


2)Tempo desde a última compra

H0: Clientes churn não têm maior tempo médio desde a última compra.

H1: Clientes churn têm maior tempo médio desde a última compra.


3)Frequência de compras

H0: Não há diferença na frequência média entre churn e não churn.

H1: A frequência média é menor nos clientes churn.


A validação das Hipóteses será feita com o Testes Estatísticos. Teste t, com p= 0.05 (p < 0.05 → rejeita H0).
Vamos separar os clientes em dois grupos, grupos clientes_churn vs clientes_ativos.
Para interpretar os resultados, usaremos gráficos como boxplot e histogramas.


🚩Pré-processamento de Dados:

Nessa etapa, iremos Importar limpar e tratar os dados (ecommerce_dataset_us.csv).

-Importar o arquivo ecommerce_dataset_us.csv.

-Verificar e tratar os valores ausentes (especialmente em CustomerID)

-Verificar e remover valores duplicados

-Corrigir tipos de dados (Converter InvoiceDate para tipo datetime, garantir que Quantity e UnitPrice sejam numéricos) calcula

Calcular coluna TotalPrice = Quantity * UnitPrice.


🚩Feature Engineering (Engenharia de Variáveis):

Criaremos algumas variáveis úteis para análise de churn:

recency_days = dias desde a última compra.

frequency = número de pedidos distintos por cliente.

monetary_value = soma de TotalPrice por cliente.

avg_ticket = monetary_value / frequency.

last_purchase_month = mês da última compra.

churn_status = 1 se não comprou nos últimos 90 dias, 0 caso contrário.

avg_items_per_order = média de quantidade de itens por pedido.


🚩Análise Exploratória de Dados (EDA):

Nessa etapa, faremos a distribuição da frequência e ticket médio. Vamos detectar outliers ou padrões atípicos e verificar
a evolução mensal de vendas e número de clientes.
Comparações por churn_status com gráficos e estatísticas descritivas também serão realizadas.






<div style="background-color: yellow; padding: 10px; border-radius: 4px;">
  
## - 2a Revisão do Bruno

Tainá, excelente trabalho! Com as novas variáveis que você criou no feature engineering, e com o teste de hipóteses estruturado a decomposição fica mais completa e na EDA você conseguiria validar essas hipóteses.
</div>