# Problema

**Tipo de Declaração de Problema: Segmentação de Clientes: Agrupamento**

**Descrição do Contexto do Problema:** Uma loja online sediada no Reino Unido capturou os dados de vendas de diferentes produtos ao longo de um ano (novembro de 2016 a dezembro de 2017). A organização vende presentes principalmente na plataforma online. Os clientes que fazem uma compra consomem diretamente para si mesmos. Existem pequenos negócios que compram em grande quantidade e vendem para outros clientes por meio do canal de varejo.

**Objetivo do Projeto:** Encontrar clientes significativos para o negócio que fazem compras elevadas de seus produtos favoritos. A organização deseja implementar um programa de fidelidade para os clientes de alto valor após a identificação dos segmentos.

**Descrição do Conjunto de Dados:** Este é um conjunto de dados transnacional que contém todas as transações ocorridas entre novembro de 2016 e dezembro de 2017 para uma loja online sediada no Reino Unido.

**Descrição dos Atributos:**
- `InvoiceNo`: Número da fatura (um número integral de 6 dígitos atribuído exclusivamente a cada transação)
- `StockCode`: Código do produto (item)
- `Description`: Nome do produto (item)
- `Quantity`: As quantidades de cada produto (item) por transação
- `InvoiceDate`: O dia em que cada transação foi gerada
- `UnitPrice`: Preço unitário (preço do produto por unidade)
- `CustomerID`: Número do cliente (ID único atribuído a cada cliente)
- `Country`: Nome do país (o nome do país onde cada cliente reside)

**Definição de Clientes de Alto Valor [HVC]:** [Link para a definição](https://nectarom.com/2017/02/24/high-value-customers-high-value-results/#:~:text=High%2Dvalue%20customers%20are%20those,in%20times%20of%20financial%20duress).

**Com Base no Objetivo de Negócios:** Minha escolha é ir para a técnica de agrupamento Hierárquico ou EM, pois é mais robusta para este conjunto de dados. As análises abaixo são uma visão subjetiva própria; posso estar equivocado em primeiro lugar e adoraria receber feedback e aprender com você.

# Planejamento da Solução

 **Input - Entrada**

**O problema de negócio**

1. Selecionar os mais valiosos clientes para formar o programa de fidelidade **"INSIDERS"**
2. Conjunto de dados com as vendas de produtos durante 2 anos ( Nov 2015 to Dec 2017 )

**Output - Saída**

1. A indicação de pessoas para fazer parte do programa de fidelidade **"INSIDERS"**.
2. Relatório com as respostas para as seguintes perguntas:
    - Quem são as pessoas elegíveis para participar do programa de Insiders ?
    - Quantos clientes farão parte do grupo?
    - Quais as principais características desses clientes ?
    - Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?
    - Qual a expectativa de faturamento desse grupo para os próximos meses ?
    - Quais as condições para uma pessoa ser elegível ao Insiders ?
    - Quais as condições para uma pessoa ser removida do Insiders ?
    - Qual a garantia que o programa Insiders é melhor que o restante da base ?
    - Quais ações o time de marketing pode realizar para aumentar o faturamento?

**Tasks - Processo**

1. **Quem são as pessoas elegíveis para participar do programa de Insiders ?**
    - O que é ser elegível ? O que é um cliente "valioso" para a empresa ?
        - Faturamento:
            - Alto Ticket Médio
            - Alto LTV
            - Baixa Recência ou Alta Frequência ( tempo entre as compras )
            - Alto Basket Size ( quantidade média de produtos comprados )
            - Baixa probabilidade de Churn
            - Previsão alta de LTV
            - Alta propensão de compra

        - Custo:
            - Baixo número de devoluções

        - Experiência:  
            - Média alta de avaliações
             
             
            
2. **Quantos clientes farão parte do grupo?**
    - Número de clientes
    - % em relação ao total de clients
    
    
3. **Quais as principais características desses clientes ?**
    - Escrever os principais atributos dos clientes
        - Idade
        - País
        - Salário
        
    - Escrever os principais comportamentos de compra dos clients ( métricas de negócio )
        - Vide acima
    
    
4. **Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?**
    - Calcular o faturamento total da empresa durante o ano.
    - Calcular o faturamento (%) apenas do cluster Insiders.
    
    
5. **Qual a expectativa de faturamento desse grupo para os próximos meses ?**
    - Cálculo do LTV do grupo Insiders
    - Séries Temporais ( ARMA, ARIMA, HoltWinter, etc )
    

6. **Quais as condições para uma pessoa ser elegível ao Insiders ?**
    - Qual o período de avaliação ?
    - O "desempenho" do cliente está próximo da média do cluster Insiders. 
    
    
7. **Quais as condições para uma pessoa ser removida do Insiders ?**
    - O "desempenho" do cliente não está mais próximo da média do cluster Insiders. 
    
    
8. **Qual a garantia que o programa Insiders é melhor que o restante da base ?**
    - Teste de Hipóteses
    - Teste A/B
    
    
9. **Quais ações o time de marketing pode realizar para aumentar o faturamento?**
    - Descontos
    - Preferências de escolha
    - Produtos exclusivos

 # Imports 

In [131]:
import pandas as pd
import numpy  as np


import matplotlib.pyplot as plt
import seaborn           as sns

import os

In [2]:
# Changing dir to start of project directory
os.chdir('C:\\Users\\joaov\\Documents\\ComunidadeDS\\project_customer_clustering\\')

# Carregando dados

In [87]:
df0 = pd.read_csv('data/raw/Ecommerce.csv', encoding='unicode_escape', usecols=list(np.arange(0,8)))

# Análise descritiva

In [4]:
df0.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,29-Nov-16,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,29-Nov-16,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,29-Nov-16,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,29-Nov-16,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,29-Nov-16,3.39,17850.0,United Kingdom


In [5]:
df0.dtypes    

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

**Quão grande é o Dataset? ?**

In [6]:
print(' The dataset has {} rows'
      ' and {} columns.'
      .format(df0.shape[0],df0.shape[1]))

 The dataset has 541909 rows and 8 columns.


**Qual a porcentagem de dados nulos por coluna?**

In [7]:
round( ( df0.isna().sum() / df0.shape[0] ) * 100
      ,2)

InvoiceNo       0.00
StockCode       0.00
Description     0.27
Quantity        0.00
InvoiceDate     0.00
UnitPrice       0.00
CustomerID     24.93
Country         0.00
dtype: float64

**Informações gerais por coluna**

In [12]:
df0.describe(include='all')

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
count,541909.0,541909,540455,541909.0,541909,541909.0,406829.0,541909
unique,25900.0,4070,4223,,305,,,38
top,573585.0,85123A,WHITE HANGING HEART T-LIGHT HOLDER,,3-Dec-17,,,United Kingdom
freq,1114.0,2313,2369,,5331,,,495478
mean,,,,9.55225,,4.611114,15287.69057,
std,,,,218.081158,,96.759853,1713.600303,
min,,,,-80995.0,,-11062.06,12346.0,
25%,,,,1.0,,1.25,13953.0,
50%,,,,3.0,,2.08,15152.0,
75%,,,,10.0,,4.13,16791.0,


1. **InvoiceNo**
    - Contém valores numéricos e poucas ocorrencias de Strings ( < 2% ) como por ex. 'C536379'.
    - Mais que 75% das linhas com InvoiceNo não numéricos contém quantidades negativas
     
    
    
2. **InvoiceDate**
    - Data armazenada em formato de String, necessário conversão para DateTime
    
            
2. **CustomerID**
    - 25% dos valores vazios, porém como cada InvoiceNo só pode ter um cliente, assumiremos o CustomerID a partir das Invoices No


# Treating data

In [101]:
df1 = df0.assign(
            #InvoiceNo = pd.to_numeric(df1['InvoiceNo'], errors='coerce'),
            InvoiceDate = pd.to_datetime(df1['InvoiceDate'], format='%d-%b-%y'),
            TotalValue  = lambda x: x['Quantity'] * x['UnitPrice']
                )

In [103]:
df1.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalValue
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2016-11-29,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2016-11-29,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2016-11-29,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2016-11-29,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2016-11-29,3.39,17850.0,United Kingdom,20.34


In [89]:
df1['CustomerID'] = df1['InvoiceNo'].map( 
                                        (df1[['InvoiceNo','CustomerID']]
                                        .drop_duplicates()
                                        .set_index('InvoiceNo')
                                        ['CustomerID']
                                        .to_dict()))

# Analyze

## Os clientes NAs representam quantos % do faturamento?

In [141]:
(df1.groupby('CustomerID', as_index=False, dropna=False)
     ['TotalValue']
     .sum()
     .assign(TotalValuePerc = lambda x: x['TotalValue'] / x['TotalValue'].sum())
     .sort_values(by='TotalValue', ascending=False)
     .reset_index(drop=False))

Unnamed: 0,index,CustomerID,TotalValue,TotalValuePerc
0,4372,,1447682.12,0.148515
1,1703,14646.0,279489.02,0.028672
2,4233,18102.0,256438.49,0.026307
3,3758,17450.0,187482.17,0.019233
4,1895,14911.0,132572.62,0.013600
...,...,...,...,...
4368,125,12503.0,-1126.00,-0.000116
4369,3870,17603.0,-1165.30,-0.000120
4370,1384,14213.0,-1192.20,-0.000122
4371,2236,15369.0,-1592.49,-0.000163
