### Clusterização de Clientes e Criação de Insights

    Objetivos do Projeto
        Explorar os dados – você precisa fornecer à equipe de marketing um melhor entendimento das características dos respondentes;
        Pelo menos 3 insights importantes;
        Modele uma segmentação de clientes que possa aumentar o lucro da campanha;
        Crie um modelo preditivo para maximizar o lucro da próxima campanha de marketing;
        Power Point para apresentação dos resultados.
        Contação de histórias de insights.
        Modelo que pode ser utilizado pela equipe de negócios e marketing.

### Planejamento de soluções

Como o business case é composto por 3 partes, vou dividir o problema em 3 cadernos diferentes para ficar bem organizado e estruturado. O objetivo do caderno de análise de dados será **analisar o conjunto de dados fornecido e compreender os dados**. 

Além disso, é necessário criar algumas hipóteses, validá-las por meio de análise exploratória de dados e extrair alguns insights acionáveis. A segunda parte é utilizar alguns métodos para **criar cluster de clientes de acordo com o perfil e utilizá-los para criar algumas recomendações para a campanha de marketing**. Deverá aumentar o lucro, já que visamos clientes específicos.

A última parte será o **modelo preditivo**, juntando os resultados gerados pela modelização do clustering, podemos prever se o cliente aceitará a próxima oferta e então calcular o impacto no negócio com base nos inputs do conjunto de dados.

    1. Planejamento de Análise de Dados
        Compreensão e contexto do negócio
        Descrever dados
        Criação de hipóteses
        Engenharia de recursos
        Filtrando Variáveis
        Análise exploratória de dados
    2. Planejamento de Clustering
        Preparação de dados
        Seleção de recursos
        Cluster de modelagem
        Análise de Cluster
        Recomendações
    3. Planejamento do Modelo Preditivo
        Preparação de dados
        Seleção de recursos
        Modelagem de aprendizado de máquina
        Ajuste fino de hiperparâmetros
        Avaliação
        Impacto nos negócios

### 0.0 Imports

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import date
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
import shap # usado para explicar modelos de aprendizado de máquina
plt.rcParams['axes.axisbelow'] = True #Esta linha modifica um parâmetro em Matplotlib chamado axes.axisbelow. Quando definido como True, ele garante que as linhas de grade e os ticks apareçam abaixo dos pontos de dados plotados. Por padrão, esse parâmetro é False.

### 0.1 Funções Auxiliares

In [2]:
def descriptive_analysis(numerical_df):
    #Medidas de tendência central
    #.T = Transpor, ele troca as linhas por colunas no Dataframe
    ct1 = pd.DataFrame(numerical_df.apply(np.mean)).T #Média
    ct2 = pd.DataFrame(numerical_df.apply(np.median)).T #Mediana
    
    #Medidas de Dispersão
    d1 = pd.DataFrame(numerical_df.apply(np.std)).T #Desvio Padrão
    d2 = pd.DataFrame(numerical_df.apply(np.min)).T #Mínimo
    d3 = pd.DataFrame(numerical_df.apply(np.max)).T #Máximo
    d4 = pd.DataFrame(numerical_df.apply(lambda x : x.max() - x.min())).T #Intervalo
    d5 = pd.DataFrame(numerical_df.apply(lambda x : x.skew())).T #Assimetria
    d6 = pd.DataFrame(numerical_df.apply(lambda x : x.kurtosis())).T #Pico(Curtose)
    
    #Concatenando o resultado
    m = pd.concat([ct1,ct2,d1,d2,d3,d4,d5,d6]).T.reset_index()
    m.columns = ['Atributos', 'Média', 'Mediana', 'DP', 'Min', 'Max', 'Intervalo', 'Inclinação', 'Curtose']
    
    return m

In [3]:
def camel_to_snake(s):
    #Converter CamelCase para snake_style
    #.join() = Converte uma String em Lista, enquanto split() = Converte Lista em String
    return ''.join(['_'+c.lower() if c.isupper() else c for c in s]).lstrip('_')

In [4]:
def capping_outliers(df, col):
    quantile_10 = df[col].quantile(0.10)
    quantile_90 = df[col].quantile(0.90)
    
    df[col] = np.where(df[col] < quantile_10, quantile_10, df[col])
    df[col] = np.where(df[col] > quantile_90, quantile_90, df[col])    
    
    return df

### 0.2 Carregando Dados

In [5]:
df0 = pd.read_csv('./clientes_mes_ano.csv')

In [6]:
df0.head()

Unnamed: 0,NROEMPRESA,COD_CLIENTE,TIPO_PESSOA,DATA_ULTIMA_COMPRA,NUMERO_VISITAS,VALOR_TOTAL,DIA_SEMANA,QUANTIDADE_PRODUTOS,SEGMENTO,CGO,MES_ANO
0,1,1,J,27/07/2024,3,365,Domingo,37,1,800,9/2023
1,2,1,J,27/07/2024,2,122,Domingo,6,1,800,9/2023
2,5,1,J,27/07/2024,10,1607,Domingo,154,1,800,9/2023
3,1,1,J,27/07/2024,1,120,Quarta,2,1,800,9/2023
4,5,1,J,27/07/2024,7,500,Quarta,43,1,800,9/2023


### 0.3 Selecting the CGO

In [7]:
#Filtro de linhas a serem removidas
rows_to_remove = df0.query('CGO not in (800, 810, 835, 843, 844)').index

In [8]:
#Quantidade de linhas que serão removidas
len(rows_to_remove)

6892

In [9]:
#Remoção das linhas
df0.drop(rows_to_remove, axis=0, inplace=True)

In [10]:
#Verificando o DataFrame
df0.head()

Unnamed: 0,NROEMPRESA,COD_CLIENTE,TIPO_PESSOA,DATA_ULTIMA_COMPRA,NUMERO_VISITAS,VALOR_TOTAL,DIA_SEMANA,QUANTIDADE_PRODUTOS,SEGMENTO,CGO,MES_ANO
0,1,1,J,27/07/2024,3,365,Domingo,37,1,800,9/2023
1,2,1,J,27/07/2024,2,122,Domingo,6,1,800,9/2023
2,5,1,J,27/07/2024,10,1607,Domingo,154,1,800,9/2023
3,1,1,J,27/07/2024,1,120,Quarta,2,1,800,9/2023
4,5,1,J,27/07/2024,7,500,Quarta,43,1,800,9/2023


### 0.4 Rename Columns

In [11]:
old_columns = ['NROEMPRESA','COD_CLIENTE','TIPO_PESSOA','DATA_ULTIMA_COMPRA','NUMERO_VISITAS','VALOR_TOTAL','DIA_SEMANA','QUANTIDADE_PRODUTOS','SEGMENTO','CGO','MES_ANO']

lower_case = lambda x: x.lower()
new_columns = list(map(lower_case, old_columns))

df0.columns = new_columns

In [12]:
df0.columns

Index(['nroempresa', 'cod_cliente', 'tipo_pessoa', 'data_ultima_compra',
       'numero_visitas', 'valor_total', 'dia_semana', 'quantidade_produtos',
       'segmento', 'cgo', 'mes_ano'],
      dtype='object')

### 1.0 Descrição dos Dados

In [13]:
df1 = df0.copy()

### 1.1 Dimensões dos Dados

In [14]:
print('Número de exemplos: {}'.format(df1.shape[0]))
print('Número de caraterísticas: {}'.format(df1.shape[1]))

Número de exemplos: 1041683
Número de caraterísticas: 11


### 1.2 Tipos dos Dados

In [15]:
df1.dtypes

nroempresa              int64
cod_cliente             int64
tipo_pessoa            object
data_ultima_compra     object
numero_visitas          int64
valor_total             int64
dia_semana             object
quantidade_produtos     int64
segmento                int64
cgo                     int64
mes_ano                object
dtype: object

In [16]:
#Convertendo Colunas para formato de data
df1['data_ultima_compra'] = pd.to_datetime(df1['data_ultima_compra'], format='%d/%m/%Y')
df1['mes_ano'] = pd.to_datetime(df1['mes_ano'], format='%m/%Y')

#Convertendo Colunas para String
df1['nroempresa'] = df1['nroempresa'].astype('string')
df1['cod_cliente'] = df1['cod_cliente'].astype('string')
df1['tipo_pessoa'] = df1['tipo_pessoa'].astype('string')
df1['dia_semana'] = df1['dia_semana'].astype('string')
df1['segmento'] = df1['segmento'].astype('string')
df1['cgo'] = df1['cgo'].astype('string')

In [17]:
df1.dtypes

nroempresa                     string
cod_cliente                    string
tipo_pessoa                    string
data_ultima_compra     datetime64[ns]
numero_visitas                  int64
valor_total                     int64
dia_semana                     string
quantidade_produtos             int64
segmento                       string
cgo                            string
mes_ano                datetime64[ns]
dtype: object

### 1.3 Valores Faltantes (%)

In [18]:
#Percent
(df1.isna().sum() / len(df1))*100

nroempresa             0.000000
cod_cliente            0.000000
tipo_pessoa            0.002304
data_ultima_compra     0.000000
numero_visitas         0.000000
valor_total            0.000000
dia_semana             0.000000
quantidade_produtos    0.000000
segmento               0.000000
cgo                    0.000000
mes_ano                0.000000
dtype: float64

In [19]:
#Fitlro para selecionar os valores inválidos
tipo_pessoa_nan = df1.query('tipo_pessoa != "F" & tipo_pessoa != "J"').index
len(tipo_pessoa_nan)

24

In [20]:
#Removendo as linhas com os valores inválidos
df1.drop(tipo_pessoa_nan, axis=0, inplace=True)

In [21]:
#Checando novamente os valores inválidos
(df1.isna().sum() / len(df1))*100

nroempresa             0.0
cod_cliente            0.0
tipo_pessoa            0.0
data_ultima_compra     0.0
numero_visitas         0.0
valor_total            0.0
dia_semana             0.0
quantidade_produtos    0.0
segmento               0.0
cgo                    0.0
mes_ano                0.0
dtype: float64

### 1.4 Balnço das Visitas

In [22]:
len(df1['numero_visitas'].unique())

722

In [23]:
df1['numero_visitas'].value_counts(normalize=True)*100

1       66.019590
2       20.157748
3        7.848346
4        3.419449
5        1.398538
          ...    
1903     0.000096
107      0.000096
1544     0.000096
363      0.000096
4326     0.000096
Name: numero_visitas, Length: 722, dtype: float64

#### Resumo dos dados de visitas normalizados

   Os valores à esquerda (1,2,3..398), são os **valores únicos encontrados na coluna**, representando a **quantidade de visitas**.
    
   Os valores à direita (31.08, 14.26, 8.80..), é a **porcentagem de ocorrência de cada valor**.

    Assim:
        66% da base de dados, realizou somente 1 visita.
        20% da base de dados, realizou somente 2 visitas e assim sucessivamente.

### 1.5 Estatísticas Descritivas

In [24]:
num_vars = df1.select_dtypes(include=['int64', 'float64'])
cat_vars = df1.select_dtypes(exclude=['int64', 'float64', 'datetime64[ns]'])

### 1.5.1 Atributos Numéricos

In [25]:
stat = descriptive_analysis(num_vars)
stat

Unnamed: 0,Atributos,Média,Mediana,DP,Min,Max,Intervalo,Inclinação,Curtose
0,numero_visitas,3.081187,1.0,69.250063,1.0,7580.0,7579.0,55.485219,3491.09013
1,valor_total,175.521071,68.0,3107.909824,0.0,503582.0,503582.0,69.675258,6004.045298
2,quantidade_produtos,21.590539,8.0,425.061868,1.0,58312.0,58311.0,67.328347,5220.056526


### 1.5.2 Atributos Categóricos

In [26]:
#Valores unicos para 'nroempresa'
cat_vars['nroempresa'].unique()

<StringArray>
['1', '2', '5', '4', '3']
Length: 5, dtype: string

In [27]:
cat_vars['nroempresa'].value_counts(normalize=True)*100

1    26.484195
2     20.35263
4    19.379951
3    19.241422
5    14.541803
Name: nroempresa, dtype: Float64

#### Resume
    26% equivalem a empresa 1
    20% equivalem a empresa 2
    19% equivalem a empresa 3
    19% equivalem a empresa 4
    14% equivalem a empresa 5

In [28]:
#Valores unicos para 'codcliente'
cat_vars['cod_cliente'].unique()

<StringArray>
[   '1',    '5', '1005', '1015', '1017', '1018', '1019', '1029', '1047',
 '1120',
 ...
 '6420', '7033', '7085', '7114', '7444', '7546', '7608', '7775', '7990',
 '8343']
Length: 53180, dtype: string

In [29]:
cat_vars['cod_cliente'].value_counts(normalize=True)*100

2033     0.027648
10743     0.02448
8022     0.024288
2221        0.024
20126    0.023904
           ...   
78035    0.000096
77823    0.000096
78046    0.000096
77423    0.000096
8343     0.000096
Name: cod_cliente, Length: 53180, dtype: Float64

In [30]:
#Valores unicos para 'tipo_pessoa'
cat_vars['tipo_pessoa'].unique()

<StringArray>
['J', 'F']
Length: 2, dtype: string

In [31]:
cat_vars['tipo_pessoa'].value_counts(normalize=True)*100

F    99.68963
J     0.31037
Name: tipo_pessoa, dtype: Float64

In [32]:
#Valores unicos para 'segmento'
cat_vars['segmento'].unique()

<StringArray>
['1', '2', '4', '3']
Length: 4, dtype: string

In [33]:
cat_vars['segmento'].value_counts(normalize=True)*100

1    97.688879
2     1.909454
4     0.378531
3     0.023136
Name: segmento, dtype: Float64

In [34]:
#Valores unicos para 'dia_semana'
cat_vars['dia_semana'].unique()

<StringArray>
['Domingo      ',       'Quarta ',       'Quinta ',       'Segunda',
       'Sexta  ', 'Sabado       ',       'Terca  ']
Length: 7, dtype: string

In [35]:
cat_vars['dia_semana'].value_counts(normalize=True)*100

Sabado           17.165214
Sexta            15.408785
Quinta           15.132399
Terca             14.11268
Segunda          13.759109
Quarta           13.538116
Domingo          10.883696
Name: dia_semana, dtype: Float64

### Resume
    17% equivalem a Sábado
    15% equivalem a Sexta
    15% equivalem a Quinta
    14% equivalem a Terça
    13% equivalem a Segunda
    13% equivalem a Quarta
    10% equivalem a Domingo

In [36]:
#Valores unicos para 'cgo'
cat_vars['cgo'].unique()

<StringArray>
['800', '843', '835', '844', '810']
Length: 5, dtype: string

In [37]:
cat_vars['cgo'].value_counts(normalize=True)

800    0.997477
835    0.002248
844    0.000195
843    0.000056
810    0.000024
Name: cgo, dtype: Float64

### 2.0 Hypothesis

   ##### Distribuição de Novos Usuários ao Longo do Ano:
        Hipótese: A distribuição de novos usuários (clientes) é uniforme ao longo do ano, ou há variações sazonais? Por exemplo, os meses de férias podem atrair mais novos clientes.
        
   ##### Variação do Valor Total ao Longo do Ano:
        Hipótese: O valor total de compra varia sazonalmente? Por exemplo, há picos de gastos em determinadas épocas do ano (como Natal ou Black Friday)?
        
   ##### Variação entre Melhor e Pior Dia da Semana para Compras:
        Hipótese: Existe uma diferença estatisticamente significativa entre os dias da semana em termos de quantidade de compras realizadas? Por exemplo, segundas-feiras podem ter menos compras do que sextas-feiras.
        
   ##### Relação entre Número de Visitas e Quantidade de Produtos Comprados:
        Hipótese: Os clientes que fazem mais visitas também compram mais produtos? Por exemplo, clientes que visitam a loja com frequência tendem a comprar mais itens.
        
   ##### Segmentação com Base no Tipo de Pessoa (Física ou Jurídica):
        Hipótese: Existem diferenças significativas no comportamento de compra entre pessoas físicas e jurídicas? Por exemplo, empresas podem comprar em maior quantidade do que indivíduos. 
        
   ##### Impacto do Valor Total na Frequência de Compra:
        Hipótese: Clientes que realizam compras de maior valor total tendem a fazer compras com menor frequência? Por exemplo, clientes que gastam mais em uma única compra podem retornar menos vezes.

In [38]:
df2 = df1.copy()

In [39]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1041659 entries, 0 to 1048574
Data columns (total 11 columns):
 #   Column               Non-Null Count    Dtype         
---  ------               --------------    -----         
 0   nroempresa           1041659 non-null  string        
 1   cod_cliente          1041659 non-null  string        
 2   tipo_pessoa          1041659 non-null  string        
 3   data_ultima_compra   1041659 non-null  datetime64[ns]
 4   numero_visitas       1041659 non-null  int64         
 5   valor_total          1041659 non-null  int64         
 6   dia_semana           1041659 non-null  string        
 7   quantidade_produtos  1041659 non-null  int64         
 8   segmento             1041659 non-null  string        
 9   cgo                  1041659 non-null  string        
 10  mes_ano              1041659 non-null  datetime64[ns]
dtypes: datetime64[ns](2), int64(3), string(6)
memory usage: 95.4 MB


In [40]:
#Convertendo a coluna 'data_ultima_compra' para realziar a operação
df2['data_ultima_compra'] = pd.to_datetime(df2['data_ultima_compra'])

#Retorna a data atual, convertidade para aceitar a operação
data_atual = pd.to_datetime(date.today())

#Operação que verifica a diferença de dias da última compra até o dia atual
df2['dias_desde_ultima_compra'] = (data_atual - df2['data_ultima_compra']).dt.days

In [41]:
df2

Unnamed: 0,nroempresa,cod_cliente,tipo_pessoa,data_ultima_compra,numero_visitas,valor_total,dia_semana,quantidade_produtos,segmento,cgo,mes_ano,dias_desde_ultima_compra
0,1,1,J,2024-07-27,3,365,Domingo,37,1,800,2023-09-01,4
1,2,1,J,2024-07-27,2,122,Domingo,6,1,800,2023-09-01,4
2,5,1,J,2024-07-27,10,1607,Domingo,154,1,800,2023-09-01,4
3,1,1,J,2024-07-27,1,120,Quarta,2,1,800,2023-09-01,4
4,5,1,J,2024-07-27,7,500,Quarta,43,1,800,2023-09-01,4
...,...,...,...,...,...,...,...,...,...,...,...,...
1048570,4,8754,F,2024-07-19,1,8,Segunda,2,1,800,2023-05-01,12
1048571,4,8754,F,2024-07-19,1,31,Segunda,2,2,800,2023-05-01,12
1048572,2,8754,F,2024-07-19,1,23,Sexta,4,1,800,2023-05-01,12
1048573,2,8754,F,2024-07-19,1,11,Sabado,3,1,800,2023-05-01,12


### Agrupando os valores para ter uma linha por cliente 
    - Valor total gasto por cliente
    - Quantidade total de visitas
    - Quantidade total de produtos

In [42]:
#Verificando o DataFrame
df2.head()

Unnamed: 0,nroempresa,cod_cliente,tipo_pessoa,data_ultima_compra,numero_visitas,valor_total,dia_semana,quantidade_produtos,segmento,cgo,mes_ano,dias_desde_ultima_compra
0,1,1,J,2024-07-27,3,365,Domingo,37,1,800,2023-09-01,4
1,2,1,J,2024-07-27,2,122,Domingo,6,1,800,2023-09-01,4
2,5,1,J,2024-07-27,10,1607,Domingo,154,1,800,2023-09-01,4
3,1,1,J,2024-07-27,1,120,Quarta,2,1,800,2023-09-01,4
4,5,1,J,2024-07-27,7,500,Quarta,43,1,800,2023-09-01,4


In [43]:
#Verificando valores nulos
df2.isna().sum()

nroempresa                  0
cod_cliente                 0
tipo_pessoa                 0
data_ultima_compra          0
numero_visitas              0
valor_total                 0
dia_semana                  0
quantidade_produtos         0
segmento                    0
cgo                         0
mes_ano                     0
dias_desde_ultima_compra    0
dtype: int64

In [44]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1041659 entries, 0 to 1048574
Data columns (total 12 columns):
 #   Column                    Non-Null Count    Dtype         
---  ------                    --------------    -----         
 0   nroempresa                1041659 non-null  string        
 1   cod_cliente               1041659 non-null  string        
 2   tipo_pessoa               1041659 non-null  string        
 3   data_ultima_compra        1041659 non-null  datetime64[ns]
 4   numero_visitas            1041659 non-null  int64         
 5   valor_total               1041659 non-null  int64         
 6   dia_semana                1041659 non-null  string        
 7   quantidade_produtos       1041659 non-null  int64         
 8   segmento                  1041659 non-null  string        
 9   cgo                       1041659 non-null  string        
 10  mes_ano                   1041659 non-null  datetime64[ns]
 11  dias_desde_ultima_compra  1041659 non-null  int64 

In [45]:
#Filtrando somente os clientes diferentes da empresa
clientes_a_remover = df2.query('cod_cliente in ["1", "2", "3", "4", "5", "13285", "13290", "48963", "13923", "13295", "13297"]').index
len(clientes_a_remover)

925

In [46]:
#Removendo os clientes
df2.drop(clientes_a_remover, axis=0, inplace=True)

In [47]:
df_agrupado = df2.groupby('cod_cliente').agg({'valor_total': 'sum', 'numero_visitas' : 'sum', 'quantidade_produtos' : 'sum', 'dias_desde_ultima_compra' : 'last'}).reset_index()

In [48]:
df_agrupado

Unnamed: 0,cod_cliente,valor_total,numero_visitas,quantidade_produtos,dias_desde_ultima_compra
0,10000,2069,46,214,4
1,10001,9110,200,1111,8
2,10002,76,2,2,370
3,10006,8883,153,1087,350
4,10007,9072,119,1289,2
...,...,...,...,...,...
53165,9992,1867,17,145,51
53166,9995,4154,68,661,12
53167,9997,5229,74,397,6
53168,9998,2767,41,403,3


#### Alguns códigos não usados
    #Calculando o total gasto por cliente
    #df2['valor_total_gasto_pelo_cliente'] = df2.groupby(['nroempresa', 'cod_cliente', 'tipo_pessoa','data_ultima_compra','numero_visitas','dia_semana','quantidade_produtos','segmento','cgo','mes_ano','dias_desde_ultima_compra'])['valor_total'].sum().reset_index(drop=True)

    #Se necessário
    #df2.drop('valor_total_gasto_pelo_cliente', axis=1, inplace=True)
    
    #Total de visitas realizadas
    #df2['total_visitas'] = df2.groupby(['nroempresa', 'cod_cliente', 'tipo_pessoa','data_ultima_compra','numero_visitas','dia_semana','quantidade_produtos','segmento','cgo','mes_ano','dias_desde_ultima_compra'])['numero_visitas'].sum().reset_index(drop=True)
    
    #df2.drop('total_visitas', axis=1, inplace=True)    
    
    
    VISUALIZAÇÃO DE CLIENTE ESPECIFICO com .loc
    cliente_10000 = df2.query('cod_cliente == "10000"').index
    df2.loc[cliente_10000]

# POWER BI

As hipóteses serão respondidas pelo Power BI.

### Salvando o arquivo

In [49]:
df_agrupado.to_csv('clientes_agrupados.csv', index=False)