<a href="https://colab.research.google.com/github/MaxVieiraSantiago/Machine-Learning-Projects-with-Python/blob/main/007_Clustering_de_Cart%C3%A3o_de_Cr%C3%A9dito_com_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Agrupamento de cartão de crédito**

O agrupamento de cartões de crédito significa agrupar os titulares de cartões de crédito com base em seus hábitos de compra, limites de crédito e muitos outros fatores financeiros. Também é conhecido como segmentação de cartão de crédito. Essa análise de agrupamento ajuda as empresas a encontrar seus clientes em potencial e muitas outras estratégias de marketing.

Para a tarefa de agrupamento de cartão de crédito com **Machine Learning**, precisamos ter um conjunto de dados baseado no ***histórico de compras dos titulares de cartão de crédito***. 

Na seção abaixo, faremos a análise de clustering de cartão de crédito com aprendizado de máquina usando a linguagem de programação **Python**.

In [2]:
from google.colab import drive
drive.mount( '/content/driver' )

Mounted at /content/driver


# **Segmentação de clientes: estudo de caso**

Segmentação de clientes significa agrupar clientes com base em suas ações, interesses e hábitos de compra. Por exemplo, uma empresa de cartão de crédito pode agrupar seus clientes com base em seu limite de crédito.

Aqui está um conjunto de dados com base na segmentação de clientes enviada por **Arjun Bhasin** no **Kaggle**. Abaixo estão todos os recursos no conjunto de dados:

**CUST_ID**: Número de identificação único do cliente

**BALANCE**: Saldo na conta bancária do cliente

**BALANCE_FREQUENCY**: Com que frequência o saldo é atualizado na conta do cliente (1 significa atualizado com frequência e 0 significa que não é atualizado com frequência)

**PURCHASES**: O número de compras feitas pelo cliente

**ONEOFF_PURCHASES**: quantidade máxima de compra única

**INSTALLMENTS_PURCHASES**: Quantidade de compras parceladas

**CASH_ADVANCE**: Dinheiro adiantado pago pelo cliente

**PURCHASES_FREQUENCY**: A frequência das compras (1 significa alta frequência, 0 significa baixa frequência)

**ONEOFF_PURCHASES_FREQUENCY**: A frequência de compras de pagamento único (1 significa alta frequência, 0 significa baixa frequência)

**PURCHASES_INSTALLMENTS_FREQUENCY**: A frequência de compras parceladas (1 significa alta frequência, 0 significa baixa frequência)

**CASH_ADVANCE_FREQUENCY**: Frequência de pagamentos antecipados em dinheiro

**CASH_ADVANCE_TRX**: Número de transações em dinheiro adiantado

**PURCHASES_TRX**: Número de transações em compras

**CREDIT_LIMIT**: Limite de crédito do cliente

**PAYMENTS**: Valor dos pagamentos efetuados pelo cliente

**MINIMUM_PAYMENTS**: Valor dos pagamentos mínimos feitos pelo cliente

**PRC_FULL_PAYMENT**: Porcentagem do pagamento integral feito pelo cliente

**TENURE**: A posse do serviço de cartão de crédito do cliente

In [3]:
import pandas as pd
import numpy as np
from sklearn import cluster

url = 'https://raw.githubusercontent.com/MaxVieiraSantiago/Machine-Learning-Projects-with-Python/main/dataset/CC%20GENERAL.csv'
dados = pd.read_csv( url )

display( dados.head() )

Unnamed: 0,CUST_ID,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,CASH_ADVANCE_FREQUENCY,CASH_ADVANCE_TRX,PURCHASES_TRX,CREDIT_LIMIT,PAYMENTS,MINIMUM_PAYMENTS,PRC_FULL_PAYMENT,TENURE
0,C10001,40.900749,0.818182,95.4,0.0,95.4,0.0,0.166667,0.0,0.083333,0.0,0,2,1000.0,201.802084,139.509787,0.0,12
1,C10002,3202.467416,0.909091,0.0,0.0,0.0,6442.945483,0.0,0.0,0.0,0.25,4,0,7000.0,4103.032597,1072.340217,0.222222,12
2,C10003,2495.148862,1.0,773.17,773.17,0.0,0.0,1.0,1.0,0.0,0.0,0,12,7500.0,622.066742,627.284787,0.0,12
3,C10004,1666.670542,0.636364,1499.0,1499.0,0.0,205.788017,0.083333,0.083333,0.0,0.083333,1,1,7500.0,0.0,,0.0,12
4,C10005,817.714335,1.0,16.0,16.0,0.0,0.0,0.083333,0.083333,0.0,0.0,0,1,1200.0,678.334763,244.791237,0.0,12


# **Antes de continuarmos, vamos verificar se o Dataset possui valores nulos ou não:**

In [4]:
dados.isnull().sum()

CUST_ID                               0
BALANCE                               0
BALANCE_FREQUENCY                     0
PURCHASES                             0
ONEOFF_PURCHASES                      0
INSTALLMENTS_PURCHASES                0
CASH_ADVANCE                          0
PURCHASES_FREQUENCY                   0
ONEOFF_PURCHASES_FREQUENCY            0
PURCHASES_INSTALLMENTS_FREQUENCY      0
CASH_ADVANCE_FREQUENCY                0
CASH_ADVANCE_TRX                      0
PURCHASES_TRX                         0
CREDIT_LIMIT                          1
PAYMENTS                              0
MINIMUM_PAYMENTS                    313
PRC_FULL_PAYMENT                      0
TENURE                                0
dtype: int64

# Temos alguns valores **nulos** no campo **MINIMUM_PAYMENTS**, vamos descartar descartar as linhas com valores nulos e prosseguir:

In [6]:
dados = dados.dropna(axis=0)
dados.isnull().sum()

CUST_ID                             0
BALANCE                             0
BALANCE_FREQUENCY                   0
PURCHASES                           0
ONEOFF_PURCHASES                    0
INSTALLMENTS_PURCHASES              0
CASH_ADVANCE                        0
PURCHASES_FREQUENCY                 0
ONEOFF_PURCHASES_FREQUENCY          0
PURCHASES_INSTALLMENTS_FREQUENCY    0
CASH_ADVANCE_FREQUENCY              0
CASH_ADVANCE_TRX                    0
PURCHASES_TRX                       0
CREDIT_LIMIT                        0
PAYMENTS                            0
MINIMUM_PAYMENTS                    0
PRC_FULL_PAYMENT                    0
TENURE                              0
dtype: int64

Existem três recursos no conjunto de dados que são muito valiosos para a tarefa de segmentação de cartões de crédito:

**BALANCE**: O saldo deixado nas contas dos clientes de cartão de crédito.

**PURCHASES**: Quantidade de compras realizadas nas contas dos clientes com cartão de crédito.

**CREDIT_LIMIT**: O limite do cartão de crédito.

Esses três recursos são suficientes para agrupar os titulares de cartão de crédito, pois nos informam sobre o histórico de compras, saldo bancário e limite de crédito dos titulares de cartão de crédito. Então, vamos usar esses recursos para criar clusters a partir do conjunto de dados:

In [11]:
clustering_data = dados[['BALANCE', 'PURCHASES', 'CREDIT_LIMIT']]

from sklearn.preprocessing import MinMaxScaler
for i in clustering_data.columns:
  MinMaxScaler(i)

from sklearn.cluster import KMeans
KMeans = KMeans(n_clusters=5)
clusters = KMeans.fit_predict(clustering_data)

dados['SEGMENTO_CARTAO_CREDITO'] = clusters
dados['SEGMENTO_CARTAO_CREDITO'] = dados['SEGMENTO_CARTAO_CREDITO'].map( {0:'Cluster 1', 1:'Cluster 2', 2:'Cluster 3', 3:'Cluster 4', 4:'Cluster 5'})
dados['SEGMENTO_CARTAO_CREDITO'].head(10)


0     Cluster 4
1     Cluster 1
2     Cluster 1
4     Cluster 4
5     Cluster 4
6     Cluster 3
7     Cluster 4
8     Cluster 1
9     Cluster 3
10    Cluster 4
Name: SEGMENTO_CARTAO_CREDITO, dtype: object

# **Agora vamos visualizar os clusters de cartão de crédito que encontramos em nossa análise de cluster:**

In [34]:
import plotly.graph_objects as go
PLOT = go.Figure()

for i in list( dados['SEGMENTO_CARTAO_CREDITO'].unique() ):

  PLOT.add_trace(go.Scatter3d( x = dados[dados['SEGMENTO_CARTAO_CREDITO'] == i]['BALANCE'],
                               y = dados[dados['SEGMENTO_CARTAO_CREDITO'] == i]['PURCHASES'],
                               z = dados[dados['SEGMENTO_CARTAO_CREDITO'] == i] ['CREDIT_LIMIT'],
                               mode='markers', 
                               marker_size=6,
                               marker_line_width=1,
                               name=str(i) ))
  
PLOT.update_traces(hovertemplate='BALANCE: %{x} <br>PURCHASES %{y} <br>CREDIT_LIMIT: %{z}')

    
PLOT.update_layout(width = 1000, height = 800, autosize = True, showlegend = True,  
                   scene = dict(xaxis=dict(title = 'SALDO', titlefont_color = 'black'),
                                yaxis=dict(title = 'COMPRAS', titlefont_color = 'black'),
                                zaxis=dict(title = 'LIMITE CRÉDITO', titlefont_color = 'black')),
                   font = dict(family = "Gilroy", color  = 'black', size = 12))  


## **RESUMO**

# A análise de cluster de cartão de crédito significa agrupar os titulares de cartão de crédito com base em seus hábitos de compra, limites de crédito e muitos outros fatores financeiros. Essa análise de agrupamento ajuda as empresas a encontrar seus clientes em potencial e muitas outras estratégias de marketing.

In [35]:
print( dados[ dados['SEGMENTO_CARTAO_CREDITO'] == 'Cluster 1'] )

     CUST_ID      BALANCE  BALANCE_FREQUENCY  PURCHASES  ONEOFF_PURCHASES  \
1     C10002  3202.467416           0.909091       0.00              0.00   
2     C10003  2495.148862           1.000000     773.17            773.17   
8     C10009  1014.926473           1.000000     861.49            661.49   
13    C10014   921.693369           1.000000    2137.93            419.96   
19    C10020  3577.970933           1.000000     398.64              0.00   
...      ...          ...                ...        ...               ...   
8757  C18996  2740.658860           0.857143       0.00              0.00   
8774  C19013  2585.246439           0.909091     338.00              0.00   
8804  C19044  1704.571464           0.800000       0.00              0.00   
8813  C19053  3335.053583           0.700000       0.00              0.00   
8839  C19080  3271.424058           0.888889    1173.28              0.00   

      INSTALLMENTS_PURCHASES  CASH_ADVANCE  PURCHASES_FREQUENCY  \
1       