##Importação das bibliotecas que serão utilizadas no projeto

In [1]:
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

##Fazendo a leitura do arquivo e indicando que existe cabeçalho

In [4]:
import pandas as pd
df = pd.read_csv('credit_card_clients (1).csv', header = 1)

In [5]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


##Construindo uma nova coluna que será utilizada no processo

In [6]:
df['VALOR_DEVIDO'] = df['BILL_AMT1'] + df['BILL_AMT2'] + df['BILL_AMT3'] + df['BILL_AMT4'] + df['BILL_AMT5'] + df['BILL_AMT6']

In [7]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month,VALOR_DEVIDO
0,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,689,0,0,0,0,1,7704
1,2,120000,2,2,2,26,-1,2,0,0,...,3455,3261,0,1000,1000,1000,0,2000,1,17077
2,3,90000,2,2,2,34,0,0,0,0,...,14948,15549,1518,1500,1000,1000,1000,5000,0,101653
3,4,50000,2,2,1,37,0,0,0,0,...,28959,29547,2000,2019,1200,1100,1069,1000,0,231334
4,5,50000,1,2,1,57,-1,0,-1,0,...,19146,19131,2000,36681,10000,9000,689,679,0,109339


##Separando os valores que serão utilizados

In [12]:
x_cartao = df.iloc[:, [1,25]].values
x_cartao

array([[ 20000,   7704],
       [120000,  17077],
       [ 90000, 101653],
       ...,
       [ 30000,  70496],
       [ 80000, 266611],
       [ 50000, 230874]])

In [13]:
scaler_cartao = StandardScaler()
x_cartao = scaler_cartao.fit_transform(x_cartao)

##Testando para descobrir a quantidade suficiente de clusters que serão utilizados

In [15]:
wcss = []
for i in range(1,11):
    kmeans_cartao = KMeans(n_clusters = i, random_state = 0)
    kmeans_cartao.fit(x_cartao)
    wcss.append(kmeans_cartao.inertia_)




##Aqui é feito uma representação gráfica de quantos resultados formam cada cluster, dependedendo da quantidade de clusters

In [16]:
grafico = px.line(x = range(1,11), y = wcss)
grafico.show()

##É escolhido 4 clusters pois houve uma queda menor de 5 para 4, mas uma queda que é capaz de acentuar as diferenças entre os valores.

In [18]:
kmeans_cartao = KMeans(n_clusters= 4, random_state = 0)
rotulos = kmeans_cartao.fit_predict(x_cartao)





In [19]:
grafico = px.scatter(x = x_cartao[:,0], y = x_cartao[:,1], color = rotulos)
grafico.show()

^

O eixo X indica o valor do limite de cartão de crédito e o eixo Y representa o valor gasto (VALOR_DEVIDO)

# **Pontos azuis:**
Pessoas com baixo valor de crédito e que gastam pouco, possa ser interessante para o banco aumentar o crédito delas para que elas possam gastar mais.

#**Pontos roxos:**
Pessoas com valor de crédito alto mas que gastam pouco, são pessoas que economizam mesmo tendo condições de gastar mais, é mais interessante o banco focar suas energias em outros clientes.

#**Pontos amarelos:**
Pessoas moderadas, possuem um limite de crédito e gasto mair que os pontos azuis e pontos roxos, mas ainda não são as que mais gastam, pode ser interessante aumentar o valor de crédito para aquelas que se encontram mais próximas dos pontos azuis, pois assim é possível estimulá-las a gastar mais.

#**Pontos vermelhos:**
São as que mais gastam, não possuem necessariamente o maior valor de crédito disponível, mas são as que possuem as maiores dívidas, pode ser interessante tentar equilibrar e aumentar o crédito daqueles que estão mais próximos dos pontos amarelos, pois eles tendem a gastar mais, já que já gastam bastante com pouco crédito disponível.

##Criando uma lista com os clientes e as suas respectivas classificação


0.   Pouco crédito e pouco gasto
1.   Muito crédito e pouco gasto
2.   Muito crédito e muito gasto
3.   Crédito moderado e gasto moderado

In [20]:
lista_cliente = np.column_stack((df, rotulos))
lista_cliente

array([[     1,  20000,      2, ...,      1,   7704,      0],
       [     2, 120000,      2, ...,      1,  17077,      0],
       [     3,  90000,      2, ...,      0, 101653,      0],
       ...,
       [ 29998,  30000,      1, ...,      1,  70496,      0],
       [ 29999,  80000,      1, ...,      1, 266611,      0],
       [ 30000,  50000,      1, ...,      1, 230874,      0]])

In [21]:
lista_cliente = lista_cliente[lista_cliente[:, 26].argsort()]
lista_cliente

array([[     1,  20000,      2, ...,      1,   7704,      0],
       [ 16789,  30000,      1, ...,      1,  14274,      0],
       [ 16788,  30000,      1, ...,      1,  90453,      0],
       ...,
       [ 20882, 110000,      1, ...,      0, 554308,      3],
       [ 20744, 220000,      1, ...,      0, 452961,      3],
       [ 20270, 150000,      2, ...,      0, 546939,      3]])

##Processo de clusterização com mais atributos

In [23]:
x_cartao_mais = df.iloc[:, [1,2,3,4,5,25]].values
x_cartao_mais

array([[ 20000,      2,      2,      1,     24,   7704],
       [120000,      2,      2,      2,     26,  17077],
       [ 90000,      2,      2,      2,     34, 101653],
       ...,
       [ 30000,      1,      2,      2,     37,  70496],
       [ 80000,      1,      3,      1,     41, 266611],
       [ 50000,      1,      2,      1,     46, 230874]])

##Colunas que serão utilizadas nessa seção

In [30]:
colunas = ['LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'VALOR_DEVIDO']
print(colunas)

['LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'VALOR_DEVIDO']


##Fazenodo o escalonamento dos dados para que não haja uma distância muito grande entre eles devido a escala normal

In [33]:
scaler_mais = StandardScaler()
x_cartao_mais = scaler_mais.fit_transform(x_cartao_mais)

In [34]:
x_cartao_mais

array([[-1.13672015,  0.81016074,  0.18582826, -1.05729503, -1.24601985,
        -0.69069198],
       [-0.3659805 ,  0.81016074,  0.18582826,  0.85855728, -1.02904717,
        -0.66599747],
       [-0.59720239,  0.81016074,  0.18582826,  0.85855728, -0.16115646,
        -0.44316987],
       ...,
       [-1.05964618, -1.23432296,  0.18582826,  0.85855728,  0.16430256,
        -0.52525745],
       [-0.67427636, -1.23432296,  1.45111372, -1.05729503,  0.59824792,
        -0.00856436],
       [-0.90549825, -1.23432296,  0.18582826, -1.05729503,  1.14067961,
        -0.10271861]])

##Fazendo testes com 10 clusters

In [44]:
wcss = []
for i in range(1, 11):
    kmeans_mais = KMeans(n_clusters = i, random_state = 0)
    kmeans_mais.fit(x_cartao_mais)
    wcss.append(kmeans_mais.inertia_)























In [46]:
graph = px.line(x = range(1,11), y = wcss)
graph.show()

In [47]:
kmeans_cartao_mais = KMeans(n_clusters = 4, random_state = 0)
label = kmeans_cartao_mais.fit_predict(x_cartao_mais)





##Para gerar um gráfico é necessário 2 atributos, mas foi selecionado 6 atributos, então será necessário diminuir a dimensionalidade dos atributos, então os 6 seram combinados, assim gerando os dois atruibutos necessários para a realização do gráfico

In [48]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)

In [52]:
x_cartao_mais_pca = pca.fit_transform(x_cartao_mais)
x_cartao_mais_pca.shape

(30000, 2)

In [54]:
grapho = px.scatter(x = x_cartao_mais_pca[:, 0], y = x_cartao_mais_pca[:, 1], color= label)
grapho.show()

##Ficou muito desorganizado, talvez com 2 clusters fique melhor

In [55]:
kmeans_cartao_mais2 = KMeans(n_clusters = 2, random_state = 0)
label2 = kmeans_cartao_mais2.fit_predict(x_cartao_mais)





In [56]:
x_cartao_mais_pca2 = pca.fit_transform(x_cartao_mais)
x_cartao_mais_pca2.shape

(30000, 2)

In [57]:
grapho2 = px.scatter(x = x_cartao_mais_pca2[:, 0], y = x_cartao_mais_pca2[:, 1], color= label2)
grapho2.show()

##Dessa maneira fica um pouco mais simples de diferenciar os resultados apresentados!

In [58]:
lista_cliente2 = np.column_stack((df, label2))
lista_cliente2 = lista_cliente2[lista_cliente[:, 26].argsort()]
lista_cliente2

array([[     1,  20000,      2, ...,      1,   7704,      0],
       [ 10919, 260000,      2, ...,      0, 702731,      0],
       [ 10920, 500000,      2, ...,      0, 995650,      1],
       ...,
       [ 27073, 150000,      1, ...,      0,  -8233,      1],
       [ 27079, 200000,      1, ...,      0, 286744,      1],
       [ 30000,  50000,      1, ...,      1, 230874,      0]])