# **K-Means**

É uma forma de aprendizagem não supervisionada em que novos dados são criados e o próprio algoritmo relaciona as características das variáveis. Ele identifica quando um grupo começa e quando termina e os elementos devem ser similares dos que estão no mesmo cluster e diferentes dos que estão fora (nearest means).<br>
O **algoritmo de Lloyd** (k-means) funciona da seguinte forma:
1. inicializa os **centróides** (centros de um cluster) aleatoriamente;
2. Para cada ponto na base de dados, ele calcula a distância para cada centróide e associa o dado ao que estiver mais perto;
3. Calcular a média para todos os pontos ligados a cada centróide e defini um novo centróide iterativamente.<br>

O cálculo é, geralmente, feita pela distância euclidiana:
$$DE(x,y)=\sqrt{\sum_{i=1}^p\,(x_{i}-y_i)^2}$$
Outra forma de fazer um agrupamento visualmente é traçar uma reta perpendicular entre a distância de dois clusters e verificar os dados que estão contidos em cada um dos grupos.<br>
O **k-means++** é um algoritmo que reduz a probabilidade de inicialização de centroides ruins já que seleciona centróides distantes uns dos outros, em que somente o primiero centróide é inicializado aleatoriamente. É importante ter um bom conhecimento de quantos clusters são de interesse previamente. Uma forma de prever isso é com a quantidade de dados:
$$n_{clusters}=\sqrt{\dfrac{N_{dados}}{2}}$$
Ou com o método de Elbow que tenta vários números de $k$ aleatórios e o que possuir o melhor valor será o selecionado. Essa métrica pode ser calculada pelo Within-Cluster Sum of Squares (desejado um valor menor):
$$\text{WCSS} = \sum_{n\,=\,1}^{N} \left(\, \sum_{P_i \, \in \, \text{Cluster}_n} \text{distance}(P_i, C_n)^2 \,\right)$$

In [41]:
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
import pandas as pd

## Salário por Idade

In [2]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

x = [20, 27, 21, 37, 46, 53, 55, 47, 52, 32, 39, 41, 39, 48, 48]
y = [1000, 1200, 2900, 1850, 900, 950, 2000, 2100, 3000, 5900, 4100, 5100, 7000, 5000, 6500]

In [4]:
grafico = px.scatter(x=x, y=y)
grafico.show()

In [5]:
base_salario = np.array([[20,1000],[27,1200],[37,2900],[37,1850],
                         [46,900],[53,950],[55,2000],[47,2100],
                         [52,3000],[32,5900],[39,4100],[41,5100],
                         [39,7000],[48,5000],[48,6500]])

scaler_salario = StandardScaler()
base_salario = scaler_salario.fit_transform(base_salario)
display(base_salario)

array([[-2.23466959, -1.11413572],
       [-1.5037029 , -1.01725435],
       [-0.45946478, -0.19376273],
       [-0.45946478, -0.70238991],
       [ 0.48034954, -1.1625764 ],
       [ 1.21131623, -1.13835606],
       [ 1.42016385, -0.62972888],
       [ 0.58477335, -0.5812882 ],
       [ 1.10689241, -0.14532205],
       [-0.98158384,  1.25945777],
       [-0.25061715,  0.38752547],
       [-0.04176953,  0.8719323 ],
       [-0.25061715,  1.79230528],
       [ 0.68919716,  0.82349162],
       [ 0.68919716,  1.55010187]])

In [17]:
kmeans_salario = KMeans(n_clusters=3)
kmeans_salario.fit(base_salario)

scaled_centroides = kmeans_salario.cluster_centers_

In [27]:
centroides = scaler_salario.inverse_transform(kmeans_salario.cluster_centers_)
display('centroides =',centroides)
rotulos = kmeans_salario.labels_
print('rótulos =',rotulos)
grafico1 = px.scatter(x=base_salario[:,0],y=base_salario[:,1],color=rotulos)
grafico2 = px.scatter(x=scaled_centroides[:,0],y=scaled_centroides[:,1],size=[1,1,1],color=[0,1,2])
grafico3 = go.Figure(data=(grafico1.data+grafico2.data))
grafico3.show()

'centroides ='

array([[  50.6       , 1790.        ],
       [  30.25      , 1737.5       ],
       [  41.16666667, 5600.        ]])

rótulos = [1 1 1 1 0 0 0 0 0 2 2 2 2 2 2]


## Dados Aleatórios

In [33]:
from sklearn.datasets import make_blobs

X_random, y_random = make_blobs(n_samples=200, centers=5, random_state=1)

In [34]:
grafico = px.scatter(x=X_random[:,0], y=X_random[:,1])
grafico.show()

In [36]:
kmeans_blobs = KMeans(n_clusters=5)
kmeans_blobs.fit(X_random)
centroides = kmeans_blobs.cluster_centers_
rotulos = kmeans_blobs.labels_

In [40]:
grafico1 = px.scatter(x=X_random[:,0],y=X_random[:,1],color=rotulos)
grafico2 = px.scatter(x=centroides[:,0],y=centroides[:,1],size=[1,1,1,1,1],color=[0,1,2,3,4])
grafico3 = go.Figure(data=(grafico1.data+grafico2.data))
grafico3.show()

## Base de Crédito

In [44]:
base_cartao = pd.read_csv('/Users/gustavomeira/Documents/Python/Estudo_ML/projects/Agrupamento/credit_card_clients.csv',header=1)
display(base_cartao)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,29996,220000,1,3,1,39,0,0,0,0,...,88004,31237,15980,8500,20000,5003,3047,5000,1000,0
29996,29997,150000,1,3,2,43,-1,-1,-1,-1,...,8979,5190,0,1837,3526,8998,129,0,0,0
29997,29998,30000,1,2,2,37,4,3,2,-1,...,20878,20582,19357,0,0,22000,4200,2000,3100,1
29998,29999,80000,1,3,1,41,1,-1,0,0,...,52774,11855,48944,85900,3409,1178,1926,52964,1804,1


In [45]:
base_cartao['BILL TOTAL'] = base_cartao['BILL_AMT1'] + base_cartao['BILL_AMT2'] + base_cartao['BILL_AMT3'] + base_cartao['BILL_AMT4'] + base_cartao['BILL_AMT5'] + base_cartao['BILL_AMT6']
X_cartao = base_cartao.iloc[:,[1,25]].values
display(X_cartao)

array([[ 20000,   7704],
       [120000,  17077],
       [ 90000, 101653],
       ...,
       [ 30000,  70496],
       [ 80000, 266611],
       [ 50000, 230874]])

In [46]:
scaler_cartao = StandardScaler()
X_cartao = scaler_cartao.fit_transform(X_cartao)

In [48]:
wcss = []
for i in range(1,11):
    kmeans_cartao = KMeans(n_clusters=i, random_state=0)
    kmeans_cartao.fit(X_cartao)
    wcss.append(kmeans_cartao.inertia_)
grafico = px.line(x=range(1,11), y=wcss)
grafico.show()

In [52]:
kmeans_cartao = KMeans(n_clusters=5, random_state=0)
rotulos = kmeans_cartao.fit_predict(X_cartao)
centroides = kmeans_cartao.cluster_centers_
grafico1 = px.scatter(x=X_cartao[:,0],y=X_cartao[:,1],color=rotulos)
grafico2 = px.scatter(x=centroides[:,0],y=centroides[:,1],size=[0.3,0.3,0.3,0.3,0.3],color=[0,1,2,3,4])
grafico3 = go.Figure(data=(grafico1.data+grafico2.data))
grafico3.show()

In [54]:
X_cartao_mais = base_cartao.iloc[:,[1,2,3,4,5,25]].values
scaler_cartao_mais = StandardScaler()
X_cartao_mais = scaler_cartao_mais.fit_transform(X_cartao_mais)

In [55]:
wcss = []
for i in range(1,11):
    kmeans_cartao = KMeans(n_clusters=i, random_state=0)
    kmeans_cartao.fit(X_cartao_mais)
    wcss.append(kmeans_cartao.inertia_)
grafico = px.line(x=range(1,11), y=wcss)
grafico.show()

In [64]:
kmeans_cartao_mais = KMeans(n_clusters=5, random_state=0)
rotulos = kmeans_cartao_mais.fit_predict(X_cartao_mais)
display(rotulos)

array([2, 1, 1, ..., 4, 0, 0], dtype=int32)

In [57]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_cartao_mais_pca = pca.fit_transform(X_cartao_mais)
print(X_cartao_mais_pca.shape)

(30000, 2)


In [65]:
grafico1 = px.scatter(x=X_cartao_mais_pca[:,0],y=X_cartao_mais_pca[:,1],color=rotulos)
grafico1.show()

In [67]:
lista_clientes = np.column_stack((X_cartao_mais, rotulos))
lista_clientes = lista_clientes[lista_clientes[:,:].argsort()]
display(lista_clientes)

array([[[-0.90549825, -1.23432296,  0.18582826, ...,  2.33402934,
         -0.42292   ,  0.        ],
        [-1.13672015,  0.81016074,  0.18582826, ..., -1.24601985,
         -0.69069198,  2.        ],
        [-0.90549825,  0.81016074,  0.18582826, ...,  0.16430256,
         -0.10150668,  2.        ],
        ...,
        [-0.59720239,  0.81016074,  0.18582826, ..., -0.16115646,
         -0.44316987,  1.        ],
        [-0.3659805 ,  0.81016074,  0.18582826, ..., -1.02904717,
         -0.66599747,  1.        ],
        [ 2.56283015, -1.23432296, -1.0794572 , ..., -0.70358815,
          6.46734701,  3.        ]],

       [[-0.90549825, -1.23432296,  0.18582826, ...,  2.33402934,
         -0.42292   ,  0.        ],
        [-0.90549825, -1.23432296, -1.0794572 , ...,  0.16430256,
         -0.08364379,  4.        ],
        [-1.13672015,  0.81016074,  0.18582826, ..., -1.24601985,
         -0.69069198,  2.        ],
        ...,
        [-0.3659805 ,  0.81016074,  0.18582826, ..., -