<a href="https://colab.research.google.com/github/WMFrts/agrupamento-clustering/blob/main/agrupamento_clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h2> <center> AGRUPAMENTO (CLUSTERING) </center></h2>

<p align="Justify">Clustering é uma técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemplo. Os exemplos são colocados em clusters (grupos), que normalmente representam algum mecanismo existente no processo do mundo real que gerou os exemplos, fazendo com que alguns sejam mais similares entre si do que aos restantes</p>
<hr size="1" width="100%" align="center" noshade>

<h3><center>1 AGRUPAMENTO COM K-MEANS</center></h3>

<ol align = 'JUSTIFY'>
<li>Primeiramente escolhem-se k centróides, chamados de
sementes ou protótipos, para se inicializar o processo de
partição;</li>
<li>Cada elemento do conjunto de dados é comparado com
cada centróide inicial através da distância desejada
(usualmente Euclidiana). O elemento é alocado ao cluster de
menor distância</li>
<li>Após aplicar o passo 2 para todos os n elementos amostrais,
atualiza-se os valores dos centróides de todos os grupos
formados, e repete-se o passo 2 considerando os centróides
desses novos grupos.</li>
<li>Os passos 2 e 3 são repetidos até que nenhum dos
elementos amostrais seja realocado.</li>
</ol>



**1.1 BIBLIOTECA** 

In [2]:
!pip install plotly --upgrade




In [4]:
import plotly.express as px
import plotly.graph_objs as go   #para concaternar alguns gráficos
import numpy as np
from sklearn.preprocessing import StandardScaler   #padronização


**1.2 BASE IDADE E SALÁRIO**

In [5]:
from sklearn.cluster import  KMeans 

In [6]:
#criação de variaveis
#o objetivo é formar grupos baseados na idade e salário

x = [20, 27, 21, 37, 46, 53, 55, 47, 52, 32, 39, 41, 39, 48, 48]   #idades
y = [1000, 1200, 2900, 1850, 900, 950, 2000, 2100, 3000, 5900, 4100, 5100, 7000, 5000, 6500 ]   #salários

In [7]:
grafico = px.scatter(x = x, y = y)
grafico.show()

In [18]:
#união das duas variáveis 


base_salario = np.array([[20, 1000], [27, 1200], [21, 2900], [37, 1850],[46, 900], [53, 950],[55, 2000],
                        [47, 2010],[52, 3000], [32, 5900], [39, 4100], [41,5100], [39, 7000], [48, 5000], [48, 6500]])



In [19]:
base_salario

array([[  20, 1000],
       [  27, 1200],
       [  21, 2900],
       [  37, 1850],
       [  46,  900],
       [  53,  950],
       [  55, 2000],
       [  47, 2010],
       [  52, 3000],
       [  32, 5900],
       [  39, 4100],
       [  41, 5100],
       [  39, 7000],
       [  48, 5000],
       [  48, 6500]])

In [20]:
#padronização

scaler_salario = StandardScaler()
base_salario = scaler_salario.fit_transform(base_salario)
base_salario

array([[-1.87963884, -1.10929125],
       [-1.23255006, -1.01257885],
       [-1.78719758, -0.19052343],
       [-0.30813751, -0.69826354],
       [ 0.52383377, -1.15764745],
       [ 1.17092255, -1.13346935],
       [ 1.35580506, -0.62572924],
       [ 0.61627503, -0.62089362],
       [ 1.0784813 , -0.14216723],
       [-0.77034379,  1.2601626 ],
       [-0.12325501,  0.38975098],
       [ 0.0616275 ,  0.87331299],
       [-0.12325501,  1.79208081],
       [ 0.70871628,  0.82495679],
       [ 0.70871628,  1.5502998 ]])

In [21]:
kmeans_salario = KMeans(n_clusters = 3 )
kmeans_salario.fit(base_salario)   #treinamento

KMeans(n_clusters=3)

In [24]:
#centroides com os dados escalonados

centroides = kmeans_salario.cluster_centers_
centroides

array([[ 0.07703438,  1.11509399],
       [ 0.73953003, -0.72969507],
       [-1.63312883, -0.77079784]])

In [25]:
#centroides com os dados reais
#cada centroide representa a média dos registros que fazem parte daquele grupo

scaler_salario.inverse_transform(kmeans_salario.cluster_centers_)

array([[  41.16666667, 5600.        ],
       [  48.33333333, 1785.        ],
       [  22.66666667, 1700.        ]])

In [26]:
#rótulos

rotulos = kmeans_salario.labels_
rotulos

array([2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0], dtype=int32)

In [29]:
grafico1 = px.scatter(x= base_salario[:, 0], y= base_salario[:, 1], color= rotulos)
grafico1.show()

In [32]:
grafico1 = px.scatter(x= base_salario[:, 0], y= base_salario[:, 1], color= rotulos)
grafico2 = px.scatter(x= centroides[:, 0], y= centroides[:, 1], size=[12, 12, 12])
grafico3 = go.Figure(data = grafico1.data + grafico2.data)
grafico3.show()