
# Classificação Clustering
Clustering ou análise de cluster é uma técnica de aprendizado de máquina, que agrupa o conjunto de dados não rotulado. Os objetos com as possíveis semelhanças permanecem em um grupo que tem menos ou nenhuma semelhança com outro grupo". Essa classificação pode ser definida como uma forma de agrupar os dados semelhantes entre si.


## Exemplos rotulados
Neste exemplos, usa-se um algoritmo de classificação para separar em grupos nomeados os dados fornecidos. Por exemplo um algoritmo que separa frutas em um grupo de fotos, separando as pêras, dos morangos e das maçãs
![image.png](attachment:535175a0-b80c-4f84-a31f-ae406bc1df7e.png)!

## Exemplos não rotulados
Nos exemplos não rotulados, não fornecemos o tipo de entrada para o algoritmo. Ele irá identificar automaticamente as características em comum para aqueles dados e agrupá-los. O agrupamento de exemplos não rotulados é o que chamamos de clustering.

Nestes exemplos nos temos a separação de dados com base em informações dos mesmos, sem necessariamente ter um "gabarito" para guiar o algoritmo. É o que chamamos de aprendizado não supervisionado.

![image.png](attachment:7789ea84-1ed0-4f5b-b66e-7c6c557d9d34.png)!

### Exemplos de clusteringc 
#### Clusterização de clientes 

Essa é uma forma de separar indivíduos em função de seus hábitos, valores, comportamentos e outros tipos de informações. Essa é uma técnica que leva em consideração atributos mais intangíveis, o que pode ser usado por exemplo em algoritmos de marketing, que separa o tipos de cliente que preferem ver determinados tipos de anúncios.

#### Clusterização de produtos

Uma estratégia utilizada para garantir que cada loja tenho um portfólio de produtos adequado para o seu público-alvo é a chamada clusterização. Trata-se de agrupar conjuntos de loja a partir de um estudo que considera dados internos de performance de vendas com informações de mercado.

Para finalizar, vamos apresentar um exemplo retirado do site: "https://medium.com/programadores-ajudando-programadores/k-means-o-que-%C3%A9-como-funciona-aplica%C3%A7%C3%B5es-e-exemplo-em-python-6021df6e2572"

In [None]:
import numpy as np #para manipular os vetores
from matplotlib import pyplot as plt #para plotar os gráficos
from sklearn.cluster import KMeans #para usar o KMeans

dataset = np.array(
#matriz com as coordenadas geográficas de cada loja
[[-25, -46], #são paulo
[-22, -43], #rio de janeiro
[-25, -49], #curitiba
[-30, -51], #porto alegre
[-19, -43], #belo horizonte
[-15, -47], #brasilia
[-12, -38], #salvador
[-8, -34], #recife
[-16, -49], #goiania
[-3, -60], #manaus
[-22, -47], #campinas
[-3, -38], #fortaleza
[-21, -47], #ribeirão preto
[-23, -51], #maringa
[-27, -48], #florianópolis
[-21, -43], #juiz de fora
[-1, -48], #belém
[-10, -67], #rio branco
[-8, -63]  #porto velho
])
plt.scatter(dataset[:,1], dataset[:,0]) #posicionamento dos eixos x e y
plt.xlim(-75, -30) #range do eixo x
plt.ylim(-50, 10) #range do eixo y
plt.grid() #função que desenha a grade no nosso gráfico

In [None]:
kmeans = KMeans(n_clusters = 3, #numero de clusters
init = 'k-means++', n_init = 10, #algoritmo que define a posição dos clusters de maneira mais assertiva
max_iter = 300) #numero máximo de iterações
pred_y = kmeans.fit_predict(dataset)
plt.scatter(dataset[:,1], dataset[:,0], c = pred_y) #posicionamento dos eixos x e y
plt.xlim(-75, -30) #range do eixo x
plt.ylim(-50, 10) #range do eixo y
plt.grid() #função que desenha a grade no nosso gráfico
plt.scatter(kmeans.cluster_centers_[:,1],kmeans.cluster_centers_[:,0], s = 70, c = 'red') #posição de cada centroide no gráfico
plt.show()