# Exemplo muito simples de clustering

A técnica de *clustering*, ou *agrupamento*, é um tipo de **aprendizado não supervisionado**. Neste tipo de aprendizado não temos acesso a qual é a variável dependente ou *target*.

No *clustering* as amostras são agrupadas por proximidade num espaço $n$-dimensional, em que $n$ é o número de *features*.

Para aprender mais veja a seção 10.3 do [Introduction to Statistical Learning](http://faculty.marshall.usc.edu/gareth-james/ISL/ISLR%20Seventh%20Printing.pdf)


 [Este link](http://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html) tem mais informações sobre algoritmos de *clustering* na biblioteca *scikit-learn*.

In [None]:
%matplotlib notebook

import matplotlib.pyplot as plt

import pandas as pd
import numpy as np

from scipy.stats import norm
from mpl_toolkits.mplot3d import Axes3D

from sklearn import cluster, datasets
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler

np.random.seed(42) # Vamos fixar a semente do numpy para os resultados se manterem consistentes




In [None]:
data = pd.read_csv("clusters.csv", index_col=0)

In [None]:
data.head()

## Visualizando os dados de entrada

In [None]:
plt3d = plt.figure().gca(projection="3d")
plt3d.scatter(data.x, data.y, data.z)

## Preparando os dados

Note que a columa `idx` não será usada, apenas repete o índice. E também que a coluna `type`  já tem a categoria pré-classificada. Não vamos usá-la agora porque não é comum sabermos o tipo `a priori` em algoritmos de clusterização.

In [None]:
dados_entrada = data.loc[:,("x", "y", "z")]

## Usando o clustering

Treinando o clusterizador Veja [este exemplo](http://scikit-learn.org/0.18/auto_examples/cluster/plot_cluster_comparison.html) para mais algoritmos de clustering.

In [None]:
three_means = cluster.MiniBatchKMeans(n_clusters=3)

In [None]:
three_means.fit(dados_entrada)



Neste caso já **sabíamos** que seriam 3 clusters. Na prática é comum tentar algumas opções de quantidades de grupos até encontrar uma mais adequada

Agora vamos usar o `predict` para ver quais categorias são previstas para cada um dos dados de entrada

In [None]:
saida = three_means.predict(dados_entrada)

In [None]:
saida

Vamos acrescentar as predições a uma coluna chamada `saida` numa cópia do dataframe original

In [None]:
conjunto = dados_entrada.copy()

In [None]:
conjunto["saida"] = saida

Agora temos um dataframe com entradas **e** saídas

In [None]:
conjunto.head()

Vamos separar baseado nas predições e representar cada categoria com uma cor.

In [None]:
plt3d = plt.figure().gca(projection="3d")
grupo0 = conjunto[conjunto.saida==0]
grupo1 = conjunto[conjunto.saida==1]
grupo2 = conjunto[conjunto.saida==2]

plt3d.scatter(grupo0.x, grupo0.y, grupo0.z, color="r")
plt3d.scatter(grupo1.x, grupo1.y, grupo1.z, color="g")
plt3d.scatter(grupo2.x, grupo2.y, grupo2.z, color="b")
