<h1><center>K-Means Clustering</center></h1>

## Introdução

Existem muitos modelos para **clustering** por aí. Neste aula, apresentaremos o modelo considerado um dos modelos mais simples entre eles. Apesar de sua simplicidade, o **K-means** é amplamente usado para clustering em muitos aplicativos de ciência de dados, é especialmente útil se você precisar descobrir rapidamente insights a partir de **dados não rotulados**. Nesta aula, você aprenderá a usar o k-Means para segmentação de clientes.

Algumas aplicações do mundo real de k-means:
- Segmentação de clientes
- Entender o que os visitantes de um website estão tentando realizar
- Reconhecimento de padrões
- Aprendizado de máquina
- Compressão de dados

Nesta aula, praticamos o agrupamento k-means com 2 exemplos:
- k-means em um conjunto de dados gerado aleatoriamente
- Uso de k-means para segmentação de clientes

# Importando os pacotes necessários

Vamos primeiro importar os pacotes necessários.
Também execute <b>%matplotlib inline </b>, já que estaremos plotando gráficos nesta seção.

In [None]:
import random 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

# k-Means em um conjunto de dados gerados aleatoriamente
Vamos criar o nosso conjunto de dados:


Primeiro, precisamos configurar a seed aleatória. Use a função do numpy <b>random.seed()</b>, onde a seed será definida como <b>0</b>

In [None]:
np.random.seed(0)

Em seguida vamos fazer <i>conjuntos aleatórios (random clusters)</i> de pontos usando a classe <b> make_blobs </b>. A classe <b> make_blobs </b> pode ter várias entradas, mas vamos utilizar apenas estas entradas específicas: <br> <br>
<b> <u> Entrada </u> </b>
<ul>
    <li> <b>n_samples</b>: O número total de pontos igualmente divididos entre clusters. </li>
    <ul> <li>O valor será: 5000 </li> </ul>
    <li> <b>centers</b>: O número de centros a serem gerados ou as localizões centrais fixas.</li>
    <ul> <li>O valor será: [[4, 4], [-2, -1], [2, -3],[1,1]] </li> </ul>
    <li> <b>cluster_std</b>: O desvio padrão dos clusters. </li>
    <ul> <li>O valor será: 0.9 </li> </ul>
</ul>
<br>
<b> <u>Saída</u> </b>
<ul>
    <li> <b>X</b>: Array na forma [n_amostras, n_características]. (Matriz de características)</li>
    <ul> <li> As amostras geradas. </li> </ul> 
    <li> <b>y</b>: Array na forma [n_amostras]. (Vetor de resposta)</li>
    <ul> <li> Os rótulos inteiros para associação de cluster de cada amostra. </li> </ul>
</ul>


In [None]:
X, y = make_blobs(n_samples=5000, centers=[[4,4], [-2, -1], [2, -3], [1, 1]], cluster_std=0.9)

Exibe o gráfico de dispersão dos dados gerados aleatoriamente.

In [None]:
plt.scatter(X[:, 0], X[:, 1], marker='.')

## Configurando o K-Means
Agora que geramos os nossos dados aleatórios, vamos configurar nosso K-Means Clustering.

A classe KMeans tem muitos parâmetros que podem ser usados, mas estaremos usando estes três:
<ul>
    <li> <b>init</b>: Método de inicialização dos centróides. </li>
    <ul>
        <li> O valor será: "k-means++" </li>
        <li> k-means++: Seleciona os centróides iniciais para os clusters de k-mean de uma maneira inteligente para acelerar a convergência.</li>
    </ul>
    <li> <b>n_clusters</b>: O número de clusters a serem formados, bem como o número de centróides a serem gerados. </li>
    <ul> <li> O valor será: 4 (uma vez que temos 4 centros)</li> </ul>
    <li> <b>n_init</b>: Número de vezes que o algoritmo k-means será executado com diferentes seeds (centróides). Os resultados finais serão a melhor saída de n_init execuções consecutivas em termos de "distância". </li>
    <ul> <li> O valor será: 12 </li> </ul>
</ul>

Inicialize KMeans com estes parâmetros, onde o parâmetro de saída é chamado de <b>k_means</b>.

In [None]:
k_means = KMeans(init = "k-means++", n_clusters = 4, n_init = 12)

Agora vamos criar o modelo KMeans com a Matriz de características que criamos acima, <b>X</b>

In [None]:
k_means.fit(X)

Agora vamos pegar os rótulos para cada ponto no modelo usando o atributo <b>.labels\_</b> do KMeans e salvá-lo como <b> k_means_labels</b>:

In [None]:
k_means_labels = k_means.labels_
k_means_labels

Também obteremos as coordenadas dos centros de cluster usando <b> .cluster&#95;centers&#95; </b> de KMeans e salvá-lo como <b>k_means_cluster_centers</b>

In [None]:
k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

## Criando o gráfico
Então, agora que temos os dados aleatórios gerados e o modelo do KMeans inicializado, vamos plotá-los e ver como ele se parece.

Por favor, leia o código e os comentários para entender como plotar o modelo.

In [None]:
# Inicialize o gráfico com as dimensões especificadas.
fig = plt.figure(figsize=(6, 4))

# Colors usa um mapa de cores, que produzirá uma matriz de cores com base no
# número de marcadores existentes. Usamos set(k_means_labels) para obter os
# rótulos exclusivos.
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means_labels))))

# Cria o gráfico
ax = fig.add_subplot(1, 1, 1)

# Laço de repetição que plota os pontos de dados e centróides.
# k variará de 0 a 3, o que corresponde aos possíveis grupos (cluster) que cada
# ponto pode pertencer.
for k, col in zip(range(len([[4,4], [-2, -1], [2, -3], [1, 1]])), colors):

    # Cria uma lista de todos os pontos, onde os pontos que estão 
    # no cluster (ex. Cluster 0) são rotulados como True,
    # senão eles são rotulados como False.
    my_members = (k_means_labels == k)
    
    # Define o centróide, ou centro do cluster.
    cluster_center = k_means_cluster_centers[k]
    
    # Plota os pontos com cor "col".
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    
    # Plota os centróides com cor especificada, mas com um contorno mais escuro
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)

# Titúlo do gráfico
ax.set_title('KMeans')

# Remove as marcações do eixo x
ax.set_xticks(())

# Remove as marcações do eixo y
ax.set_yticks(())

# Exibe o gráfico
plt.show()


## Prática
Tente agrupar o conjunto de dados acima em três clusters. **Obs.:** não gere os dados novamente, use o mesmo conjunto de dados acima.

In [None]:
# Escreva seu código aqui



Duplo clique __aqui__ para a solução.

<!-- A resposta está abaixo:

k_means3 = KMeans(init = "k-means++", n_clusters = 3, n_init = 12)
k_means3.fit(X)
fig = plt.figure(figsize=(6, 4))
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means3.labels_))))
ax = fig.add_subplot(1, 1, 1)
for k, col in zip(range(len(k_means3.cluster_centers_)), colors):
    my_members = (k_means3.labels_ == k)
    cluster_center = k_means3.cluster_centers_[k]
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)
plt.show()


-->

# Segmentação de clientes com K-Means

Imagine que você tenha um conjunto de dados de clientes e aplique a __Segmentação de cliente__ nesse conjunto de dados. Segmentação de clientes é a prática de particionar uma base de clientes em grupos de indivíduos que possuem características semelhantes. É uma estratégia interessante, uma vez que uma empresa pode segmentar esses grupos específicos de clientes e alocar efetivamente recursos de marketing. Por exemplo, um grupo pode conter clientes com alto lucro e baixo risco, ou seja, com maior probabilidade de comprar produtos ou se inscrever em um serviço. Pode-se definir estratégias para reter clientes com base nessa segmentação ou qualquer outra possibilidade de ação.

O download dos dados que iremos utilizar nesse exemplo pode ser realizado por meio do IBM Object Storage, disponível em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/Cust_Segmentation.csv

### Carregando dados do arquivo CSV
Antes de trabalhar com os dados, você deve usar a carregar o arquivo Cust_Segmentation.csv.

In [None]:
import pandas as pd
cust_df = pd.read_csv("Cust_Segmentation.csv")
cust_df.head()

### Pré-processamento

Como você pode ver, __Address__ neste conjunto de dados é uma variável categórica. O algoritmo k-means não é diretamente aplicável a variáveis categóricas porque a função de distância euclidiana não é realmente significativa para variáveis discretas. Então, vamos descartar essa característica e executar o algoritmo de clustering.

In [None]:
df = cust_df.drop('Address', axis=1)
df.head()

### Normalizando os dados
Agora vamos normalizar o conjunto de dados. Mas por que precisamos de normalização em primeiro lugar? A normalização é um método estatístico que ajuda os algoritmos baseados em matemática a interpretar recursos com diferentes magnitudes e distribuições uniforme. Usamos __StandardScaler()__ para normalizar nosso conjunto de dados.

In [None]:
from sklearn.preprocessing import StandardScaler
X = df.values[:,1:]
X = np.nan_to_num(X)
Clus_dataSet = StandardScaler().fit_transform(X)
Clus_dataSet

### Modelagem

Em nosso exemplo (se não tivéssemos acesso ao algoritmo k-means), seria o mesmo que adivinhar que cada grupo de clientes teria certa idade, renda, educação, etc., com múltiplos testes e experimentos. No entanto, usando o clustering K-means, podemos fazer todo esse processo muito mais fácil.

Vamos aplicar k-means em nosso conjunto de dados e observar os rótulos de cluster.

In [None]:
clusterNum = 3
k_means = KMeans(init = "k-means++", n_clusters = clusterNum, n_init = 12)
k_means.fit(X)
labels = k_means.labels_
print(labels)

### Insights
Atribuímos os rótulos a cada linha do conjunto de dados.

In [None]:
df["Clus_km"] = labels
df.head(5)

Podemos verificar facilmente os valores do centróide calculando a média das características em cada cluster.

In [None]:
df.groupby('Clus_km').mean()

Agora, vamos analisar a distribuição de clientes com base em sua idade (Age) e renda (Income):

In [None]:
area = np.pi * ( X[:, 1])**2  
plt.scatter(X[:, 0], X[:, 3], s=area, c=labels.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)

plt.show()


In [None]:
from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure(1, figsize=(8, 6))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

plt.cla()
# plt.ylabel('Age', fontsize=18)
# plt.xlabel('Income', fontsize=16)
# plt.zlabel('Education', fontsize=16)
ax.set_xlabel('Education')
ax.set_ylabel('Age')
ax.set_zlabel('Income')

ax.scatter(X[:, 1], X[:, 0], X[:, 3], c= labels.astype(np.float))


O k-means particionará seus clientes em grupos mutuamente exclusivos, por exemplo, em 3 conjuntos (clusters). Os clientes em cada cluster são semelhantes entre si demograficamente. Agora podemos criar um perfil para cada grupo, considerando as características comuns de cada cluster.

Por exemplo, os 3 clusters podem ser:
- Rico, Educado e Idoso
- Meia-idade e Classe Média
- Jovem e Pobre

Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>