<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

# <center>Agrupamento por k-médias</center>

## Introdução

Existem muitos modelos de **agrupamento** por aí. Neste caderno, apresentaremos o modelo que é considerado o mais simples. Apesar de sua simplicidade, o modelo de **k-médias** é amplamente utilizado para agrupamento em muitas aplicações da ciência de dados e é especialmente útil quando se precisa obter rapidamente informações sobre **dados não rotulados**. Neste caderno, aprenderemos a usar o k-médias para fazer segmentação de clientes.

Algumas aplicações práticas do agrupamento por k-médias:
- Segmentação de clientes
- Compreensão sobre as intenções dos visitantes de um site da internet
- Reconhecimento de padrões
- Aprendizado de máquina
- Compressão de dados

Neste caderno, praticaremos o agrupamento por k-médias com 2 exemplos:
- k-médias em um conjunto de dados gerado aleatoriamente e
- Uso do modelo de k-médias para segmentação de clientes

### Bibliotecas de importação
Primeiro importaremos as bibliotecas necessárias. 
Também executaremos  <b> %matplotlib inline </b>, já que faremos uma representação gráfica nesta seção.

In [None]:
import random 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

# k-médias em um conjunto de dados gerado aleatoriamente
Vamos criar nosso próprio conjunto de dados para este laboratório!


Primeiro, precisamos configurar uma semente geradora de números aleatórios. Usamos a função <b>random.seed() do numpy</b>, com a qual definimos a semente como <b>0</b>

In [None]:
np.random.seed(0)

Em seguida, criaremos clusters aleatórios de pontos usando a classe <b> make_blobs </b> class. A classe <b> make_blobs </b> aceita muitos dados de entrada, mas usaremos apenas os seguintes. <br> <br>
<b> <u> Entrada </u> </b>
<ul>
    <li> <b>n_samples</b>: O número total de pontos divididos igualmente entre os <i>clusters</i>. </li>
    <ul> <li> O valor será: 5000 </li> </ul>
    <li> <b>centers</b>: A quantidade de centros a serem gerados ou a localização fixa dos centros. </li>
    <ul> <li> O valor será: [[4, 4], [-2, -1], [2, -3],[1,1]] </li> </ul>
    <li> <b>cluster_std</b>: O desvio padrão <i>dos clusters</i>. </li>
    <ul> <li> O valor será: 0.9 </li> </ul>
</ul>
<br>
<b> <u> Salida </u> </b>
<ul>
    <li> <b>X</b>: Arranjo da forma [n_samples, n_features]. (matriz de características)</li>
    <ul> <li> As amostras geradas. </li> </ul> 
    <li> <b>y</b>: Arranjo da forma [n_samples]. (Vetor de resposta)</li>
    <ul> <li> Os rótulos inteiros de associação a <i>clusters</i> de cada amostra. </li> </ul>
</ul>


In [None]:
X, y = make_blobs(n_samples=5000, centers=[[4,4], [-2, -1], [2, -3], [1, 1]], cluster_std=0.9)

Mostramos o gráfico de dispersão dos dados gerados aleatoriamente.

In [None]:
plt.scatter(X[:, 0], X[:, 1], marker='.')

## Configuração do agrupamento por k-médias
Agora que temos nossos dados aleatórios, configuraremos nosso agrupamento por k-médias.

A classe KMeans possui muitos parâmetros que podem ser usados, mas usaremos estes três:
<ul>
    <li> <b>init</b>: Método de inicialização dos centroides. </li>
    <ul>
        <li> O valor será: "k-means++" </li>
        <li> k-means++: Seleciona de maneira inteligente os centros de clusters iniciais para agrupamento por k-médias, a fim de acelerar a convergência.</li>
    </ul>
    <li> <b>n\_clusters</b>: A quantidade de <i>clusters</i> que serão formados e a quantidade de centroides que serão gerados. </li>
    <ul> <li> O valor será: 4 (since we have 4 centers)</li> </ul>
    <li> <b>n\_init</b>: Número de vezes que o algoritmo de k-médias será executado com diferentes sementes de centroides. Os resultados finais serão os melhores resultados obtidos de n\_init execuções consecutivas em termos de inércia. </li>
    <ul> <li> O valor será: 12 </li> </ul>
</ul>

Iniciamos o algoritmo de k-médias com estes parâmetros, onde o parâmetro de saída é chamado <b>k_means</b>.

In [None]:
k_means = KMeans(init = "k-means++", n_clusters = 4, n_init = 12)

Agora aplicamos o modelo KMeans à matriz de características que criamos anteriormente, <b> X </b>

In [None]:
k_means.fit(X)

Agora vamos pegar os rótulos de cada ponto do modelo mediante o uso do atributo <b> .labels\_ </b> do KMeans e salvá-los como <b> k_means_labels </b>

In [None]:
k_means_labels = k_means.labels_
k_means_labels

Também vamos tomar as coordenadas dos centros dos clusters com o <b> .cluster&#95;centers&#95; </b> do KMeans e salvá-las como <b> k_means_cluster_centers </b>

In [None]:
k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

## Criação da representação visual

Agora que geramos os dados aleatórios e iniciamos o modelo de k-médias, vamos representá-los em um gráfico!

Leia o código e os comentários para entender como plotar o modelo.

In [None]:
# Iniciamos a representação gráfica com as dimensões especificadas.
fig = plt.figure(figsize=(6, 4))

# Colors usa um mapa de cores que produz uma matriz de cores baseada no
# número de rótulos existentes. Utilizamos set(k_means_labels) para obter os
# rótulos únicos.
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means_labels))))

# Criamos um gráfico
ax = fig.add_subplot(1, 1, 1)

# Para o loop que representa graficamente os pontos de dados e os centroides.
# o valor de k variará entre 0 e 3, que coincidirá com os possíveis clusters nos quais cada
# ponto de dados está.

for k, col in zip(range(len([[4,4], [-2, -1], [2, -3], [1, 1]])), colors):

    #Criamos uma lista de todos os pontos de dados, na qual aqueles que estão 
    # no cluster (ex.: cluster 0) são rotulados como verdadeiros, e os que não estão são
    # rotulados como falsos.
    my_members = (k_means_labels == k)
    
    # Definimos o centroide ou o centro do cluster.
    cluster_center = k_means_cluster_centers[k]
    
    # Plotamos os pontos de dados com color col.
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    
    # Plotamos os centroides com a cor especificada, porém com um contorno mais escuro
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)

# Título do gráfico
ax.set_title('KMeans')

# Removemos as marcas de verificação do eixo x
ax.set_xticks(())

# Removemos as marcas de verificação do eixo y
ax.set_yticks(())

# Mostramos a representação gráfica
plt.show()


## Prática
Tente agrupar o conjunto de dados acima em 3 clusters.
Aviso: não gere dados novamente, use o mesmo conjunto de dados de antes.

In [None]:
# write your code here





Clique duas vezes __aqui__ para ver a solução.

<!-- Your answer is below:

k_means3 = KMeans(init = "k-means++", n_clusters = 3, n_init = 12)
k_means3.fit(X)
fig = plt.figure(figsize=(6, 4))
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means3.labels_))))
ax = fig.add_subplot(1, 1, 1)
for k, col in zip(range(len(k_means3.cluster_centers_)), colors):
    my_members = (k_means3.labels_ == k)
    cluster_center = k_means3.cluster_centers_[k]
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)
plt.show()


-->

# Segmentação de clientes com o método de k-médias
Imagine que você tem um conjunto de dados de clientes e precisa aplicar a segmentação de clientes nesses dados históricos. 
A segmentação de clientes consiste em particionar uma base de clientes em grupos de indivíduos que possuem características semelhantes. É uma estratégia valiosa, pois uma empresa pode segmentar esses grupos específicos de clientes para alocar recursos de marketing com maior eficácia. Por exemplo: um grupo pode conter clientes de alto lucro e baixo risco, ou seja, com maior probabilidade de comprar produtos ou assinar um serviço. Uma tarefa da empresa é reter esses clientes. Outro grupo pode incluir clientes de organizações sem fins lucrativos. E assim por diante.

Vamos baixar o conjunto de dados. Para baixar os dados, utilizaremos o **`!wget`**. Utilizaremos o `!wget` para baixar os dados a partir do IBM Object Storage. 
__Você sabia?__ Ao utilizar o aprendizado de máquina, é provável que trabalhe com conjuntos de dados de grandes dimensões. Como empresa, onde você pode hospedar seus dados? A IBM está oferecendo uma oportunidade única para empresas, com 10 TB de armazenamento no IBM Cloud Object Storage: [Inscreva-se agora gratuitamente](http://cocl.us/ML0101EN-IBM-Offer-CC)

In [None]:
!wget -O Cust_Segmentation.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/Cust_Segmentation.csv

### Carregar dados a partir do arquivo CSV
Antes de poder trabalhar com os dados, você deve usar o URL para obter o arquivo Cust_Segmentation.csv.

In [None]:
import pandas as pd
cust_df = pd.read_csv("Cust_Segmentation.csv")
cust_df.head()

### Pré-processamento

Como podemos observar, o __endereço [Address]__ neste conjunto de dados é uma variável categórica. O algoritmo k-médias não é diretamente aplicável a variáveis categóricas porque a função de distância euclidiana não é realmente significativa para variáveis discretas. Portanto, deixaremos de lado essa característica e executaremos o agrupamento.

In [None]:
df = cust_df.drop('Address', axis=1)
df.head()

#### Normalização sobre o desvio padrão	
Agora vamos normalizar o conjunto de dados. Mas por que precisamos normalizá-lo? A normalização é um método estatístico que ajuda os algoritmos baseados em matemática a interpretar da mesma maneira características de diferentes magnitudes e distribuições. Usamos __tandardScaler()__ para normalizar nosso conjunto de dados.

In [None]:
from sklearn.preprocessing import StandardScaler
X = df.values[:,1:]
X = np.nan_to_num(X)
Clus_dataSet = StandardScaler().fit_transform(X)
Clus_dataSet

### Modelagem

Em nosso exemplo (se não tivéssemos acesso ao algoritmo k-médias), seria o mesmo que adivinhar, com múltiplos testes e experimentos, que cada grupo de clientes teria certa idade, renda, educação, etc. No entanto, com o agrupamento por k-médias, podemos fazer todo esse processo com muito mais facilidade.

Vamos aplicar o algoritmo k-médias ao nosso conjunto de dados e observar os rótulos dos _clusters_.

In [None]:
clusterNum = 3
k_means = KMeans(init = "k-means++", n_clusters = clusterNum, n_init = 12)
k_means.fit(X)
labels = k_means.labels_
print(labels)

### Insights
Atribuímos os rótulos a cada linha do dataframe.

In [None]:
df["Clus_km"] = labels
df.head(5)

É fácil verificar os valores dos centroides: basta calcular a média das características em cada _cluster_.

In [None]:
df.groupby('Clus_km').mean()

Agora, vamos analisar a distribuição de clientes com base em sua idade e renda:

In [None]:
area = np.pi * ( X[:, 1])**2  
plt.scatter(X[:, 0], X[:, 3], s=area, c=labels.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)

plt.show()


In [None]:
from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure(1, figsize=(8, 6))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

plt.cla()
# plt.ylabel('Age', fontsize=18)
# plt.xlabel('Income', fontsize=16)
# plt.zlabel('Education', fontsize=16)
ax.set_xlabel('Education')
ax.set_ylabel('Age')
ax.set_zlabel('Income')

ax.scatter(X[:, 1], X[:, 0], X[:, 3], c= labels.astype(np.float))


O k-médias particionará seus clientes em grupos mutuamente exclusivos, por exemplo, em 3 _clusters_. Os clientes em cada cluster são semelhantes entre si do ponto de vista demográfico. Agora, podemos criar um perfil para cada grupo, considerando as características comuns de cada cluster. Por exemplo: os 3 clusters podem ser:
- ALTO PODER DE COMPRA, INSTRUÍDO E DE IDADE AVANÇADA
- DE MEIA-IDADE E RENDA MÉDIA
- JOVEM E DE BAIXA RENDA

## Deseja saber mais?

A IBM SPSS Modeler é uma plataforma analítica abrangente que possui muitos algoritmos de aprendizado de máquina. Foi projetada para levar inteligência preditiva às decisões tomadas pelas pessoas, pelos grupos, pelos sistemas e por sua empresa como um todo. Este curso lhe permite acessar uma avaliação gratuita, disponível aqui: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

Também é possível utilizar o Watson Studio para executar esses notebooks mais rapidamente com conjuntos de dados maiores. O Watson Studio é a solução de nuvem de vanguarda da IBM para cientistas de dados, construída por cientistas de dados. Com os notebooks Jupyter, RStudio, Apache Spark e outras bibliotecas populares pré-empacotadas na nuvem, o Watson Studio permite que os cientistas de dados colaborem em seus projetos sem a necessidade de instalar nada. Junte-se hoje mesmo à comunidade de usuários do Watson Studio, que cresce cada dia mais, com uma conta gratuita em [Watson Studio](https://cocl.us/ML0101EN_DSX)

### Obrigado por concluir esta lição!

Notebook criado por: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>

Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). Este notebook e seu código-fonte são divulgados de acordo com os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).​