# AGRUPAMENTO K-MEANS USANDO PYTHON
Dataset usado: bmw.csv

### Importação de Bibliotecas

In [22]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.cluster import KMeans

### Leitura de Dados no formato .CSV

In [34]:
obesity = pd.read_csv("ObesityDataSet.csv", sep=',')

# obesity.head() # primeiros 5 registros

## Informações quantitativas do dataset: 100 linhas e 9 colunas

features_map = {
    'Gender': {'Male': 0, 'Female': 1},
    'family_history_with_overweight': {'yes': 0, 'no': 1},
    'FAVC': {'yes': 0, 'no': 1},
    'CAEC': {'Sometimes': 0, 'Frequently': 1, 'Always': 2, 'no': 3},
    'SMOKE': {'yes': 0, 'no': 1},
    'SCC': {'yes': 0, 'no': 1},
    'CALC': {'Sometimes': 0, 'Frequently': 1, 'Always': 2, 'no': 3},
    'MTRANS': {'Public_Transportation': 0, 'Walking': 1, 'Automobile': 2, 'Motorbike': 3},
    'NObeyesdad': {'Normal_Weight': 0, 'Overweight_Level_I': 1, 'Overweight_Level_II': 2, 'Insufficient_Weight': 3}
}

In [24]:
for col in obesity:
    print(f'Features:"{col}", Valores: {obesity[col].unique()}')


Features:"Gender", Valores: ['Female' 'Male']
Features:"Age", Valores: [21.       23.       27.       ... 22.524036 24.361936 23.664709]
Features:"Height", Valores: [1.62     1.52     1.8      ... 1.752206 1.73945  1.738836]
Features:"Weight", Valores: [ 64.        56.        77.       ... 133.689352 133.346641 133.472641]
Features:"family_history_with_overweight", Valores: ['yes' 'no']
Features:"FAVC", Valores: ['no' 'yes']
Features:"FCVC", Valores: [2.       3.       1.       2.450218 2.880161 2.00876  2.596579 2.591439
 2.392665 1.123939 2.027574 2.658112 2.88626  2.714447 2.750715 1.4925
 2.205439 2.059138 2.310423 2.823179 2.052932 2.596364 2.767731 2.815157
 2.737762 2.568063 2.524428 2.971574 1.0816   1.270448 1.344854 2.959658
 2.725282 2.844607 2.44004  2.432302 2.592247 2.449267 2.929889 2.015258
 1.031149 1.592183 1.21498  1.522001 2.703436 2.362918 2.14084  2.5596
 2.336044 1.813234 2.724285 2.71897  1.133844 1.757466 2.979383 2.204914
 2.927218 2.88853  2.890535 2.530066 2

In [35]:
for col in obesity:
    obesity[col] = obesity[col].apply(lambda k: features_map[col][k])
class_names = obesity.NObeyesdad.unique()

for col in obesity:
    print(f'Feature:"{col}", Valores: {obesity[col].unique()}')
print(f'Class Names:', class_names)


KeyError: 'Age'

### Para Agrupamento (clustering), feature "id" não é bem-vinda!

In [29]:
# Vamos excluir o CustomerID..Vamos lá !
# Agora ficará: 0.Dealership, 1.Showroom, 2.ComputerSearch, 3.M5, 4.3Series, 5.Z4, 6.Financing, 7.Purchase
X_obesity = obesity.iloc[:, 1:17].values

### Criação do modelo de Agrupamento (Clustering) usando K-Means

In [30]:
#Parametrizando K-Means com 3 Clusters e Metodo de Inicialização Randômica
kmeans = KMeans(n_clusters = 3, init = 'random')
kmeans

### Treino do modelo e exibindo os centroids

In [31]:
kmeans.fit(X_obesity) # Treino do modelo com os Dados

kmeans.cluster_centers_ # Exibindo os Centroids - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

kmeans.fit(X_obesity) # Treinando novamente o modelo com os Dados - Observe que novos Centroids são calculados (inicialização randômica!)

kmeans.cluster_centers_ # Exibindo os Centroids - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

ValueError: could not convert string to float: 'yes'

### Executa K-Means para agrupar os dados e retorna Tabela de Distancias (fit_transform)

In [None]:
# Calcula a distância entre os dados de cada linha (instância) e cada um dos 3 clusters
distance = kmeans.fit_transform(Xbmw)
distance

### Para cada uma das 100 linhas do dataset, a qual dos 3 clusters ela pertence..0, 1 ou 2 ?

In [None]:
# São 100 elementos no array, um por linha
labels = kmeans.labels_
labels

### Exibindo novamente os Centroids (atualizados) - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

kmeans.cluster_centers_

### Visualizando os Clusters 

#### Exemplo 1

In [None]:
# Dados: 0.Dealership, 1.Showroom, 2.ComputerSearch, 3.M5, 4.3Series, 5.Z4, 6.Financing, 7.Purchase
plt.scatter(Xbmw[:, 6], Xbmw[:,7], s = 100, c = kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 6], kmeans.cluster_centers_[:, 7], s = 20, c = 'red')
plt.title('Customer Clusters and Centroids')
plt.xlabel('Financing')
plt.ylabel('Purchase')
plt.show()


#### Exemplo 2


In [None]:
# Dados: 0.Dealership, 1.Showroom, 2.ComputerSearch, 3.M5, 4.3Series, 5.Z4, 6.Financing, 7.Purchase
plt.scatter(Xbmw[:, 3], Xbmw[:, 7], s = 100, c = kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 3], kmeans.cluster_centers_[:, 7], s = 20, c = 'red')
plt.title('Customer Clusters and Centroids')
plt.xlabel('M5')
plt.ylabel('Purchase')
plt.show()


### Cálculo do WCSSE - Within Cluster Sum of Squared Errors

In [None]:
wcsse = []
maxclusters = 11
for i in range(1, maxclusters):
    kmeans = KMeans(n_clusters = i, init = 'random')
    kmeans.fit(Xbmw)
    print (i,kmeans.inertia_)
    wcsse.append(kmeans.inertia_)


### Plotagem do Gráfico para visualização do "cotovelo" - Método de Elbow

In [None]:
# Ao final do Estudo do Metodo de Elbow a seguir, foram gerados 11 clusters
plt.plot(range(1, maxclusters), wcsse)
plt.title('O Metodo Elbow')
plt.xlabel('Qtde. de Clusters')
plt.ylabel('WCSSE') # Within Cluster Sum of Squares
plt.show()


### Clientes

In [None]:
# Para o cliente 1 => Dealership=1, Showroom=1, ComputerSearch=1, M5=1, 3Series=1,
#                Z4=1, Financing=1, Purchase=1, qual grupo ele pertence?
# O comando predict nos traz o cluster=4
newcustomer1= [ [1, 1, 1, 1, 1, 1, 1, 1] ]
kmeans.predict(newcustomer1)

# Para o cliente 2 => Dealership=1, Showroom=0, ComputerSearch=0, M5=0, 3Series=1,
#                Z4=1, Financing=1, Purchase=1, qual grupo ele pertence?
# O comando predict nos traz o cluster=2

newcustomer2 = [ [1, 0, 0, 0, 1, 1, 1, 1] ]
kmeans.predict(newcustomer2)