# AGRUPAMENTO K-MEANS USANDO PYTHON
Dataset usado: bmw.csv

### Importação de Bibliotecas

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.cluster import KMeans

### Leitura de Dados no formato .CSV

In [None]:
df = pd.read_csv("ObesityDataSet.csv", sep=',')

df.Age = df.Age.astype('int64')
df.Height = df.Height.astype('int64')
df.Weight = df.Weight.astype('int64')
df.FCVC = df.FCVC.astype('int64')
df.NCP = df.NCP.astype('int64')
df.CH2O = df.CH2O.astype('int64')
df.FAF = df.FAF.astype('int64')
df.TUE = df.TUE.astype('int64')

df.Gender = df.Gender.replace({'Male': 0, 'Female': 1})
df.family_history_with_overweight = df.family_history_with_overweight.replace({'yes': 0, 'no': 1})
df.FAVC = df.FAVC.replace ({'yes': 0, 'no': 1})
df.CAEC = df.CAEC.replace ({'Sometimes': 0, 'Frequently': 1, 'Always': 2, 'no': 3})
df.SMOKE = df.SMOKE.replace({'yes': 0, 'no': 1})
df.SCC = df.SCC.replace({'yes': 0, 'no': 1})
df.CALC = df.CALC.replace({'Sometimes': 0, 'Frequently': 1, 'Always': 2, 'no': 3})
df.MTRANS = df.MTRANS.replace({'Public_Transportation': 0, 'Walking': 1, 'Automobile': 2, 'Motorbike': 3, 'Bike': 4})
df.NObeyesdad = df.NObeyesdad.replace({'Normal_Weight': 0, 'Overweight_Level_I': 1, 'Overweight_Level_II': 2, 'Insufficient_Weight': 3, 
                                       'Obesity_Type_I': 4, 'Obesity_Type_II': 4, 'Obesity_Type_III': 5})

df.head()
df.info()
df.shape 

# X_obesity = df.iloc[:, 1:17].values
X_obesity = df.iloc[:, 1:-1]


### Criação do modelo de Agrupamento (Clustering) usando K-Means

In [None]:
#Parametrizando K-Means com 3 Clusters e Metodo de Inicialização Randômica
kmeans = KMeans(n_clusters = 3, init = 'random')
kmeans

### Treino do modelo e exibindo os centroids

In [None]:
kmeans.fit(X_obesity) # Treino do modelo com os Dados

kmeans.cluster_centers_ # Exibindo os Centroids - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

kmeans.fit(X_obesity) # Treinando novamente o modelo com os Dados - Observe que novos Centroids são calculados (inicialização randômica!)

kmeans.cluster_centers_ # Exibindo os Centroids - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

### Executa K-Means para agrupar os dados e retorna Tabela de Distancias (fit_transform)

In [None]:
# Calcula a distância entre os dados de cada linha (instância) e cada um dos 3 clusters
distance = kmeans.fit_transform(X_obesity)
distance

### Para cada uma das 100 linhas do dataset, a qual dos 3 clusters ela pertence..0, 1 ou 2 ?

In [None]:
# São 100 elementos no array, um por linha
labels = kmeans.labels_
labels

### Exibindo novamente os Centroids (atualizados) - São 3 grupos, portanto, 3 linhas com 8 colunas = 8 features

In [None]:
kmeans.cluster_centers_

### Visualizando os Clusters 

#### Exemplo 1

In [None]:
# # Dados: 0.Dealership, 1.Showroom, 2.ComputerSearch, 3.M5, 4.3Series, 5.Z4, 6.Financing, 7.Purchase
# plt.scatter(Xbmw[:, 6], Xbmw[:,7], s = 100, c = kmeans.labels_)
# plt.scatter(kmeans.cluster_centers_[:, 6], kmeans.cluster_centers_[:, 7], s = 20, c = 'red')
# plt.title('Customer Clusters and Centroids')
# plt.xlabel('Financing')
# plt.ylabel('Purchase')
# plt.show()


#### Exemplo 2


In [None]:
# # Dados: 0.Dealership, 1.Showroom, 2.ComputerSearch, 3.M5, 4.3Series, 5.Z4, 6.Financing, 7.Purchase
# plt.scatter(Xbmw[:, 3], Xbmw[:, 7], s = 100, c = kmeans.labels_)
# plt.scatter(kmeans.cluster_centers_[:, 3], kmeans.cluster_centers_[:, 7], s = 20, c = 'red')
# plt.title('Customer Clusters and Centroids')
# plt.xlabel('M5')
# plt.ylabel('Purchase')
# plt.show()


### Cálculo do WCSSE - Within Cluster Sum of Squared Errors

In [None]:
wcsse = []
maxclusters = 11
for i in range(1, maxclusters):
    kmeans = KMeans(n_clusters = i, init = 'random')
    kmeans.fit(X_obesity)
    print (i,kmeans.inertia_)
    wcsse.append(kmeans.inertia_)


### Plotagem do Gráfico para visualização do "cotovelo" - Método de Elbow

In [None]:
# Ao final do Estudo do Metodo de Elbow a seguir, foram gerados 11 clusters
plt.plot(range(1, maxclusters), wcsse)
plt.title('O Metodo Elbow')
plt.xlabel('Qtde. de Clusters')
plt.ylabel('WCSSE') # Within Cluster Sum of Squares
plt.show()


### Clientes

In [None]:

usuario= [ [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1] ]
kmeans.predict(usuario)

