# K-Means

Pertence à classe de algoritmos de Aprendizado de Máquina não supervisionado. Basicamente, algoritmos não supervisionados fazem inferências sobre um dataset apenas com dados de entrada, sem nenhum label ou dados de saída conhecidos. Consiste em particionar um conjunto de dados similares em classes usando uma média, chamada de centroide (k), de forma que o dado pertença à média mais próxima. Todos os pontos de dados são associados à um cluster de forma a reduzir a soma dos quadrados, ou seja, a distância entre cada ponto de dado e o centroide.

## Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
%matplotlib inline 

## Lendo o arquivo

In [2]:
df = pd.read_csv('fozcoa.csv', index_col=0, delimiter=",", low_memory=False)

FileNotFoundError: [Errno 2] File fozcoa.csv does not exist: 'fozcoa.csv'

## Imprimindo alguns dados

In [None]:
df.sample(5)

## Convertendo colunas para Float

In [None]:
df['PtCondensação (°C)  #10597645-x'] = pd.to_numeric(df['PtCondensação (°C)  #10597645-x'],errors='coerce')
df['Zona W2 - F4 Deslocamento (mm)'] = pd.to_numeric(df['Zona W2 - F4 Deslocamento (mm)'],errors='coerce')
df['Zona W1 - T1 Temp. (°C)'] = pd.to_numeric(df['Zona W1 - T1 Temp. (°C)'],errors='coerce')
df['Zona W1 - RH1 HR (%)'] = pd.to_numeric(df['Zona W1 - RH1 HR (%)'],errors='coerce')
df['Zona W1 - C1A Rotação (mm/m)'] = pd.to_numeric(df['Zona W1 - C1A Rotação (mm/m)'],errors='coerce')
df['Zona W1 - P1 Deslocamento (mm)'] = pd.to_numeric(df['Zona W1 - P1 Deslocamento (mm)'],errors='coerce')
df['Zona W2 - F7 Deslocamento (mm)'] = pd.to_numeric(df['Zona W2 - F7 Deslocamento (mm)'],errors='coerce')
df['Zona W2 - F8 Deslocamento (mm)'] = pd.to_numeric(df['Zona W2 - F8 Deslocamento (mm)'],errors='coerce')
df['Zona W2 - T2 Temperatura (ºC)'] = pd.to_numeric(df['Zona W2 - T2 Temperatura (ºC)'],errors='coerce')

## Preenchendo os valores nulos com 0

In [None]:
df = df.fillna(0)

## Criando um array à partir dos dados sem as colunas data e hora

In [None]:
X = np.array(df.drop(['Data', 'Hora'], axis = 1))

## Criando um objeto kmeans com 5 clusters. random_state=0 determina um número aleatório para inicialização do centroide.

In [None]:
kmeans = KMeans(n_clusters=5, random_state=0)

## Treinamento do K-Means

In [None]:
kmeans.fit(X)

## Criando uma nova coluna aplicando os labels 

In [None]:
df['k-classes'] = kmeans.labels_

## Visualizando os dados com as classes geradas pelo K-Means

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(10)

## Quantos valores pertencem a cada classe

In [None]:
df['k-classes'].value_counts()

## Escolhendo o número certo de clusters

### Elbow Method

É uma técnica que a ideia é executar o K-Means para um conjunto de classes (1 a 11, por exemplo), e para cada valor calcular a soma das distâncias ao quadrado de cada ponto de dado ao seu centroide atribuido.
Ao plotar o gráfico de distorção e ele se parecer com um braço, o cotovelo (Elbow) que é o ponto onde a curva começa a se estabilizar, é o melhor valor de k.
Executando o K-Means para uma variedade de clusters e adicionando a distorção (inertia) em uma lista.

In [None]:
wcss = []
K = range(1,11)

for i in K:
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

In [None]:
plt.figure(figsize=(10,6))
plt.plot(K, wcss, 'bx-')
plt.xlabel('Número de clusters (K)')
plt.ylabel('WCSS')
plt.title('Elbow Method')
plt.show()

### Usando a lib KElbowVisualizer para uma melhor visualização

In [None]:
from yellowbrick.cluster import KElbowVisualizer

In [None]:
model = KMeans()
visualizer = KElbowVisualizer(kmeans, k=(1,11))

visualizer.fit(X)
visualizer.show()

O gráfico mostra que o número ideal de clusters é 3

## kmeans com 3 clusters. O k-means++ garante uma inicialização mais inteligente dos centroides e melhora a qualidade do cluster.

In [None]:
kmeans = KMeans(n_clusters=3, init = 'k-means++', random_state=0)

In [None]:
kmeans.fit(X)

In [None]:
df['k-classes'] = kmeans.labels_

In [None]:
df.sample(5)

In [None]:
df['k-classes'].value_counts()

# Referências

https://en.wikipedia.org/wiki/K-means_clustering


https://developers.google.com/machine-learning/clustering/workflow


https://www.scikit-yb.org/en/latest/api/cluster/elbow.html


https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html


https://predictivehacks.com/k-means-elbow-method-code-for-python/