# Kmeans

O Kmeans (K-Médias) é um algoritmo de agrupamento, que consiste em alocar elementos semelhantes em um mesmo conjunto, cuja semelhança é calculada com algum critério definido.

Utilizaremos o método KMeans disponível na biblioteca Scikit-learn. Para importa-lo:
```python
from sklearn.cluster import KMeans
```

adicionalmente, precisaremos de outras bibliotecas também
```python
import numpy as np
import pandas as pd
import seaborn as sns
import random
import matplotlib.pyplot as plt
%matplotlib inline
```

**Atividade**
- Importe as bibliotecas necessárias.

Para trabalhar com o KMeans é necessário criar um objeto, para acessar os métodos e atributos para aplicar e obter o resultado do algoritmo de agrupamento.

```python
kmeans = KMeans(n_clusters=4)
```
> O parâmetro `n_clusters` indica o número de grupos que deseja formar.

**Exemplo**  

Gerando um conjunto aleatório de dados:
```python
n = 100
x=[]
for i in range(n):
    x.append([random.randrange(0,n), random.randrange(0,n)] )
x = np.array(x)
```

Observando o conjunto de dados:
```bash
print(x)
```

Para calcular, utiliza-se o método `.fit()`.  

>**Exemplo**  
>```python
kmeans.fit(x)
```

Pode-ser ver os centróides, observando o atributo `.cluster_centers_`.  
>**Exemplo**  
>```bash
kmeans.cluster_centers_
```

Para observar a qual grupo pertence cada ponto, com o atributo `.labels_`.  
>**Exemplo**
>```bash
kmeans.labels_
```

O conjunto de dados e os grupos podem ser observados de maneira gráfica, utilizando gráficos de *scatter*.

>**Exemplo**  
>```python
># plota os pontos
>plt.scatter(
    x[:, 0], x[:, 1], #x e y
    c = kmeans.labels_, #cores de acordo com o grupo
    marker='o', # pontos com 'o'
    edgecolor='black', #cor da borda
    cmap='rainbow', #esquema de cores
    s=100 #tamanho
)
># plota os centróides
plt.scatter(
    kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:, 1],#x e y
    c='white',  #cor fixa
    marker='*', #pontos marcados com estrela
    edgecolor='black', #cor da borda
    s=100 #tamanho
)
plt.show()
```

**Exercícios**  
- Crie 3 grupos, colocando como entrada a idade e altura de um grupo de pessoas

**Dataframes Pandas**

Para aplicar o K-means a partir de Dataframes Pandas, basta converter as colunas necessárias em Arrays Numpy.

>**Exemplo**  
>- Crie 3 grupos a partir das variáveis `preco` e `area`, da base `rioAptos`.
>```python
data = pd.read_csv('../../../book/notebooks/Regressao/rioAptos.csv')
kmeans = KMeans(n_clusters=3)
x = data[['preco','area']].values
kmeans.fit(x)
```

**Atividade**  

- Execute o exemplo
- Observe o resultado utilizando gráfico *scatter*. Qual o significado de cada grupo?

## Referências

CARVALHO, A. et al. Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina. LTC, 2011.

[MENOTTI, D. Boas maneiras, aprendizado não supervisionado e regressão. Notas de aula da Especialização em Engenharia Industrial. Universidade Federal do Paraná.](http://www.inf.ufpr.br/menotti/am-17/slides/ML-08cluster-regression.pdf)  


**Outros materiais**  
[Towards data science. K-Means Clustering with scikit-learn. Medium. 2019](https://towardsdatascience.com/k-means-clustering-with-scikit-learn-6b47a369a83c)  
[GURU99. K-means Clustering in R with Example](https://www.guru99.com/r-k-means-clustering.html)  
[SCIKIT-LEARN. Scikit-learn: machine learning in Python](https://scikit-learn.org/stable/)  


