# An√°lise de agrupamento em Python üêç

## Obtendo os dados

Para exemplificar o algoritmo de agrupamento por k-m√©dias ser√° usado o conjunto de dados `mpg` dispon√≠vel na biblioteca *Seaborn*. Este conjunto de dados O conjunto de dados apresenta iforma√ß√µes sobre ostra dados de `398` ve√≠culos com 9 vari√°veis:

* **mpg** - consumo em milhas por gal√£o (`9.0` a `46.6`).
* **cylinders** - n√∫mero de cilindros no motor (`3` a `8`).
* **displacement** - volume dos cilindros em polegadas c√∫bicas (`68` a `455`).
* **horsepower** - pot√™ncia em HP (`46` a `230`).
* **weight** - peso do ve√≠culo em libras (`1613` a `5140`).
* **acceleration** - tempo de acelera√ß√£o em segundos at√© 60 milhas por hora (`8.0` a `24.8`).
* **model_year** - ano do modelo (`1970` a `1982`).
* **origin** - pa√≠s de origem.
* **name** - nome do modelo.

Para exemplificar o m√©todo de agrupamento por k-M√©dias, neste tutorial, ser√° usado apenas 3 vari√°veis: **mpg**, **horsepower** e **weigth**. O objetivo √© formar grupos de modelos por semelhan√ßa com rela√ß√£o √† estes 3 par√¢metros.



In [None]:
import seaborn as sns
dt = sns.load_dataset('mpg')
dt.head()

Para preparar os dados para o nosso algoritmo seram criados dos objetos do *NumPy*: `X` contendo as vari√°veis de interesse e `Y` contendo os nomes dos modelos.

In [None]:
import numpy as np
dts = dt[['mpg', 'horsepower', 'weight', 'name']]

## O m√©todo k-m√©dias

O **agrupamento por k-m√©dias** √© um m√©todo n√£o param√©trico (n√£o baseado na distribui√ß√£o das vari√°veis) que consiste no seguinte algoritmo:

1.   Os elementos amostrais s√£o distribu√≠dos em $k \geq 2$ grupos ao acaso.
2.   Para cada um dos $k$ grupos formados calcula-se o centroide (coordenada formada pela m√©dia de cada uma das vari√°veis para os elementos do grupo);
3.   Para cada elemento amostral, calcula-se a dist√¢ncia (euclidiana) entre o elemento e o centroide de cada grupo.
4.   Se o elemento de um grupo estiver mais pr√≥ximo do centroide de outro grupo, desloca-se este elemento amostral para grupo com a menor dist√¢ncia e recalcula-se os centroides dos grupos de origem e destino (o rec√°lculo ocorre elemento a elemento).
5.   Enquanto for poss√≠vel fazer trocas entre os elementos, repete-se os passos (3) e (4).
6.   Quando n√£o for mais poss√≠vel fazer trocas, interrompe-se o algoritmo e o resultado final √© obtido.

O algoritmo ser√° demonstrado de forma manual com um subconjunto de 30 ve√≠culos e, posteriormente, o k-m√©dias ser√° aplicado ao conjunto de dados original.

### Executando o k-m√©dias manualmente (tutorial)

Para iniciar o estudo do algoritmo considere o conjunto formado pelas 30 observa√ß√µes iniciais do conjunto de dados:

In [None]:
dtss = dts[0:30]
sns.pairplot(dtss);

O primeiro passo do algoritmo consiste em separar os elementos em $k$ grupos. Para efeito de demonstra√ß√£o do algoritmo considere $k = 3$. A separa√ß√£o inicial pode ser feita ao acaso ou com algum crit√©rio. Iremos separar os 10 primeiros elementos no grupo `1`, os 10 pr√≥ximos elementos no grupo `2` e os 10 elementos restantes no grupo `3`.

In [None]:
dtss = dtss.assign(group= lambda x: 1)
dtss.loc[0:9, 'group'] = 1
dtss.loc[10:19, 'group'] = 2
dtss.loc[20:29, 'group'] = 3
dtss

O objetivo dos m√©todos de agrupamento √© criar grupos que sejam o mais heterog√™neo poss√≠vel, e seus elementos devem ser o mais homog√™neos poss√≠vel.

Evidentemente, o agrupamento inicial n√£o gera um bom resultado. Basta ver que a distribui√ß√£o dos 3 grupos (representado pelas 3 cores no gr√°fico) s√£o sobrepostas em todas as vari√°veis.

In [None]:
sns.pairplot(dtss, hue= 'group', palette= { 1: 'blue', 2: 'orange', 3: 'green'});

In [None]:
c1 = dtss.loc[dtss['group'] == 1, ['mpg', 'horsepower', 'weight']].mean()
c2 = dtss.loc[dtss['group'] == 2, ['mpg', 'horsepower', 'weight']].mean()
c3 = dtss.loc[dtss['group'] == 3, ['mpg', 'horsepower', 'weight']].mean()

print(f"O centroide do grupo 1 √©: mpg = {c1['mpg']:.1f}, hp = {c1['horsepower']:.1f} e weight = {c1['weight']:.1f}.")
print(f"O centroide do grupo 2 √©: mpg = {c2['mpg']:.1f}, hp = {c2['horsepower']:.1f} e weight = {c2['weight']:.1f}.")
print(f"O centroide do grupo 3 √©: mpg = {c3['mpg']:.1f}, hp = {c3['horsepower']:.1f} e weight = {c3['weight']:.1f}.")

O pr√≥ximo passo √© calcular a dist√¢ncia de cada observa√ß√£o para os centroides. Por exemplo, tomando a primeira observa√ß√£o (posi√ß√£o `0`) obt√©m-se:

In [None]:
import math

d1 = math.sqrt(np.sum((dtss.loc[0,['mpg', 'horsepower', 'weight']] - c1) ** 2))
d2 = math.sqrt(np.sum((dtss.loc[0,['mpg', 'horsepower', 'weight']] - c2) ** 2))
d3 = math.sqrt(np.sum((dtss.loc[0,['mpg', 'horsepower', 'weight']] - c3) ** 2))

print(f"A dist√¢ncia da observa√ß√£o 0 para o centroide do grupo 1 √© {d1:.4f}.")
print(f"A dist√¢ncia da observa√ß√£o 0 para o centroide do grupo 2 √© {d2:.4f}.")
print(f"A dist√¢ncia da observa√ß√£o 0 para o centroide do grupo 3 √© {d3:.4f}.")

Observe que a observa√ß√£o **pertence ao grupo 1**, por√©m, **est√° mais pr√≥xima do centroide do grupo 3**. Logo esta observa√ß√£o precisa mudar para o grupo 3.

In [None]:
dtss.loc[0, 'group'] = 3

Ap√≥s relocar o elemento, calcula-se novamente os centroides.

In [None]:
c1 = dtss.loc[dtss['group'] == 1, ['mpg', 'horsepower', 'weight']].mean()
c2 = dtss.loc[dtss['group'] == 2, ['mpg', 'horsepower', 'weight']].mean()
c3 = dtss.loc[dtss['group'] == 3, ['mpg', 'horsepower', 'weight']].mean()

print(f"O centroide do grupo 1 √©: mpg = {c1['mpg']:.1f}, hp = {c1['horsepower']:.1f} e weight = {c1['weight']:.1f}.")
print(f"O centroide do grupo 2 √©: mpg = {c2['mpg']:.1f}, hp = {c2['horsepower']:.1f} e weight = {c2['weight']:.1f}.")
print(f"O centroide do grupo 3 √©: mpg = {c3['mpg']:.1f}, hp = {c3['horsepower']:.1f} e weight = {c3['weight']:.1f}.")

O processo √© repetido para as demais observa√ß√µes.

In [None]:
for k in range(1, 30):
  d1 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c1) ** 2))
  d2 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c2) ** 2))
  d3 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c3) ** 2))

  if np.argmin(np.array([d1, d2, d3])) + 1 != dtss.loc[k, 'group']:
    dtss.loc[k, 'group'] = np.argmin(np.array([d1, d2, d3])) + 1

    c1 = dtss.loc[dtss['group'] == 1, ['mpg', 'horsepower', 'weight']].mean()
    c2 = dtss.loc[dtss['group'] == 2, ['mpg', 'horsepower', 'weight']].mean()
    c3 = dtss.loc[dtss['group'] == 3, ['mpg', 'horsepower', 'weight']].mean()

In [None]:
sns.pairplot(dtss, hue= 'group', palette= { 1: 'blue', 2: 'orange', 3: 'green'});

Observe que o grupo 2 (laranja) j√° se destaca mais dos outros grupos com apenas uma sequ√™ncia de trocas dos elementos por grupos. O grupo laranja √© composto por ve√≠culos com menor pot√™ncia, menor consumo e menor peso.

O algoritmo se repete enquanto ainda existir alguma substitui√ß√£o para se fazer:

In [None]:
while True:
  changed = False
  for k in range(30):
    d1 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c1) ** 2))
    d2 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c2) ** 2))
    d3 = math.sqrt(np.sum((dtss.loc[k, ['mpg', 'horsepower', 'weight']] - c3) ** 2))

    if np.argmin(np.array([d1, d2, d3])) + 1 != dtss.loc[k, 'group']:
      dtss.loc[k, 'group'] = np.argmin(np.array([d1, d2, d3])) + 1

      c1 = dtss.loc[dtss['group'] == 1, ['mpg', 'horsepower', 'weight']].mean()
      c2 = dtss.loc[dtss['group'] == 2, ['mpg', 'horsepower', 'weight']].mean()
      c3 = dtss.loc[dtss['group'] == 3, ['mpg', 'horsepower', 'weight']].mean()

      changed = True

  if not changed:
    break

O resultado final s√£o 3 grupos o mais heterog√™neo poss√≠vel: o grupo 1 (azul) s√£o compostos de autom√≥veis mais exportivos (maior consumo, maior pot√™ncia e maior peso) o grupo 2 (laranja) s√£o os caros mais tradicionais (menor consumo, menor pot√™ncia e menor peso) e o grupo 3 (verde) √© uma classe intermedi√°ria.

In [None]:
sns.pairplot(dtss, hue= 'group', palette= { 1: 'blue', 2: 'orange', 3: 'green'});

## Realizando o agrupamento em toda a base

O conjunto completo de dados √© composto por `398` ve√≠culos. A distribui√ß√£o das vari√°veis de interesse est√° mostrada no gr√°fico abaixo.

In [None]:
sns.pairplot(dts);

Para iniciar o algoritmo os elementos amostrais ser√£o classificados em 1 dos 3 grupos:

In [None]:
dts = dts.assign(group= lambda x: 1)
for k in range(398):
  dts.loc[k, 'group'] = k % 3 + 1
dts

Observe no gr√°fico abaixo que os 3 grupos est√£o bastante misturados, ou seja, s√£o muito homog√™neos (n√£o existem diferen√ßas entre os grupos).

O algoritmo ser√° capaz de separar estes grupos?

In [None]:
sns.pairplot(dts, hue= 'group', palette= { 1: 'blue', 2: 'orange', 3: 'green'});

O processo todo √© representado no c√≥digo seguinte.

In [None]:
while True:
  changed = False
  for k in range(dts.shape[0]):
    d1 = math.sqrt(np.sum((dts.loc[k, ['mpg', 'horsepower', 'weight']] - c1) ** 2))
    d2 = math.sqrt(np.sum((dts.loc[k, ['mpg', 'horsepower', 'weight']] - c2) ** 2))
    d3 = math.sqrt(np.sum((dts.loc[k, ['mpg', 'horsepower', 'weight']] - c3) ** 2))

    if np.argmin(np.array([d1, d2, d3])) + 1 != dts.loc[k, 'group']:
      dts.loc[k, 'group'] = np.argmin(np.array([d1, d2, d3])) + 1

      c1 = dts.loc[dts['group'] == 1, ['mpg', 'horsepower', 'weight']].mean()
      c2 = dts.loc[dts['group'] == 2, ['mpg', 'horsepower', 'weight']].mean()
      c3 = dts.loc[dts['group'] == 3, ['mpg', 'horsepower', 'weight']].mean()

      changed = True

  if not changed:
    break

Observe que, mesmo em um cen√°rio em que os grupos inicialmente estavam homog√™neos, o m√©todo √© capaz de separar o conjunto de dados em diferentes grupos heterog√™neos.

In [None]:
sns.pairplot(dts, hue= 'group', palette= { 1: 'blue', 2: 'orange', 3: 'green'});