# K-means: Agrupamento sobre dataset sintético por K-means

## O que vamos fazer?
- Criar um dataset de agrupamento sintético 
- Pré-processar os dados.
- Implementar o algoritmo de agrupamento K-means não supervisionado. 
- Comprovar a nossa implementação.
- Formar um modelo K-means com múltiplas inicializações. 
- Avaliar o modelo e representar os resultados graficamente. 
- Escolher um número ótimo de poloes pela regra da curva.

Neste exercício, vamos implementar um algoritmo de formação de modelos de agrupamento de K-means.

Para isso, vamos criar um dataset sintético de agrupamento, desenvolver a nossa implementação de K-means e comprová-la.

Como sabemos, os modelos de agrupamento são muito sensíveis às condições de inicialização, por isso vamos formar vários modelos em paralelo e comprovar graficamente se os seus resultados são visivelmente diferentes.

Para os avaliar, vamos fazê-lo de uma forma gráfica, representando o resultado final.

In [None]:
# TODO: Importar todos os módulos necessários para esta célula

## Criar o dataset sintético

Vamos criar um dataset sintético de classificação, Este dataset terá um n.º determinado de polos com um dado número de exemplos e um desvio padrão associado

Para facilitar, pode usar a função de [sklearn.datasets.make_blobs](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html).

In [None]:
# TODO: Criar um dataset de agrupamento sintético
# Usar os seguintes parâmetros para a criar
n_samples = 1000
n_features = 2
centers = 5
cluster_std = [1.0, 1.5, 0.5, 2.0, 2.5]
return_centers = True
random_state = 42

## Pré-processar os dados

Pré-processar os dados com os passos habituais, se necessário:

- Reordenar os dados aleatoriamente. 
- Normalizar os dados.

Como o agrupamento é um modelo de aprendizagem não supervisionado, não o iremos avaliar pelo método tradicional de comparação dos seus resultados com os resultados anteriormente conhecidos

In [None]:
# TODO: Reordenar os dados aleatoriamente

In [None]:
# TODO: Normalizar os dados se necessário

## Implementar o algoritmo K-means

Agora, implementar o algoritmo de agrupamento de K-means

Recordar os passos do algoritmo:

1. Definir o número de polos a considerar.
1. Inicializar os centroides de cada agrupamento, por exemplo, escolhendo os primeiros exemplos do dataset.
1. Atribuir cada exemplo no dataset ao seu centroide mais próximo.
1. Calcular o ponto médio no espaço n-dimensional do dataset para cada polo.
1. Atualizar o centroide correspondente a esse ponto.
1. Retribuir cada exemplo ao seu centroide mais próximo.
1. Continuar a iterar até a formação convergir: os centroides não variam de posição ou variam menos do que uma tolerância, ou atingimos o número máximo de iterações..

In [None]:
# TODO: Implementar uma função auxiliar para calcular a distância entre os exemplos e um ponto dado.
def dist_examples(x, centroide):
    """ Calcular a distância entre o ponto x e o centroide no espaço n-dimensional.
    
    Argumentos:
    x -- array de Numpy n-dimensional com as características do exemplo 
    centroide -- matriz de Numpy n-dimensional com o ponto do centroide
    
    Devolver:
    dist -- distância euclidiana no espaço n-dimensional entre x e o centroide
    """
    return dist

In [None]:
# TODO: Implementar o algoritmo de agrupamento por K-means
n_clusters = 5
n_iter = 100 
tol = 1e-3

# Inicializar os centroides como uma matriz 2D com a posição n-dimensional dos primeiros exemplos dos n_clusters
centroides = [...]

# Iterar sobre o número máx. de iterações
for i in range(n_iter):
    # Atribuir cada exemplo ao seu centroide mais próximo usando dist_examples ()
    for m in n_samples:
        polo_atribuído_exemplos = [...] # tamanho m, valores [1, n_clusters]
        
    # Calcular o ponto médio n-dimensional para cada polo com os seus exemplos atribuídos.
    for c in n_clusters:
        for n in n_features:
            # Dica: Pode utilizar as funções do Numpy para calcular a média de um array ou um slice do mesmo.
            centroide[...] = [...]
            
        # Atualizar o centroide de cada polo para esse ponto médio.
        centroides[...] = centroide
        
    # Verificar se o modelo converge: todos os centroides movem-se menos do que a tolerância tol
    if [...]:
        print('Modelo converge em iteração nº:', i)
        
        break
else:
    print('N.º máx. de iterações alcançado')
print('Centroides finais:') 
print(centroides)

print('Centroides atribuídos a cada exemplo:') 
print(polo_atribuído_exemplos)

*Nota*: Recordar que as células de modelo de código são sempre guias simplesmente sugeridas para implementar o seu código. Se preferir modificar para desenvolver o seu código com uma estrutura diferente, pode fazê-lo em qualquer altura. O importante é que o cálculo final esteja correto e devolva os resultados finais a serem revistos.

## Avaliar e representar os resultados

Vamos representar um gráfico 2D com os resultados da nossa formação: o centroide de cada polo e os exemplos atribuídos a cada um.
Da mesma forma, vamos usar métricas de avaliação adequadas para o agrupamento (nomeadamente diferentes das usadas para a classificação).


Para isso, pode ter como referência este exemplo: [A demo of K-Means clustering on the handwritten digits data](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html).

Ao criar o dataset original, recuperámos o centroide de cada agrupamento utilizado para o criar, a *ground truth* deste dataset, que podemos usar nesta avaliação.

No nosso caso, o nosso *n*, n.º de dimensões ou *n_features* é também de 2, pelo que não temos de reduzir a dimensionalidade por PCA (iremos introduzir este conceito ML numa sessão posterior).

In [None]:
# TODO: Avaliar o seu modelo com as métricas de homogeneidade, finalização, V-measure, índice de Rand ajustado, índice de medição em V

*Nota*: Aproveitar a oportunidade para pesquisar na documentação e conhecer melhor estes coeficientes, utilizados para avaliar o agrupamento, que são diferentes dos usados na classificação: [Clustering performance evaluation](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation).

In [None]:
# TODO: Representar o seu modelo formado: os centroides de cada polo e os exemplos atribuídos a cada um

*Bonus*: *É possível calcular a distância total entre cada centroide formado e o centroide original correspondente?* Cuidado, não tem de ser o mais próximo (2 centroides formados podem ter o mesmo centroide original como o mais próximo

*E se também representar os centroides na célula com os resultados do seu modelo, noutra cor?*

In [None]:
# TODO: Calcular a distância entre cada centroide formado e o centroide original correspondente

## Formar um modelo K-means com múltiplas inicializações

Como dissemos, o agrupamento K-means é um algoritmo bastante sensível à inicialização utilizada, uma vez que o resultado final pode variar. 
Para verificar isto graficamente, voltar a formar o modelo, escolhendo diferentes centroides iniciais, desta vez de forma aleatória entre os diferentes exemplos do dataset.

Para o fazer, copiar as células de código que formam o modelo (modificando a escolha dos centroides originais), avaliá-lo e representar
graficamente os resultados. Desta forma é possível ver os resultados em ambos os casos ao mesmo tempo para comparação

*Nota*: Para a representação gráfica, alterar o número da figura em *plt.figure(1)*.

In [None]:
# TODO: Implementar o algoritmo de agrupamento por K-means

In [None]:
# TODO: Avaliar o seu modelo com as métricas de homogeneidade, finalização, V-measure, índice de Rand ajustado, índice de medição em V

In [None]:
# TODO: Representar o seu modelo formado: os centroides de cada polo e os exemplos atribuídos a cada um

*Como variam os resultados do seu modelo com outra inicialização aleatória, as suas métricas de avaliação e o gráfico de resultados? Como é que variam se formar de novo o modelo com inicializações aleatórias várias vezes?*

Também se pode recriar o dataset original, mesmo alterando o tamanho ou desvio padrão de cada polo, e ver se afeta os resultados e a variação entre os polos.

## Escolher o número ótimo de polos

Tendo criado um dataset sintético, escolhemos o número “correto” de polos para o mesmo. No entanto, num dataset real não conhecemos este número de polos, e em muitas ocasiões não haverá sequer um número correto de polos, uma vez que encontrar a separação entre um polo e outro, se estiverem muito próximos, pode ser uma tarefa não trivial e subjetiva.

Por lógica matemática, quanto menor o número de polos, maior a distância média entre cada exemplo e o seu polo atribuído, e quanto maior o número de polos, menor a distância. Numa redução, quando usamos um número de polos igual ao número de exemplos, cada centroide corresponderá idealmente à posição de cada exemplo, e a distância média para o polo mais próximo será 0.

Portanto, para escolher o número ótimo de polos, quando não temos quaisquer considerações ou restrições externas, podemos utilizar a chamada “regra da curva”.

Vamos aplicar esta regra ao nosso dataset:
1. Formar um modelo para cada número de polos a considerar num intervalo, por exemplo [1, 10].
1. Para cada número de polos, formar vários modelos com múltiplas inicializações aleatórias, e escolher o que tem a melhor métrica de avaliação.
1. Representar graficamente a métrica de avaliação do melhor modelo vs o número de polos considerado
1. Escolher como número “ótimo” de polos aquele no qual existe uma “curva” no gráfico, onde a tendência ou inclinação muda de forma mais abrupta

Num dataset real não iremos contar com a sua *ground truth*, os centroides corretos, pelo que, como avaliação, iremos utilizar a métrica do coeficiente de silhueta.

Implementar a regra da curva para escolher um número ótimo de polos para este dataset:

In [None]:
# TODO: Implementar a regra da curva para escolher um número ótimo de polos para este :
n_clusters = [...] # Array [1, 2, 3, ..., 10]
n_iter = 100 
tol = 1e-3

# Iterar sobre o número de polos a considerar.
for n_c in n_clusters:
    # Formar vários modelos com inicializações aleatórias
    for _ in range(5):
        # Avaliar cada modelo por coeficiente de silhueta e manter o melhor modelo.
        # Pseudo-código
        if evaluacion > melhor_avaliação:
            melhor_modelo = modelo
            
            # Usar o seu código modificado das células anteriores para formar os modelos
            
# Como resultado final procuramos:
print('Centroides de cada modelo, segundo o nº de polos:')
print()
print('Coeficiente de silhueta de cada modelo, segundo o nº de polos:')
print()

In [None]:
# TODO: Representar graficamente da regra de curva num gráfico de linhas: coeficiente de silhueta do melhor m
plt.plot()

*E se alterarmos o número original de polos no dataset? O número ótimo de polos ainda aparece no gráfico com a mesma clareza?*

Modificar o dataset original e a resolução da regra de curva para comparação. Usar vários números de polos, como 5 de novo, 2, 4 e 6. 

Escolher um número ótimo de polos no seu último resultado e indique-o nesta célula:

- N.º de polos ótimo pela regra da curva: X

Finalmente, traçar novamente os resultados do modelo selecionado, com o número de polos ótimo:

In [None]:
# TODO: Representar o seu modelo formado: os centroides de cada polo e os exemplos atribuídos a cada um