## Aprendizado Não Supervisionado - Agrupamento de Dados
#### Prof. Thomas da Silva Paula

## Comparação de algoritmos de Agrupamento de Dados

É muito comum realizarmos comparação de algoritmos durante o desenvolvimento de soluções que utilizam Machine Learning. No caso de Aprendizado Supervisionado, existem muitas formas de avaliar os resultados, tais como Matriz de Confusão, Medida F1 e Curva ROC. No entanto, a avaliação de algoritmos de Aprendizado Não Supervisionado tem desafios adicionais, pois não temos algo sendo otimizado diretamente. Isso torna a avaliação mais complexa e um tanto quanto subjetiva, principalmente no caso de Agrupamento de Dados. Neste trabalho, iremos exercitar esses conceitos, realizando tarefas muito similares às que Cientistas de Dados fazem no seu dia-a-dia. 


### Descrição

#### Algoritmos
Implementar três algoritmos diferentes de agrupamento de dados (utilizando as bibliotecas `scikit-learn` e `scipy`), para realizar agrupamento de diferentes imagens de uma base de dados. Idealmente os algoritmos devem ser de tipos diferents. Para facilitar o processo de feature extraction, foram disponibilizados dois Numpy arrays com as features das imagens extraídas com uma VGG16 e uma ResNet18. Tais features devem ser utilizadas como entrada para os diferentes algoritmos de agrupamento de dados escolhidos.


#### Avaliação (Validação) dos Clusters
* **Quantitativa**:Para comparação dos algoritmos, devem ser escolhidos três métodos de avaliação diferentes, sendo um interno, um externo e um relativo. O objetivo é avaliar a diferença dos índices para diferentes hiperparâmetros de um mesmo algoritmo e para comparar os resultados de diferentes algoritmos. Lembre-se das diferenças de cada um deles e quando eles se aplicam.
* **Subjetiva:** Para a avaliação subjetiva, deve-se criar uma visualização das imagens dos grupos (pode-se inspirar no exemplo mostrado pelo professor).


### Requisitos
* Escolher três algoritmos diferentes de agrupamento de dados. Escolher um de cada paradigma diferente, como por exemplo um particional, um hierárquico e um por densidade. Podem ser algoritmos não vistos em aula, como Mean-Shift, Spectral Clustering, Affinity Propagation, entre outros.
* Escolher e implementar os três algoritmos usando as bibliotecas `scikit-learn` e `scipy`.
* Escolher e implementar os três métodos de avaliação, lembrando que deve-se utilizar um índice interno, um externo e um relativo. Usar os índices onde foram aplicáveis e, caso acredite que não se aplique, justifique suas escolhas.
* Realizar experimentos com dois conjuntos diferentes de features, sendo um deles da VGG16 e outra da ResNet18.
* Implementar um método para comparação subjetiva (visual), onde deve ser possível visualizar imagens de diferentes grupos.
* A partir dos experimentos realizados, deve-se escrever um relatório detalhando as escolhas feitas, os experimentos realizados e, principalmente, o aprendizado. Os diferentes hiperparâmetros utilizados (e.g. $\epsilon$ do DBSCAN) em diferentes experimentos não precisam ser todos colocados, porém o racional para ter chegado em tais valores deve ficar claro (o que implica em explicar por onde começou). É importante colocar os desafios e dificuldades enfrentadas.
* Você pode utilizar diferentes estratégias de pré-processamento e redução de dimensionalidde. Fica a seu critério.
* **Atenção!**: Existe um número "correto" de grupos para essa base de dados, porém a análise não deve se concentrar apenas neste número. Use a criatividade e explore diferentes formas em que os dados podem ser agrupados, fugindo do que seriam os agrupamentos mais "naturais"!


#### Ideias extras
* **(Extra 1)**: Foram disponibilizadas features da ResNet101 também. Um bom exercício é utilizar os algoritmos com os melhores hiperparâmetros com as features da ResNet101 e comparar com os resultados da VGG16 e da ResNet18.
* **(Extra 2)**: Vamos aprender nas próximas aulas sobre redução de dimensionalidade. Faça experimentos com redução de dimensionalidade e compare com os agrupamentos anteriores. Faça a redução para duas dimensões e observe se a separação dos dados.

### Exemplo de visualização subjetiva
![alt text](cluster_evaluation.png "Exemplo Visualização")

#### Entrega final
* Jupyter notebook com os experimentos realizados (.ipynb e um .html ou .pdf).
* Relatório em formato .pdf com os resultados e conclusões. Caso prefira, os resultados e conclusões podem ser colocados diretamente no Jupyter notebook, desde que fique bem explicado e claro.

In [11]:
# Class definition
#
# For simplicity and re-usability, the solution is written
# in a class. Steps are invoked and documented below.
#

import numpy as np
from sklearn import cluster

class Net:
    # __init__
    #
    # Initialize object and load
    # features and labels
    def __init__(self):
        self.labels = None
        self.vgg_features = None
        self.resnet_features = None
        self.kmeans_model = None
        self.labels_kmeans = None
        self.__load_features__()
        
    # __load_features__
    #
    # Load features and labels from the 
    # compressed npy files
    def __load_features__(self):
        self.labels = np.load("./features/original_labels.npy")
        self.vgg_features = np.load("./features/vgg16_features.npy")
        self.resnet_features = np.load("./features/resnet18_features.npy")
    
    # fit_kmeans
    #
    # Fits and predicts clusters using kmeans
    def fit_kmeans(self):
        self.kmeans_model = cluster.KMeans()
        self.labels_kmeans = self.kmeans_model.fit_predict(self.vgg_features)
    
    # display
    #
    # General purpose debug method
    def display(self):
        print(self.labels)
        print(self.labels_kmeans)

# Instantiate object loading all features
# and labels
net = Net()

net.fit_kmeans()
net.display()

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 