In [None]:
import sklearn
import matplotlib.pyplot as plt
import time
import numpy as np
from numpy.random import multivariate_normal
from numpy.random import uniform

### Funções auxiliares

In [None]:
def create_dataset(n_samples=3000):
    """ Cria um conjunto de dados com duas distribuições Gaussianas e uma uniforme"""
    n_sample = n_samples//3
    data = np.zeros([n_samples, 3])

    data_0 = multivariate_normal(mean=[-1, 1], cov=[[2, 1],[1, 2]], size=(n_sample))
    data_1 = multivariate_normal(mean=[1, 5], cov=[[3, 1],[2, 1]], size=(n_sample))
    data_2 = uniform([5, -3], [10, 5], size=(n_sample, 2))

    # Merged all datapoints into one dataset
    data[:n_sample, :2] = data_0
    data[:n_sample, 2] = np.asarray([0]*n_sample)
    data[n_sample:2*n_sample, :2] = data_1
    data[n_sample:2*n_sample, 2] = np.asarray([1]*n_sample)
    data[2*n_sample:, :2] = data_2
    data[2*n_sample:, 2] = np.asarray([2]*n_sample)

    return data


def plot_dataset(data):
    """ Plota os conjuntos de dados gerados"""
    data_0 = data[data[:, 2] == 0][:, :2]
    data_1 = data[data[:, 2] == 1][:, :2]
    data_2 = data[data[:, 2] == 2][:, :2]

    plt.scatter(data_0[:, 0], data_0[:, 1], c='r', label="Cluster 1")
    plt.scatter(data_1[:, 0], data_1[:, 1], c='b', label="Cluster 2")
    plt.scatter(data_2[:, 0], data_2[:, 1], c='g', label="Cluster 3")
    plt.legend()
    plt.title("2 Distribuições Gaussianas sobrepostas e uma distribuição uniforme")
    plt.show()
    plt.clf()
    
    
def plot_results(data, y_kmeans, y_gm):
    """Plota os resultados numa única figura"""
    fig, ax = plt.subplots(1, 3)
    fig.set_size_inches(20, 8, forward=True)  
    labels = [data[:, 2], y_kmeans, y_gm]
    title = ["True labels", "KMeans", "GMs"]

    for i in range(len(labels)):
        data_0 = data[labels[i] == 0][:, :2]
        data_1 = data[labels[i] == 1][:, :2]
        data_2 = data[labels[i] == 2][:, :2]
        ax[i].scatter(data_0[:, 0], data_0[:, 1], c='r', label="Cluster 1")
        ax[i].scatter(data_1[:, 0], data_1[:, 1], c='b', label="Cluster 2")
        ax[i].scatter(data_2[:, 0], data_2[:, 1], c='g', label="Cluster 3")
        ax[i].set_title(title[i])
        ax[i].legend()

    plt.show()
    
def plot_different_gms(data, threshold, y_gm, y_gm_proba, 
                       y_gm_kmeans, y_gm_proba_kmeans):
    
    """ Plots GMs with a random and kmeans initializer"""
    fig, ax = plt.subplots(1, 3)
    fig.set_size_inches(20, 8, forward=True)

    # Create new label ("unknown") for predictions < probability threshold
    y_gm_proba = np.amax(y_gm_proba, axis=1)
    y_gm[y_gm_proba < threshold] = 3

    y_gm_proba_kmeans = np.amax(y_gm_proba_kmeans, axis=1)
    y_gm_kmeans[y_gm_proba_kmeans < threshold] = 3

    labels = [data[:, 2], y_gm, y_gm_kmeans]
    title = ["True labels", 
           "GMs with random initializer", 
           "GMs with KMeans as initialization"]

    for i in range(len(labels)):
        data_0 = data[labels[i] == 0][:, :2]
        data_1 = data[labels[i] == 1][:, :2]
        data_2 = data[labels[i] == 2][:, :2]
        ax[i].scatter(data_0[:, 0], data_0[:, 1], c='r', label="Cluster 1")
        ax[i].scatter(data_1[:, 0], data_1[:, 1], c='b', label="Cluster 2")
        ax[i].scatter(data_2[:, 0], data_2[:, 1], c='g', label="Cluster 3")

        if i != 0:
            # First data are just true labels for comparison
            data_3 = data[labels[i] == 3][:, :2]
            ax[i].scatter(data_3[:, 0], data_3[:, 1], c='black', label="Unknown Cluster")

    ax[i].set_title(title[i])
    ax[i].legend()

    plt.show()

In [None]:
data = create_dataset()
plot_dataset(data)

## TODO 1

1. Treine um *k*-means e um GMM com os seguintes parâmetros:

> n_clusters/n_components = 3

> max_iter = 1000

> tol = $1^{-4}$

> EXCLUSIVO para GMM: init_params = 'random'


2. Faça o predict da seguinte maneira:

> para k_means: devolva o resultado na variável y_kmeans

> o resultado do predict para GMM coloque na variável y_gm

> o resultado do predict_proba para GMM coloque na variável y_gm_proba

In [None]:
#resposta


## TODO 2

Chame a função plot_results e passe os seguintes parâmetros em ordem: data, y_kmeans, y_gm

1. Descreva os resultados

In [None]:
# resposta


## TODO 3

Treine duas GMM:

1. A primeira com parâmetros iguais ao do TODO 1

2. A segunda, use o K-means como inicializador dos pesos para fazer com o GMM não fique preso em mínimos locais. (Dica: use a documentação da scikit-learn para entender como fazer essa inicialização

## TODO 4

Use o método plot_different_gms para comparar os resultados. Use os seguintes parâmetros:

1. data
2. 0.34 - valor de probabilidade do qual abaixo o GMM não associará um cluster
3. y_gm
4. y_gm_proba
5. y_gm_kmeans - os labels da GMM que foi treinada usando o k-means como inicializador
6. y_gm_proba_kmeans - as probabilidades da GM que treinada usando o k-means como inicializador


Descreva os resultados

In [None]:
# resposta
