# Mini Projeto 02

Aprendizado Não-Supervisionado - Professor Mateus Mendelson

Integrantes: Nasser Santiago Boan, Emmanuel Moreira, Harlan Martins

___

O objetivo desse projeto é implementar um algoritmo KMeans. O KMeans é um algoritmo de clusterização de aprendizado não supervisionado, muito utilizado para procurar subsets dentro um conjunto de dados que se assemelham em termos de suas características X.

## Preparando os dados

Para que os dados estejam prontos para ser usados devemos, inicialmente, executar o script 'make_dataset.py'. Conforme abaixo.

In [1]:
!python src/make_dataset.py

>> Lendo e tratando dataset!
>> Dataset criado em 'data/meu_dataset.csv'
>> O Dataset possui 1570 linhas e 3 colunas.


Com o dataset carregado e criado, podemos agora começar a implementação do algoritmo. O algoritmo será implementado com o nome de classe MyKMeans.

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
import math
import numpy as np
from scipy.spatial import distance

#alpha: indica a quantidade de tentativas sem melhoria de custo total médio que
#devem ser realizadas antes da interrupção do algoritmo
class MyPAM:
    def __init__(self, k=3, max_iter=300, alpha=20, data=None):
        self.k = k
        self.max_iter = max_iter
        self.alpha = alpha
        self.data = data
        self.medoids = []
        self.ex_medoids = []
        self.curr_error = np.max(self.data)
    
    
    def random_medoid(self):
        point = self.data[np.random.randint((len(self.data)))]
        # nao podemos repetir medoids
        while (point in self.ex_medoids):
            point = self.data[np.random.randint((len(self.data)))]
        return point
    
    def _initialize_medoids(self):
        
        initial_medoids = []
        aux_index = []
        
        # garantir k indices diferentes
        while (len(set(aux_index)) < self.k):
            aux_index = []
            for i in range(self.k):
                aux_index.append(np.random.randint((len(self.data))))
                            
        for i in aux_index:
            initial_medoids.append([self.data[i,0], self.data[i,1]])
        
        return np.array(initial_medoids)
    
    
    def _medoid_to_substitute(self, new_medoid):
        aux_index = 0
        d = distance.euclidean(self.medoids[0], new_medoid)
        for i in range(len(self.medoids)):
            if (distance.euclidean(self.medoids[i], new_medoid) < d):
                d = distance.euclidean(self.medoids[i], new_medoid)
                aux_index = i
        return i    
    
    # classification: dicionario contendo os conjuntos de pontos para cada cluster
    def myMSE(self, classification):
        s = []
        for i in classification:
            d = [
                    (self.medoids[i][0] - p[0])**2 +
                    (self.medoids[i][1] - p[1])**2 
                    for p in classification[i]
                ]
            s.append(sum(d)/len(classification[i])) 
        
        return sum(s)
        
    
    def fit_pam(self,verbose=0):
        self.medoids = self._initialize_medoids()
        # os medoids não podem se repetir
        self.ex_medoids = self.medoids
        stop = self.medoids.copy()
        count = 0
        ## iterando sobre a quantidade max_iter
        #for n_iter in range(self.max_iter): # = 300
        iteracao = 0
        tentativa_sem_melhora = 0
        while (iteracao < self.max_iter) & (tentativa_sem_melhora < self.alpha):
            
            
            ## criando os clusters
            classification = {}
            for cluster in range(self.k): #k = 3
                classification[cluster] = []
            ## calculando as distancias
            for point in self.data: #df[['cases','deaths']].values
                distancias = [math.sqrt((medoid[0] - point[0])**2 +
                                        (medoid[1] - point[1])**2)
                              for medoid in self.medoids]
                ## achando o indice do menor valor na lista distancias
                cluster = np.argmin(distancias)
                ## adicionando esse ponto ao cluster 
                classification[cluster].append([value for value in point])
                        
            
            
            ## atribuindo novos medoids
            
            for i in range(len(self.medoids)):
                new_medoid = self.random_medoid()
                index = self._medoid_to_substitute(new_medoid)
                self.ex_medoids += [self.medoids[index]]
                self.medoids[index] = new_medoid
            
            
            #for cluster in classification:
            #    self.medoids[cluster] = np.mean(classification[cluster],axis=0)
            
            
            ## implementando valor de tolerância
            #if np.allclose(self.centroids, stop, atol=self.tol):
            #    break
            #stop = self.centroids.copy()
            
            
            # verificar erro atual e se houve melhora
            
            
            
            
            
            
            
            ## contando iterações
            iteracao+=1
            #count += 1
        
        
        if verbose == 1 :
            print('Número de iterações: {}'.format(count))
            
        self.stop = stop
        self.classification = classification
        
        
    def show_plot(self):
        
        if self.k <= 10:
        
            data_framed = []

            for cluster in self.classification:
                for point in self.classification[cluster]:
                    point.append(cluster)
                    data_framed.append(point)

            df_plot = pd.DataFrame(data_framed,columns=['cases','deaths','cluster'])
            df_plot['cluster'] = df_plot['cluster'].astype('str')

            fig = px.scatter(df_plot, x = 'cases', y = 'deaths', color = 'cluster', color_discrete_sequence=px.colors.qualitative.Plotly[:self.k],title='Data and Centroids')
            fig.add_scatter(x = self.stop[:,0], y = self.stop[:,1],mode='markers',name='Centroid',marker=dict(size=[20 for _ in range(self.k)],symbol='x',color=px.colors.qualitative.Plotly[:self.k]))

            fig.show()
        
        else:
            raise ValueError('plot can only be constructed with 10 or less clusters.')
            
    def labels_(self):
        
        labels = []
        
        for cluster in range(self.k):
            for i in range(len(self.classification[cluster])):
                labels.append(cluster)
        
        return labels    
    
    def distances_(self,method):
        
        if method == 'mean':
            """ O desafio pede a média de todas as distâncias a seus referentes clusters """
            dist = {}

            for cluster in self.classification:
                dist[cluster] = np.mean([math.sqrt((self.stop[cluster][0] - point[0])**2 + (self.stop[cluster][1] - point[1])**2) for point in self.classification[cluster]])
                
            return dist
        
        elif method == 'inertia':
            """ Já inertia pede a soma """
            
            dist = {}

            for cluster in self.classification:
                dist[cluster] = np.sum([((self.stop[cluster][0] - point[0])**2 + (self.stop[cluster][1] - point[1])**2) for point in self.classification[cluster]])
                
            inertia = sum(dist.values())
                
            return inertia
        
    def try_k(self,how_many=10):
        
        data = []
        
        self.original_k = self.k
        
        for k in range(2,how_many):
            self.k = k
            self.fit_k_means()
            data.append(self.distances_('inertia'))
        
                
        fig = go.Figure(data=go.Scatter(x = list(range(2,how_many)), y = data,marker_line_color="midnightblue", marker_color="lightskyblue", 
                           marker_line_width=2, marker_size=7))
        fig.update_layout(title='Finding the Elbow Point')
        fig.show()

IndentationError: unexpected indent (<ipython-input-2-8d64eb355fc5>, line 68)

Com o algortimo implementado acima podemos ler o dataset tratado e começar os testes.

In [None]:
## carregando o dataset tratado

df = pd.read_csv('data/meu_dataset.csv')
print(df.shape)
df.head()

Primeiramente vamos instanciar o algoritmo MyKMeans e guardar dentro da variável 'sol'. A construção da classe pede alguns parâmetros:
- k --> A quantidade de clusters que iremos utilizar no algoritmo;
- max_iter --> O número máximo de iterações que o algoritmo irá executar;
- tol --> O valor de tolerância na distância entre o centroide do cluster de uma iteração e sua posição na iteração anterior.
- data --> Dados para treinamento.

In [None]:
## instanciando o algoritmo

sol = MyPAM(k=5,data = df[['cases','deaths']].values,max_iter = 300)

In [None]:
df[['cases','deaths']].values

Primeiramente vamos testar vários valores de K para descobrirmos o valor ótimo através do método Elbow. Nesse caso testaremos nosso modelos num range de 2 até 10.

In [None]:
#sol.try_k(11)

No eixo Y temos a inércia de cada iteração do algoritmo. Percebemos que quando k assume o valor 4 temos um ponto de inflexão, ou seja, as inércias subsequentes não demonstram grande variação em seu valor comparando com o mesmo valor em k-1. Levando em consideração os resultados acima podemos treinar o algoritmo levando em consideração K = 4.

In [None]:
## reinstanciando o modelo com novo valor de K

sol = MyPAM(k=4,data = df[['cases','deaths']].values,max_iter = 300)

Agora estamos prontos para treinar o modelo.

In [None]:
## treinando o modelo

sol.fit_pam(verbose=1)

Ao treinar o algoritmo ele diz quantas iterações foram necessárias para convergir levando em consideração a tolerâncio configurada em seu instanciamento. Podemos, então verificar os pontos e seus centróides.

In [None]:
sol.show_plot()

Cada cluster acima com seu centróide associado representam pontos, ou nesse caso cidades, que possuem um comportamento de casos e mortes de covid-19 semelhantes. Podemos analisar as médias das distâncias dos pontos de cada cluster a seu centróide.

In [None]:
## demonstrando as distâncias

sol.distances_('mean')

Interpretando as distâncias acima podemos averiguar que o cluster 3 é o mais assertivo, visto o valor zerado, na verdade podemos dizer, com certeza, que o centróide desse cluster está exatamente na mesma coordenada do seu único ponto. Em segundo lugar, temos o cluster 0 com uma distância média de 1414, ou seja, seus pontos estão próximos ao centróide. Em terceiro lugar temos o cluster 2 demosntrando uma distância média de 4243 de seus pontos e, em último lugar, temos o cluster 1 com uma distância de 15765 esse alto valor demonstra que o cluster possui pontos esparsos.

Conferindo a inércia do algoritmo montado podemos ver que nossa versão está bem próxima da implementação do próprio KMeans do scikit-learn.

In [None]:
## inércia do MyKMeans

sol.distances_('inertia')

In [None]:
## inércia do sklearn.cluster.KMeans

from sklearn.cluster import KMeans
KMeans(n_clusters=4,max_iter=300,tol=0.0001).fit(df[['cases','deaths']].values).inertia_

O único downside do algoritmo montado nesse jupyter notebook é em termos de desempenho. Conforme demonstrado abaixo.

In [None]:
%%timeit
KMeans(n_clusters=4,max_iter=300,tol=0.0001).fit(df[['cases','deaths']].values)

In [None]:
%%timeit
sol = MyKMeans(k=4,max_iter=300,tol=0.0001,data=df[['cases','deaths']].values)
sol.fit_k_means()