# Aula de algoritmos de clusterização

Nesta aula vamos explorar as diferenças entre os algoritmos de clusterização: hierarchical clustering, KMeans, DBSCAN and Gaussian mixtures.

Neste exemplo, vamos usar a base de dados que sumariza 82 características de 21.263 materiais supercondutores diferentes. Esses dados foram compilados de artigos científicos pelo Superconducting Material Database maintained by Japan’s National Institute for Materials Science (NIMS), e são disponíveis Materials Data Repository (MDR).

A tabela que utilizaremos é uma versão compilada e disponível em: https://www.kaggle.com/datasets/munumbutt/superconductor-dataset?select=train.csv

## Importando bibliotecas e dados

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LogNorm
import ipywidgets as widgets

## Preparando o ambiente

In [None]:
## Preparando o ambiente
if 'google.colab' in str(get_ipython()):
    !git clone https://github.com/tiagofiorini/MLinPhysics.git
    import os as os
    os.chdir('./MLinPhysics')

In [None]:
dados = pd.read_csv('Superconductivity.csv')
X = np.array([dados['mean_ElectronAffinity'], dados['critical_temp']]).T

## Verificando a existência de agrupamentos!

Vamos verificar possíveis agrupamentos entre duas variáveis: a afinidade eletrônica e a temperatura crítica de supercondutividade.

Faremos isso por meio de um histograma bidimensional!

In [None]:
plt.hist2d(dados['mean_ElectronAffinity'], dados['critical_temp'],bins=50);
plt.xlabel('Afinidade eletrônica')
plt.ylabel('Temperatura crítica');
plt.xlim(xmin=0.0, xmax=200)
plt.ylim(ymin=0.0, ymax=150)
plt.colorbar()

## Hierarchical clustering

In [None]:
import scipy.cluster.hierarchy as shc
import seaborn as sns

plt.figure(figsize=(10, 7))
plt.title("Dendrograma")
clusters = shc.linkage(X, method='ward', metric="euclidean")
shc.dendrogram(Z=clusters)
plt.show()

In [None]:
from sklearn.cluster import AgglomerativeClustering 

#X = np.array([dados['mean_ElectronAffinity'], dados['critical_temp']]).T
aggclust = AgglomerativeClustering(n_clusters=3, linkage='ward').fit(X)
categorias = aggclust.labels_
plt.scatter(dados['mean_ElectronAffinity'], dados['critical_temp'], c=categorias)
plt.xlabel('Afinidade eletrônica')
plt.ylabel('Temperatura crítica');

## KMeans

In [None]:
from sklearn.cluster import KMeans 

@widgets.interact(n_clusters=(2, 10))
def kmeans(n_clusters = 2):
    #X = np.array([dados['mean_ElectronAffinity'], dados['critical_temp']]).T
    kmeans = KMeans(n_clusters=n_clusters, n_init='auto').fit(X)
    categorias = kmeans.labels_
    plt.scatter(dados['mean_ElectronAffinity'], dados['critical_temp'], c=categorias)
    plt.xlabel('Afinidade eletrônica')
    plt.ylabel('Temperatura crítica');
    plt.show()
    plt.clf() # Limpa os eixos
    plt.cla() # Limpa a figura
    plt.close() # Fecha o gráfico

## DBSCAN

In [None]:
from sklearn.cluster import DBSCAN 

@widgets.interact(epsilon=(1, 10, 0.1), minN=(1,400))

def dbscan(epsilon = 1.5, minN = 10):
    #X = np.array([dados['mean_ElectronAffinity'], dados['critical_temp']]).T
    dbscan = DBSCAN(eps=epsilon, min_samples=minN).fit(X)
    categorias = dbscan.labels_
    plt.scatter(dados['mean_ElectronAffinity'], dados['critical_temp'], c=categorias)
    plt.xlabel('Afinidade eletrônica')
    plt.ylabel('Temperatura crítica');
    plt.text(200,175,str((categorias == -1).sum())+' Outliers')
    plt.text(200,165,str(categorias.max())+' Agrupamentos')
    plt.show()
    plt.clf() # Limpa os eixos
    plt.cla() # Limpa a figura
    plt.close() # Fecha o gráfico

## Gaussian Mixture

In [None]:
from sklearn.mixture import GaussianMixture

@widgets.interact(n_clusters=(2, 10))
def gmix(n_clusters = 2):
    #X = np.array([dados['mean_ElectronAffinity'], dados['critical_temp']]).T
    gauss = GaussianMixture(n_components=n_clusters, random_state=0).fit(X)
    categorias = gauss.predict(X)
    plt.scatter(dados['mean_ElectronAffinity'], dados['critical_temp'], c=categorias)
    plt.xlabel('Afinidade eletrônica')
    plt.ylabel('Temperatura crítica');
    plt.text(200,175,str((categorias == -1).sum())+' Outliers')
    plt.text(200,165,str(categorias.max())+' Agrupamentos')
    plt.show()
    plt.clf() # Limpa os eixos
    plt.cla() # Limpa a figura
    plt.close() # Fecha o gráfico