# Agrupamento, Redução de Dimensionalidade e Processamento de Linguagem Natural 

A tarefa de **agrupamento** consiste em predizer grupos para determinados objetos (como listas de features). 

Os algoritmos de agrupamento são ditos de **aprendizado de máquina não supervisionado** pois os grupos dos objetos não são conhecidos *a priori* como no caso da classificação. Por isso, em geral, o agrupamento tende a ser menos acurado do que a classificação. Perceba, contudo, que o agrupamento pode ser feito quando não são conhecidos rótulos, ou seja, durante uma etapa **descritiva** da análise de dados. A classificação, por possuir rótulos é definida como **preditiva** no sentido de predizer as classes de objetos quando as classes já são conhecidas.

A tarefa de **redução de dimensionalidade** consiste em diminuir a dimensão da representação de determinados objetos, por exemplo, diminuir um objeto representado por uma lista de 10 features e um novo objeto com uma lista de 5 features.

Existem muitas técnicas de redução de dimensionalidade. Etapas de **seleção de features** podem ser entendidas como redução de dimensionalidade supervisionada quando aplicados algoritmos de regressão ou classificação sobre um loop de performance, isto é, quando uma técnica supervisionada é usada para avaliar o desempenho de um método preditivo conforme se varia o número de features do problema. Também podemos aplicar técnicas **não supervisionadas** que visam encontrar novas variáveis que são combinações da variáveis originais, como em uma projeção. Outra técnica usada para reduzir a dimensão da representação dos dados é denominada **autoencoder**.

**Processamento de Linguagem Natural** (Natural Language Processing) é toda uma área da computação interessada e criar métodos computacionais para processar textos escritos por seres humanos. Apesar de existirem esforços da comunida de Inteligência Artificial para produzir sistema de NLP mais precisos, iremos tentar demonstrar nos exemplos aqui tratados como uma área diversa pode ser usada para a física no contexto de **Mineração de Texto**. Contudo, vale destacar que não é somente nessa perspectiva que ambas as disciplinas podem se ajudar: novas técnicas de NLP podem se valer de conceitos matemáticos físicos e sistemas que expressam raciocinío podem aprender leis física expressas em linguagem natural (seja para restrições do modelo ou como resultados do modelo). Novas possibilidades podem surgir da pesquisa ativa da junção desses dois campos. 

----------------------------------

Importando bibliotecas para gráficos e setando alguns parâmetros gerais

In [None]:
# Bibliotecas para gerar gráficos
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Parâmetros gerais para os gráficos
# Definição dos tamanhos de fontes e ticks dos gráficos
fsize = 12
tsize = 10
major = 5.0
minor = 3.0

style = 'default'
plt.style.use(style)

#plt.rcParams['text.usetex'] = True  # Para usar fonte tex (precisa instalar o tex antes)
plt.rcParams['font.size'] = fsize      
plt.rcParams['legend.fontsize'] = tsize
plt.rcParams['xtick.direction'] = 'in'
plt.rcParams['ytick.direction'] = 'in'
plt.rcParams['xtick.major.size'] = major
plt.rcParams['xtick.minor.size'] = minor
plt.rcParams['ytick.major.size'] = major
plt.rcParams['ytick.minor.size'] = minor

--------------------------------

## 0 - Dados Introdutórios

Antes de tentarmos reproduzir os resultados de artigos científicos, vamos entender um pouco mais das técnicas de **Agrupamento** com dados sintéticos e de outros domínios (imagens). Nosso objetivo será apresentar os conceitos relevantes do Aprendizado de Máquina não Supervisionado envolvidos nessa tarefa.


### 0 - Grupos em dados sintéticos

In [None]:
# Para gerar dados sintéticos
from sklearn.datasets import make_blobs 

Vamos criar um conjunto de dados de exemplo com 1000 amostras, distribuídas ao longo de 5 centros distintos:
- Em <code>x</code> temos os valores das features (descritores).
- Em <code>y_true</code> temos os grupos reais. Já que estamos gerando os dados, nós sabemos quais são os grupos. Entretanto, em uma situação real, não temos essa informação, por isso usamos um método de ML não supervisionado!

In [None]:
x, y_true = make_blobs(n_samples=1000, centers=5, n_features=2,  random_state=10)

In [None]:
x

Podemos observar os dados criados em um gráfico:

In [None]:
plt.scatter(x[:,0], x[:,1])
plt.show()

In [None]:
# Algoritmos de Agrupamento
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering

In [None]:
# Instanciando os algoritmos de clusterização
km = KMeans(n_clusters=5, random_state=42)                   # Estamos setando o número de grupos esperados para 5
ac = AgglomerativeClustering(n_clusters=5, linkage='ward')   # Estamos setando o número de grupos esperados para 5
db = DBSCAN(eps=0.5, min_samples=20)                         # Nesta técnica não setamos o número de grupos

In [None]:
# Aplicando os algoritmos de clusterização nos dados
# Perceba que, a princípio, não existe separação treino/teste na tarefa não supervisionada
kmeans_labels = km.fit_predict(x)  
hierarquico_labels = ac.fit_predict(x)  
dbscan_labels = db.fit_predict(x)  

Pronto! Encontramos um rótulo (grupo) para os dados de maneira não supervisionada (i.e., sem falar antes para o método quais grupos existem e dar exemplos, durante o treinamento, de dados pertencentes a esses grupos.

Entretanto, para alguns métodos precisamos dizer quantos grupos nós esperamos. E isso pode ser dificil de estimar em um cenário totalmente exploratório.

Por gerarem novas descrições para os dados, as técnicas de Agrupamento também são chamadas de **técnicas descritivas** em contraponto as **técnicas preditivas** das tarefas de classificação e regressão.

Como não temos os <code>y_true</code> (em um cenário real!), não podemos calcular a matriz de confusão, acurácia, precisão, etc.. Precisamos utilizar outras técnicas. Existem algumas métricas de desempenho, como métricas de desempenho externas (que comparam dois métodos de agrupamentos distintos para ver se eles concordam com os grupos encontrados) e métricas de desempenho internas (que tentam estimar se o grupo encontrado divide bem o espaço de pontos dos exemplos original). Vejamos como calcular duas delas:

In [None]:
# Avaliacao de desemepnho
from sklearn.metrics import adjusted_rand_score, silhouette_score

In [None]:
silhouette_score(x, kmeans_labels)

In [None]:
silhouette_score(x, hierarquico_labels)

In [None]:
silhouette_score(x, dbscan_labels) 

O <code>silhouette_score</code> é uma métrica interna que mede a distância média dos dados intracluster e a distância dos dados entre os clusters. Da forma como é definida, ela favorece medidas radiais.

O valor obtido pode estar de -1 a 1, sendo 1 o melhor resultado.

Já o <code>adjusted_rand_score</code> calcular se os agrupamentos encontrados por um método são iguais aos agrupamentos encontrados por outro método. Novamente, quanto mais próximo de 1, mais os dois métodos concordam entre si com os grupos encontrados.

In [None]:
adjusted_rand_score(kmeans_labels, hierarquico_labels) 

In [None]:
adjusted_rand_score(kmeans_labels, dbscan_labels) 

In [None]:
adjusted_rand_score(hierarquico_labels, dbscan_labels)

Esta análise nos dá que o kmeans e o cluster hierarquico chegaram nos mesmos agrupamentos. Como temos dados bidimensionais, podemos plotar um gráfico e observar os grupos no espaço:

In [None]:
fig, ax = plt.subplots(2,2,figsize=(10, 5))

sns.scatterplot(x = x[:,0], y = x[:,1],  ax=ax[0][0])
sns.scatterplot(x = x[:,0], y = x[:,1], hue=kmeans_labels,  ax=ax[0][1], legend=False)
sns.scatterplot(x = x[:,0], y = x[:,1], hue=hierarquico_labels,  ax=ax[1][0], legend=False)
sns.scatterplot(x = x[:,0], y = x[:,1], hue=dbscan_labels,  ax=ax[1][1], legend=False)

ax[0][0].set_title('Original')
ax[0][1].set_title('KMeans')
ax[1][0].set_title('Cluster Hierarquico')
ax[1][1].set_title('DBSCAN')

fig.subplots_adjust(hspace=0.3, wspace=0.3)

Vejamos o mesmo exemplo com outros dados sintéticos:

In [None]:
from sklearn.datasets import make_moons

# Gerar dados em forma de meia-lua (moons)
x, y_true = make_moons(n_samples=1000, noise=0.1, random_state=42)

In [None]:
plt.scatter(x[:,0], x[:,1])
plt.show()

In [None]:
# Instanciando os algoritmos de clusterização
km = KMeans(n_clusters=2, random_state=42)                   # Estamos setando o número de grupos esperados para 2
ac = AgglomerativeClustering(n_clusters=2, linkage='ward')   # Estamos setando o número de grupos esperados para 2
db = DBSCAN(eps=0.12)                         # Nesta técnica não setamos o número de grupos

# Aplicando os algoritmos de clusterização nos dados
# Perceba que, a princípio, não existe separação treino/teste na tarefa não supervisionada
kmeans_labels = km.fit_predict(x)  
hierarquico_labels = ac.fit_predict(x)  
dbscan_labels = db.fit_predict(x)  

In [None]:
fig, ax = plt.subplots(2,2,figsize=(10, 5))

sns.scatterplot(x = x[:,0], y = x[:,1],  ax=ax[0][0])
sns.scatterplot(x = x[:,0], y = x[:,1], hue=kmeans_labels,  ax=ax[0][1], legend=False)
sns.scatterplot(x = x[:,0], y = x[:,1], hue=hierarquico_labels,  ax=ax[1][0], legend=False)
sns.scatterplot(x = x[:,0], y = x[:,1], hue=dbscan_labels,  ax=ax[1][1], legend=False)

ax[0][0].set_title('Original')
ax[0][1].set_title('KMeans')
ax[1][0].set_title('Cluster Hierarquico')
ax[1][1].set_title('DBSCAN')

fig.subplots_adjust(hspace=0.3, wspace=0.3)

### 0 - Grupos de pixels em imagens

Podemos adaptar essa técnica que encontra **agrupamento no espaço da features** para encotrar **agrupamentos nos espaço dos pixels**. Uma imagem é composta por pixels que representam o nível de intensidade de um determinado canal de cor. Apesar de, tecnicamente, podemos considerar cada pixel de uma imagem como uma **feature**, esse procedimento é muito custoso! Técnicas de ML que processam imagens usam camadas de convolução e pooling para diminuir a quantidade de pixels que é analisada pelo modelo. 

Para efeitos didáticos, vamos implementar um **Segmentador de Imagens** usando aprendizado de Máquina não Supervisionado de Agrupamento que tenta agrupar os pixels como se eles fossem pontos no espaço de features. Essas técnicas são mais rudimentares mas demonstram uma aplicação distinta do uso de ML não supervisionado:

#### Dataset mini-MIAS

Vamos usar o dataset mini-MIAS disponível em http://peipa.essex.ac.uk/info/mias.html.

Este dataset possui 322 imagens de mamografias, de 1024x1024 pixels.

A **Segmentação de Imagem** envolve em colorir de uma mesma cor objetos ou partes de interesse. No caso do nosso dataset, iremos usar a segmentação de imagem para reduzir a resolução, aumentando o contraste entre diferentes regiões dos tecidos representados na imagem de mamografia.

O dataset é mais detalhado, possuindo inclusive tipos de câncer e anormalidades que ocorrem em cada uma das imagens.

Vamos apenas aplicar o K-Means em algumas imagens para observar o resultado:

In [None]:
# Para processar arquivos e imagens
from PIL import Image
import glob
import numpy as np

# Para plotar imagens
import matplotlib.pyplot as plt 
#import matplotlib.image as mpimg
from skimage import io

from sklearn.cluster import KMeans # Agrupamento 

É necessário baixar algumas das imagens de http://peipa.essex.ac.uk/pix/mias/.

Em seguida, suba para a aba de arquivos do Colab ou coloque-as na pasta onde está executando o Jupyter. Atente-se para o caminho relativo das imagens na função <code>imread</code>.

In [None]:
# Carregando as imagens

img_G = mpimg.imread('mias/mdb001.pgm') # Tipo G
img_D = mpimg.imread('mias/mdb003.pgm') # Tipo D
img_F = mpimg.imread('mias/mdb005.pgm') # Tipo F

In [None]:
# Plotando as imagens

fig, axs = plt.subplots(1, 3, figsize=(10, 3))
im1 = axs[0].imshow(img_G, cmap='gray', vmin=0, vmax=255)
im2 = axs[1].imshow(img_D, cmap='gray', vmin=0, vmax=255)
im3 = axs[2].imshow(img_F, cmap='gray', vmin=0, vmax=255)
plt.show()

In [None]:
# Essa função usa o Kmeans como um filtro de segmentação de imagem

def filtro_kmeans(img, clusters):
    vectorized = img.reshape((-1,1))
    kmeans = KMeans(n_clusters=clusters, random_state = 0, n_init=5)
    kmeans.fit(vectorized)
    
    centers = np.uint8(kmeans.cluster_centers_)
    segmented_data = centers[kmeans.labels_.flatten()]
    
    segmented_image = segmented_data.reshape((img.shape))
    return(segmented_image)

In [None]:
clusters = 3

img_G_segmentada = filtro_kmeans(img_G, clusters) # Tipo G
img_D_segmentada = filtro_kmeans(img_D, clusters) # Tipo D
img_F_segmentada = filtro_kmeans(img_F, clusters) # Tipo F

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(10, 3))
im1 = axs[0].imshow(img_G_segmentada, cmap='gray', vmin=0, vmax=255)
im2 = axs[1].imshow(img_D_segmentada, cmap='gray', vmin=0, vmax=255)
im3 = axs[2].imshow(img_F_segmentada, cmap='gray', vmin=0, vmax=255)
plt.show()

A área de **Visão Computacional** é uma área bem ampla e ativa de pesquisa em Ciência da Computação. Diversos desses métodos são implementados em softwares que físicos e cientistas de materiais usam para analisar amostras. 

Outros exemplos podem ser vistos aqui https://experiencor.github.io/segmentation.html

------------------------------------

## 1 - MeltingPoint Dataset

#### Descrição geral:
São fornecidos dados de compostos orgânicos e seus respectivos pontos de fusão (temperatura de transição entre forma sólida e líquida).

#### Objetivo:
Prever a temperatura de fusão baseado nas cacaterísticas observadas.

#### Features (variáveis de entrada):
São fornecidos 202 descritores das moléculas em 2D e 3D.

#### Alvo (valor de saída):
- Reduzir a dimensionalidade dos dados.

#### Referências:
- M. Karthikeyan, Robert C. Glen e Andreas Bender, General Melting Point Prediction Based on a Diverse Compound Data Set and Artificial Neural Networks, https://pubs.acs.org/doi/10.1021/ci0500132.
- D. Krstajic, L. J Buturovic, D. E. Leahy, e S. Thomas, Cross-validation pitfalls when selecting and assessing regression and classification models, https://jcheminf.biomedcentral.com/articles/10.1186/1758-2946-6-10.

In [None]:
#!wget https://pubs.acs.org/doi/suppl/10.1021/ci0500132/suppl_file/ci0500132si20050112_060506.zip

In [None]:
#!unzip ci0500132si20050112_060506.zip

Os dados brutos estão em <code>4137_185_92_DataSetMTPSMIDescr.txt</code>.

Já os dados processados pelos autores para gerar uma representação dimensional menor estão em <code>4137_185_92_DataSetMTPPCA1-30.txt</code>:

In [None]:
import pandas as pd

In [None]:
df_mp = pd.read_csv('4137_185_92_DataSetMTPSMIDescr.txt', sep='\t')

In [None]:
len(df_mp)

In [None]:
df_mp.head(3)

Quando tentamos aplicar a redução de dimensionalidade, percebemos que os dados estão com informações faltando!

Logo, não conseguiremos reproduzir exatamente o resultado do artigo, mas podemos preprocessar os dados para gerar nossa própria redução de dimensionalidade:

In [None]:
df_mp.rename(columns={'$Field_2': 'MTP'}, inplace=True)
df_mp.rename(columns={'$Field_1': 'SMILE_Molecule'}, inplace=True)

df_mp2 = df_mp.dropna() # Por padrão o dropna() deleta linhas vazias
df_mp3 = df_mp2.drop_duplicates(subset=['SMILE_Molecule'], keep=False)

No artigo original eles usam apenas os descritores denominados 2D para gerar a redução de dimensionalidade e não todas as features apresentadas. Entretanto, não nos é fornecida a lista exata das features que consideram características 3D das moléculas e aquelas que consideram características 2D. 

Uma possível lista pode ser extraída da Tabela 3 do artigo, considerando a distinção entre denotações em itálico e normal. Contudo, a lista de features obtida assim não equivale a todas as existentes.

In [None]:
for col in df_mp3.columns:
    print(col)

In [None]:
# De acordo com nomes em itálico
features_3D=['AM1_E',
'AM1_Eele',
'MNDO_E', 
'MNDO_Eele',
'PM3_E',
'PM3_Eele',
'E_vdw',
'rgyr',
'ASA',
'ASA+',
'ASA_H',
'CASA+',
'CASA-',
'FCASA+',
'VSA',
'vol',
'ASA_P',
'FASA_P',
'FASA+',
'ASA-',
'FASA-'
]

In [None]:
colunas_nao_considerar = features_3D+['SMILE_Molecule','MTP', 'Case']

In [None]:
x = df_mp3.drop(columns=colunas_nao_considerar) # Considerando tudo
y = df_mp3['MTP']

In [None]:
x.head(5)

In [None]:
from sklearn.decomposition import PCA

In [None]:
# PCA
pca = PCA(n_components=30, svd_solver='full')  # Queremos 30 componentes (usado no artigo)
X_pca = pca.fit_transform(x) # Usando dados escalonados

Agora vamos carregar os dados do PCA originais do artigo e gerar dois gráficos de comparação:

In [None]:
df_pca_original = pd.read_csv('4137_185_92_DataSetMTPPCA1-30.txt', sep='\t')

In [None]:
df_pca_original.info()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
fig, ax = plt.subplots(1,2,figsize=(12, 5))

sns.scatterplot(x = X_pca[:,0], y = X_pca[:,1], hue=df_mp3['Case'], ax=ax[0])
sns.scatterplot(data = df_pca_original, x ='PCA1', y ='PCA2', hue='Set', ax=ax[1])

for i in range(0,2):
    ax[i].set_xlabel('PCA 1')
    ax[i].set_ylabel('PCA 2')
    ax[i].grid(True)

Não conseguimos reproduzir os exatod resultados reportados pelo artigo. Uma possibilidade é tentarmos outra combinação de colunas de entrada para o PCA. Deixamos isso como um exercício para o leitor.


O ponto importante a ser notado neste exemplo é que, conseguimos realizar uma projeção de uma espaço de muitas dimensões para um espaço com menos dimensões usando uma técnica de **Aprendizado de Máquina não Supervisionado**. Neste caso, usamos a redução de dimensionalidade apenas para gerar uma visualização, mos podemos tentar entender o que as novas dimensões significam (física e quimicamente, no caso). Também podemos usar esse espaço reduzido como entrada de outros métodos de aprendizado de máquina, para tarefas como **regressão**, **classificação** e **agrupamento**. 

----------------------------
## 2 - Mat2Vec Model

#### Descrição geral:
Este é um modelo de linguagem para criar vetores numéricos que representam palavras. Ele foi construído a partir do abstract de 3.3 milhões de artigos científicos da área de Materiais. 

O modelo treinado possui 500k palavras no vocabulário que são codificados em vetores de 200 dimensões (word embedding).

#### Objetivo:
Utilizar técnicas de aprendizado de máquina não supervisionado de agrupamento e redução de dimensionalidade para encontrar padrões nos dados aprendidos.


#### Features (variáveis de entrada):
- Embedding da palavra (200 features que capturam a semântica distribuída para representar uma única palavra)

#### Alvo (valor de saída):
- Embeddings com dimensão menores
- Novos grupos nos dados

#### Referências:
- https://github.com/olivettigroup/materials-word-embeddings
- https://github.com/materialsintelligence/mat2vec
- Tshitoyan, V., Dagdelen, J., Weston, L., Dunn, A., Rong, Z., Kononova, O., Persson, K. A., Ceder, G., & Jain, A. (2019). Unsupervised word embeddings capture latent knowledge from materials science literature. In Nature (Vol. 571, Issue 7763, pp. 95–98). Springer Science and Business Media LLC. https://doi.org/10.1038/s41586-019-1335-8 

### 1 - Instalando o modelo pré-treinado
Primeiramente, vamos copiar o repositório do github para nossa máquina (virtual) para que tenhamos acessos aos modelos pré-treinados.

In [None]:
#!git clone https://github.com/materialsintelligence/mat2vec

Vamos instalar as dependências:

In [None]:
import os
os.chdir('mat2vec')

In [None]:
#!pip install --ignore-installed -rrequirements.txt

In [None]:
#!python setup.py install

In [None]:
from gensim.models import Word2Vec # Biblioteca que carrega os modelos pretreinados dos embeddings

Agora vamos carregar o modelo de linguagem pré-treinado e ver o que podemos fazer com ele: 

In [None]:
#mat2vec = Word2Vec.load("mat2vec/training/models/pretrained_embeddings")
mat2vec = Word2Vec.load("../../materials_informatics/nlp/mat2vec-master/mat2vec/training/models/pretrained_embeddings")

In [None]:
vocab = mat2vec.wv.key_to_index.keys()

In [None]:
type(vocab) # O vocabulário é um dicionário onde as chaves são as palavras e o conteúdo os embeddings

In [None]:
'H' in list(vocab) # Verificando que o hidrogênio está no vocabulário do modelo

In [None]:
embedding = mat2vec.wv['H']
print(len(embedding))
print(embedding)

### 2 - Gerando uma tabela com os embedding de todos os elementos químicos (até Z=100).

In [None]:
chemical_elements = ['H', 'He', 'Li', 'Be', 'B', 'C', 'N', 'O', 'F', 'Ne', 'Na', 'Mg',
                     'Al', 'Si', 'P', 'S', 'Cl', 'Ar', 'K', 'Ca', 'Sc', 'Ti', 'V', 'Cr',
                     'Mn', 'Fe', 'Co', 'Ni', 'Cu', 'Zn', 'Ga', 'Ge', 'As', 'Se', 'Br', 
                     'Kr', 'Rb', 'Sr', 'Y', 'Zr', 'Nb', 'Mo', 'Tc', 'Ru', 'Rh', 'Pd', 
                     'Ag', 'Cd', 'In', 'Sn', 'Sb', 'Te', 'I', 'Xe', 'Cs', 'Ba', 'La', 
                     'Ce', 'Pr', 'Nd', 'Pm', 'Sm', 'Eu', 'Gd', 'Tb', 'Dy', 'Ho', 'Er', 
                     'Tm', 'Yb', 'Lu', 'Hf', 'Ta', 'W', 'Re', 'Os', 'Ir', 'Pt', 'Au',
                     'Hg', 'Tl', 'Pb', 'Bi', 'Po', 'At', 'Rn', 'Fr', 'Ra', 'Ac', 'Th', 
                     'Pa', 'U', 'Np', 'Pu', 'Am', 'Cm', 'Bk', 'Cf', 'Es', 'Fm']

Verificando se os elementos estão no vocabulário:

In [None]:
elements_vocab = [chemical for chemical in chemical_elements if chemical in vocab]   
len(elements_vocab), len(chemical_elements)

Criando uma tabela para representar essas informações:

In [None]:
import pandas as pd

In [None]:
dados = [mat2vec.wv[element] for element in elements_vocab]

df_elementos = pd.DataFrame(data=dados)

df_elementos['element']=chemical_elements

In [None]:
df_elementos.head(3) # Cada linha é um elementos químico 

In [None]:
df_elementos.info()

### 2 - Gerando uma visualização

Os dados que temos para representar cada elemento química estão em 200 dimensões. Vamos usar uma técnicade **Aprendizado de Máquina não Supervisionado de Redução de Dimensionalidade** para reduzir para 2 dimensões. Com isso poderemos fazer um plot de dispersão onde cada ponto representará um elemento químico.

In [None]:
# Biblioteca para reduzir a dimensionalidade dos dados
from sklearn.manifold import TSNE

In [None]:
x = df_elementos.drop(columns=['element'])
y =  df_elementos['element']

In [None]:
# t-SNE
tsne = TSNE(n_components=2, learning_rate=200, perplexity=20, random_state=42)
X_tsne = tsne.fit_transform(x)

In [None]:
plt.figure(figsize=(6, 4))
ax = sns.scatterplot(x = X_tsne[:,0], y = X_tsne[:,1])
ax.set_xlabel('tsne 1'), ax.set_ylabel('tsne 2')

### 2 - Encontrando grupos 

Agora vamos aplicar uma técnica **Aprendizado não supervisionado de agrupamento**.

In [None]:
from sklearn.cluster import DBSCAN

In [None]:
df_elementos['tsne_1'] = X_tsne[:,0]
df_elementos['tsne_2'] = X_tsne[:,1]

In [None]:
#df_elementos[['tsne_1','tsne_2']]

In [None]:
db = DBSCAN(eps=25, min_samples=2)                       # Nesta técnica não setamos o número de grupos

# Aplicando os algoritmos de clusterização nos dados
# Perceba que, a princípio, não existe separação treino/teste na tarefa não supervisionada
dbscan_labels = db.fit_predict(df_elementos[['tsne_1','tsne_2']])  

In [None]:
len(set(dbscan_labels))

In [None]:
fig, ax = plt.subplots(1,2,figsize=(12, 5))

colors = sns.color_palette('Paired', len(set(dbscan_labels)))

sns.scatterplot(x = X_tsne[:,0], y = X_tsne[:,1], hue=dbscan_labels, palette=colors, ax=ax[0])

ax[0].legend(loc='upper left', bbox_to_anchor=(0, 1), ncol=2)

sns.scatterplot(x = X_tsne[:,0], y = X_tsne[:,1], hue=dbscan_labels, palette=colors, ax=ax[1], legend=False)



for i, txt in enumerate(y):
    ax[1].annotate(txt, (X_tsne[i,0], X_tsne[i,1]), fontsize=10)

for i in range(0,2):
    ax[i].set_xlabel('tsne 1')
    ax[i].set_ylabel('tsne 2')

### 2 - Descobrindo aplicações de materiais

Vamos baixar dados de materiais binários do **Materials Project**. Na sequência, iremos descobrir quantos desses materiais existem no vocabulário do modelo de linguagem **Mat2Vec**. Iremos trabalhar com a intersecção desses dois conjuntos, realizando o mesmo procedimento de redução de dimensionalidade e agrupamento.

O **Materials Project** é um repositório de dados de simulações DFT de materiais, majoritariamente sólidos cristalinos inorgânicos. O acesso é gratuito, bastando realizar um cadastro (que pode ser com o gmail).

O **pymatgen** é uma biblioteca python para trabalhar com materiais. Ela implementa uma API Rest para se comunicar com o Materials Project, facilitando o download massivo de dados.

In [None]:
#!pip install pymatgen # Instalando a biblioteca

In [None]:
from pymatgen.ext.matproj  import MPRester # API rester para conexão do o Materials Project

In [None]:
# Critérios de busca na base de dados
criteria = {'nelements':{'$in': [2]},           # Somente materiais binarios
            #'elements':{'$in':elements},         # Lista de elementos permitidos
           } 

# Propriedades buscadas
properties =['material_id', 'icsd_ids', 'pretty_formula','elements', 'band_gap','formation_energy_per_atom',
             'e_above_hull', 'spacegroup', 'structure']

# Chave de acesso (colocar a sua chave entre as aspas)
apikey = '8QLynIvOwGAP5cWH' 

In [None]:
# Chamada API rest para requisitar os dados ao servidor do MP
with MPRester(apikey) as mpr:
    results = mpr.query(criteria, properties)

In [None]:
mat_list0 = pd.DataFrame(data = results) 

In [None]:
mat_list0.head()

In [None]:
# Arrumando a informação na tabela
mat_list0[['symprec',
          'source',
          'symbol',
          'number',
          'point_group',
          'crystal_system',
          'hall']] = mat_list0.spacegroup.apply(pd.Series)
mat_list0 = mat_list0.drop('spacegroup', axis=1)

In [None]:
mat_list0.head()

Vamos filtrar nossa tabela para pegar somente materiais termodinamicamente estáveis, isto é, aqueles que tem energia de formação negativa e distância do convex hull igual a zero.

In [None]:
mat_list1 = mat_list0[(mat_list0['formation_energy_per_atom']<0) & (mat_list0['e_above_hull']==0)]

In [None]:
mat_list1.head(3)

Vamos eliminar qualquer entrada duplicada, mantendo a de menor energia de formação (mais estável): 

In [None]:
# Ordenando menor energia de formação
mat_list1 = mat_list1.sort_values(by='formation_energy_per_atom')

# Deletando duplicados mantendo apenas a primeira ocorrencia
mat_list2 = mat_list1.drop_duplicates(subset=['pretty_formula'], keep='first') 

In [None]:
len(mat_list0), len(mat_list1), len(mat_list2)

#### Juntando informações do Materials Project e do Mat2Vec
Agora vamos criar uma função para retornar o embedding do composto, se o composto estiver no vocabulário do modelo:

In [None]:
def retornar_embedding(composto):
    if composto in vocab:
        return mat2vec.wv[composto]
    else:
        return None

In [None]:
mat_list2['embedding'] = mat_list2['pretty_formula'].apply(retornar_embedding)

In [None]:
mat_list2.head(4)

In [None]:
mat_list3 = mat_list2.dropna() # Jogando fora as linhas com valores nulos nos embeddings

In [None]:
len(mat_list0), len(mat_list1), len(mat_list2), len(mat_list3)

In [None]:
# Desempacotando o vetor de embedding em colunas numercadas de 0 a 199
mat_list3[[i for i in range(0,200)]] = mat_list3.embedding.apply(pd.Series)

In [None]:
mat_list3.head()

#### Separando entradas que iremos passar para os métodos de ML

Vamos usar o UMAP como algoritmo de redução de dimensionalidade dessa vez:

https://umap-learn.readthedocs.io/en/latest/index.html

In [None]:
col_names = [i for i in range(0, 200)]
x = mat_list3.loc[:, col_names]  # Embedding do Mat2Vec que vou usar como entrada do ML
#y = mat_list3['crystal_system']  # Resposta verdadeira de acodor com o Materials Project

In [None]:
#!pip install umap-learn

In [None]:
import umap.umap_ as umap

In [None]:
# Criar uma instância do UMAP com parâmetros padrão
umap_model = umap.UMAP(random_state=42)

# Ajustar o modelo UMAP aos dados
umap_embeddings = umap_model.fit_transform(x)

In [None]:
ax = sns.scatterplot(x = umap_embeddings[:, 0], y=umap_embeddings[:, 1], s=20)
ax.set_xlabel('umap 1'), ax.set_ylabel('umap 2')

In [None]:
mat_list3['umap_1'] = umap_embeddings[:,0]
mat_list3['umap_2'] = umap_embeddings[:,1]

In [None]:
opt=[]
eps = [0.1,0.2, 0.3, 0.4]
min_pts = [2, 3, 4, 5, 6, 7]

for i in eps:
    for j in min_pts:
        db = DBSCAN(eps=i, min_samples=j)                     
        dbscan_labels = db.fit_predict(mat_list3[['umap_1','umap_2']]) 
        ob={
            'eps':i,
            'min':j,
            'num_grupos':len(set(dbscan_labels))
        }
        opt.append(ob)

In [None]:
opt

In [None]:
db = DBSCAN(eps=0.2, min_samples=7)                     
dbscan_labels = db.fit_predict(mat_list3[['umap_1','umap_2']]) 

In [None]:
fig, ax = plt.subplots(1,2,figsize=(12, 5))

colors = sns.color_palette('Paired', len(set(dbscan_labels)))

sns.scatterplot(x = umap_embeddings[:,0], y = umap_embeddings[:,1], palette=colors, ax=ax[0])

ax[0].legend(loc='upper left', bbox_to_anchor=(0, 1), ncol=2)

sns.scatterplot(x = umap_embeddings[:,0], y = umap_embeddings[:,1],
                hue=dbscan_labels, palette=colors, ax=ax[1], legend=False)

#for i, txt in enumerate(y):
#    ax[1].annotate(txt, (X_tsne[i,0], X_tsne[i,1]), fontsize=10)

for i in range(0,2):
    ax[i].set_xlabel('umap 1')
    ax[i].set_ylabel('umap 2')

Como são técnicas não supervisionadas, não temos certeza sobre a qualidade do resultado quando não temos nenhuma informação adicional.

É necessário realizar uma validação posterior ao método de redução de dimensionalidade e agrupamento.

Se usamos um método supervisionado, como uma classificação ou uma regressão (sobre os dados com dimsnesão reduzida), caimos sobre um conjunto de técnicas denominadas de **semi-supervisionadas**.

É importante notar que as estratégias de aprendizado semi-supervisioado vão além destas desritas acima, por exemplo, usando **Active Learning** para obter rótulos (respostas tidas como corretas) para valiar/retreinar o modelo.

Vamos tentar entender o que significam esses grupos encontrados: se tem algum sentido físico ou quimico por trás, ou é apenas um agrupamento espúrio.

Primeiro vamos observar as frequências de cada grupo encontrado lembrando que no DBSCAN, <code>label=-1</code> é considerado outlier.

In [None]:
mat_list3['grupos'] = dbscan_labels

In [None]:
plt.plot(figsize=(14,4))
ax = sns.countplot(x='grupos', data=mat_list3, palette='muted', 
              order=mat_list3['grupos'].value_counts().index)
ax.tick_params(axis='x', labelrotation=90)

In [None]:
grupo_selecionado=mat_list3[mat_list3['grupos']==2]

In [None]:
grupo_selecionado.head(3)

In [None]:
todos_elementos_grupo=[]
for elements in grupo_selecionado['elements']:
    todos_elementos_grupo=todos_elementos_grupo+elements

In [None]:
todos_elementos_grupo

In [None]:
fig, axs = plt.subplots(1,2, figsize=(14,4))

# contar o número de ocorrências de cada categoria
counts = pd.Series(todos_elementos_grupo).value_counts()

# ordenar as categorias em ordem decrescente e selecionar as 10 primeiras
top10_counts = counts.sort_values(ascending=False)[0:10]

sns.countplot(x='crystal_system', data=grupo_selecionado, ax=axs[0], palette='muted', 
              order=grupo_selecionado['crystal_system'].value_counts().index)

sns.countplot(x=todos_elementos_grupo, order=top10_counts.index, ax=axs[1], palette='muted')

axs[0].tick_params(axis='x', labelrotation=45)

fig.subplots_adjust(wspace=0.25)

Também podemos usar outros recursos do modelo de linguagem treinado, como a busca por outros embeddings (palavras) que são similares a um determinado compostos do grupo que estamos estudando.

In [None]:
mat2vec.wv.most_similar("Ce5O9", topn=5)

Ou ainda, procurar uma aplicação ou propriedade física, realizando operações vetoriais sobre os embeddings:

In [None]:
'PbTe' in vocab

In [None]:
# Sabendo que PbTe é termolétrico
mat2vec.wv.most_similar(
    positive=["thermoelectric", "PbTe"], 
    negative=["Ce5O9"], topn=5)

Operando sobre toda a lista de compostos desse agrupamento:

In [None]:
q = mat2vec.wv.most_similar(
positive=["thermoelectric", "PbTe"], 
negative=["Ce5O9"], topn=5)

In [None]:
q[0]

In [None]:
resultados=[]
for compound in grupo_selecionado['pretty_formula']:
    q = mat2vec.wv.most_similar(
    positive=["thermoelectric", "PbTe"], 
    negative=[compound], topn=5)
    possiveis_aplicacoes = [qi[0] for qi in q if qi[1]>0.5]
    #print(possiveis_aplicacoes)
    resultados=resultados+possiveis_aplicacoes

In [None]:
resultados

Podemos agora calcular estatísticas sobre as palavras mais parecidos que estão vindo nos resultados. Como isso podem entender qual poderia ser uma possível aplicação dos materiais pertencentes ao grupo analisado. 

--------------------------------------------------
## Exercícios propostos

- No exemplo 2 realizamos redução de dimensionalidade além de carregar os dados da redução de dimensionalidade do artigo original. Tente usar esse novo espaço de representação (gerado pelo nosso PCA e pelo PCA dos autores) como entrada para um regressor, visando predizer a temperatura de fusão. Compare os resultados com os da aula prática 2.

- No exemplo 3 realizamos uma busca por aplicações de materiais. Entretanto, na nossa tabela de dados do **Materials Project** temos informações sobre o sistema cristalino do material. O artigo de Tshitoyan et al. diz ser possível usar a mesma operação <code>mat2vec.wv.most_similar()</code> passando exemplos de um cristal com sistema cristalino conhecido e um novo cristalque não sabemos o sistema cristalino. Usando nossa base de dados, separe alguns exemplos para serem as entradas canonicas da analogia (operação vetorial entre os embedding $\vec{A}+\vec{B}-\vec{C}=\vec{D}$, isto é, os pares de vetores $(\vec{A},\vec{B})$ que representam pares conhecidos de fórmula do composto/sistema cristalino. Com o restante dos dados, encontre os sistemas cristalinos ditos pelo Modelo de Linguagem. Compare com as respostas corretas. Refaça o exemplo treinando um algoritmo de classificação, onde a entrada do modelo será o embedding do composto e a saída, o sistema cristalino.