# Modelo de expansão em Cluster - Nanocelulose

Neste notebook mostro como implementei um modelo de previsão de energia total de fibras de nanocelulose por meio de uma expansão em cluster. A ideia é contar o número de cadeias de celulose em cada fibra e associar isto a um termo de energia, em seguida considerando pares de cadeias, trios e quartetos. No caso de pares de cadeias, dois tipos foram considerados: pares horizontais (notação $2_h$), que interagem por meio de pontes de hidrogênio e pares diagonais (notação $2_d$), que interagem por meio de interações de van der Waals. No caso de quartetos de cadeias, dois tipos também foram considerados: formato diamante ($4_d$) e formato losango ($4_l$). De um modo geral, a expressão para a energia total de uma cadeia de celulose nesse modelo é dada pela expressão

$$ \Delta E_f = \alpha_1 n_1 + \alpha_{2_h} n_{2_h} + \alpha_{2_d} n_{2_d}+ \alpha_{3} n_3 + \alpha_{4_d} n_{4_d} + \alpha_{4_l} n_{4_l}$$

A tarefa então é basicamente ajustar estes parâmetros $\alpha_i$ utilizando a geometria das fibras e suas energias de formação a partir de uma única cadeia calculadas pelo VASP por DFT-PBE+vdW após relaxação iônica.

### DNA das fibras

As fibras são identificadas por uma sequência de letras, batizada de <i>DNA</i> da fibra. Este decodifica os passos que foram realizados para se construir a fibra a partir de uma única cadeia que foi sendo transladada ao longo das direções perpendiculares à seção transversal da fibra e copiada em uma nova posição. Tal código deve ser lido da seguinte maneira:

<ul>
    <li> <b>a</b>: inserir nova cadeia à esquerda e acima da cadeia atual </li>
    <li> <b>b</b>: nova cadeia acima e à direita </li>
    <li> <b>c</b>: nova cadeia à direita </li>
    <li> <b>d</b>: nova cadeia abaixo e à direita </li>
    <li> <b>e</b>: nova cadeia abaixo e à esquerda </li>
    <li> <b>f</b>: nova cadeia à esquerda </li>
</ul>

### Alguns exemplos de fibras que foram utilizadas nos cálculos DFT

Os labels das fibras estão acima das imagens das mesmas.

<table>
    <tr>
        <td style="text-align:center"><b>ccafacc</b> </td>
        <td style="text-align:center"><b>cbffbcbffbc</b> </td>
    </tr>
    <tr>
        <td><img src="ccafacc.jpg" /></td>
        <td><img src="cbffbcbffbc.jpg" /></td>
    </tr>
    <tr>
        <td style="text-align:center"><b>bfb</b> </td>
        <td style="text-align:center"><b>ffbccaff</b> </td>
    </tr>
    <tr>
        <td><img src="bfb.jpg" /></td>
        <td><img src="ffbccaff.jpg" /></td>
    </tr>
</table>

Ao todo foram utilizadas 15 estruturas diferentes para realizar o ajuste dos parâmetros do modelo de cluster.

### Parte 1 - treinamento da regressão linear

Primeiramente importamos biliotecas necessárias para manipulação dos dados e treinamento (ou ajuste) do modelo

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
%matplotlib notebook

Os dados dos cálulos DFT estão num arquivo de texto

In [3]:
# read data from file
with open("regression_data.dat") as file:
	lines = file.readlines()

As informações são armazenadas em três listas: labels com os DNAs, desc com os $n_i$ e targets com as energias totais calculadas pelo VASP.

In [4]:
# labels, descriptors and targets
labels = []
desc = []
targets = []

for line in lines:
	linestrip = line.strip().split(',')
	labels.append(linestrip[0])
	desc.append(linestrip[1:-1])
	targets.append(linestrip[-1])

Agora obtemos a energia de uma única cadeia isolada a partir de um cálculo no VASP e usamos a mesma para calcular as energias de formação $\Delta E_f$ de cada fibra. Estas energias são armazenadas no vetor energies.

In [116]:
e_sc = -248.30396698

energies = np.zeros(len(targets))
for i in range(len(labels)):
    # precisamos de n + 1 cadeias para formar a fibra
    energies[i] += float(targets[i]) - (len(labels[i])+1) * e_sc
    print('DNA: {:20s} -> E_f = {:7.3f}'.format(labels[i],energies[i]))

DNA: cbffbccaf            -> E_f = -18.199
DNA: ccbffaccbffaccbff    -> E_f = -36.047
DNA: ccbfffbcc            -> E_f = -18.307
DNA: cbffacccaffbc        -> E_f = -27.399
DNA: ccafaccafacc         -> E_f = -23.965
DNA: cbffbcbffbc          -> E_f = -21.726
DNA: cccbffffbccc         -> E_f = -25.314
DNA: ccccafffbccaf        -> E_f = -27.388
DNA: ccbffaccbffacc       -> E_f = -29.202
DNA: cbffbc               -> E_f = -11.468
DNA: ffbccaff             -> E_f = -16.085
DNA: ccafacc              -> E_f = -13.587
DNA: ccbffbccbff          -> E_f = -22.817
DNA: bfb                  -> E_f =  -4.564
DNA: cccaffbc             -> E_f = -15.889


Separamos os dados em dois numpy arrays, verificamos se temos realmente 15 entradas de dados e por fim separamos 20% dos dados para teste e 80% para treinamento.

In [138]:
# descriptors and targets in np arrays
y = np.array(energies, dtype=float)
X = np.array(desc, dtype=int)

print('Numero de dados: {:d}'.format(len(y)))

# split train test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# separamos os labales do train e test sets aqui
lab_train = [labels[np.where(y == i)[0][0]] for i in y_train]
lab_test = [labels[np.where(y == i)[0][0]] for i in y_test]

Numero de dados: 15


Utilizamos um regressor linear do Scikit-learn e treinamos o mesmo com os descritores e labels do set de treinamento.

In [118]:
# linear regressor training
reg = LinearRegression().fit(X_train, y_train)

Verificamos o score deste regressor tanto no train quanto no test set. A métrica utilizada é o $R^2$.

In [119]:
# show score for train and test sets

score_train = reg.score(X_train, y_train)
score_test = reg.score(X_test, y_test)

print('Score train set: {:.8f}\nScore test set: {:.8f}'.format(score_train, score_test))

Score train set: 0.99938095
Score test set: 0.99644438


Temos resultados muito bons! Podemos agora prever alguns valores de energia e comparar com os valores dados, assim como verificar seu erro absoluto (AE).

In [139]:
y_train_pred = reg.predict(X_train)
y_test_pred = reg.predict(X_test)

print('-' * 40 + ' Train set ' + '-' * 40)
for l, i,j in zip(lab_train, y_train, y_train_pred):
    print('DNA: {:20s} -> E calculada: {:9.3f}\tPredita: {:9.3f}\tAE: {:6.3f}%'.format(l, i, j, abs(i - j)*100/abs(i)))

print('\n' + '-' * 40 + ' Test set ' + '-' * 41)
for l, i,j in zip(lab_test, y_test, y_test_pred):
    print('DNA: {:20s} -> E calculada: {:9.3f}\tPredita: {:9.3f}\tAE: {:6.3f}%'.format(l, i, j, abs(i - j)*100/abs(i)))


---------------------------------------- Train set ----------------------------------------
DNA: bfb                  -> E calculada:    -4.564	Predita:    -4.445	AE:  2.602%
DNA: cbffbcbffbc          -> E calculada:   -21.726	Predita:   -22.178	AE:  2.080%
DNA: ccbffaccbffacc       -> E calculada:   -29.202	Predita:   -29.196	AE:  0.021%
DNA: ccbfffbcc            -> E calculada:   -18.307	Predita:   -18.481	AE:  0.947%
DNA: ccbffaccbffaccbff    -> E calculada:   -36.047	Predita:   -35.847	AE:  0.555%
DNA: cccaffbc             -> E calculada:   -15.889	Predita:   -15.895	AE:  0.037%
DNA: ccafaccafacc         -> E calculada:   -23.965	Predita:   -24.025	AE:  0.250%
DNA: ccccafffbccaf        -> E calculada:   -27.388	Predita:   -27.347	AE:  0.147%
DNA: ffbccaff             -> E calculada:   -16.085	Predita:   -15.895	AE:  1.179%
DNA: ccbffbccbff          -> E calculada:   -22.817	Predita:   -22.546	AE:  1.190%
DNA: cbffacccaffbc        -> E calculada:   -27.399	Predita:   -27.350	AE:  0.

O maior AE foi bem pequeno, menor que 0.02%, o que mostra que o modelo está bem ajustado. Os valores de AE para o test set apresentam comportamento parecido, evidenciando que não tenho overfitting nesse regressor.

Agora uma análise visual por meio de um gráfico de valores previstos <i>vs</i> calculados.

In [149]:
fig = plt.figure(figsize=(8,8))

plt.scatter(y_train_pred, y_train, marker='s', color='red', s=80, alpha=0.6, label='Train set')
plt.scatter(y_test_pred, y_test, marker='o', color='blue', s=80, alpha=0.6, label='Test set')
ini = -40
fim = 0
st = 10000
plt.plot(np.linspace(ini,fim,st), np.linspace(ini,fim,st), '--', c='gray')
plt.ylabel('Calculated $\Delta E_f$ (eV)')
plt.xlabel('Predicted $\Delta E_f$ (eV)')
plt.xlim(ini,fim)
plt.ylim(ini,fim)
# plt.ticklabel_format(axis='both', style='sci', scilimits=(-2,2),useMathText=True)
plt.legend()
plt.show()

<IPython.core.display.Javascript object>

Não tenho dúvidas que o modelo está bem treinado. Apesar de ter poucos (12) pontos para treinamento, o número de parâmetros a ser ajustado é menor (6, vide equação no começo). 

Por fim visualizamos os valores dos $\alpha_i$ obtidos do ajuste

In [144]:
print('-' * 2 + ' Cluster expansion parameters ' + '-' * 2)
l = ['E1', 'E2h', 'E2d', 'E3', 'E4d', 'E4f']
for i, j in zip(l, reg.coef_):
    print('{:4s} = {:8.3f}'.format(i, j))

-- Cluster expansion parameters --
E1   =   -0.892
E2h  =   -0.598
E2d  =   -0.536
E3   =   -0.242
E4d  =    0.356
E4f  =    0.052


Note que para estruturas maiores, do tipo quartetos, a contribuição da energia é positiva, levando o sistema para longe da estabilidade (energias negativas significam sistemas ligados!). Como esperado, as interações de pares são as mais significativas nesse modelo, logo após a energia das cadeias isoladas. A diferença entre $E_{2_h}$ e $E_{2_d}$ mostra a maior intensidade da interação de vdW em comparação com as pontes de hidrogênio.

### Redução de dimensionalidade para visualização

Como temos 6 parâmetros que descrevem cada fibra, a informação contida no train e test sets reside em um espaço de 6 dimensões. Vou utilizar Principal Component Analysis - PCA - para diminuir a dimensionalidade destes conjuntos projetando-os em seus eixos de maior variância de informação. Verifico também que grande parte da variâncias está no primeiro eixo, como esperado.

In [145]:
from sklearn.decomposition import PCA

pca = PCA(n_components=3)
pca.fit(X)

for i, j in enumerate(pca.explained_variance_ratio_):
    print('Variancia ao longo do eixo {:2d}: {:.3f}'.format(i, j))

Variancia ao longo do eixo  0: 0.980
Variancia ao longo do eixo  1: 0.016
Variancia ao longo do eixo  2: 0.004


Transformo os dados e visualizo em um plot 3D com as energias representadas pelo código de cores. Os DNAs das fibras foram adicionados acima dos pontos para melhor entendimento da tendência da energia com a configuração espacial das fibras.

In [148]:
X_pca = pca.transform(X)

# print(X_pca)
# print(X_pca[:,2])

from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
sct = ax.scatter(X_pca[:,0], X_pca[:,1], X_pca[:,2], cmap=plt.get_cmap('plasma'), c=y, s=40) #, alpha=0.1, c='black', edgecolors='none', s=30)
cbar = fig.colorbar(sct) #, shrink=0.5, aspect=5)
cbar.ax.set_ylabel('$\Delta E_f$ (eV)')
for i, j in zip(X_pca, labels):
    ax.text(i[0], i[1], i[2]+0.1, j, (1,1,0))

ax.set_xlabel('$PC_1$')
ax.set_ylabel('$PC_2$')
ax.set_zlabel('$PC_3$')


plt.show()

<IPython.core.display.Javascript object>

Note que as fibras maiores são as mais estáveis neste caso. A pergunta que fica é se existe uma configuração ideal para as fibras. Talvez seja possível obter essa informação da expressão da expansão em cluster agora que tenho os coeficientes da mesma.