# Inferencia de nuevos materiales con estructura tipo perovskita

## 0. Antecedentes

### 0.1 ¿Qué es un compuesto cristalino?

Los compuestos cristalinos (o simplemente, cristales) se caracterizan porque en su estructura existe orden a largo alcance. Este ordenamiento se describe mediante la identificación una unidad mínima, conocida como celda unitaria, la 
cual se repite de forma periódica en todo el espacio.

<figure>
  <img src="images/cristales/diamond.png" width="40%">
  <figcaption> Imagen 1: Estructura del SiO<sub>2</sub>. Las esferas en rojo representan a los átomos de Si, mientras que las amarillas al O. </figcaption>
</figure>

<figure>
 <img src="images/cristales/uc_fcc.png" align="left" width="33%">
 <img src="images/cristales/double_fcc.png" align="right" width="33%">
</figure>
<br>
<figcaption>
Imagen 2: A la izquierda se representa la celda unitaria del Cu. A la derecha, se tiene un cristal que consiste en la celda unitaria duplicada en cada eje.
</figcaption>

<figure>
  <img src="images/cristales/nacl.png" width="40%">
  <figcaption> Imagen 3: Estructura del NaCl. Las esferas en azul representan a los iones de Na<sup>+</sup>, mientras que las verdes a los iones Cl<sup>-</sup>. En la imagen, el cristal contiene dos veces la celda unitaria en cada eje. </figcaption>
</figure>

No todos los compuestos son cristalinos. A esos que carecen del orden a largo alcance en su estructura se les llama amorfos.

La técnica por excelencia con la que se identifica a un compuesto cristalino es la difracción de rayos X (http://reference.iucr.org/dictionary/Crystal).

Los cristales se clasifican en siete sistemas cristalinos (https://en.wikipedia.org/wiki/Crystal_system, se enlistan a continuación en orden creciente de simetría):
<ol>
 <li>Tríclinico</li>
 <li>Monoclínico</li>
 <li>Ortorrómbico</li>
 <li>Tetragonal</li>
 <li>Trigonal</li>
 <li>Hexagonal</li>
 <li>Cúbico</li>
</ol>

Otra manera de clasificarlos es a través de grupos espaciales, que en tres dimensiones son 230 (https://en.wikipedia.org/wiki/List_of_space_groups).

### 0.2 Sitios de Wyckoff

Derivado del orden a largo alcance, la estructura cristalina puede describirse mediante un conjunto de elementos de simetría, los cuales forman un grupo de simetría espacial. Por otro lado, y relacionado con lo mencionado, es posible asociar a cada posición en el espacio un grupo de simetría puntual. Así, los átomos del cristal quedan clasificados con un grupo de simetría puntual, lo que se conoce como sitios de Wyckoff.

Los sitios de Wyckoff constan de un número y una letra. 
<ul>
    <li>Al número se le llama multiplicidad e indica hasta cuántos sitios con ese grupo puntual hay dentro de la celda unitaria. En otras palabras, la multiplicidad indica hasta cuántos átomos con cierto grupo de simetría puede haber dentro de una celda unitaria.</li>
    <li> La letra está relacionada con el grupo de simetría puntual. La letra no es la misma para todos los 230 grupos espaciales, por lo que hay que revisar el volumen A de las Tablas Internacionales de Cristalografía (<a href="literatura/ITC_Volume_A.pdf">referencia</a>). No obstante, el orden del grupo de simetría (es decir, el número de elementos de simetría) disminuye con el orden alfabético. </li>
</ul>

Para un grupo espacial, <i> los átomos que tienen el mismo sitio de Wyckoff están inmersos en el mismo ambiente químico</i> (ven los mismos vecinos). Así, los sitios de Wyckoff simplifican la descripción de los ambientes químicos.

Por último, cualquier estructura cristalina, como es el caso de las perovskitas, queda definida por la ocupación de ciertos sitios de Wyckoff en un grupo espacial.

### 0.3 ¿Qué son las perovskitas?

Las estructuras cristalinas de tipo perovskita ocupan un espacio muy importante dentro de la Ciencia de Materiales. Este tipo de estructura está presente en materiales piezoeléctricos, superconductores y recientemente han ganado importancia debido a que hay materiales híbridos que cristalizan en esta estructura y que han rebasado en eficiencia a otros materiales que se utilizan para la transformación de energía solar (<a href="literatura/Chakhmouradian_2014.pdf" target="_blank"> Haz click aquí para ver más</a>).

A continuación, se representa a la estructura perovskita en su forma de más alta simetría (aristotipo). Dicho aristotipo pertenece al sistema cúbico cristalino. 

<figure>
 <img src="images/cristales/uc_perovskite.png" align=left width="33%">
 <img src="images/cristales/double_perovskite.png" align=right width="33%">
<figure>

La figura de la izquierda representa a la celda unitaria. Las esferas en amarillo y rosa representan a dos tipos de cationes. El catión en rosa se ubica en sitios con geometría octaédrica, mientras que los que están en amarillo ocupan sitios con geometría dodecaédrica. Las esferas en rojo representan a los aniones. 

La figura en la derecha representa a un cristal de estructura perovskita, en su aristotipo, que contiene dos veces a la celda unitaria en cada eje.

Sin embargo, las perovskitas también pueden existir en otros sistemas cristalinos, como el ortorrómbico (imagen a la izquierda)o el trigonal (imagen a la derecha).

<figure>
 <img src="images/cristales/orthorombic_perovskite.png" alt="perovskita ortorromibica" align=left height="60%" width="30%">
 <img src="images/cristales/trigonal_perovskite.png" alt="perovskita trigonal" align=right width="30%">
</figure>

Estas variantes existen, principalmente, debido a rotaciones entre los octaedros. Dichas rotaciones disminuyen la alta simetría del sistema (<a href="literatura/Woodward_1997.pdf" target="_blank">referencia</a>).

### OBJETIVO

En esta clase se van a desarrollar diferentes Redes Neuronales Artificiales (ANNs, por su acrónimo en inglés) a fin de predecir nuevos materiales con la estructura tipo perovskita. Este notebook de python jupython está dentro de la carpeta de trabajo "Patolli". Patolli contiene, además, otros archivos necesarios para el corrector funcionamiento de este notebook:
<ul>
 <li>red_cod.pkl</li>
 <li>WyckoffSG_dict.npy</li>
 <li>datosrahm.csv</li>
 <li>fij_2.0_25_diccion.npy</li>
 <li>structure_dictionary.txt</li>
 <li>model_control_file.txt</li>
<ul>

Los dos últimos archivos se pueden editar y definen a las muestras "verdaderas" y las Redes Neuronales Artificiales (ANNs, por su acrónimo en inglés). 

Los demás se recomienda no modificarlos.

Además de los archivos enlistados, patolli necesita las siguientes librerías:
<ul>
 <li>Keras</li>
 <li>scikit-learn</li>
 <li>numpy</li>
 <li>pandas</li>
 <li>matplotlib</li>
 <li>itertools</li>
 <li>copy</li>
 <li>time</li>
 <li>os</li>
</ul>

Es necesario tener instalado pydot o graphviz en el ambiente de conda en el que se trabajará. 
Patolli fue desarrollado utilizando python 3.6

Se comenzará por cargar las siguientes librerías:

In [None]:
###RECUADRO 1###
#Correr en la terminal, en el ambiente, conda install numpy=1.16.1
import copy
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import patolli
from IPython.display import Latex, display, Image
import itertools

np.random.seed(10)

En esta clase se van a desarrollar diferentes Redes Neuronales Artificiales a fin de predecir nuevos materiales con este tipo de estructura. Para ello, vamos a cargar una versión reducida de la base de datos libre que se encuentra en http://www.crystallography.net/cod/. Esta versión contiene 36844 compuestos cristalinos diferentes:

In [None]:
###RECUADRO 2###
database = pd.read_pickle('red_cod.pkl')

A continuación, se despligan las primeras diez entradas de esta base de datos:

In [None]:
###RECUADRO 3###
print(database.head(10))

Si quieres modificar el número de entradas de inicio, cambia el número que está dentro del paréntesis en df.head(20).

Cada entrada, que corresponde a un compuesto de esta base de datos, lleva un identificador conocido como cif (del inglés Crystallographic Information File). Además del cif, esta base de datos tiene información sobre:
<ul>
<li> la fórmula química del material (columna "formula"). </li><li> el grupo espacial ("sgnum"). </li><li> la ocupación de cada sitio de Wyckoff ("WyckOcc").</li><li> el número de sitios de Wyckoff en ese material ("sitios").</li><li> el número de átomos en total dentro de la celda unitaria ("atoms")</li><li>el número de elementos diferentes en la fórmula ("elements").  </li>
</ul>


In [None]:
###RECUADRO 4###
item = 3

print('El cif es ', database['cif'][item], ' y corresponde al compuesto con la formula ', database['formula'][item],'.', '\n')
print('Este compuesto tiene el número de grupo espacial ', database['sgnum'][item],'.')
print('El número de sitios de Wyckoff que describe a este compuesto es ', database['sitios'][item],'.', '\n')
print('A continuación, se enlista la ocupación de cada uno de esos sitios de Wyckoff:','\n', database['WyckOcc'][item], '.', '\n')
print('En total, hay ', int(database['elements'][item]),' elementos diferentes en la formula y hay ', database['atoms'][item],' átomos dentro de la celda unitaria.')
print('\n')
print('Si quieres ver la celda unitaria, da click en el siguiente link: '+ 'http://www.crystallography.net/cod/' + str(database['cif'][item]) + '.html')


Puedes cambiar el valor del item del recuadro anterior. Por el número de entradas de esta base de datos, recuerda que el valor máximo de item es 36433.

## 1. Búsqueda de los compuestos con estructura tipo perovskita. Creación de la colección de muestras.

A continuación, vamos a crear la colección de compuestos que utilizaremos para entrenar las ANNs. Esta colección estará conformada por compuestos con estructura de tipo perovskita (muestras verdaderas) y de tipo no perovskita (muestras falsas), en proporción 1:1.

Ve a la carpeta que contiene este archivo Jupyter y abre el archivo "structure_dictionary.txt". Este archivo es el que define qué compuestos tienen la estructura tipo perovskita con base en el grupo espacial y la ocupación de los sitios de Wyckoff. Este archivo está basado en el trabajo de P.Woodward y otros autores(https://doi.org/10.1107/S0108768196010713, https://doi.org/10.1107/S0108768101015282, https://doi.org/10.1107/S0108768198004200)

Todas las perovskitas deben contener al menos tres elementos diferentes y estar definidas con al menos tres sitios de Wyckoff. Con base en el archivo "structure_dictionary.txt", se tiene que la cantidad maxima de sitios de Wyckoff que puede definir a una perovskita es ocho.

Vamos a crear, de inicio, una colección donde los compuestos estén definidos con hasta cuatro sitios de Wyckoff (es decir, no vamos a utilizar todos la máxima cantidad de sitios de Wyckoff que hay con base en el archivo "structure_dictionary"). Completa el siguiente recuadro y ejecútalo.

In [None]:
###RECUADRO 5###
###INFORMACIÓN QUE DEBES PROPORCIONAR

sitios = 4#'INGRESA EL NÚMERO MÁXIMO DE SITIOS QUE DEBEN TENER LOS COMPUESTOS DE LA COLECCIÓN A CREAR'
elementos = 3#'INGRESA EL NÚMERO MÍNIMO DE ELEMENTOS DIFERENTES QUE DEBE TENER LA FÓRMULA PARA SER CONSIDERADA PEROVSKITA'
diccionario= 'structure_dictionary'#'AQUÍ DEBES INGRESAR EL NOMBRE DEL ARCHIVO DE TEXTO QUE DEFINE A LAS MUESTRAS QUE SÍ SON PEROVSKITAS. NO INCLUYAS LA EXTENSIÓN'

Ejecuta el siguiente recuadro para crear la colección:

In [None]:
###RECUADRO 6###
coleccion = patolli.create_collection(df=database, sites=sitios, elements=elementos, dictionary=diccionario)

<h3>+++++++++++++++++++++++++++++ATENCIÓN++++++++++++++++++++++++++++++++</h3>

En caso de que haya un problema al correr el recuadro anterior, se tendrá que instalar numpy 1.16.1. Para hacerlo hay que ingresar en la terminal, en el ambiente de trabajo:

<ul>
 <li>conda install numpy==1.16.1</li>
</ul>

Una vez instalado, tienes que reiniciar el kernel de este notebook.
<h3>+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++</h3>

La colección creada contiene una columna más con el nombre de "target", donde la etiqueta "True" corresponde a un compuesto con estructura tipo perovskita.

In [None]:
###RECUADRO 7###
print('En la colección creada, hay: ','\n',coleccion['target'].value_counts().rename_axis('type').reset_index(name='number of compounds'))

Si revisas la carpeta de trabajo, verás que se creó el archivo "compounds_collection.csv", que contiene toda la colección de muestras. No lo vayas a borrar mientras estés trabajando con este archivo de jupyter. Si quieres ver cómo quedó la colección creada, ejecuta el siguiente recuadro.

In [None]:
###RECUADRO 8###
print(coleccion)

### =================INFORMACIÓN OPCIONAL ADICIONAL: INICIO=================

En la colección creada, el número de muestras con tres y cuatro sitios de Wyckoff son:

In [None]:
print(coleccion['sitios'].value_counts().rename_axis('Número de sitios de Wyckoff').reset_index(name='Compuestos en total'))

Según el tipo de compuesto, hay:

In [None]:
print('En compuestos de tipo perovskita:','\n',coleccion[coleccion['target'] == True]['sitios'].value_counts().rename_axis('Número de sitios de Wyckoff').reset_index(name='Compuestos en total'))
print('\n')
print('En compuestos de tipo no perovskita:','\n', coleccion[coleccion['target'] == False]['sitios'].value_counts().rename_axis('Número de sitios de Wyckoff').reset_index(name='Compuestos en total'))

Con base en el número de grupo espacial, la distribución de muestras que son perovskitas es la siguiente:

In [None]:
print(coleccion[coleccion['target'] == True]['sgnum'].value_counts().rename_axis('Número de grupo espacial').reset_index(name='Compuestos en total'))

Los grupos espaciales de tipo perovskita definidos según el número de sitios de Wyckoff son:

In [None]:
for item in coleccion['sitios'].unique():
    space_groups_wyck = coleccion[coleccion['target'] == True][coleccion['sitios'] == item]['sgnum'].unique()
    print('Hasta con', item, ' sitios de Wyckoff: ', space_groups_wyck)

La lista de la cantidad de compuestos de tipo no perovskita según el grupo espacial es larga. Si quieres desplegarla, ejecuta el siguiente recuadro

In [None]:
for item in coleccion['sitios'].unique():
    space_groups_wyck = coleccion[coleccion['target'] == False][coleccion['sitios'] == item]['sgnum'].unique()
    print('Hasta con', item, ' sitios de Wyckoff: ', space_groups_wyck)

### =================INFORMACIÓN OPCIONAL ADICIONAL: FIN=================

## 2. Preparación de los datos

### 2.1 Obtención de los rasgos en bruto (Raw features)

Los rasgos con los que se entrenarán las ANNs describen a la estructura cristalina con base en factores geométricos y de empaquetamiento, así como a través de una descripción de los ambientes químicos alrededor de un átomo. Esta descripción depende de los sitios de Wyckoff.

Para obtener los rasgos, es necesario calcular los radios atómicos (<a href="literatura/Rahm_2016.pdf">referencia</a>) y las electronegatividades (de Pauling) promedio de cada sitio de Wyckoff del compuesto cristalino. El cálculo de dichos valores se hace de la siguiente forma:

$$r_{i} = c_{1} r_{1} + c_{2} r_{2} + ... + c_{n} r_{n}$$

$$\chi_{i} = c_{1} \chi_{1} + c_{2} \chi_{2} + ... + c_{n} \chi_{n}$$

Donde $r_{i}$ y $\chi_{i}$ designan al radio atómico y la electronegatividad promedio del $i$ - ésimo sitio de Wyckoff. Cada término de la parte derecha de las ecuaciones indica el producto de la fracción de ocupación $c_{n}$ con el radio atómico (o la electronegatividad) de un elemento. En general, es raro que haya más de tres elementos en un sitio de Wyckoff.

Ejecuta el siguiente recuadro a fin de cargar la información sobre los radios atómicos y las electronegatividades de cada elemento de la tabla periódica (hasta el Z = 96).

In [None]:
###RECUADRO 9###
elecrad = pd.read_csv('datosrahm.csv')
print(elecrad)

A continuación, se van a computar los radios atómicos y las electronegatividades promedio de cada sitio de Wyckoff para cada compuesto en la colección. Ejecuta el siguiente recuadro.

In [None]:
###RECUADRO 10###
raw_features, y, _, _, coleccion = patolli.raw_features_extractor(df_coleccion=coleccion, sites=sitios, elements=elementos,dictionary=diccionario, datos_elementos=elecrad)

Es posible que durante la ejecución del recuadro anterior se hayan eliminado algunas muestras debido a errores en el archivo CIF donde se extrajo la información. De ser así, debió haberse avisado durante la ejecución del recuadro. La colección se actualiza y se reescribe en el archivo compounds_collection.csv, que está en la carpeta de trabajo.

Por otro lado, durante la ejecución del recuadro anterior se crearon en la carpeta de trabajo los archivos:
<ul>
 <li>raw_features.npy </li><li> output_values.npy </li><li> occupation_fractions.npy </li><li> multiplicites.npy. 
</ul>

Con la función ejecutada, ahora todas las muestras contienen el mismo número de sitios de Wyckoff que se definió en recuadro X. A los compuestos que originalmente estaban descritos con menos sitios de Wyckoff se les añadieron sitios extra con ocupación cero. Esto es muy importante para trabajar con la ANN ya que es necesario que todas los compuestos sean descritos con el mismo número de rasgos.

De aquí en adelante, sólo nos referiremos a los sitios originales y añadidos como sitios. Si es necesario referirse únicamente a los sitios originales, hablaremos de ellos como sitios de Wyckoff.

raw_features es un tensor de tres dimensiones:

In [None]:
###RECUADRO 11###
print(raw_features.shape)
print('El número total de compuestos en la colección:', raw_features.shape[0])
print('El número de sitios totales en la descripción de cada compuesto:', raw_features.shape[1])
print('La última dimensión contiene a la electronegatividad y radio atómico promedio de cada sitio, en ese orden:', raw_features.shape[2])

Por otro lado, y es una matriz que contiene las muestras con los valores de salida de la ANN, que pueden ser 0 o 1.

In [None]:
###RECUADRO 12###
print('Dimensión de y:', y.shape)
print('Muestras en total en la colección:', coleccion.shape[0])

### ================= INFORMACIÓN ADICIONAL OPCIONAL: INICIO =================

Veamos qué elementos y con qué ocupación se encuentran en cada sitio de Wyckoff en el compuesto 10 de la colección que usaremos para entrenar a las ANNs. Ejecuta el siguiente recuadro.

In [None]:
item = 10

In [None]:
diccio = coleccion['WyckOcc'][item]
print('El compuesto', item,'en la colección es el',coleccion['formula'][item],'y es de tipo', bool(y[item]), '. \n')
print('Este compuesto originalmente tenía', len(diccio),'sitios de Wyckoff.')
for key,values in zip(diccio.keys(),diccio.values()):
    nestdict = [i for i in list(values.values())][0]
    print('En el sitio', key,'está(n)',
          [i for i in nestdict.keys()],'con una fracción de ocupación de',
          [i for i in nestdict.values()], 'respectivamente.')
print('\n')
      
print('Al utilizar la función raw_features_extractor, el tensor que describe al compuesto', 
      'es:' ,'\n',raw_features[item],'\n')
print('Si hay filas con cero, es porque a este compuesto se le añadieron sitios extra.')
print('La primera columna describe la electronegatividad promedio del sitio.')
print('La segunda columna describe el radio atómico promedio del sitio.')

Siéntete libre de modificar el valor del item.

### ================= INFORMACIÓN ADICIONAL OPCIONAL: FIN =================

### 2.2 Obtención de los rasgos I: Cálculo de los factores geométricos y de empaquetamiento

Con raw_features se van a calcular una parte de los rasgos. Ejecuta el siguiente recuadro.

In [None]:
###RECUADRO 13###
x = patolli.compute_quotients(X=raw_features)

Revisa cómo se ve el tensor que contiene los rasgos hasta ahora:

In [None]:
###RECUADRO 14###
print('La dimensión del tensor es:', x.shape)
print('Hay',x.shape[0],'compuestos en la colección, en la dimensión 0.')
print('Hay',x.shape[2],'rasgos por cada compuesto, en la forma de una matriz de dimensiones',x.shape[1:],'.')

### ================= INFORMACIÓN ADICIONAL OPCIONAL: INICIO =================

Los rasgos anteriormente computados contienen información sobre los factores geométricos y de empaquetamiento del cristal. Para calcularlos, se consideraron únicamente los radios atómicos promedio de cada sitio.

Ejecuta los siguientes dos recuadros para que veas qué información contiene cada uno de los rasgos calculados.

In [None]:
geomfac, packfac, _ = patolli.geompackfeatures(sitios)

all_features = len(geomfac) + len(packfac)
print('En total, hay ',len(geomfac),'rasgos de factores geométricos y ',len(packfac),'rasgos de empaquetamiento.')
print('Es decir, hasta ahora hay',all_features,'rasgos.')
print('A continuación, se enlistan los rasgos en el orden que tienen en el tensor x.' + '\n')

print('Rasgos geométricos:')
for i, val in zip(range(1,len(geomfac)+1), geomfac):
    display(Latex('$x_{' + str(i) + '}:' + '\dfrac' + val + '$')) 

print('Rasgos de empaquetamiento:')
for i,val in zip(range(len(geomfac)+1,all_features+1),packfac):
    display(Latex('$x_{' + str(i) + '}:' + '\dfrac' + val + '$'))

En caso de que un denominador de los cocientes mostrados fuera cero, el valor de ese cociente se fija igual a cero.

### ================= INFORMACIÓN ADICIONAL OPCIONAL: FIN =================

### 2.3 Obtención de los rasgos II: Adición de los valores de la función de ambientes químicos

Una vez calculados los factores geométricos, se añadirán al tensor x los valores de la función de ambientes químicos. Estos valores se encuentran ya guardados en el archivo fij_2.0_25_diccio.npy. Ejecuta el siguiente recuadro para añadir dicha información.

In [None]:
###RECUADRO 15###
x, coleccion = patolli.append_local_functions(X=x, df=coleccion)

Revisa cómo se ve el tensor que contiene los rasgos ahora:

In [None]:
###RECUADRO 16###
print('La dimensión del tensor es:', x.shape)
print('Hay',x.shape[0],'compuestos en la colección, en la dimesión 0.')
print('Hay',x.shape[2],'rasgos por cada compuesto, en la forma de una matriz de dimensiones',x.shape[1:],'.')

¡Felicidades! Ya tienes tanto los rasgos como los valores de salida para entrenar las ANNs.

### ================= INFORMACIÓN ADICIONAL OPCIONAL: INICIO =================

El ambiente químico en el sitio $\textit{i}$ creado por todos los átomos vecinos en un sitio $\textit{j}$ se calcula con la siguiente ecuación:

$$f_{ij} = \sum_{n=1} (\chi_{i} - \chi_{j}) \left[\frac{1}{2} \cos\left(\frac{\pi d_{ij[n]}}{R_{c}}+1\right)\right] \exp \left[-\left(\frac{d_{ij[n]}}{r^{norm}_{i}+r^{norm}_{j}} \right)^{2}\right]$$

Siempre que $dij_{[n]} \leq R_{c}$, de lo contrario, $f_{ij} = 0$.

La función de ambiente químico está basada en el trabajo de J. Behler & M.Parrinello, 2007 (<a href="literatura/BehlerParrinello_2007.pdf">referencia</a>).

En la ecuación, $\chi$ se refiere a la electronegatividad promedio en los sitios $\textit{i}$ y $\textit{j}$; $d_{ij[n]}$ es la distancia entre el átomo central en el sitio $\textit{i}$ y el átomo vecino en el sitio $\textit{j}$; la $\textit{n}$ cuenta a cada vecino en el sitio $\textit{j}$ desde el primero hasta último definido por una distancia de corte $R_{c}$. Por otro lado, $r^{norm}$ se refiere al radio atómico promedio calculado excluyendo las vacancias que pudieran haber en los sitios.

Date cuenta que es necesario que los átomos en los sitios $\textit{i}$ y $\textit{j}$ deben ser diferentes a fin de que $f_{j} \neq 0$.

Los ambientes químicos que se añadieron a los rasgos se calcularon utilizando una distancia de corte $R_{c} = 2.5$ $nm$. Para calcular estas funciones, fue necesario crear un cristal de un tamaño mayor a $R_{c}$. El calculo de estas funciones toma tiempo y por eso se proporcionaron los valores de éstas en lugar de computarlos.

Ejecuta el siguiente recuadro para que veas cómo están ordenados los rasgos en el tensor x.

In [None]:
geomfac, packfac, fij = patolli.geompackfeatures(sitios)

all_features = len(geomfac) + len(packfac) + len(fij)
print('En total, hay ',len(geomfac),'rasgos de factores geométricos, ',len(packfac),'rasgos de empaquetamiento y', len(fij),'ambientes químicos.')
print('Es decir, en total hay',all_features,'rasgos.')
print('A continuación, se enlistan los rasgos en el orden que tienen en el tensor x.' + '\n')

print('Rasgos geométricos:')
for i, val in zip(range(1,len(geomfac)+1), geomfac):
    display(Latex('$x_{' + str(i) + '}:' + '\dfrac' + val + '$')) 

print('Rasgos de empaquetamiento:')
for i,val in zip(range(len(geomfac)+1,all_features+1 - len(fij)),packfac):
    display(Latex('$x_{' + str(i) + '}:' + '\dfrac' + val + '$'))
    
print('Rasgos de ambiente químico:')
for i,val in zip(range(all_features - len(fij)+1,all_features+1),fij):
    display(Latex('$x_{' + str(i) + '}:' + val + '$'))

¿Quieres revisar cómo se ven los datos de entrada para cada compuesto de la colección? Activa los siguientes recuadros. Cambia el valor del item si lo necesitas.

In [None]:
item = 2560

In [None]:
print('El compuesto',item,'es',coleccion['formula'][item],'y es de tipo',coleccion['target'][item],'.')
print('Este compuesto tiene originalmente',coleccion['sitios'][item],'sitios de Wyckoff.' +'\n')
print('Los rasgos de este compuesto son:')

for feature in range(x.shape[2]):
    print('x' + str(feature+1) + ': ' + "%.5f" % x[item,0,feature])

### ================= INFORMACIÓN ADICIONAL OPCIONAL: FIN =================

### 2.4 Creación de los conjuntos de entrenamiento y de prueba (OPCIONAL)

Las buenas prácticas para desarrollar ANNs requieren que haya un conjunto de entrenamiento, otro de validación cruzada y uno de prueba. Vamos a dividir la colección total a fin de que la proporción de estos tres conjuntos sea 70:15:15. Por el momento, sólo separaremos el conjunto total en un conjunto que llamaremos "traval" (de "TRAining and VALidation") y otro que llamaremos test (para la prueba). Al ejecutar el siguiente recuadro, se define la fracción con la que dividimos la colección total.

In [None]:
split_fraction=0.15

Al ejecutar el siguiente recuadro, se crearán los conjuntos mencionados.

In [None]:
xtraval, xtest, dftraval, dftest = patolli.split_collection(X=x, df=coleccion, frac=split_fraction)

Tanto x y coleccion contienen los datos del conjunto traval, que son los que utilizaremos para entrenar las ANNs.
Si split_fraction = 0, xtest y dftest son objetos vacíos (None). Al ejecutar la instrucción anterior, x y coleccion se guardan como xtraval y dftraval en la carpeta de trabajo. Lo mismo ocurren con xtest y dftest, si el split_fraction $\neq$ 0.
Puedes echar un ojo sobre los compuestos que están en cada conjunto en los archivos dftraval.csv y dftest.csv.

In [None]:
print('En el conjunto traval hay ', x.shape[0], 'compuestos.')
print('En el conjunto test hay ', xtest.shape[0], 'compuestos.')

### 2.5 Escalamiento de los datos de entrada vía estandarización

¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡ ATENCIÓN: Si no hiciste la parte 2.4, x ahora es xtraval y coleccion es dftraval !!!!!!!!!!!!!!!!!!

Vamos a escalar todos los datos de entrada de cada compuesto a través de estandarización. La forma en la que se hace ésto es mediante la siguiente fórmula:

$$x_{scaled}^{<i>} = \frac{x^{<i>}-\mu^{<i>}}{\sigma^{<i>}}$$

donde $x^{<i>}$ es un dato del $i$ - ésimo rasgo de un compuesto, $\mu^{<i>}$ es el valor promedio de ese rasgo y $\sigma^{<i>}$ es su desviación estándar. El dato escalado es, por lo tanto, $x^{<i>}_{scaled}$.

Al ejecutar el siguiente recuadro, se efectúa la estandarización de los datos de entrada con la fórmula presentada.

In [None]:
###RECUADRO 17###
average = np.mean(xtraval, axis=0)
stdev = np.std(xtraval, axis=0)

xs = (xtraval - average)/stdev

'''LA SIGUIENTE PARTE DEL CÓDIGO GUARDA LA INFORMACIÓN DE LOS PROMEDIOS Y DESVIACIONES ESTÁNDAR DE CADA RASGO COMO UN DICCIONARIO'''
dicfeatstand = {'mean':average,'std':stdev}
np.save('feature_standarisation',dicfeatstand)
        
with open('feature_standarisation.txt','w') as f:
    f.write('x matrix has dimensions '+str(xs.shape[0])+' samples x ' + \
                    str(xs.shape[1]) + ' sites x ' + str(xs.shape[2]) + \
                    ' features'+'\n'+'\n')
    f.write('Features - mean:'+'\n'+'\n')
    f.write(str(average)+'\n'+'\n')
    f.write('Features - std:'+'\n'+'\n')
    f.write(str(stdev))
    f.close()

xs es el tensor xtraval ya con los datos estandarizados. xs es el que debe utilizarse para el entrenamiento de las ANNs.

In [None]:
###RECUADRO 18###
print('Valores promedio de los rasgos:', average)
print('\n')
print('Desviaciones estándar de los rasgos:', stdev)

Puedes revisar en la carpeta de trabajo que el diccionario que contiene los promedios y desviaciones estándar se guardó en dos archivos con el nombre de feature_standarisation, uno con extensión .npy y otro con extensión .txt. 

Para abrir el diccionario guardado en el futuro, necesitas hacerlo de la siguiente manera:
<ul>
 <li> np.open('feature_standarisation.npy').item() </li>
</ul>

Las llaves de dicho diccionario son 'mean' y 'stdev'.

### ================= INFORMACIÓN ADICIONAL OPCIONAL: INICIO =================

¿Quieres revisar cómo se ven los datos de entrada para cada compuesto de la colección después de la estandarización? Activa los siguientes recuadros. Cambia el valor del item si lo necesitas.

In [None]:
item = 60

In [None]:
print('El compuesto',item,'es',coleccion['formula'][item],'y es de tipo',coleccion['target'][item],'.')
print('Este compuesto tiene originalmente',coleccion['sitios'][item],'sitios de Wyckoff.' +'\n')
print('Los rasgos de este compuesto son:')

for feature in range(xs.shape[2]):
    print('x' + str(feature+1) + ' originalmente valía ' + "%.5f" % x[item,0,feature] + ', ahora vale ' + "%.5f" % xs[item,0,feature])

### ================= INFORMACIÓN ADICIONAL OPCIONAL: FIN =================

## 3. Definición de las ANNs | Entrenamiento

Las ANNs que se van a entrenar se definen en un archivo de texto ubicado en la carpeta de trabajo que se llama model_control_file.txt . Este archivo originalmente, si no lo has editado, se ve así:

<img src='images/model_control_file.png'>

En este archivo se están definiendo tres Redes Neuronales Artificiales, con los nombres ANN001, ANN002 y ANN003. Las dos primeras redes neuronales sólo tienen una capa oculta mientras que ANN003 tiene dos. La cantidad de nodos en cada capa oculta es un entero del producto del número indicado en el apartado 'HIDDEN_LAYERS' con el número de rasgos. Así, tenemos 33 rasgos en total:
<ul>
 <li> ANN001 tiene una capa oculta con 66 nodos</li>
 <li> ANN002 tiene una capa oculta con 16 nodos (el redondeo se hace al mayor entero que no rebase 16.5)</li>
 <li> ANN003 tiene una capa oculta con 66 y otra con 16 nodos, en ese orden,</li>
</ul>

En el apartado 'ACTIVATION' se ingresa la función de activación que debe usarse con los nodos de las capas ocultas, ya que para la capa de salida la función de activación en la sigmoide. Las funciones que pueden ingresarse en 'ACTIVATION' son tanh, relu y lineal.

En el apartado 'DROPOUT' se indica la fracción de las neurones en cada capa oculta que se debe apagar durante el entrenamiento por bloques (batch). Esto ayuda a regularizar a la ANN y evitar el sobreajuste.

En el apartado 'LEARNING_RATE' se indica el valor de la velocidad de aprendizaje. Con 'DECAY', se modula que tanto el decaimiento de la velocidad de aprendizaje. 

Dado que el algoritmo de optimización que se utiliza es Adam, los valores de 'BETA_1' y 'BETA_2' deben ingresarse. Se recomienda no modificar los valores por defecto.

El número de iteraciones, épocas en el lenguaje de IA, se explicita en el apartado 'EPOCHS'. La cantidad de muestras en cada bloque para barrer todo el conjunto de entrenamiento por época se explicita en 'BATCH_SIZE'.

En el apartado 'VAL_FRAC' se indica la fracción del conjunto traval que irá destinada a la validación. Con 'VAL_FRAC' se divide el conjunto traval en los conjuntos de entrenamiento y de validación. Anteriormente dividimos el conjunto completo en una proporción 85:15 para crear los conjuntos traval y test. Con la fracción VAL_FRAC:0.177, se divide el conjunto completo en una proporción 70:15:15 para entrenamiento, validación y prueba.

Finalmente, la función de costo, 'COST_FUNCTION', que se está utilizando es la que se llama Binary Cross Entropy.

Se pueden ingresar tantas redes neuronales como se desee en este archivo, siempre que se definan todas las características que aquí se han comentado y que aparecen en el archivo 'model_control_file'. El programa patolli con su función entrenador entrenará todas las ANNs que ahí se definan.

In [None]:
###RECUADRO 19###
contenedor = 'perovskitas'

In [None]:
###RECUADRO 20###
###INGRESA EL NOMBRE DEL ARCHIVO QUE CONTIENE LAS CARACTERÍSTICAS DE LAS ANNs A ENTRENAR
control_file='model_control_file'#POR DEFECTO, ESE ARCHIVO SE LLAMA model_control_file. NO ESCRIBIR LA EXTENSIÓN.

Una vez que se ingresa el nombre del archivo de las características de las ANNs a entrenar, puedes comenzar a entrenar las ANNs cuando ejecutes el siguiente recuadro.

In [None]:
###RECUADRO 21###
#%pylab inline
patolli.entrenador(X=xs, df=dftraval, control_file=control_file, dictionary = diccionario, 
                   directory_tosave=contenedor)

Puedes revisar las gráficas creadas de los entrenamientos completados con el siguiente recuadro.

In [None]:
ann = 'ANN003'
display(Image(filename=contenedor + '/Cost_function_' + ann + '.png'))
display(Image(filename=contenedor + '/Accuracy_' + ann + '.png'))
display(Image(filename=contenedor + '/cnfmat_' + ann + '.png'))

Al ejecutar el recuadro anterior, todos los archivos creados en la carpeta de trabajo se mueven a una carpeta que automáticamente recibe el nombre de la fecha y la hora en la que se ejecuta el recuadro anterior.

Durante el entrenamiento, en la carpeta creada aparecerán otros archivos derivados del entrenamiento de cada ANN definida en model_control_file. Los archivos que se generan son:

<ul type="square">
 <li>El model entrenado: tiene la extensión .h5</li>
 
 <li>Archivo csv, de cuatro columnas: la primera contiene el valor de la función de costo del conjunto de entrenamiento; la segunda es la precisión global ("Accuracy") en la clasificación con las muestras del conjunto de entrenamiento; la tercera es la función de costo del conjunto de validación y la última es la precisión global en la clasificación con las muestras del conjunto de validación. Cada entrada de ese archivo .csv corresponde a una época. Con ese archivo se crean, además las gráficas: 
  <ul> 
   <li> Accuracy_.png y </li>
   <li> Cost_function_.png </li> 
  </ul> 
 </li>
 
 <li> Archivo con terminación _cnfmat.npy, que contienen la matriz de confusión utilizando las muestras de los conjuntos de entrenamiento y de validación. Con este archivo, se crean los archivos PNG:  
  <ul> 
   <li> cnfmat_.png y </li>
   <li> normcnfmat_.png. Este último es la matriz de confusión normalizada. </li> 
  </ul>
 </li>
 
</ul>

Al terminar el entrenamiento de la primera ANN definida en model_control_file.txt, se crea en la carpeta de trabajo el archivo de texto PRFS_model_control_file.txt, en donde se registran las métricas de Precision, Recal y F1-score de cada ANN que se vaya a entrenar. Una vez concluido el entrenamiento de todas las redes, ese archivo se mueve a la carpeta que se creó y que tiene como nombre la fecha y la hora en que se ejecutó el recuadro anterior.

Además, a esa carpeta se copia model_control_file.txt y el diccionario que define a las estructuras cristalinas verdaderas (perovskitas, en este caso).

## 4. Evaluación de las ANNs con las muestras del conjunto de prueba

En caso de que se haya reservado una parte de la colección completa para crear un conjunto de prueba (sección 2.4), se puede evaluar las ANNs entrenadas con muestras que jamás se utilizaron durante el entrenamiento. En el siguiente recuadro, ingresa el nombre de la carpeta donde se guardaron todos los archivos derivados del entrenamiento de las ANNs.

Al ejecutar el siguiente recuadro, se probarán las ANNs.

In [None]:
###RECUADRIO 22###
patolli.test_models(directorio=contenedor)

Antes de probar todos los modelos *.h5, patolli.test_models() estandariza Xtest.npy con los datos guardados sobre el promedio y la desviación estándar en feature_standarisation.npy.

Durante la evaluación, se crea en la carpeta contenedora un archivo con el nombre test_results.txt, que registra las métricas de Precisión, Recall y F1-score de cada ANN con las muestras del conjunto de prueba. 

Cuando termine de evaluarse todos los modelos, elige una métrica y compara el valor de ésta con los archivos PRFS_control_model.txt y test_results.txt. Recuerda que PRFS_control_model.txt registra las métricas mencionadas utilizando las muestras de los conjuntos de entrenamiento y de validación.

####  ¿Cómo elegir el mejor modelo?

El mejor modelo:

<ul>
 <li>Tiene los puntajes más altos, con la métrica que hayas elegido, en los conjuntos de entrenamiento-validación y de prueba</li>
 <li>Dichos puntajes deben ser similares, es decir, reflejan poco "overfitting". En general, el desempeño de la red con el conjunto de entrenamiento-validación es mayor que con el conjunto de prueba. </li>
 <li>Tiene las funciones de costo en el entrenamiento y la validación (gráficas Cost_function_.png) más bajas</li>
 <li>Los valores finales de esas funciones de costo no deben reflejar, idealmente, "overfitting" ni "underfitting"</li>
</ul>

### OPCIONAL: Prueba de los modelos con todas las muestras falsas restantes de la base de datos

Los compuestos con estructura tipo perovskitas constituyen un conjunto de menor tamaño comparado con el resto de los compuestos cristalinos, que pueden considerarse como no-perovskitas. Se puede probar las ANNs desarrolladas utilizando todo los compuestos restantes de red_cod.pkl.

In [None]:
patolli.test_all_false(directorio=contenedor, database = 'red_cod.pkl')

Al ejecutar el recuadro anterior, se crea en la carpeta contenedora el archivo "test_with_all_false.txt". Este archivo registra la precisión en la clasificación de las muestras falsas con base en el número de sitios de Wyckoff con los que se describen dichas muestras. En otras palabras, el puntaje que se registra corresponde a la métrica conocida como Recall.

Este evaluación es una muestra del alcance que tienen los rasgos utilizados para la definición de nuestros modelos, ya que no hay perovskitas con menos de 3 sitios de Wyckoff. 

#### Comentarios finales

Si quieres entrenar otros modelos utilizando otro tipo de estructura, número de sitios de Wyckoff, etc., reinicia el Kernel y sigue todas las instrucciones nuevamente.

#### Agradecimientos

Este trabajo es parte de la tesis doctoral de J. Iván Gómez Peralta. Se agradece al CONACyT (beca número 336003), al Laboratorio de Inteligencia Artificial del IFUNAM por las facilidades dadas, y al Dr. Bokhimi por su valiosa guía en el desarrollo de este trabajo.