# Minería de datos en ciencias de materiales
- Fabián Castro Contreras 
- Sebastian Monteiro 
- Simón Campos Rojas 
- Dylan Riquelme  
- Benjamín Mancilla XD

## Introducción: Problema y Motivación
La ciencia de materiales es un campo en constante evolución que desempeña un papel fundamental en la creación de tecnologías innovadoras y en la mejora de los materiales existentes para una amplia gama de aplicaciones. En este contexto, la minería de datos emerge como una poderosa herramienta que nos permite desentrañar patrones, descubrir relaciones y extraer información valiosa a partir de vastos conjuntos de datos relacionados con materiales.

Existen poderosas bases de datos que han utilizado algoritmos complejos y supercomputadoras para predecir propiedades de materiales. Una base de datos famosa y ampliamente utilizada debido a la calidad de sus datos es *Materials Project*, la cual presenta información de más de 150,000 materiales. Por lo tanto, encontrar patrones en las propiedades desemboca en un área para la minería de datos.

## Materials Project
*Materials Project* cuenta con una API especialmente diseñada para el acceso a esta base de datos no SQL escrita en MongoDB. Dado la vasta cantidad de datos, se presentará el código utilizado para extraer los datos, pero **NO se sugiere ejecutar este código** ya que tarda bastante en descargar todo.

La API utilizada se llama *mp_api* y puede ser instalada usando *pip*.

La base de datos contiene varias clases, las cuales hay que descargar una por una con las propiedades de interés.

# Exploración de Datos

## 1.- Consiguiendo los datos:

En primera instancia, se obtiene una llave mediante una cuenta creada en la pagina de *Materials Project* para acceder a la base de datos de la misma, luego se descargan los datos y se almacenan en archivos .csv. Despues se crea un repositorio en *Github* con todos los datos, los requerimientos para el proyecto (librerias) y los archivos *.ipynb* para el futuro codigo. 
Para revisar los atributos extraídos para cada clase o dataset, ir a la [tabla anexada](#tabla-de-atributos).

## 2.- Limpieza de datos

A priori no ser requiere una limpieza de datos tan exhaustiva para los datos, dado que *Materials Project* tiene los datasets muy completos. Sin embargo, se tuvo que eliminar una columna repetida llamada *"Unnamed: 0"* porque correspondían a los ID´s repetidos y se dejaron todas las columnas solicitadas en el query inicial.

Luego se procede a unir los dataframes mediante un merge en base a la ID de cada objeto, para facilitar la exploración de datos y la interpretación de estos, resultando en un dataframe con 7290 filas y 22 columnas. A continuación se muestran los primeros 5 objetos del dataframe:

In [None]:
result.head()

Unnamed: 0,material_id,e_total,e_ionic,e_electronic,n,band_gap,efermi,is_metal,is_magnetic,exchange_symmetry,...,volume,density,density_atomic,possible_species,possible_valences,average_oxidation_states,energy_per_atom,formation_energy_per_atom,equilibrium_reaction_energy_per_atom,decomposition_enthalpy
0,mp-28944,21.521069,13.94252,7.578549,2.752916,1.5135,1.973873,False,False,186,...,208.023425,5.939485,34.670571,"['Bi3+', 'Cl-', 'Te2-']","[3.0, 3.0, -2.0, -2.0, -1.0, -1.0]","{'Bi': 3.0, 'Te': -2.0, 'Cl': -1.0}",-3.902939,-0.958829,-0.051867,-0.051867
1,mp-28096,3.218928,0.598031,2.620897,1.618918,2.8804,-1.097983,False,False,43,...,465.547991,1.926612,29.096749,"['S+', 'Cl-']","[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, -1.0,...","{'S': 1.0, 'Cl': -1.0}",-3.466514,-0.474021,-0.075092,-0.075092
2,mp-863678,10.737604,6.585117,4.152487,2.037765,1.6514,2.395559,False,False,146,...,261.201622,5.454615,13.060081,"['O2-', 'K+', 'Sb5+', 'Zn2+']","[1.0, 2.0, 2.0, 2.0, 2.0, 5.0, 5.0, 5.0, -2.0,...","{'K': 1.0, 'Zn': 2.0, 'Sb': 5.0, 'O': -2.0}",-5.816968,-1.922136,-0.022649,-0.022649
3,mp-10461,13.624477,9.99883,3.625647,1.904113,2.9095,2.551343,False,False,167,...,331.052135,5.052121,15.047824,"['O2-', 'Sb5+', 'Na+', 'Sr2+']","[1.0, 1.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 5.0, ...","{'Na': 1.0, 'Sr': 2.0, 'Sb': 5.0, 'O': -2.0}",-6.392569,-2.738011,-0.088787,-0.08607
4,mp-8756,8.849831,4.815258,4.034573,2.008625,2.5447,0.345471,False,False,129,...,146.040316,2.842588,24.340053,"['Li+', 'Se2-', 'K+']","[1.0, 1.0, 1.0, 1.0, -2.0, -2.0]","{'K': 1.0, 'Li': 1.0, 'Se': -2.0}",-3.542389,-1.370645,-0.034785,-0.034785


Notar que cada columna es un atributo físico de los materiales. Al hacer merge, algunos materiales ya no aparecen en la lista, se redujo la cantidad de filas de ~150.000 a ~7.000. 
Esto se produjo porque para el dataset de materiales dieléctricos no están los cálculos de los atributos para todos los materiales.

Este análisis se realiza para poder hacer una mirada superficial a las matrices de covarianza, correlación y stats varias. Más adelante es posible que se trabaje con los dataframes por separado debido a la variedad de estructura entre los distintos materiales, o también de alguna forma establecer una estructura universal para poder realizar el merge, pero no perdiendo una cantidad de datos tan grandes.

## 3.- Estadísticas de los datos

A continuación se muestra la descripción de los datos.

In [None]:
numeric_columns.describe()

Unnamed: 0,e_total,e_ionic,e_electronic,n,band_gap,efermi,exchange_symmetry,num_magnetic_sites,volume,density,density_atomic,energy_per_atom,formation_energy_per_atom,equilibrium_reaction_energy_per_atom,decomposition_enthalpy
count,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,7290.0,4647.0,7290.0
mean,50.920612,32.398492,18.52212,2.43602,2.336182,1.724809,94.329081,0.560494,289.837992,4.402732,18.878844,-5.782469,-1.733503,-0.125225,-0.075678
std,1655.107848,1487.919679,625.658741,3.549444,1.697134,2.388488,76.760838,1.64273,221.638154,1.862653,8.587621,1.714053,0.982938,0.348267,0.31618
min,1.155248,0.0,-64.837332,0.0,0.0,-7.80468,1.0,0.0,11.286588,0.02367,5.643294,-11.047931,-4.491319,-4.427975,-4.427975
25%,7.931442,4.000849,2.94033,1.714739,1.003525,0.215491,15.0,0.0,143.530177,3.084127,12.598164,-7.131346,-2.500231,-0.100782,-0.078266
50%,11.66225,6.472804,4.264421,2.065047,1.9915,1.749932,72.0,0.0,233.974644,4.129389,15.950793,-5.739387,-1.686184,-0.041113,-0.023512
75%,19.016789,11.364285,6.5588,2.561015,3.418875,3.227443,164.0,0.0,367.66653,5.351808,23.677849,-4.422131,-0.925363,-0.01622,0.000381
max,126575.316823,126567.273642,46857.91051,216.466881,12.1391,11.149808,230.0,24.0,3998.471538,17.732855,132.548261,-0.219326,5.212425,0.0,5.212425


Notar que los atributos **e_total, e_ionic, e_electronic y n** tienen valores muy extremos, por esto eso que poseen una desviación estándar tan alta. Además, la diferencia entre los valores mínimos y máximos de estos atributos es muy grande, lo que reafirma la dispersión de los datos. Esto se puede ver en los histogramas de cada atributo:

![](Figuras/Histogramas.png)

Esta matriz de correlación indica varias cosas:
- Hay una gran correlación entre la energia de reacción en equilibrio y la entalpia de descomposicion (0.93)
- Entre la energía de fermi y la densidad hay una correlación interesante
- Entre la energía total y n hay correlación de 0.4 y entre e_total y e_electronic hay una correlación de 0.44
- Entre e_total y e_ionic hay una correlación de 0.93
Sobre las demás relaciones, hay muy poco mas que se pueda rescatar.

De la matriz de covarianza no se puede extraer mucho mas

Para obtener una vista general de los datos de cada dataframe, primero se grafico en un histograma las frecuencias cada atributo. Para ello se evitaron aquellas columnas que contienen valores en string. Se dejo aparte el dataframe de oxidation_states, que no contiene valores numericos, y del dataframe material, la columna composition, que tiene la composicion quimica del material. Luego, se realizo un resumen estadistico de los atributos numericos. Calculando la cantidad de datos, media, desviacion estandar, minimo, los cuartiles y el maximo.

Lo primero es notar es la presencia de la forma chi-cuadrado en algunos histogramas, como también algunas forma gaussianas. Estos histogramas permiten visualizar algunos thresholds para una futura limpieza de datos.

# Inquietudes a responder
- ¿Podemos predecir el comportamiento de un material sin experimentar con el?
- ¿Existen grupos de materiales con características similares?
- ¿Podemos encontrar materiales extraños, por ejemplo, material mágnetico que no sea metálico? 
- ¿Podemos identificar una caracteristica que influya en lo bueno que puede ser un conductor?


- ¿Existen grupos de materiales con características similares?

Para responder esta pregunta, es directo usar clustering. Se puede probar con DBSCAN o K-means. Luego, una pregunta interesante es ver que característica es mas decididora para determinar la pertenencia de un punto a un clustering. Por ejemplo, si ploteamos los puntos con colores que dependen del valor de un atributo, y este color es muy intenso dentro de un cluster en particular, no sería descabellado pensar que esta característica influye bastante en este material y sus características.



- ¿Podemos identificar una caracteristica que influya en lo bueno que puede ser un conductor?



Primero, vamos a filtrar a todos los conductores usando el atributo band_gap  = 0 , esto pues se sabe que todos los conductores tienen este valor. Los semiconductores tienen un bandgap > 0 y los aislantes tienen band gap mucho mas grande. La siguiente imagen ejemplifica un material con band gap = 0 . 

Notar como en el grafico de la derecha, que muestra la densidad de estados, no hay saltos en la función de color rojo.

![Material con band gap = 0](band_gap1.png)

El siguiente material tiene un band gap distinto de cero, osea, los electrones necesitan un "empujoncito" para pasar de un estado ligado al estado libre de un conductor. Este empujoncito se puede conseguir con una diferencia de potencial o con el efecto túnel. Aquí la función roja no es contínua en todo el espacio, especificamente alrededor de 0.

![Material con band gap != 0](bandgap2.png)


Luego, debido a que no tenemos labels, clasificar no tendría sentido. Por esta razón , se realizará un clustering.

Primero, se probará con k-means . Para inspeccionar la cantidad idónea de clusters, primero se realizará la técnica del codo.

Con la cantidad de clusters obtenida, se realizará k-means. 

También se probará con DBSCAN. La intuición física nos dice que no servirá mucho, pues la densidad de puntos no debería ser un factor de clasificación.

El cluster que nos interesa es el jerárquico, pues queremos indentificar que tan buenos son los conductores. Queremos identificar alguna característica que tenga un gradiente que coincida con la forma en la que se agrupan los clusters. Una forma de visualizar esto sería algo como esto:

![EJEMPLO_CLUSTER](CLUSTER.png)

Notar como los puntos se vuelven mas rojos a medida que nos acercamos al centro, una especie de gradiente hacia el centro nos podría indicar que esta característica influye directamente en lo bueno (o malo) que es un conductor. Se utilizará PCA para dimensionar a un gráfico.

Posteriormente se realizará una validación de los métodos de clustering e intentaremos identificar alguna característica o estructura interesante.

# Anexos

## Tabla de atributos

| Clase              | Atributos                                                                                        |
|--------------------|----------------------------------------------------------------------------------------------------|
| properties_mat (MaterialsDoc)    | material_id, composition, volume, density, density_atomic                                           |
| properties_thermo (ThermoDoc) | material_id, energy_per_atom, formation_energy_per_atom, equilibrium_reaction_energy_per_atom, decomposition_enthalpy |
| properties_electro (ElectroDoc) | material_id, band_gap, efermi, is_metal, is_stable                                                   |
| properties_magnetic (MagneticDoc)| material_id, is_magnetic, exchange_symmetry, num_magnetic_sites                                       |
| properties_dielectric (DielectricDoc) | material_id, e_total, e_ionic, e_electronic, n                                                       |
| properties_oxidate_states (OxidationStateDoc) | material_id, possible_species, possible_valences, average_oxidation_states                        |


Atributos extraídos según la información brindada en la [documentación de Materials Project](https://api.materialsproject.org/docs).