# Etapa 1, comprensión del negocio

## Imports

In [1]:
import pandas as pd
import numpy as np

## Carga datos

In [2]:
df=pd.read_csv("./dataset.csv")

## Objetivos del negocio

> Captura de información

- Vista general

In [3]:
df

Unnamed: 0,Chemical formula,A,B,In literature,Valence A,Valence B,Radius A [ang],Radius B [ang],Lowest distortion,Formation energy [eV/atom],...,Magnetic moment [mu_B],Volume per atom [A^3/atom],Band gap [eV],a [ang],b [ang],c [ang],alpha [deg],beta [deg],gamma [deg],Vacancy energy [eV/O atom]
0,Ac2O3,Ac,Ac,False,element not in BV,element not in BV,1.12,1.12,cubic,-2.732,...,0.000,20.836,0.332,4.705,4.705,4.705,90.0,90.0,90.0,3.150
1,AcAgO3,Ac,Ag,False,element not in BV,element not in BV,1.12,0.95,orthorhombic,-1.957,...,0.000,14.485,0.000,5.779,6.077,8.248,90.0,90.0,90.0,0.817
2,AcAlO3,Ac,Al,False,element not in BV,element not in BV,1.12,0.54,cubic,-3.532,...,0.000,11.487,4.307,3.858,3.858,3.858,90.0,90.0,90.0,6.695
3,AcAsO3,Ac,As,False,element not in BV,element not in BV,1.12,0.52,orthorhombic,-2.398,...,0.000,14.355,0.000,5.780,6.012,8.262,90.0,90.0,90.0,3.634
4,AcAuO3,Ac,Au,False,element not in BV,element not in BV,1.12,0.93,orthorhombic,-2.006,...,0.000,15.190,0.745,5.899,6.750,7.630,90.0,90.0,90.0,0.807
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5324,ZrWO3,Zr,W,False,1,5,0.89,0.62,cubic,-1.637,...,0.339,12.200,0.000,3.936,3.936,3.936,90.0,90.0,90.0,0.191
5325,ZrYO3,Zr,Y,False,not balanced,not balanced,0.89,0.90,cubic,-2.126,...,0.200,15.277,0.000,4.243,4.243,4.243,90.0,90.0,90.0,-4.920
5326,ZrYbO3,Zr,Yb,False,not balanced,not balanced,0.89,0.95,orthorhombic,-3.455,...,0.000,13.136,4.007,5.558,5.726,8.254,90.0,90.0,90.0,-6.177
5327,ZrZnO3,Zr,Zn,False,not balanced,not balanced,0.89,0.74,cubic,-1.630,...,0.001,10.804,0.000,3.780,3.780,3.780,90.0,90.0,90.0,-0.762


- Obtener información específica de los features que componen al dataset

In [4]:
df.columns

Index(['Chemical formula', 'A', 'B', 'In literature', 'Valence A', 'Valence B',
       'Radius A [ang]', 'Radius B [ang]', 'Lowest distortion',
       'Formation energy [eV/atom]', 'Stability [eV/atom]',
       'Magnetic moment [mu_B]', 'Volume per atom [A^3/atom]', 'Band gap [eV]',
       'a [ang]', 'b [ang]', 'c [ang]', 'alpha [deg]', 'beta [deg]',
       'gamma [deg]', 'Vacancy energy [eV/O atom]'],
      dtype='object')

- Estructura del dataset (Número de filas y columnas)

In [5]:
df.shape

(5329, 21)

> Objetivo del negocio

Una vez recopilada y entendida la información del negocio, se llegó a conocer la situación general, sobre el mismo. Donde encontramos, que distintos parámetros físicos y químicos de los elmentos que conforman la estructura perovskita, pueden ayudar a conocer su estructura cristalina y en consecuencia, sus parámetros de red. Conociendo lo anterior, se llega en común acuerdo al objetetivo del negocio, el cual es:

* Predecir de manera rápida y eficiente la microestructura de las perovskita,de acuerdo a parámetros macrópicos, facilmente medibles. 

Esto es necesario, pues resulta más fácil medir parámetros macrópicos (químicos y físicos) que microscópcio, pues estos últimos utilizan técnicas de microscopía avanzada. Hay que tener en cuenta, que es posible que una persona con extenso conociemiento en las perovskitas pueda hacer predicción de la microestructura conociendo únicamente parámetros mocroscópicos fácilmente medibles, sin embargo, este proceso requiere una inspección detallamda, manual y poco eficiente, pues requiere personas muy especializadas y mucho tiempo. 

> Métricas de aceptación

De acuerdo al objetivo de negocio, se plantean las siguientes métricas de aceptación:

* Diseñar e implementar una alternativa que permita una mayor efiencia tanto de recursos como de tiempo.
* la alternativa debe permitir una rápida para predecir la microestrcutra de la provskita.
* La alternativa debe se de bajo costo.


## Objetivos del DM (Data-mining)

> Background

De acuerdo a los objetivos de negocio previamente planteados,a contiuación se determina las necesidades técnicas para el cumplimiento del mismo. 

Desdes un punto de vista ténico, se encontró que la alternativa debe emplear una relativamente baja complejidad computacional, permitiendo que el sistema sea eficiente, reduciendo los costos al no necesitar asistencia humana, y disminuyendo el tiempo necesario para lograr la clasificación. 

## Recursos

> Listado de recursos

Desde una perspectiva investigativa, disponemos de un dataset, compuesto de 5329 instancias,que podríamos catalogar de la siguiente forma:

* Posee distintos descriptores correspondientes a parámetros físicos y químicos relacionados a cantidades macroscópicas, como los siguientes:
    -. Especia A, y especie B (pues la pervoskita es de la forma ABO3)
    -. Radio atómico de las especies.
    -. Energía de la banda valencia de las especies.
    -. Estabilidad de la molécula.
    -. Momento magnético de la estructura.
    -. Banda del gap.

* Posee además dos distintos tipos de targets, correspondientes a la microestructura de la Perovskita. El primer tipo de target, es del tipo categótico (discreto), y concierne al tipo de estructura cristalina de la molécula. El segundo tipo de target, es del tipo numérico (continuo), y concierne a los parámetros de red, las distancias (3) y los ángulos formados entre ellas (3).

Desde una perspectiva material, contamos además con los siguientes recursos:
* Capital humano (2 personas).
* Recursos computacionales (2 computadores y un entorno para correr jupyter notebooks en la nube).

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=a7ebb3ed-5c94-423a-a3b7-e9cd0209ff98' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>