# Primera entrega ML
---

### Título de proyecto

# Selección de Modelo de Machine Learning  para descripción de Nanopartículas Metálicas: 🌕🌟🌕

---

### Tema

Los nanomateriales tienen restricciones de tamaño finito y descriptores morfológicos relacionados con la configuración o la forma (como las moléculas), pero también composiciones variables, descriptores cristalográficos y defectos (como los materiales). En el analisis exploratorio de datos realizado anteriormente, se estudiaron de manera estadística algunas de estas tantas características de las nanopartículas, se concluyó su relación con la energía de las mismas y se halló el valor físicamente importante de la energía potencial media por átomo, para nanoparticulas de entre 236  y 14277  átomos. Pero la gran mayoría de los nanomateriales no pueden monodispersarse perfectamente y presentan millones de configuraciones posibles que modifican la energía potencial de la nanopartícula. Por lo que cada una tendrá un valor específico energía potencial por átomo. 

Esto representa un desafío único que con métodos de machine learning es posible resolver, teniendo en cuenta mayor cantidad de caraterísticas descritivas de las nanopartículas. Entonces en el presente trabajo se intentará responder las siguiente preguntas ¿Cual es el conjunto correcto de características para describir las nanopartículas y, una vez elegidas, cómo se selecciona el mejor modelo de aprendizaje automático para entrenar y predecir la energía por átomo de cada nanoestructura?

Se evaluaran diferentes modelos de machine learning utilizando distintos conjuntos de características, lo que dará como resultado diversos experimentos únicos sobre el mismo conjunto de datos de 4000 nanopartículas de oro utilizado en el analisis exploratorio de datos realizado. Posteriormente y sí el tiempo es suficiente, se utilizarán los demás datasets para analizar si los modelos funcionan de la misma manera al cambiar el metal noble que conforma las nanoestructuras.

---
### Datasets y fuentes alternativas de datos
Incluye aquí una breve descripción del dataset o datasets para tu proyecto. Incluye también las fuentes de cada uno de ellos.

datasets_enteros:
* ["Gold Nanoparticle"](https://data.csiro.au/collection/csiro:40669v1)
* ["Silver Nanoparticle"](https://data.csiro.au/collection/csiro:23472v3)
* ["Palladium Nanoparticle"](https://data.csiro.au/collection/csiro:40618v1)
* ["Platinum Nanoparticle"](https://data.csiro.au/collection/csiro:36491v2)

In [16]:
import pandas as pd

In [17]:
data_Au = pd.read_csv("data/Au_nanoparticle_dataset.csv")

In [18]:
data_Au.head()

Unnamed: 0,ID,T,tau,time,N_total,N_bulk,N_surface,Volume,R_min,R_max,...,q6q6_S14,q6q6_S15,q6q6_S16,q6q6_S17,q6q6_S18,q6q6_S19,q6q6_S20,q6q6_S20+,Total_E,Formation_E
0,1,273,2.5e-05,1,1599,1014,585,2.71e-26,15.5898,19.4516,...,0,0,0,0,0,0,0,0,-5908.6345,343.4555
1,2,273,2.5e-05,2,1642,1034,608,2.7799999999999996e-26,15.3996,24.1755,...,0,0,0,0,0,0,0,0,-6035.4034,384.8166
2,3,273,2.5e-05,3,4637,3365,1272,7.85e-26,21.9199,31.0305,...,0,0,0,0,0,0,0,0,-17330.166,800.504
3,4,273,2.5e-05,4,7189,5292,1897,1.22e-25,23.2542,37.8795,...,0,0,0,0,0,0,0,0,-26937.201,1171.789
4,5,273,2.5e-05,5,11004,8508,2496,1.86e-25,27.12,39.7614,...,0,0,0,0,0,0,0,0,-41427.901,1597.739


In [19]:
print(data_Au.columns.tolist())

['ID', 'T', 'tau', 'time', 'N_total', 'N_bulk', 'N_surface', 'Volume', 'R_min', 'R_max', 'R_diff', 'R_avg', 'R_std', 'R_skew', 'R_kurt', 'S_100', 'S_111', 'S_110', 'S_311', 'Curve_1-10', 'Curve_11-20', 'Curve_21-30', 'Curve_31-40', 'Curve_41-50', 'Curve_51-60', 'Curve_61-70', 'Curve_71-80', 'Curve_81-90', 'Curve_91-100', 'Curve_101-110', 'Curve_111-120', 'Curve_121-130', 'Curve_131-140', 'Curve_141-150', 'Curve_151-160', 'Curve_161-170', 'Curve_171-180', 'Avg_total', 'Avg_bulk', 'Avg_surf', 'TCN_0', 'TCN_1', 'TCN_2', 'TCN_3', 'TCN_4', 'TCN_5', 'TCN_6', 'TCN_7', 'TCN_8', 'TCN_9', 'TCN_10', 'TCN_11', 'TCN_12', 'TCN_13', 'TCN_14', 'TCN_15', 'TCN_16', 'TCN_17', 'TCN_18', 'TCN_19', 'TCN_20', 'BCN_0', 'BCN_1', 'BCN_2', 'BCN_3', 'BCN_4', 'BCN_5', 'BCN_6', 'BCN_7', 'BCN_8', 'BCN_9', 'BCN_10', 'BCN_11', 'BCN_12', 'BCN_13', 'BCN_14', 'BCN_15', 'BCN_16', 'BCN_17', 'BCN_18', 'BCN_19', 'BCN_20', 'SCN_0', 'SCN_1', 'SCN_2', 'SCN_3', 'SCN_4', 'SCN_5', 'SCN_6', 'SCN_7', 'SCN_8', 'SCN_9', 'SCN_10', 'SCN

La variable target será la energia por átomo. Es decir que la información de la energía total ('Total_E') sirve para calcular la target, al dividirla por la variable ('N_total'). 
Luego se eliminan las variables 'Total_E', 'Formation_E'.

In [20]:
data_Au["E_atomo"]=data_Au.Total_E/data_Au.N_total
data_Au.drop(['Total_E', 'Formation_E'], axis=1)

Unnamed: 0,ID,T,tau,time,N_total,N_bulk,N_surface,Volume,R_min,R_max,...,q6q6_S13,q6q6_S14,q6q6_S15,q6q6_S16,q6q6_S17,q6q6_S18,q6q6_S19,q6q6_S20,q6q6_S20+,E_atomo
0,1,273,0.000025,1,1599,1014,585,2.710000e-26,15.5898,19.4516,...,1,0,0,0,0,0,0,0,0,-3.695206
1,2,273,0.000025,2,1642,1034,608,2.780000e-26,15.3996,24.1755,...,0,0,0,0,0,0,0,0,0,-3.675642
2,3,273,0.000025,3,4637,3365,1272,7.850000e-26,21.9199,31.0305,...,0,0,0,0,0,0,0,0,0,-3.737366
3,4,273,0.000025,4,7189,5292,1897,1.220000e-25,23.2542,37.8795,...,0,0,0,0,0,0,0,0,0,-3.747003
4,5,273,0.000025,5,11004,8508,2496,1.860000e-25,27.1200,39.7614,...,1,0,0,0,0,0,0,0,0,-3.764804
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,3996,973,0.000250,6,1509,950,559,2.550000e-26,13.8048,23.1729,...,0,0,0,0,0,0,0,0,0,-3.543379
3996,3997,973,0.000250,7,2315,1469,846,3.920000e-26,12.0020,36.7573,...,0,0,0,0,0,0,0,0,0,-3.549946
3997,3998,973,0.000250,8,2764,1905,859,4.680000e-26,18.8611,24.6101,...,0,0,0,0,0,0,0,0,0,-3.573187
3998,3999,973,0.000250,9,3148,2199,949,5.330000e-26,18.7624,26.0008,...,0,0,0,0,0,0,0,0,0,-3.577218


Es posible realizar una separación de la base de datos según el tipo de carcteristicas que describe cada variable. Se agrupan en 3 conjuntos diferentes que capturan diferentes tipos de información sobre las nanopartículas. Los 3 conjuntos de características se denominan Bulk (B), Superficiales (S) y Totales (T). El conjunto de características de bulk solo contendrá características que pertenecen a los átomos interiores, incluidos los números de coordinación, los tipos de red y los parámetros de orden. El segundo conjunto solo contiene características que pertenecen a los átomos exteriores, incluidos los números de coordinación, las orientaciones de las facetas de la superficie y los rangos de curvaturas de la superficie. El conjunto de características totales solo contiene características que involucran medidas globales (como el radio de nanopartículas), promedios y números de coordinación y parámetros de orden calculados sobre todos los átomos en la partícula.

In [21]:
import re

In [22]:
bulk = [i for i in data_Au if  any(re.findall( "bulk|BCN_|FCC|HCP|ICOS|DECA" , i)) | (i.startswith('B')) | ("_B" in i)]
super = [i for i in data_Au if  any(re.findall( "surf|_S" , i)) | any(map(i.startswith, ["S_","Curve","SCN_"]))]
totales = [i for i in data_Au if  any(re.findall( "total|Volume|_T|bonds|angle" , i)) |  any(map(i.startswith, ['R',"TCN_"]))]


In [23]:
data_bulk = data_Au[bulk]
data_super = data_Au[super]
data_total = data_Au[totales]

In [24]:
data_bulk.head(5)

Unnamed: 0,N_bulk,Avg_bulk,BCN_0,BCN_1,BCN_2,BCN_3,BCN_4,BCN_5,BCN_6,BCN_7,...,q6q6_B12,q6q6_B13,q6q6_B14,q6q6_B15,q6q6_B16,q6q6_B17,q6q6_B18,q6q6_B19,q6q6_B20,q6q6_B20+
0,1014,12.5552,0,0,0,0,0,0,0,0,...,30,7,2,0,0,0,0,0,0,0
1,1034,12.4952,0,0,0,0,0,0,0,0,...,19,10,2,0,0,0,0,0,0,0
2,3365,12.3902,0,0,0,0,0,0,0,0,...,959,247,21,0,0,0,0,0,0,0
3,5292,12.3027,0,0,0,0,0,0,0,1,...,2775,732,117,0,0,0,0,0,0,0
4,8508,12.2159,0,0,0,0,0,0,0,0,...,5029,982,136,0,0,0,0,0,0,0


In [25]:
data_super.head(5)

Unnamed: 0,N_surface,S_100,S_111,S_110,S_311,Curve_1-10,Curve_11-20,Curve_21-30,Curve_31-40,Curve_41-50,...,q6q6_S12,q6q6_S13,q6q6_S14,q6q6_S15,q6q6_S16,q6q6_S17,q6q6_S18,q6q6_S19,q6q6_S20,q6q6_S20+
0,585,0,81,119,0,105,229,203,47,1,...,0,1,0,0,0,0,0,0,0,0
1,608,0,65,81,1,111,213,204,64,5,...,1,0,0,0,0,0,0,0,0,0
2,1272,4,204,168,24,306,304,443,171,23,...,1,0,0,0,0,0,0,0,0,0
3,1897,8,178,246,46,383,282,729,403,72,...,9,0,0,0,0,0,0,0,0,0
4,2496,18,204,269,57,451,328,966,585,121,...,7,1,0,0,0,0,0,0,0,0


In [26]:
data_total.head(5)

Unnamed: 0,N_total,Volume,R_min,R_max,R_diff,R_avg,R_std,R_skew,R_kurt,Avg_total,...,q6q6_T12,q6q6_T13,q6q6_T14,q6q6_T15,q6q6_T16,q6q6_T17,q6q6_T18,q6q6_T19,q6q6_T20,q6q6_T20+
0,1599,2.71e-26,15.5898,19.4516,3.8618,17.3706,0.623,-0.0435,-0.0731,11.177,...,30,8,2,0,0,0,0,0,0,0
1,1642,2.7799999999999996e-26,15.3996,24.1755,8.776,17.6061,0.9295,2.0673,9.9355,11.0719,...,20,10,2,0,0,0,0,0,0,0
2,4637,7.85e-26,21.9199,31.0305,9.1106,25.3692,1.0701,0.3618,1.2311,11.3862,...,960,247,21,0,0,0,0,0,0,0
3,7189,1.22e-25,23.2542,37.8795,14.6253,29.7011,2.3732,0.1431,-0.1013,11.3198,...,2784,732,117,0,0,0,0,0,0,0
4,11004,1.86e-25,27.12,39.7614,12.6415,34.2831,1.9397,-0.3849,-0.0888,11.3851,...,5036,983,136,0,0,0,0,0,0,0


In [None]:
def save_file(file):

    # Comprobar que existe el fichero/ directorio
    print(os.getcwd())
    
    os.makedirs(ruta_dir,exist_ok=True)
    ruta_file=os.path.join(ruta_dir,f'{file}')
    if os.path.exists(ruta_file):
        # Crear directorio y fichero si no existe
        with open(ruta_file, mode='a',newline='\n') as out:
            # Guardar la informacion
            [out.write(cont+';') if (content[-1]!=cont) else out.write(cont) for cont in content]
            out.write('\n')
        
    else:   
        with open(ruta_file, mode='w') as out:
            out.write(head+'\n')

In [31]:
print(os.getcwd())

/Users/jofi/Desktop/DataScience/ProjectoML/ML_NanoparticulasAu_TBDS/1ra_Entrega


In [37]:
import os

os.mkdir("./data/subdata/")
data_total.to_csv("./data/subdata/data_total.csv", index=False)
data_bulk.to_csv("./data/subdata/data_bulk.csv", index=False)
data_super.to_csv("./data/subdata/data_super.csv", index=False)

--- 

### Tipo de Machine Learning:
 * Regresión Lineal

In [28]:
from sklearn.linear_model import LinearRegression

---

### Variable Target:
* Energía por átomo ('E_atomo')

In [29]:
data_Au["E_atomo"]

0      -3.695206
1      -3.675642
2      -3.737366
3      -3.747003
4      -3.764804
          ...   
3995   -3.543379
3996   -3.549946
3997   -3.573187
3998   -3.577218
3999   -3.578624
Name: E_atomo, Length: 4000, dtype: float64

--- 

### Metricas escogidas para evaluar los modelos: 

* Raíz cuadrada del error cuadrático medio ($RMSE$) 
* Coeficiente de determinación ($R^2$)


In [30]:
from sklearn.metrics import mean_squared_error, r2_score
metricas = [r2_score, mean_squared_error] 

---