<h1><center>VALIDACIÓN DEL MODELO</center></h1>

<br>

<div align = "justify">
    La validación del modelo matemático es una etapa crucial dentro del diseño experimental debido a que garantiza tanto la viabilidad como el dominio de operación del modelo que describe el fenómeno físico-químico de estudio.
</div>

<br>

<div align = "justify">
    El planteamiento de la Relación Cuantitativa Estructura - Propiedad (QSPR, por sus siglas en inglés) conlleva las siguientes prácticas:
    <br>
    <br>
    <i>Prácticas comunes:</i>
    <ol type='1'>
        <li><strong>Preparación de los datos experimentales:</strong>
            Incluye $(i)$ la recolección y <i>limpieza</i> de los datos; $(ii)$ cálculo de los decriptores químicos que contengan las propiedades objetivo; y $(iii)$ unión de la propiedad y la respuesta en una base de datos de tipo SPR.
        </li>
        <li><strong>Generación del modelo:</strong>
            Implica establecer relaciones estadísticas entre las propiedades objetivo y la respuesta experimental.
        </li>
     <br>
        <i>Prácticas <strong>no</strong> comunes:</i>
        <br>
     <br>
        <li><strong>Validación del modelo:</strong>
            Implica la evaluación cuantitativa de la solidez del modelo y su capacidad predictiva.
        </li>
        <li><strong>Definición del dominio de aplicación:</strong>
            Dominio matemático donde es viable emplear el modelo propuesto. 
        </li>
    </ol>
</div>

In [None]:
%store -r Modelo
%store -r Data_Val
%store -r Data_Plant
%store -r nombre_bd
%store -r Estab
%store -r Datos
%store -r archivo

## Metodologías de validación

<br>

Existen diversas metodologías de validación, entre ellas:

* __LMO:__ La premisa de esta metodología está en que si un modelo QSPR tiene una media alta $q^2$ durante el proceso de validación, se puede concluir que el modelo obtenido es robusto. Los $n$ datos se dividen en $G$ grupos de igual tamaño, $m_j \left( = n/G \right)$. Dependiendo del valor de $n$, $G$ generalmente se selecciona entre 2 y 10. Un gran grupo de modelos son desarrollados con cada $n-m_j$ objetos en el conjunto de entrenamiento y $m_j$ objetos en el conjunto de validación. Para cada modelo correspondiente, se predicen los objetos $m_j$ y se computa $q^2$. Son deseables altos valores de $q^2$.

* __Bootstrapping:__ Metodología de remuestreo que funciona con una muestra representativa de la población. Como sólo hay un grupo de datos, el bootstrapping simula qué ocurriría si las muestras se seleccionaran de manera aleatoria. En un procedimiento de validación típico, se generan $k$ grupos aleatorios de tamaño $n$ del grupo de datos original. Al igual que la validación LMO, es deseable un alto $q^2$ que demuestre la robustez del modelo.

* __Prueba de aleatoriedad - Y:__ Técnica ampliamente usada para garantizar la robustez del modelo QSPR. En esta prueba, el vector de variables dependiente, Y, se cambia de manera aleatoria para la generación de un nuevo modelo QSPR usando la matriz original de variables independientes. El proceso se repite en varias ocasiones. Se espera que los modelos QSPR resultantes tengan bajos valores de $R^2$ y LOO (Leave-One-Out) $q^2$. Es probable, aunque infrecuente, que se obtengan altos valores $q^2$ debido a una correlación fortuita o una redundancia estructural del conjunto de datos. Si todos los modelos QSPR obtenidos por aleatoriedad - Y presentan altos valores de $R^2$ y $q^2$, implica que un modelo QSPR aceptable __no__ puede ser obtenido por el grupo de datos dado.

* __Validación externa:__ 

    * _Selección de datos de planteamiento y validación:_ En situaciones típicas, es difícil encontrar nuevos compuestos probados experimentalmente para este propósito. El recurso empleado es, entonces, dividir el conjunto de datos experimentales en datos para el plantemiento del modelo QSPR y datos para validación externa. El objetivo en esta etapa es garantizar que tanto los datos de validación como los de planteamiento ocupen el mismo dominio del fenómeno físico-químico de estudio. La partición de datos entre planteamiento y validación es un área de investigación activa. Es recomendable que el conjunto de validación externa contenga al menos 5 compuestos que describan el rango de actividad de los compuestos incluidos en el conjunto de planteamiento. Está demostrado que modelos QSPR desarrollados y validados mediante esta metodología tiene un alcance predictivo mayor que los mencionados anteriormente.
    
    * _Evaluación del poder predictivo de modelos QSPR:_ En orden de estimar la verdadera capacidad predictiva del modelo QSPR, es necesario comparar las actividades predecibles y observadas de una base de datos lo suficientemente grande que no hubiese sido empleada para el desarrollo del modelo matemático. El poder predictivo del modelo QSPR se puede estimar mediante un $q^2$ externo definido mediante la Ecuación \ref{q2}.
    
    $$
    \begin{equation}
        q^2 _{ext} = 1 - \frac{\sum ^{Pr} _{i=1} \left( y_i - \hat{y} _i \right) ^2}{\sum ^{Pr} _{i=1} \left( y_i - \bar{y} _{tr} \right) ^2}
        \label{q2}
        \tag{1}
    \end{equation}
    $$
    Dónde $y_i$ y $\hat{y} _i$ son los valores medido y predecido, respectivamente, de la variable dependiente $\bar{y} _{tr}$, que es el valor medio del conjunto de datos.
    
    Se considera que el modelo es __predictivo__ cuando se satisfacen las siguientes condiciones:
    $$
    \begin{equation}
        \begin{array}
            q q^2 > 0.5\\ \\
            R ^2 > 0.6 \\ \\
            \frac{\left(R^2 - R ^2 _0 \right)}{R^2} < 0.1 \\ \\
            0.85 \leq k \leq 1.15
        \end{array}
    \end{equation}
    $$

La metodología de validación empleada a continuación es la __prueba de aleatoriedad - Y__.

In [None]:
from App.Validation.AlY import AleatoriedadY
from App.Validation.Results import TablaAlY
AlY = AleatoriedadY(Modelo, Datos['Y'], Estab, nombre_bd)
ValData = AlY.Respuesta
TablaAlY(ValData, Modelo['Ecuación'])

## Definición del dominio de aplicación

<br>

<div align = "justify">
    No importa cuán robusto sea el modelo QSPR validado: <i>no es confiable pensar que los resultados del modelo apliquen para todo el universo químico.</i> 
</div>

# Guardar

<br> 

<div align = "justify">
    Los resultados, tanto los del desarrollo del modelo matemático como los de validación, se guardarán y los podrás encontrar en la dirección: App/DataBase/Resultados
</div>

In [None]:
from App.DataBase.Guardar import Save
Save(Modelo, ValData, Datos['Y'], archivo)