# Módulo 4: Modelo de clasificación QSAR (paso a paso)

En este módulo desarrollaremos nuestro primer modelo QSAR, concretamente un modelo para la toxicidad aguda en lombrices de tierra. Dado que desarrollar un modelo QSAR implica un flujo de trabajo con varios pasos y este es tu primer modelo, este módulo será extenso, ya que exploraremos cada paso cuidadosamente. Por ello, el flujo de trabajo se divide en diferentes lecciones, y la práctica en Python correspondiente está separada en distintos archivos Jupyter Notebook. Como recordatorio, en este curso el flujo de trabajo para desarrollar un modelo QSAR se divide en las siguientes partes:

- Parte 1: Obtención y depuración de datos
- Parte 2: Cálculo de descriptores moleculares
- Parte 3: División entre entrenamiento y prueba, y estandarización
- Parte 4: Selección de descriptores
- Parte 5: Desarrollo y optimización del modelo
- Parte 6: Predicción y dominio de aplicabilidad


# Parte 5: Desarrollo y optimización del modelo

En esta lección finalizaremos el desarrollo de un modelo predictivo de aprendizaje automático entrenando diferentes versiones y seleccionando la mejor.

Primero, entrenaremos un modelo de aprendizaje automático en detalle [Sección 1] y veremos cómo evaluar su calidad [Sección 2].

A continuación, evaluaremos cómo distintos cambios pueden aplicarse para modificar el rendimiento del modelo [Sección 3].

Finalmente, compararemos las métricas de los modelos y seleccionaremos el mejor modelo QSAR [Sección 4].

## Sección 1: Ajustando un estimador

Como se vio en la sesión teórica, un modelo QSAR es un algoritmo de aprendizaje automático que se entrena a partir de un conjunto de datos experimentales (moléculas definidas por un conjunto de descriptores y con un valor objetivo conocido), de modo que es capaz de modelar el sistema y predecir la propiedad.
Por lo tanto, el primer paso es preparar los datos necesarios para entrenar tu modelo: la matriz de descriptores y los valores objetivo.

Recuerda que dividimos nuestros datos en dos conjuntos: **entrenamiento** y **prueba**. Así que ahora utilizaremos únicamente el conjunto de entrenamiento.
Además, debemos proporcionar al modelo un conjunto adecuado de características, por lo que obtendremos los datos a partir de los resultados del método de selección de características y los almacenaremos como un DataFrame de pandas.
En particular, vamos a utilizar las características seleccionadas mediante RFE con el estimador de Regresión Logística.
Deberías haber guardado este conjunto como un archivo CSV (con el nombre "Earthworm_acute_toxicity_Train_RFE_logreg.csv" o similar) en el ejercicio anterior.

Una vez abierto el archivo, deberías obtener dos matrices distintas para ajustar tu modelo:

* La matriz de descriptores del conjunto de entrenamiento (X_train), formada solo por los descriptores,

* La matriz de valores objetivo (Y_train), formada por los valores experimentales.

In [None]:
import pandas as pd

train_dataset = _________

X_train = ____________
Y_train = ___________

Puedes confirmar que los DataFrames X_train y Y_train son correctos mostrando las columnas de X_train (deberían ser los descriptores seleccionados para el modelo) y los tamaños de ambas variables.

In [None]:
print("The columns of X_train are :", _____________________)
print("The number of rows in X_train is:", ___________________)
print("The number of columns in X_train is:", _____________)
print("The number of rows in Y_train is:", ________)

La segunda parte del proceso consiste en crear y ajustar el algoritmo de aprendizaje automático (también conocido como estimador).

En general, esto dependerá mucho de qué implementación del algoritmo estés utilizando. En este curso, vamos a utilizar estimadores de scikit-learn, que se emplean de una forma muy similar.
El primer paso es importar los módulos adecuados desde los paquetes de sklearn. Para el primer ejemplo, debes usar el algoritmo de Regresión Logística, que se llama `LogisticRegression` y se encuentra en el módulo `sklearn.linear_model`.

Una vez seleccionado un algoritmo, el estimador debe inicializarse.
El estimador es el objeto de Python que contiene y aplica el algoritmo de aprendizaje automático.
En este caso, crearemos el objeto estimador y lo llamaremos model, simplemente llamando a la función que hemos importado anteriormente.

En este paso no solo decidimos qué estimador/algoritmo vamos a usar, sino que también podemos incluir parámetros para ajustar su comportamiento.
Estos parámetros son los que normalmente llamamos hiperparámetros.
Por ejemplo, en el caso de abajo, se asigna un valor de 5 al hiperparámetro 'C', que representa el inverso de la fuerza de regularización.

In [None]:
#Importa la función de regresión logística de SciKit-Learn

#Initializa el objeto estimador de regresión logística
model = ____________________

La última parte consiste en entrenar el modelo utilizando los datos obtenidos anteriormente.
En los estimadores de scikit-learn, esto se realiza con el método `fit`, que requiere dos entradas: los datos de entrenamiento y los valores objetivo.
Consulta cómo se utiliza en la documentación oficial:
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [None]:
#ESCRIBE TU CÓDIGO AQUÍ

Y listo. Ya has desarrollado un modelo QSAR.
Sin embargo, si no lo utilizamos, esto no es más que un objeto de Python sin utilidad práctica.
Podemos comprobar que ha sido entrenado observando los coeficientes de la ecuación.

In [None]:
#Visualiza los coeficientes
print("Los coeficientes del modelo son: ", model.coef_)

## Sección 2. Evaluación del rendimiento del modelo QSAR

Una vez que un estimador ha sido ajustado, puede utilizarse para predecir el valor.
En scikit-learn, esto se hace mediante otro método del estimador. Consulta la referencia:
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
y utilízalo aquí para hacer una predicción sobre `X_train`.
Guarda los valores predichos como `Y_train_pred`.

In [None]:
#Predice los valores de Y en el juego de datos de entrenamiento
Y_train_pred = _______________________

#Visualiza las predicciones
print("Las predicciones son: ", Y_train_pred)

Como estamos prediciendo una serie de moléculas con actividades conocidas, podemos comparar los valores predichos con los valores experimentales u observados para evaluar la calidad del ajuste.
En los modelos de clasificación, esto se hace comparando los valores observados y predichos para cada molécula y compilando la **matriz de confusión** (o **matriz de errores**).
La matriz de confusión es una tabla en la que cada fila corresponde al valor **experimental u observado** y cada columna al valor **predicho**. Este es un ejemplo:




<table>
<thead>
<tr>
<th></th>
<th></th>
<th colspan=2>Predicted values</th>
</tr>
<tr>
<th></th>    
<th></th>
<th>Negative</th>
<th>Positive</th>
</tr>
</thead>
<tbody>
<tr>
    
<th rowspan=2>Observed values</th>   
<th>Negative</th>
<td>200</td>
<td>2</td>
</tr>
<tr>
<th>Positive</th>
<td>3</td>
<td>150</td>
</tr>
</tbody>
</table>


Para rellenar la matriz, necesitamos contar el número de predicciones correctas e incorrectas, es decir, los valores predichos correctamente o incorrectamente, tanto para los casos positivos como para los negativos.

Puedes escribir tu propio código a continuación para calcular manualmente los **falsos positivos (FP), falsos negativos (FN), verdaderos positivos (TP) y verdaderos negativos (TN)** comparando los valores de `Y_train` y `Y_train_pred`.
Sin embargo, **scikit-learn** tiene una función que calcula automáticamente la matriz de confusión:
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html



In [None]:
data_length = len(Y_train)
FP=0
FN=0
TP=0
TN=0

for i in range(data_length):
       if Y_train[i] ==  __ and Y_train_pred[i] == __:
           TN=TN+1
       elif Y_train[i] == __ and Y_train_pred[i] == __:
           FN=FN+1
       elif Y_train[i] == __ and Y_train_pred[i] == __:
           TP=TP+1
       elif Y_train[i] == __ and Y_train_pred[i] ==__:
           FP=FP+1
print('\t\tPositive\tNegative')
print('\tPositive\t'+str(TP)+'\t'+str(FN))
print('\tNegative\t'+str(FP)+'\t'+str(TN))


#Si no, puedes usar la función de sklearn.metrics para calcular la matriz de confusión

from sklearn.metrics import confusion_matrix

#Obtén la matriz de confusión
conf_mat = confusion_matrix(Y_train,Y_train_pred)

#Print as returned
print(conf_mat)

TP=conf_mat[1][1]
TN=conf_mat[0][0]
FP=conf_mat[0][1]
FN=conf_mat[1][0]

#More visual presentation
print('\t\tNegative\tPositive')
print('\tNegative\t'+str(conf_mat[0][0])+'\t'+str(conf_mat[0][1]))
print('\tPositive\t'+str(conf_mat[1][0])+'\t'+str(conf_mat[1][1]))




A continuación, hay varias métricas que pueden calcularse a partir de los valores de la matriz de confusión, como por ejemplo:

* Exactitud (Accuracy): Fracción de valores correctamente asignados.

* Sensibilidad o Recall: Fracción de positivos observados que se predicen correctamente.

* Especificidad: Fracción de negativos observados que se predicen correctamente.

* Precisión: Fracción de positivos predichos que son correctos.

Completa el código de la siguiente celda para calcular estas métricas.

Nota que hemos añadido un bloque try/except únicamente en el cálculo de la precisión.
Esto se debe a que, mientras las demás métricas son fracciones sobre valores totales o positivos observados (siempre positivos), la precisión es una fracción sobre los positivos predichos.
Potencialmente, un mal modelo podría predecir solo negativos y provocar un error de división por cero.

In [None]:
#Write the equations using TP, FP, TN and FN from the previous cells.
#Calcula las métricas de rendimiento usando las variables TP, FP, TN y FN
accuracy = _____________
sensitivity = _______________________
specificity = ____________________
try:
    precision = ________________
except:
    precision = 0

#Muestra en pantalla las métricas de rendimiento
print('Accuracy:',round(accuracy,2))
print('Sensitivity:',round(sensitivity,2))
print('Specificity:',round(specificity,2))
print('Precision:',round(precision,2))


En este caso, para simplificar el código y evitar errores, también puedes utilizar la implementación en `sklearn.metrics`.
Ten en cuenta que la función para la sensibilidad se llama recall (otro nombre para la sensibilidad), y que la especificidad se obtiene usando también recall, pero añadiendo un parámetro que define el 0 como la clase positiva.

Comprueba a continuación si tus métricas son correctas.

In [None]:
from sklearn.metrics import recall_score, accuracy_score, precision_score

#Calcula las métricas de rendimiento usando las funciones de sklearn.metrics y muestra en pantalla los resultados
print('Accuracy:',round(accuracy_score(Y_train,Y_train_pred),2))
print('Sensitivity:',round(recall_score(Y_train,Y_train_pred),2))
print('Specificity:',round(recall_score(Y_train,Y_train_pred,pos_label=0),2))
print('Precision:',round(precision_score(Y_train,Y_train_pred),2))

## Sección 3: Validation con el juego de datos del test

Mientras que la calidad del modelo sobre el conjunto de entrenamiento es una medida de la calidad del ajuste, el objetivo de un modelo QSAR es poder **predecir los valores de moléculas desconocidas** que están fuera del conjunto de datos.
Por lo tanto, necesitamos **predecir los valores para el conjunto de prueba** y evaluar los resultados para determinar si el modelo es realmente predictivo.


In [None]:
import pandas as pd

test_dataset = pd.read_csv('Earthworm_acute_toxicity_Test_RFE_logreg.csv',sep=',')

X_test = test_dataset.iloc[:, 2:]
Y_test = test_dataset["y"]

#NO ENTRENAMOS EL MODELO, SOLO PREDeCIMOS
Y_test_pred = model.predict(X_test)

print('Accuracy:',round(accuracy_score(Y_test,Y_test_pred),2))
print('Sensitivity:',round(recall_score(Y_test,Y_test_pred),2))
print('Specificity:',round(recall_score(Y_test,Y_test_pred,pos_label=0),2))
print('Precision:',round(precision_score(Y_test,Y_test_pred),2))

En este caso, hemos obtenido un valor muy bueno para el conjunto de prueba, con una exactitud superior a la del entrenamiento.
Esto puede ocurrir, incluso si el modelo se ha desarrollado únicamente con el conjunto de entrenamiento, pero podría ser una coincidencia debida a que el modelo esté **sesgado hacia ese conjunto de validación en particular**.

Por lo tanto, es preferible utilizar un enfoque de **validación cruzada**, que combina diferentes divisiones de entrenamiento/prueba para evitar el sesgo de una división concreta.
Vamos a utilizar el método `cross_validate`.

Se pueden analizar varias métricas de rendimiento en los resultados de la validación cruzada, pero en este curso solo evaluaremos la **exactitud** (accuracy) tanto en el entrenamiento como en la prueba.
Ten en cuenta que el conjunto de prueba en la validación cruzada **no corresponde con el conjunto de validación final**, sino con la fracción del conjunto de entrenamiento que se usó como prueba en cada iteración.


In [None]:
#Importa la función cross_validate de sklearn.model_selection
from sklearn.model_selection import cross_validate

#Aplica la función cross_validate al modelo y al conjunto de datos de entrenamiento y muestra los resultados
cv_results = cross_validate(model, X_train, Y_train,scoring='accuracy',return_train_score=True)
print('Train accuracy for the 5 submodels:', cv_results['train_score'])
print('Test accuracy for the 5 submodels:', cv_results['test_score'])
print('Mean accuracy:\n\tTRAIN:',round(cv_results['train_score'].mean(),3),'+/-',round(cv_results['train_score'].std(),3))
print('\tTEST:',round(cv_results['test_score'].mean(),3),'+/-',round(cv_results['test_score'].std(),3))


### **Q1** ¿Cuál es el valor de la exactitud (accuracy) de tu modelo en el conjunto de entrenamiento y en el conjunto de validación externa?

## Sección 3. Optimización del modelo


En la sección anterior hemos visto cómo desarrollar y evaluar un modelo paso a paso.
Sin embargo, no queremos simplemente construir cualquier modelo matemático, sino **desarrollar un modelo con un valor predictivo significativo**.
Por eso, vamos a desarrollar diferentes modelos y seleccionar los mejores.

En esta sección, tendrás una serie de tareas para desarrollar distintos modelos.
Para poder compararlos fácilmente, vamos a utilizar una **función que automatice los pasos anteriores** en una sola función.

Además, esta función almacenará **todas las métricas en un único diccionario**, lo que nos permitirá compararlas de forma sencilla.


In [None]:
results={}


def check_classification_model(model,train_file,test_file,name,save=True):
    from sklearn.metrics import recall_score, accuracy_score, precision_score
    #Primero carga los conjuntos de datos de entrenamiento y prueba
    #y guarda los dataframes con los descriptores y los valores de la variable dependiente
    train_dataset = pd.read_csv(train_file,sep=',')
    X_train = train_dataset.iloc[:, 2:]
    Y_train = train_dataset["y"]

    test_dataset = pd.read_csv(test_file,sep=',')
    X_test = test_dataset.iloc[:, 2:]
    Y_test = test_dataset["y"]

    #Ajusta el modelo a los datos de entrenamiento
    model.fit(X_train,Y_train)

    #Predice los valores de Y en el juego de datos de entrenamiento
    Y_train_pred = model.predict(X_train)
    tr_Accuracy=round(accuracy_score(Y_train,Y_train_pred),2)
    tr_Sensitivity=round(recall_score(Y_train,Y_train_pred),2)
    tr_Specificity=round(recall_score(Y_train,Y_train_pred,pos_label=0),2)
    tr_Precision=round(precision_score(Y_train,Y_train_pred),2)
    tr_cm=confusion_matrix(Y_train,Y_train_pred)

    #Predice los valores de Y en el juego de datos de validación
    Y_test_pred = model.predict(X_test)
    ts_Accuracy=round(accuracy_score(Y_test,Y_test_pred),2)
    ts_Sensitivity=round(recall_score(Y_test,Y_test_pred),2)
    ts_Specificity=round(recall_score(Y_test,Y_test_pred,pos_label=0),2)
    ts_Precision=round(precision_score(Y_test,Y_test_pred),2)
    ts_cm=confusion_matrix(Y_test,Y_test_pred)

    #Realiza la validación cruzada y guarda solo la precisión del test
    cv_results = cross_validate(model, X_train, Y_train,scoring='accuracy',return_train_score=True)
    cv_Accuracy_mean=round(cv_results['test_score'].mean(),3)
    cv_Accuracy_dev=round(cv_results['test_score'].std(),3)

    if save:
      results.update({name:[tr_Accuracy,tr_Sensitivity,tr_Specificity,tr_Precision,
            ts_Accuracy,ts_Sensitivity,ts_Specificity,ts_Precision,
            cv_Accuracy_mean,cv_Accuracy_dev]})

    #Muestra en pantalla las métricas de rendimiento
    print('\t\tTRAIN\t\t\t\tTEST')
    print('\t\tNeg.\tPos.\t\t\tNeg.\tPos.')
    print('\tNegative\t'+str(tr_cm[0][0])+'\t'+str(tr_cm[0][1])+'\t\tNegative\t'+str(ts_cm[0][0])+'\t'+str(ts_cm[0][1]))
    print('\tPositive\t'+str(tr_cm[1][0])+'\t'+str(tr_cm[1][1])+'\t\tPositive\t'+str(ts_cm[1][0])+'\t'+str(ts_cm[1][1]))
    print('Accuracy:\t',tr_Accuracy,'\t\t\t\t',ts_Accuracy)
    print('Sensitivity:\t',tr_Sensitivity,'\t\t\t\t',ts_Sensitivity)
    print('Specificity:\t',tr_Specificity,'\t\t\t\t',ts_Specificity)
    print('Precision:\t',tr_Precision,'\t\t\t\t',ts_Precision)
    print('Cross validation test accuracy:',cv_Accuracy_mean,'+/-',cv_Accuracy_dev)

    return [tr_Accuracy,tr_Sensitivity,tr_Specificity,tr_Precision,
            ts_Accuracy,ts_Sensitivity,ts_Specificity,ts_Precision,
            cv_Accuracy_mean,cv_Accuracy_dev]


Comencemos utilizando el mismo estimador que en las Secciones 1 y 2.
Confirma que las métricas sean coherentes con los resultados obtenidos anteriormente.

Mira el ejemplo a continuación sobre cómo usar esa función. Necesitas incluir 4 parámetros:

* El objeto estimador (que debes crear y configurar fuera de la función)

* El nombre del archivo con los datos de entrenamiento

* El nombre del archivo con los datos de prueba

* Un texto que se utilizará para etiquetar este modelo en los resultados

In [None]:
#Inicializa el objeto estimador de regresión logística
estimator = LogisticRegression(C=0.5)
#Aplica la función creada anteriormente
metrics = check_classification_model(estimator,
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv',
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',
                           'LogisticRegression_C5')

### Sección 3.1 Modificación de hiperparámetros

Los algoritmos utilizados para entrenar el modelo pueden ajustarse mediante la modificación de sus **hiperparámetros**.
Los parámetros que se pueden utilizar dependen en gran medida de la **naturaleza del algoritmo**.
En el caso de `LogisticRegression`, hay pocos parámetros que puedan ajustarse.

En la ejecución original, asignamos un valor al parámetro `C`.
Ahora, veamos qué ocurre utilizando el **valor por defecto**.

¿El ajuste es **mejor o peor**?

In [None]:
#Inicializa el objeto estimador de regresión logística
estimator = ____________

check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv', 
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',  
                           'LogisticRegression_default')  
estimator

Intenta modificar otro **hiperparámetro**, por ejemplo, puedes usar un `solver` distinto al predeterminado o cambiar el tipo de penalización utilizada
(consulta la documentación de scikit-learn para ver ejemplos de valores posibles).

¿El ajuste es **mejor o peor**?

In [None]:
#Inicializa el objeto estimador de regresión logística
estimator = 

check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv', 
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',  
                           _________________)  
estimator

En este curso, para profundizar en la comprensión, vamos a explorar manualmente la modificación de los hiperparámetros.
Sin embargo, existen formas automáticas de hacerlo, como GridSearchCV
(https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

Esta técnica no solo es una forma más eficiente de explorar varias combinaciones de hiperparámetros al mismo tiempo, sino que también utiliza una validación interna (mediante validación cruzada) para evaluar los modelos y elegir el mejor.

Puedes probar este enfoque aquí y ver si el mejor estimador coincide con el que obtuviste manualmente.

In [None]:
%%capture --no-stdout
#Mantén la primera línea de código para evitar un output excesivo

#Importa la función GridSearchCV de sklearn.model_selection
from sklearn.model_selection import GridSearchCV

#Selecciona los hiperparámetros a explorar con un diccionario
params={'C':[0.5,1,10],'penalty':['l1','l2'],'solver':['lbfgs','newton-cg','sag']}

grid_estimator=GridSearchCV(LogisticRegression(),params)

#Ajusta el GridSearchCV al conjunto de datos de entrenamiento (Como si fuera un estimador normal)
grid_estimator.fit(________________)

#Muestra los hiperparámetros seleccionados (solo se muestran los no predeterminados)
print(grid_estimator.best_estimator_)


Si no coincide con lo probado anteriormente, puedes utilizar la celda de abajo para examinar el modelo con los hiperparámetros propuestos por la función `GridSearchCV`.

In [None]:
estimator = LogisticRegression(_______________________)

check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv', 
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',  
                           'LogisticRegression_GridSearch_Result') 
estimator

### Sección 3.2 Cambiando el algoritmo: Support Vector Classifier


Ahora vamos a probar un **algoritmo diferente**, en particular, vamos a utilizar el clasificador de **máquinas de vectores de soporte** (**Support Vector Machine**).
Puedes encontrar más información sobre este algoritmo en:
https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

Utilizando los mismos datos que anteriormente, intenta explorar en la celda de abajo distintos **hiperparámetros** para mejorar tu modelo.
(Puedes hacer varias copias de la celda si deseas conservar diferentes versiones del modelo).

Por ejemplo, puedes probar diferentes **kernels** (la función que transforma los descriptores para lograr una separación no lineal).
¿Cuál de ellos da mejores resultados?

In [None]:
#Importa la función SVC de sklearn.svm
from _______________ import SVC

#Inicializa el estimador SVC
estimator =  SVC(_______________)

check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv',
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv', 
                           'SVCClassifier') 
estimator


Después de experimentar un poco con el ejemplo, habrás visto que ciertos **hiperparámetros afectan a la exactitud** del modelo.

Por ejemplo, el mejor **kernel** parece ser el **lineal**.
Por tanto, a partir de ahora vamos a utilizar el **kernel lineal**, y a probar **distintos hiperparámetros para afinar tu modelo**.



In [None]:
#Inicializa el estimador SVC
estimator =  SVC(kernel='linear',_______________)

check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv',
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv', 
                           'SVCClassifier_linear_more')  
estimator

### Sección 3.3 Cambiando el algoritmo: Extra Trees Classifier

Ahora vamos a explorar cómo el cambio de características (mediante los diferentes métodos de selección utilizados en la lección anterior) afecta a los modelos.
En este caso, vamos a usar un algoritmo diferente, en particular un algoritmo basado en árboles: **Extra Trees**.

En primer lugar, vamos a conocer un poco más sobre el comportamiento de este modelo utilizando los mismos descriptores que en los ejemplos anteriores.

Utiliza la celda de abajo para evaluar el `ExtraTreesClassifier` con los hiperparámetros por defecto.

In [None]:
#Importa la función ExtraTreesClassifier de sklearn.ensemble
from _______ import ExtraTreesClassifier

#Inicializa el estimador ExtraTreesClassifier
estimator =  _____________


check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv',
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',  
                           'ExtraTreesClassifier_default') 
estimator

¿Qué opinas del rendimiento del modelo? Hemos visto que las métricas utilizadas en este curso van de 0 a 1. Si todos los valores son **1.0**, eso es perfecto, ¿verdad?

En realidad, cuando las métricas en el conjunto de entrenamiento son **tan altas**, eso suele ser un **indicio de sobreajuste** (overfitting).
Usando los hiperparámetros por defecto, el algoritmo `ExtraTrees` es capaz de reproducir perfectamente todos los datos de entrenamiento,
pero probablemente esto se deba a la **gran capacidad de adaptación** del algoritmo y no a una relación realmente significativa.

Vamos a ver en detalle el efecto de un **único hiperparámetro**.
En el siguiente código se ejecuta un bucle que evalúa el modelo con distintos valores del parámetro `max_depth`.
Este hiperparámetro controla la **profundidad máxima del árbol** (es decir, cuántas divisiones se pueden realizar).
Valores bajos generan árboles más **simples y generalistas**.
El valor por defecto no limita la profundidad, por lo que los árboles pueden crecer tanto como sea necesario.

La próxima celda contiene código para recorrer distintos valores de esta variable y generar una serie de modelos.



In [None]:
%%capture
#La primera línea de código evita un output excesivo

evol_res =[]
for value in range(1,20):

    estimator =  ExtraTreesClassifier(max_depth=value,random_state=2023)

    res = check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv', 
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv',  
                           'LogisticRegression_g'+str(value),
                           save = False)  #Incluye esto para no guardar los resultados en el diccionario de resultados
    evol_res.append(res+[value])
res_df = pd.DataFrame(evol_res,columns=['ACC-tr','SENS-tr','SPEF-tr','PREC-tr','ACC-ts','SENS-ts','SPEF-ts','PREC-ts','ACC-CV','ACC-CV_dev','Variable'])


La celda anterior generará una salida considerable con los resultados de todos los modelos desarrollados en el bucle.
Para evitar ruido innecesario, el texto de salida no se muestra y los modelos generados dentro del bucle no se incluyen en el diccionario de resultados.

Por lo tanto, para ver qué ha ocurrido, por favor ejecuta la siguiente celda para visualizar los resultados en forma de gráficas.

In [None]:
res_df1 = res_df[['ACC-tr','ACC-ts','ACC-CV','Variable']]
res_df1.plot(legend=True,x='Variable',ylim=(-0.1,1.1)).legend(loc='center left',bbox_to_anchor=(1.0, 0.5));

res_df2 = res_df[['SENS-tr','SENS-ts','Variable']]
res_df2.plot(legend=True,x='Variable',ylim=(-0.1,1.1)).legend(loc='center left',bbox_to_anchor=(1.0, 0.5));

res_df3 = res_df[['SPEF-tr','SPEF-ts','Variable']]
res_df3.plot(legend=True,x='Variable',ylim=(-0.1,1.1)).legend(loc='center left',bbox_to_anchor=(1.0, 0.5))

Como puedes ver, al aumentar este valor, el rendimiento en el entrenamiento eventualmente alcanza un valor perfecto,
pero el rendimiento en el conjunto de prueba no mejora después de cierto punto (e incluso puede empeorar).

Para poder comparar los efectos de las características (features), vamos a utilizar una combinación de hiperparámetros que reduzca significativamente la capacidad de adaptación del algoritmo.
Si lo deseas, más adelante puedes explorar otras combinaciones, pero por favor, utiliza ahora los siguientes hiperparámetros para asegurar la reproducibilidad:

* Profundidad máxima (`max_depth`) = 4

* Número de estimadores (`n_estimators`) = 15

* Mínimo de muestras para dividir (`min_samples_split`) = 4

* `random_state` = 2025


In [None]:
#Inicializa el estimador ExtraTreesClassifier con los hiperparámetros indicados
estimator =  ExtraTreesClassifier(__________________)


check_classification_model(estimator, 
                           'Earthworm_acute_toxicity_Train_RFE_logreg.csv', 
                           'Earthworm_acute_toxicity_Test_RFE_logreg.csv', 
                           'ExtraTreesClassifier_4_4_15_2023_RFE_logreg') 
estimator

¿Recuerdas los diferentes métodos de selección de características utilizados en la lección anterior?
Utiliza distintos archivos de entrada para leer los descriptores adecuados y comprobar los resultados.

En primer lugar, vamos a mantener el mismo algoritmo (**RFE**), pero esta vez vamos a comprobarlo utilizando el **estimador basado en árboles**.

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

#Inicializa el estimador ExtraTreesClassifier con los mismos hiperparámetros que antes
estimator =  ExtraTreesClassifier(_______________)

#Llama a la función con los archivos adecuados
check_classification_model(estimator, 
                           ______________, 
                           ______________,  
                           'ExtraTreesClassifier_4_4_15_2023_RFE_dectree')  
estimator

## Sección 4. Comparación de los modelos

Puedes usar el siguiente código para convertir el diccionario con los resultados en un DataFrame, y así visualizar la comparación de los métodos desarrollados según las métricas guardadas en `results_df`.

In [None]:
results_df = pd.DataFrame.from_dict(results,columns=['Train Accuracy','Train Sensitivity','Train Specificity','Train Precision','Test Accuracy','Test Sensitivity','Test Specificity','Test Precision','CV Accuracy','CV Accuracy dev'],orient='index')

results_df

Si quieres guardar esta información para utilizarla más adelante, puedes usar la celda de abajo para guardar este DataFrame como un archivo CSV.

In [None]:
#Guarda el dataframe en un archivo CSV
results_df._______(________)

La selección de un buen modelo no es una tarea fácil ni automática. Debemos tener en cuenta tanto el rendimiento en el conjunto de entrenamiento como en el de prueba, por ejemplo.
Una buena predicción en el entrenamiento puede ser señal de sobreajuste, especialmente si el rendimiento en el conjunto de prueba es significativamente más bajo.

Por otro lado, una predicción demasiado buena en el conjunto de prueba (sobre todo si es mejor que en el entrenamiento) podría indicar un sesgo hacia ese conjunto de datos específico, lo cual no se espera que se generalice.
Por esta razón, es conveniente comprobar la robustez del modelo usando un enfoque de validación cruzada.

Además, es útil diferenciar entre pruebas internas, que se utilizan para guiar la optimización del modelo y pueden afectar su desarrollo, y pruebas externas de validación, que consisten en conjuntos de datos independientes del desarrollo del modelo.

Por otra parte, en un modelo de clasificación es interesante evaluar el comportamiento por separado de los valores positivos y negativos, especialmente en conjuntos de datos desequilibrados.
Como hemos visto anteriorment, existen diversas métricas que combinan los resultados para ofrecer una estimación más equilibrada del rendimiento.
En nuestro caso, vamos a usar solo la exactitud (accuracy), pero conviene comprobar que la especificidad y la sensibilidad también sean razonables.

Por ahora, vamos a aplicar un criterio muy simple y seleccionaremos el método que tenga la mejor exactitud en la validación cruzada.
De esta forma, no tomamos en cuenta el test externo y usamos una medida más robusta.

Escribe un código que ordene los diferentes métodos de mejor a peor según esa columna, para así seleccionar el mejor.

In [None]:
#Ordena los valores según la precisión del CV del juego de datos de validación


Vuelve a crear de nuevo el modelo en la celda de abajo para asegurarte de que el estimador es el correcto y que las métricas son las que esperabas.
Además, revisa cuidadosamente las demás métricas para comprobar que el modelo sea adecuado.

In [None]:
#Inicializa el estimador seleccionado
estimator = _____________________

check_classification_model(estimator, 
                           _________, 
                           ________,  
                           'Final')  

### **Q4.** ¿Cuál es el rendimiento del modelo seleccionado? ¿Cuáles son las características relevantes del modelo (algoritmo, hiperparámetros, descriptores seleccionados, etc.)?