## üìò Gu√≠a de ejercicios

Pod√©s abrir la [Gu√≠a de ejercicios en Google Colab](https://colab.research.google.com/github/mercedesgarnham/Curso_quimioinformatica_IA/blob/main/notebooks/guia_de_ejercicios.ipynb) para interactuar con la notebook directamente en tu navegador.


## üìå Contenidos m√≠nimos recomendados

Antes del curso, se recomienda revisar los contenidos de introducci√≥n a Python para poder seguir los ejercicios:  
[Introducci√≥n a Python ‚Äì RSG Argentina](https://rsg-argentina.netlify.app/workshops/introduccion_a_python/)


# Introducci√≥n a Machine Learning (ML)

## ¬øQu√© es Machine Learning?

Machine Learning (aprendizaje autom√°tico) es una rama de la inteligencia artificial que permite a las computadoras aprender patrones y tomar decisiones a partir de datos, sin ser expl√≠citamente programadas para cada tarea.

En lugar de seguir reglas fijas, un modelo de ML utiliza datos hist√≥ricos para ‚Äúaprender‚Äù y luego hacer predicciones o clasificaciones sobre datos nuevos.

## Tipos principales de Machine Learning

- **Aprendizaje Supervisado:**  
  El modelo aprende a partir de un conjunto de datos etiquetados, donde cada entrada tiene una salida conocida.  
  Ejemplos: clasificaci√≥n (activo vs inactivo), regresi√≥n (predecir una propiedad continua).

- **Aprendizaje No Supervisado:**  
  El modelo encuentra patrones o agrupamientos en datos sin etiquetas.  
  Ejemplo: clustering para identificar grupos de mol√©culas similares.

- **Aprendizaje por Refuerzo:**  
  El modelo aprende a tomar decisiones mediante prueba y error, recibiendo recompensas o penalizaciones.

## Componentes clave en ML

- **Datos:** el combustible para el aprendizaje.  
- **Caracter√≠sticas (features):** representaciones num√©ricas de los datos que el modelo usa para aprender.  
- **Modelo:** algoritmo matem√°tico que encuentra patrones en los datos.  
- **Funci√≥n objetivo:** m√©trica que el modelo optimiza durante el entrenamiento.  
- **Entrenamiento:** proceso de ajustar el modelo a los datos para minimizar errores.  
- **Evaluaci√≥n:** medir qu√© tan bien el modelo funciona con datos no vistos.

## Aplicaci√≥n en Quimioinform√°tica

En quimioinform√°tica, ML se usa para predecir propiedades moleculares, actividad biol√≥gica, toxicidad, entre otros, a partir de la estructura qu√≠mica y datos experimentales.



# Datos y An√°lisis de Datos Qu√≠micos

## Introducci√≥n: ¬øPor qu√© es importante el tipo de dato?

En quimioinform√°tica y modelado molecular, la calidad y tipo de datos que utilicemos es fundamental, ya que influyen directamente en el desempe√±o y confiabilidad de nuestros modelos de inteligencia artificial.

No todos los datos son iguales: elegir adecuadamente el tipo de datos y su fuente es clave para obtener resultados robustos y √∫tiles.

## Fuentes de datos

Podemos obtener datos qu√≠micos y biol√≥gicos de diferentes or√≠genes:

- **Datos propios:**  
  Resultados experimentales generados en nuestro laboratorio o proyecto. Estos datos suelen ser muy espec√≠ficos y controlados, pero pueden ser limitados en cantidad.

- **Datos de publicaciones cient√≠ficas:**  
  Informaci√≥n reportada en art√≠culos y trabajos de investigaci√≥n. Es importante validar la calidad y contexto de estos datos antes de usarlos.

- **Bases de datos p√∫blicas:**  
  Repositorios como ChEMBL, PubChem que almacenan miles o millones de compuestos con sus propiedades y resultados de bioensayos.

## Tipos de datos y su impacto

Los datos qu√≠micos y biol√≥gicos pueden venir en diferentes formatos y contextos, por ejemplo:

- **Estructuras moleculares:**  
  Generalmente representadas como SMILES o InChI, son la base para cualquier an√°lisis y modelado.

- **Bioactividad:**  
  Indican si una mol√©cula es activa o inactiva frente a un target o ensayos espec√≠ficos. Esta informaci√≥n puede variar seg√∫n el tipo de bioensayo utilizado.

- **Tipos de bioensayos:**  
  Cada tipo de ensayo mide diferentes aspectos biol√≥gicos o farmacol√≥gicos, como:

  - Ensayos de inhibici√≥n enzim√°tica (p.ej. IC50, Ki)  
  - Ensayos celulares funcionales  
  - Ensayos fenot√≠picos  
  - Ensayos toxicol√≥gicos

La selecci√≥n del tipo de bioensayo afecta la definici√≥n de ‚Äúactividad‚Äù y por lo tanto el etiquetado de los datos para el entrenamiento del modelo.

## Importancia de la correcta selecci√≥n y curaci√≥n de datos

- **Consistencia:**  
  Es clave que los datos provengan de ensayos comparables para evitar introducir ruido o sesgo.

- **Cantidad vs calidad:**  
  A veces hay que balancear tener muchos datos con tener datos confiables y bien caracterizados.

- **Preprocesamiento y validaci√≥n:**  
  Limpieza, filtrado y normalizaci√≥n son pasos imprescindibles para preparar los datos antes de modelar.


# Ejemplos de Uso de Machine Learning en Quimioinform√°tica con Referencias

Machine Learning tiene m√∫ltiples aplicaciones en quimioinform√°tica. 

## Material de consulta: 

- [Practical Cheminformatics](https://patwalters.github.io/)
- [A Deep Learning Approach to Antibiotic Discovery](https://www.sciencedirect.com/science/article/pii/S0092867420301021)
- [AI in Drug Discovery](https://link.springer.com/book/10.1007/978-3-031-72381-0)


Empecemos a trabajar!!

In [None]:
!pip install pandas scikit-learn rdkit matplotlib seaborn xgboost

In [None]:
import pandas as pd
import numpy as np

from rdkit import Chem
from rdkit.Chem import AllChem, MACCSkeys, rdFingerprintGenerator, rdMolDescriptors, Descriptors
from rdkit.ML.Descriptors.MoleculeDescriptors import MolecularDescriptorCalculator

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
import xgboost as xgb
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.metrics import ConfusionMatrixDisplay, RocCurveDisplay


In [None]:
url = "https://raw.githubusercontent.com/mercedesgarnham/Curso_quimioinformatica_IA/refs/heads/main/data/AID_1885.csv"
df = pd.read_csv(url, sep =",")

df = df[['PUBCHEM_ACTIVITY_OUTCOME','PUBCHEM_EXT_DATASOURCE_SMILES']]
df = df.dropna().reset_index(drop=True)
df.head()

In [None]:
# Visualizaci√≥n r√°pida
plt.figure(figsize=(6,4))
df['PUBCHEM_ACTIVITY_OUTCOME'].value_counts().plot(kind='bar', color=['skyblue', 'salmon', "grey"])
plt.title('Distribuci√≥n de actividad')
plt.xlabel('Actividad')
plt.ylabel('Cantidad')
plt.show()

In [42]:
# Filtrar solo Active e Inactive
df_filtered = df[df['PUBCHEM_ACTIVITY_OUTCOME'].isin(['Active', 'Inactive'])].copy()
df_filtered.reset_index(drop=True, inplace=True)

In [None]:
# Procesar SMILES y crear objetos Mol (RDKit)
def mol_from_smiles(smiles):
    try:
        return Chem.MolFromSmiles(smiles)
    except:
        return None

df_filtered['mol'] = df_filtered['PUBCHEM_EXT_DATASOURCE_SMILES'].apply(mol_from_smiles)
df_filtered = df_filtered[df_filtered['mol'].notnull()].copy()
df_filtered.reset_index(drop=True, inplace=True)

# Distribuci√≥n de datos

## Uso de dataset completo vs. dataset balanceado en modelos de Machine Learning

Cuando entrenamos un modelo de Machine Learning sobre un dataset **desbalanceado**, como suele ocurrir con compuestos activos e inactivos, el modelo puede verse sesgado hacia la **clase mayoritaria**. Esto significa que:

- Puede predecir correctamente la clase mayoritaria la mayor parte del tiempo.
- Puede ignorar o predecir mal la clase minoritaria (por ejemplo, los compuestos activos si son pocos).
- Las m√©tricas tradicionales como **accuracy** pueden ser enga√±osas, porque un modelo que siempre predice la clase mayoritaria puede tener alta precisi√≥n sin realmente aprender nada √∫til.

Al usar un **dataset balanceado**, mediante muestreo aleatorio o t√©cnicas como SMOTE, conseguimos:

- Que el modelo tenga **igual exposici√≥n a ambas clases**, aprendiendo patrones de manera m√°s justa.
- Mejores m√©tricas de evaluaci√≥n para ambas clases, como **recall, precision y F1-score**.
- Menor riesgo de sobreajuste hacia la clase mayoritaria.

‚ö†Ô∏è Nota: Balancear puede implicar **perder informaci√≥n de la clase mayoritaria** si se hace muestreo aleatorio, pero es un compromiso necesario cuando el desbalance es fuerte.


## Impacto del desbalance de datos en Drug Discovery

En Drug Discovery, los datasets de bioactividad suelen estar **muy desbalanceados**: la mayor√≠a de los compuestos son **inactivos** frente a un target, y solo unos pocos son **activos**. Esto tiene varias implicancias para Machine Learning:

### Problemas al usar todos los datos
- El modelo tiende a predecir la clase mayoritaria (**inactivos**) casi siempre.  
- M√©tricas como **accuracy** pueden ser enga√±osas, mostrando buen desempe√±o aunque falle en detectar activos.  
- Los **falsos negativos** (no detectar un compuesto activo) son cr√≠ticos, porque se pierden candidatos potenciales de f√°rmaco.

### Beneficios de usar un dataset balanceado
- Igual exposici√≥n a ambas clases, ayudando al modelo a **aprender patrones de activos**.  
- Mejora de m√©tricas relevantes como **recall, precision y F1-score** para la clase minoritaria.  
- Menor sesgo hacia la clase mayoritaria, permitiendo identificar compuestos activos prometedores.

### Estrategias comunes
- **Muestreo aleatorio** de inactivos o **sobremuestreo** de activos (SMOTE).  
- **Ponderar la clase minoritaria** en la funci√≥n de p√©rdida del modelo.  
- Evaluar con m√©tricas **sensible a desbalance** (recall, F1-score, ROC-AUC) en lugar de solo accuracy.

> ‚ö†Ô∏è En resumen: balancear o ponderar datos es clave en drug discovery para que los modelos ML detecten compuestos activos, que son los m√°s valiosos.


In [None]:
# Flag para decidir si usar dataset balanceado o completo
usar_balanceado = True  # Cambiar a False para usar todos los datos (sampleado)

# N√∫mero de activos para el dataset balanceado
actives = df_filtered[df_filtered['PUBCHEM_ACTIVITY_OUTCOME'] == 'Active']
n_actives = len(actives)

if usar_balanceado:
    # Balancear dataset con muestreo aleatorio de inactivos para igualar cantidad de activos
    inactives = df_filtered[df_filtered['PUBCHEM_ACTIVITY_OUTCOME'] == 'Inactive']
    inactives_sampled = inactives.sample(n=n_actives, random_state=42)  # Semilla para reproducibilidad

    df_final = pd.concat([actives, inactives_sampled]).reset_index(drop=True)

    print(f"Cantidad de activos: {len(actives)}")
    print(f"Cantidad de inactivos muestreados: {len(inactives_sampled)}")
    print(f"Tama√±o total dataset balanceado: {len(df_final)}")
else:
    # Usar todos los datos pero tomar un sample del mismo tama√±o que el balanceado
    df_sampled = df_filtered.sample(n=n_actives*2, random_state=42)  # mismo tama√±o que balanceado
    df_final = df_sampled.reset_index(drop=True)

    print(f"Tama√±o total dataset sampleado: {len(df_final)}")
    print(df_final['PUBCHEM_ACTIVITY_OUTCOME'].value_counts())



In [45]:
# Calcular propiedades fisicoqu√≠micas b√°sicas
def calc_properties(mol):
    return {
        'MolWt': Descriptors.MolWt(mol),
        'LogP': Descriptors.MolLogP(mol),
        'NumHDonors': Descriptors.NumHDonors(mol),
        'NumHAcceptors': Descriptors.NumHAcceptors(mol),
        'TPSA': Descriptors.TPSA(mol)
    }

props = df_final['mol'].apply(calc_properties)
props_df = pd.DataFrame(list(props))
df_final = pd.concat([df_final, props_df], axis=1)

In [None]:
# Visualizar distribuci√≥n de clases balanceadas
plt.figure(figsize=(6,4))
df_final['PUBCHEM_ACTIVITY_OUTCOME'].value_counts().plot(kind='bar', color=['skyblue', 'salmon'])
plt.title('Distribuci√≥n de clases balanceadas Active vs Inactive')
plt.xlabel('Actividad')
plt.ylabel('Cantidad')
plt.show()


In [None]:
# Visualizaci√≥n de propiedades por clase balanceadas
plt.figure(figsize=(12,8))
for i, prop in enumerate(['MolWt', 'LogP', 'NumHDonors', 'NumHAcceptors', 'TPSA']):
    plt.subplot(2,3,i+1)
    sns.boxplot(x='PUBCHEM_ACTIVITY_OUTCOME', y=prop, data=df_final)
    plt.title(f'Distribuci√≥n de {prop} por clase')
plt.tight_layout()
plt.show()

# Representaci√≥n y Featurizaci√≥n de Mol√©culas

## ¬øPor qu√© es importante la representaci√≥n de las mol√©culas?

Una vez que hemos obtenido y curado nuestros datos qu√≠micos y bioactivos, el siguiente paso cr√≠tico es c√≥mo representamos esas mol√©culas para que los algoritmos de Machine Learning puedan entenderlas y trabajar con ellas.

La representaci√≥n o **featurizaci√≥n** convierte la estructura qu√≠mica en vectores num√©ricos o caracter√≠sticas que describen aspectos relevantes de las mol√©culas.

## Tipos comunes de featurizaci√≥n

- **Fingerprints (huellas moleculares):**  
  Representaciones binarias o num√©ricas que codifican la presencia o ausencia de subestructuras qu√≠micas, patrones o fragmentos.  
  Ejemplos:  
  - *Morgan fingerprints* (circular)  
  - *MACCS keys*  
  - *Topological fingerprints*

- **Descriptores fisicoqu√≠micos:**  
  Valores num√©ricos que representan propiedades moleculares calculadas o experimentales, como:  
  - Peso molecular  
  - LogP (lipofilicidad)  
  - N√∫mero de √°tomos de hidr√≥geno donadores y aceptores  
  - N√∫mero de rotaciones libres  
  - Polaridad, etc.

- **Representaciones basadas en gr√°ficos:**  
  Modelos m√°s complejos que consideran la estructura molecular como un grafo (nodos y enlaces) para modelos de Deep Learning.

## ¬øC√≥mo elegir la mejor forma de featurizar?

- Depende del **tipo de modelo** que usar√°s: algunos modelos funcionan mejor con fingerprints, otros con descriptores, y los modelos de deep learning pueden usar representaciones m√°s complejas.  
- Depende de la **cantidad y calidad de datos**: con pocos datos, las representaciones simples pueden ser m√°s robustas.  
- Depende del **problema y la tarea espec√≠fica**: por ejemplo, predicci√≥n de actividad biol√≥gica, propiedades fisicoqu√≠micas, etc.  
- La **interpretabilidad** tambi√©n es clave: algunos descriptores permiten entender mejor qu√© propiedades influyen en la predicci√≥n.


## Fingerprints utilizados en el an√°lisis de mol√©culas

En nuestro trabajo usamos los siguientes fingerprints, que son representaciones binarias o vectoriales de las mol√©culas:

| Fingerprint | Tipo de informaci√≥n | Qu√© captura | Uso t√≠pico |
|------------|-------------------|------------|------------|
| **fp_morgan_array** | Circular / ECFP | Entorno local de √°tomos (subestructuras) hasta un radio determinado | QSAR, similitud molecular, b√∫squeda de compuestos activos |
| **fp_rdkit_array** | Topol√≥gico lineal | Caminos lineales de √°tomos dentro de la mol√©cula | Comparaci√≥n r√°pida de mol√©culas, clustering |
| **fp_maccs_array** | MACCS keys (166 bits) | Presencia o ausencia de subestructuras predefinidas | Filtros qu√≠micos, b√∫squeda r√°pida, comparaci√≥n b√°sica |
| **fp_topological_torsion_array** | Torsiones topol√≥gicas | Secuencias de 4 √°tomos conectados (torsiones) | QSAR, relaci√≥n con actividad biol√≥gica |
| **fp_atom_pair_array** | Pares de √°tomos + distancia topol√≥gica | Relaci√≥n global entre pares de √°tomos y distancia entre ellos | Similitud global, mol√©culas grandes, detecci√≥n de patrones espaciales |

> ‚ö° **Nota:** Cada fingerprint captura diferentes aspectos de la qu√≠mica de las mol√©culas. La elecci√≥n del fingerprint puede impactar el rendimiento del modelo de Machine Learning y su capacidad de detectar compuestos activos.


In [None]:
# Funci√≥n para convertir fingerprint a numpy array
def fp_to_array(fp):
    arr = np.zeros((fp.GetNumBits(),), dtype=int)
    Chem.DataStructs.ConvertToNumpyArray(fp, arr)
    return arr

# Morgan Fingerprints (radius=2, 1024 bits)
df_final['fp_morgan'] = df_final['mol'].apply(lambda m: AllChem.GetMorganFingerprintAsBitVect(m, radius=2, nBits=1024))
df_final['fp_morgan_array'] = df_final['fp_morgan'].apply(fp_to_array)

# RDKit Fingerprints (default params)
df_final['fp_rdkit'] = df_final['mol'].apply(lambda m: Chem.RDKFingerprint(m))
df_final['fp_rdkit_array'] = df_final['fp_rdkit'].apply(fp_to_array)

# MACCS Keys (166 bits)
df_final['fp_maccs'] = df_final['mol'].apply(lambda m: MACCSkeys.GenMACCSKeys(m))
df_final['fp_maccs_array'] = df_final['fp_maccs'].apply(fp_to_array)

# Topological Torsion Fingerprints
topo_generator = rdFingerprintGenerator.GetTopologicalTorsionGenerator()
df_final['fp_topological_torsion'] = df_final['mol'].apply(lambda m: topo_generator.GetFingerprint(m))
df_final['fp_topological_torsion_array'] = df_final['fp_topological_torsion'].apply(fp_to_array)

# Atom Pair Fingerprints
atompair_generator = rdFingerprintGenerator.GetAtomPairGenerator()
df_final['fp_atom_pair'] = df_final['mol'].apply(lambda m: atompair_generator.GetFingerprint(m))
df_final['fp_atom_pair_array'] = df_final['fp_atom_pair'].apply(fp_to_array)


## Conceptos clave de Machine Learning

Machine Learning (ML) es un conjunto de t√©cnicas que permite a las computadoras **aprender patrones a partir de datos** y hacer predicciones o clasificaciones sobre datos nuevos.  

### Elementos fundamentales

1. **Datos y features**  
   - Los modelos aprenden a partir de un conjunto de datos representados mediante **features** (variables predictoras).  
   - La calidad, relevancia y cantidad de features son cruciales para el rendimiento del modelo.  

2. **Etiquetas / targets**  
   - En problemas de clasificaci√≥n, cada ejemplo tiene una **clase o categor√≠a**.  
   - En problemas de regresi√≥n, cada ejemplo tiene un **valor num√©rico continuo** que el modelo intenta predecir.  

3. **Entrenamiento y evaluaci√≥n**  
   - Los datos se dividen en **conjunto de entrenamiento** y **conjunto de prueba**.  
   - El entrenamiento consiste en ajustar los par√°metros del modelo para **minimizar el error** sobre los datos conocidos.  
   - La evaluaci√≥n se hace sobre datos no vistos para medir **generalizaci√≥n**, usando m√©tricas como accuracy, precision, recall, f1-score, AUC, etc.

4. **Hiperpar√°metros**  
   - Son par√°metros que **no se aprenden del entrenamiento**, sino que se fijan antes o se optimizan mediante validaci√≥n cruzada.  
   - Ejemplos: n√∫mero de √°rboles en Random Forest, `C` y `gamma` en SVM, `learning_rate` y `max_depth` en XGBoost.  

5. **Balanceo de clases**  
   - En datasets desbalanceados, donde algunas clases tienen muchos m√°s ejemplos que otras, es recomendable usar t√©cnicas como **submuestreo, sobremuestreo o ponderaci√≥n de clases** para mejorar el rendimiento y la interpretabilidad.

6. **Selecci√≥n de modelo**  
   - La elecci√≥n del modelo depende del tipo de problema, tama√±o del dataset, n√∫mero de features, linealidad de las relaciones y la necesidad de interpretabilidad.  
   - Es recomendable **comparar varios modelos** y sus m√©tricas de rendimiento para decidir cu√°l es el m√°s adecuado.

> üîπ Nota: En quimioinform√°tica y drug discovery, la selecci√≥n de fingerprints, el balance de datos y la interpretaci√≥n de la importancia de features son **cruciales** para obtener resultados confiables y √∫tiles.


# Elecci√≥n del Modelo de Inteligencia Artificial

## ¬øPor qu√© es importante elegir el modelo correcto?

La selecci√≥n del modelo de Machine Learning o Deep Learning adecuado es clave para obtener predicciones precisas y confiables en tareas de quimioinform√°tica. Diferentes modelos tienen ventajas y limitaciones seg√∫n el tipo de datos, tama√±o del dataset y complejidad del problema.

## Factores a considerar para elegir el modelo

- **Cantidad de datos disponibles:**  
  - Con grandes vol√∫menes de datos, los modelos de Deep Learning (como redes neuronales convolucionales o grafos neuronales) pueden capturar patrones complejos.  
  - Con pocos datos, modelos tradicionales como Random Forest, Support Vector Machines o regresi√≥n log√≠stica suelen ser m√°s robustos y menos propensos al sobreajuste.

- **Tipo y complejidad de las caracter√≠sticas:**  
  - Para descriptores simples o fingerprints, modelos cl√°sicos funcionan bien.  
  - Para representaciones basadas en grafos o secuencias, modelos basados en Deep Learning pueden ser m√°s adecuados.

- **Interpretabilidad:**  
  - Modelos como Random Forest o regresiones permiten interpretar qu√© variables influyen en la predicci√≥n.  
  - Redes neuronales profundas suelen ser ‚Äúcajas negras‚Äù y requieren t√©cnicas adicionales para interpretarlas.

- **Tiempo y recursos computacionales:**  
  - Modelos simples entrenan y predicen r√°pidamente.  
  - Modelos complejos necesitan m√°s poder de c√≥mputo y tiempo de entrenamiento.

## Ejemplos comunes de modelos para quimioinform√°tica

- **Random Forest:** Popular para clasificaci√≥n y regresi√≥n, f√°cil de usar y robusto.  
- **Support Vector Machines (SVM):** Bueno para datasets medianos con alta dimensionalidad.  
- **Redes Neuronales Artificiales (ANN):** Flexibles, usadas con fingerprints o descriptores.  
- **Redes Neuronales Convolucionales (CNN):** Para datos con estructura espacial, como im√°genes o secuencias.  
- **Modelos basados en Grafos:** Para representar directamente la estructura molecular.



## M√©tricas de evaluaci√≥n en clasificaci√≥n

Cuando trabajamos con modelos de clasificaci√≥n, es importante evaluar su rendimiento usando m√©tricas que reflejen **exactitud, balance y capacidad de predicci√≥n**.  

| M√©trica | Qu√© mide | F√≥rmula b√°sica | Interpretaci√≥n |
|---------|----------|----------------|----------------|
| **Accuracy** | Porcentaje de predicciones correctas | (TP + TN) / (TP + TN + FP + FN) | Ideal si las clases est√°n balanceadas; puede ser enga√±osa en datasets desbalanceados. |
| **Precision (o Positive Predictive Value)** | Qu√© proporci√≥n de predicciones positivas son correctas | TP / (TP + FP) | Alta precision indica pocas falsas alarmas. |
| **Recall (o Sensitivity / True Positive Rate)** | Qu√© proporci√≥n de positivos reales fueron correctamente identificados | TP / (TP + FN) | Alto recall indica que el modelo detecta la mayor√≠a de positivos. |
| **F1-score** | Media arm√≥nica de precision y recall | 2 * (Precision * Recall) / (Precision + Recall) | √ötil cuando necesitamos balancear precision y recall; importante en datasets desbalanceados. |
| **Specificity (True Negative Rate)** | Qu√© proporci√≥n de negativos reales fueron correctamente identificados | TN / (TN + FP) | Complemento del recall para la clase negativa. |
| **AUC-ROC** | √Årea bajo la curva ROC (recall vs. false positive rate) | Calculada a partir de probabilidades | Indica la capacidad de separar clases; 1 = perfecto, 0.5 = aleatorio. |
| **Confusion Matrix** | Matriz que muestra TP, TN, FP y FN | - | Permite ver errores por clase y ayuda a interpretar precision y recall. |

## Curva ROC (Receiver Operating Characteristic)

La **curva ROC** es una herramienta para evaluar el rendimiento de un modelo de clasificaci√≥n, especialmente cuando se predicen probabilidades en lugar de clases directas.

### Concepto
- La curva muestra **la relaci√≥n entre el True Positive Rate (Recall)** y **el False Positive Rate (1 - Specificity)** para distintos **umbrales de decisi√≥n**.
- Cada punto de la curva corresponde a un umbral diferente, es decir, a un valor de probabilidad a partir del cual clasificamos un ejemplo como positivo.

### Ejes de la curva
- **Eje X (FPR)**: False Positive Rate = FP / (FP + TN)  
- **Eje Y (TPR)**: True Positive Rate (Recall) = TP / (TP + FN)

### √Årea bajo la curva (AUC)
- El √°rea bajo la curva (AUC) resume el desempe√±o del modelo en un solo n√∫mero.  
  - AUC = 1 ‚Üí modelo perfecto, separa todas las clases sin errores.  
  - AUC = 0.5 ‚Üí modelo aleatorio, sin poder de discriminaci√≥n.  
- Cuanto m√°s se acerque la curva a la esquina superior izquierda, mejor es el modelo.

### Interpretaci√≥n pr√°ctica
- Permite **comparar modelos independientemente del umbral elegido**.  
- Muy √∫til en **datasets desbalanceados**, como ocurre en drug discovery, donde los positivos son raros y elegir el umbral adecuado es cr√≠tico.



In [49]:
# Funci√≥n para plotear matriz de confusi√≥n y ROC para un modelo dado
def plot_model_performance(model, X_test, y_test, model_name):
    # Matriz de confusi√≥n
    ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)
    plt.title(f"Confusion Matrix - {model_name}")
    plt.show()
    
    # Curva ROC
    RocCurveDisplay.from_estimator(model, X_test, y_test)
    plt.title(f"ROC Curve - {model_name}")
    plt.show()

In [None]:
# Convertir actividad a 0/1
df_final['activity'] = df_final['PUBCHEM_ACTIVITY_OUTCOME'].str.lower().map({'active': 1, 'inactive': 0})

# Lista de fingerprints disponibles
fps_disponibles = ['fp_morgan_array', 'fp_rdkit_array', 'fp_maccs_array','fp_topological_torsion_array', 'fp_atom_pair_array']

# Elegir fingerprint
fp_elegido = fps_disponibles[0]  # Cambiar el √≠ndice o nombre seg√∫n la elecci√≥n

# Verificar si el fingerprint elegido est√° en la lista
if fp_elegido in fps_disponibles:
    X = np.stack(df_final[fp_elegido].values)
    y = df_final['activity'].values  

    # Dividir en train/test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    print(f"Usando fingerprint: {fp_elegido}")
    print(f"Forma de X: {X.shape}, forma de y: {y.shape}")

else:
    print(f"Error: el fingerprint elegido '{fp_elegido}' no est√° en la lista. Elegir uno de: {fps_disponibles}")


### Random Forest: funcionamiento y caracter√≠sticas

**Random Forest** es un algoritmo de ensamble basado en √°rboles de decisi√≥n:

1. **Bosque de √°rboles**  
   - Construye m√∫ltiples √°rboles de decisi√≥n sobre **submuestras aleatorias de los datos**.  
   - Cada √°rbol se entrena usando un **subconjunto aleatorio de features**, lo que reduce el sobreajuste y aumenta la generalizaci√≥n.

2. **Predicci√≥n y votaci√≥n**  
   - Cada √°rbol predice de manera independiente.  
   - La predicci√≥n final se obtiene mediante **votaci√≥n mayoritaria** (clasificaci√≥n) o promedio (regresi√≥n).

3. **Importancia de features**  
   - Random Forest permite evaluar cu√°nto contribuye cada feature a la predicci√≥n final, √∫til para interpretar modelos de QSAR o qu√≠mica computacional.

4. **Hiperpar√°metros principales**  
   - `n_estimators`: n√∫mero de √°rboles en el bosque.  
   - `max_depth`: profundidad m√°xima de cada √°rbol.  
   - `min_samples_split`: m√≠nimo de muestras requeridas para dividir un nodo.  
   - `min_samples_leaf`: m√≠nimo de muestras que debe tener una hoja.  
   - `max_features`: n√∫mero de features consideradas para la mejor divisi√≥n en cada nodo.  
   - `bootstrap`: si se utilizan muestras con reemplazo para construir cada √°rbol.


In [None]:
# Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print(classification_report(y_test, y_pred_rf))

plot_model_performance(rf, X_test, y_test, "Random Forest")

# Importancia de features Random Forest
importances_rf = rf.feature_importances_
indices_rf = importances_rf.argsort()[::-1]
plt.figure(figsize=(10,6))
plt.title("Feature Importances - Random Forest")
plt.bar(range(len(importances_rf)), importances_rf[indices_rf], align='center')
plt.xlabel("Feature Index")
plt.ylabel("Importance")
plt.show()


### XGBoost: funcionamiento y caracter√≠sticas

**XGBoost** (Extreme Gradient Boosting) es un algoritmo de ensamble basado en **boosting de √°rboles de decisi√≥n**:

1. **Boosting de √°rboles**  
   - Construye √°rboles secuencialesmente, donde **cada nuevo √°rbol intenta corregir los errores del anterior**.  
   - Esto permite que el modelo aprenda patrones complejos y reduzca el sesgo.

2. **Predicci√≥n acumulativa**  
   - Cada √°rbol aporta una predicci√≥n que se suma a las predicciones anteriores.  
   - La salida final es la combinaci√≥n ponderada de todos los √°rboles.

3. **Hiperpar√°metros principales**  
   - `n_estimators`: n√∫mero total de √°rboles.  
   - `max_depth`: profundidad m√°xima de cada √°rbol.  
   - `learning_rate` (eta): cu√°nto contribuye cada √°rbol a la predicci√≥n final.  
   - `subsample`: fracci√≥n de muestras usadas para construir cada √°rbol (reduce sobreajuste).  
   - `colsample_bytree`: fracci√≥n de features consideradas para cada √°rbol.  
   - `gamma`: penalizaci√≥n m√≠nima de reducci√≥n de p√©rdida para realizar una partici√≥n adicional.  
   - `min_child_weight`: suma m√≠nima de pesos de instancias en un nodo hoja (controla sobreajuste).  
   - `reg_alpha` y `reg_lambda`: regularizaci√≥n L1 y L2 sobre los pesos de los √°rboles.

4. **Interpretaci√≥n y uso**  
   - XGBoost es muy potente en datasets **con muchas features y relaciones no lineales**, como fingerprints qu√≠micas.  
   - Permite controlar sobreajuste mediante par√°metros de regularizaci√≥n y muestreo.


In [None]:
# XGBoost
xgb_model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)

print(classification_report(y_test, y_pred_xgb))

plot_model_performance(xgb_model, X_test, y_test, "XGBoost")

# Importancia de features XGBoost
importances_xgb = xgb_model.feature_importances_
indices_xgb = importances_xgb.argsort()[::-1]
plt.figure(figsize=(10,6))
plt.title("Feature Importances - XGBoost")
plt.bar(range(len(importances_xgb)), importances_xgb[indices_xgb], align='center')
plt.xlabel("Feature Index")
plt.ylabel("Importance")
plt.show()

### SVM (Support Vector Machine): funcionamiento y caracter√≠sticas

**Support Vector Machine (SVM)** es un algoritmo de clasificaci√≥n que encuentra el **hiperplano que mejor separa las clases** en el espacio de features:

1. **Separaci√≥n de clases**  
   - SVM busca maximizar el **margen** entre las clases, es decir, la distancia entre el hiperplano y los puntos m√°s cercanos de cada clase (support vectors).  
   - Es especialmente √∫til cuando las clases no se superponen demasiado y el espacio de features es de alta dimensi√≥n.

2. **Kernel trick**  
   - Permite transformar los datos a un espacio de mayor dimensi√≥n donde puedan ser linealmente separables.  
   - Kernels comunes: `linear`, `rbf` (radial basis function), `poly` (polinomial).

3. **Hiperpar√°metros principales**  
   - `C`: controla la penalizaci√≥n por errores de clasificaci√≥n. Valores grandes buscan **margen m√°s estricto**, valores peque√±os permiten m√°s errores.  
   - `kernel`: tipo de funci√≥n de kernel (`linear`, `rbf`, `poly`, `sigmoid`).  
   - `gamma`: define la influencia de un solo punto de entrenamiento en kernels como `rbf` o `poly`.  
   - `degree`: grado del polinomio (solo para kernel `poly`).  
   - `coef0`: t√©rmino independiente en kernels `poly` o `sigmoid`.

4. **Interpretaci√≥n y uso**  
   - SVM es muy efectivo en datasets con **muchas features**, como fingerprints qu√≠micas, donde las clases son separables en espacios de alta dimensi√≥n.  
   - Su principal ventaja es encontrar fronteras de decisi√≥n muy precisas, pero puede ser sensible a la elecci√≥n de hiperpar√°metros y al tama√±o del dataset.


In [None]:
# SVM (con kernel lineal)
svm = SVC(kernel='linear', probability=True, random_state=42) #Este paso demora unos minutos! Tener paciencia!
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

print(classification_report(y_test, y_pred_svm))

plot_model_performance(svm, X_test, y_test, "SVM")

# Nota: SVM no tiene importancia de features directa.

# Trabajo en grupo
Ahora vamos a dividirnos en grupos y comprar las diferentes features con los diferentes modelos:

| #  | Fingerprint                  | Dataset    | Modelo        |
| -- | ---------------------------- | ---------- | ------------- |
| 1  | fp_morgan_array              | Balanceado | SVM           |
| 2  | fp_morgan_array              | Balanceado | Random Forest |
| 3  | fp_morgan_array              | Balanceado | XGBoost       |
| 4  | fp_morgan_array              | Completo   | SVM           |
| 5  | fp_morgan_array              | Completo   | Random Forest |
| 6  | fp_morgan_array              | Completo   | XGBoost       |
| 7  | fp_rdkit_array               | Balanceado | SVM           |
| 8  | fp_rdkit_array               | Balanceado | Random Forest |
| 9  | fp_rdkit_array               | Balanceado | XGBoost       |
| 10 | fp_rdkit_array               | Completo   | SVM           |
| 11 | fp_rdkit_array               | Completo   | Random Forest |
| 12 | fp_rdkit_array               | Completo   | XGBoost       |
| 13 | fp_maccs_array               | Balanceado | SVM           |
| 14 | fp_maccs_array               | Balanceado | Random Forest |
| 15 | fp_maccs_array               | Balanceado | XGBoost       |
| 16 | fp_maccs_array               | Completo   | SVM           |
| 17 | fp_maccs_array               | Completo   | Random Forest |
| 18 | fp_maccs_array               | Completo   | XGBoost       |
| 19 | fp_topological_torsion_array | Balanceado | SVM           |
| 20 | fp_topological_torsion_array | Balanceado | Random Forest |
| 21 | fp_topological_torsion_array | Balanceado | XGBoost       |
| 22 | fp_topological_torsion_array | Completo   | SVM           |
| 23 | fp_topological_torsion_array | Completo   | Random Forest |
| 24 | fp_topological_torsion_array | Completo   | XGBoost       |
| 25 | fp_atom_pair_array           | Balanceado | SVM           |
| 26 | fp_atom_pair_array           | Balanceado | Random Forest |
| 27 | fp_atom_pair_array           | Balanceado | XGBoost       |
| 28 | fp_atom_pair_array           | Completo   | SVM           |
| 29 | fp_atom_pair_array           | Completo   | Random Forest |
| 30 | fp_atom_pair_array           | Completo   | XGBoost       |

Incorporar los resultados a la [diapositiva](https://docs.google.com/presentation/d/1CCIcWUqV1pHKC2IPCLeP35USmgV1jcws92VtsUkTXEY/edit?usp=sharing) y completar la tabla final para comparar los resultaods obtenidos

# Consideraciones Generales y C√≥mo Colaborar

## Aspectos clave a tener en cuenta durante el desarrollo

- **Desbalance de datos:**  
  En problemas de clasificaci√≥n de actividad biol√≥gica, es com√∫n que haya muchos m√°s compuestos inactivos que activos (o viceversa). Este desbalance puede afectar negativamente el desempe√±o del modelo y provocar sesgos.  
  **Estrategias:** usar t√©cnicas de balanceo como oversampling (SMOTE), undersampling, o ajustar m√©tricas y umbrales.

- **Similitud intra e inter grupos:**  
  Evaluar la similitud qu√≠mica dentro del grupo de activos y dentro del de inactivos, as√≠ como entre ambos grupos, es importante para entender la diversidad y la dificultad del problema.  
  Esto ayuda a definir si el modelo podr√° generalizar o si existen subgrupos muy distintos.

- **Definir un baseline:**  
  Es fundamental establecer un modelo o m√©todo base sencillo (baseline) para comparar el desempe√±o de modelos m√°s complejos.  
  Ejemplo: un modelo que siempre predice la clase mayoritaria o usa una m√©trica simple para referencia.

## C√≥mo ayudar y colaborar en el proyecto

- **Reportar issues y bugs:**  
  Si encontr√°s errores o comportamientos inesperados, abrir un issue en GitHub con detalles claros.

- **Contribuir con c√≥digo:**  
  Crear ramas feature para nuevas funcionalidades o mejoras, y hacer Pull Requests (PR) para revisi√≥n.

- **Documentar cambios:**  
  Mantener actualizado el README, comentarios en c√≥digo y documentaci√≥n general.

- **Compartir ideas y feedback:**  
  Discutir mejoras, nuevas funcionalidades o problemas en reuniones o a trav√©s de los canales designados.




# Retos y Problemas Comunes en Modelado de IA para Quimioinform√°tica

Adem√°s de los puntos b√°sicos, estos son algunos desaf√≠os espec√≠ficos que suelen presentarse al trabajar con datos qu√≠micos y biol√≥gicos para modelado con IA:

- **Calidad y ruido en los datos:**  
  Resultados experimentales pueden contener errores, inconsistencias o datos contradictorios, afectando la calidad del modelo.

- **Representaci√≥n molecular incompleta o insuficiente:**  
  No siempre las representaciones est√°ndar capturan toda la complejidad qu√≠mica necesaria para predecir actividad o propiedades.

- **Sobrerrepresentaci√≥n de ciertas clases qu√≠micas:**  
  Algunas familias moleculares pueden estar sobrerrepresentadas, lo que puede sesgar el modelo hacia ellas.

- **Overfitting por poca diversidad qu√≠mica:**  
  Si los datos son demasiado similares, el modelo aprende patrones poco generales y falla en predecir compuestos nuevos.

- **Transferibilidad y generalizaci√≥n:**  
  Modelos que funcionan bien en un conjunto de datos pueden no generalizar a otros targets, ensayos o condiciones.

- **Interpretabilidad limitada:**  
  Los modelos complejos pueden ser dif√≠ciles de interpretar, complicando la extracci√≥n de conocimiento qu√≠mico.

- **Escasez de datos para targets poco estudiados:**  
  Muchos blancos biol√≥gicos tienen pocos datos disponibles, limitando el entrenamiento de modelos fiables.

- **Desbalance de clases:**  
  Como mencionamos, el desbalance entre activos e inactivos afecta la evaluaci√≥n y entrenamiento.

- **Problemas en la integraci√≥n de m√∫ltiples fuentes de datos:**  
  Fusionar datos de distintas bases o tipos de ensayos puede ser complejo por diferencias en formatos, condiciones y calidad.

