# Configuración del Entrenamiento

## Argumentos del entrenamiento

In [70]:
from scripts.utils import configuracion_TorchMDNet
import scripts.utils

`--load-model`: Permite cargar un modelo desde un punto de control (*checkpoint*). Esto se utiliza para continuar un entrenamiento interrumpido o realizar inferencias sin necesidad de entrenar desde cero. *(Valor por defecto: `None`)*.

`--conf`, `-c`: Especifica un archivo de configuración en formato YAML que contiene parámetros y configuraciones para el modelo. Centraliza y organiza todas las configuraciones en un solo lugar, facilitando su reutilización. *(Valor por defecto: `None`)*.


`--num-epochs`: Define el número total de épocas para el entrenamiento, donde una época corresponde a una iteración completa sobre el conjunto de datos de entrenamiento. *(Valor por defecto: `300`)*.

In [71]:
configuracion_TorchMDNet("input/config.yaml", num_epochs=1000)

`--batch-size`: Tamaño del lote utilizado en el entrenamiento. Un tamaño mayor mejora la estabilidad del entrenamiento, pero requiere más memoria GPU. *(Valor por defecto: `32`)*.

In [72]:
configuracion_TorchMDNet("input/config.yaml", batch_size=16)

`--inference-batch-size`: Tamaño del lote usado durante la validación y las pruebas. Esto puede ser diferente al tamaño de lote de entrenamiento para optimizar el uso de memoria durante la inferencia. *(Valor por defecto: `None`)*.


In [73]:
configuracion_TorchMDNet("input/config.yaml", inference_batch_size=4)

`--lr` (learning rate): Tasa de aprendizaje inicial para el optimizador. Controla el tamaño de los pasos que toma el modelo al ajustar los pesos para minimizar el error. *(Valor por defecto: `1e-4`)*.


In [74]:
configuracion_TorchMDNet("input/config.yaml", lr=0.0007)

`--lr-patience`: Número de evaluaciones consecutivas sin mejora en la métrica especificada antes de reducir la tasa de aprendizaje. *(Valor por defecto: `10`)*.


In [75]:
configuracion_TorchMDNet("input/config.yaml", lr_patience=5)

`--lr-metric`: Métrica utilizada para decidir si reducir la tasa de aprendizaje. Por ejemplo, `val_loss` (pérdida en validación) o `train_loss` (pérdida en entrenamiento). *(Valor por defecto: `'val_loss'`)*.


In [76]:
configuracion_TorchMDNet("input/config.yaml", lr_metric="Default")

`--lr-min`: Valor mínimo que puede alcanzar la tasa de aprendizaje antes de detener el entrenamiento por falta de progreso. *(Valor por defecto: `1e-6`)*.

In [77]:
configuracion_TorchMDNet("input/config.yaml", lr_min=1.0e-07)

`--lr-factor`: Factor por el cual se multiplica la tasa de aprendizaje cuando la métrica monitoreada deja de mejorar. Por ejemplo, si es `0.8`, la tasa de aprendizaje se reducirá al 80% de su valor actual. *(Valor por defecto: `0.8`)*.

In [78]:
configuracion_TorchMDNet("input/config.yaml", lr_factor=0.5)

`--lr-warmup-steps`: Número de pasos iniciales donde la tasa de aprendizaje aumenta linealmente desde un valor bajo hasta su valor inicial. Este enfoque estabiliza el entrenamiento en las primeras etapas. *(Valor por defecto: `0`)*.

In [79]:
configuracion_TorchMDNet("input/config.yaml", lr_warmup_steps=10000)

`--early-stopping-patience`: Detiene el entrenamiento si no hay mejora en la métrica monitoreada después de un número determinado de épocas. *(Valor por defecto: `30`)*.

In [80]:
configuracion_TorchMDNet("input/config.yaml", early_stopping_patience=500)

`--reset-trainer`: Restablece las métricas relacionadas con el entrenamiento, como *early stopping* y la tasa de aprendizaje, al cargar un modelo desde un punto de control. *(Valor por defecto: `False`)*.

In [81]:
configuracion_TorchMDNet("input/config.yaml", reset_trainer="Default")

`--weight-decay`: Regularización L2 aplicada a los pesos del modelo. Ayuda a prevenir el sobreajuste penalizando pesos excesivamente grandes. *(Valor por defecto: `0.0`)*.

In [82]:
configuracion_TorchMDNet("input/config.yaml", weight_decay="Default")

`--ema-alpha-y`, `--ema-alpha-neg-dy`: Parámetros que determinan la influencia de nuevas pérdidas en el promedio móvil exponencial (*Exponential Moving Average*, EMA) de ciertas métricas. *(Valores por defecto: `1.0` para ambos)*.


In [83]:
configuracion_TorchMDNet("input/config.yaml", ema_alpha_y="Default")

In [84]:
configuracion_TorchMDNet("input/config.yaml", ema_alpha_neg_dy="Default")

`--ngpus`: Número de GPUs a usar durante el entrenamiento. Un valor de `-1` indica que se utilizarán todas las GPUs disponibles. *(Valor por defecto: `-1`)*.

In [85]:
configuracion_TorchMDNet("input/config.yaml", ngpus="Default")

`--num-nodes`: Especifica el número de nodos en un entorno distribuido. Cada nodo puede tener múltiples GPUs. *(Valor por defecto: `1`)*.


In [86]:
configuracion_TorchMDNet("input/config.yaml", num_nodes="Default")

`--precision`: Define la precisión de los cálculos en coma flotante. Puede ser `16`, `32` o `64`. Una menor precisión (`16`) puede acelerar los cálculos y reducir el consumo de memoria. *(Valor por defecto: `32`)*.


In [87]:
configuracion_TorchMDNet("input/config.yaml", precision="Default")

`--log-dir`, `-l`: Directorio donde se guardarán los registros del entrenamiento, como métricas, checkpoints y errores. *(Valor por defecto: `'/output'`)*.

In [88]:
configuracion_TorchMDNet("input/config.yaml", log_dir="Default")

`--splits`: Archivo `.npz` que contiene los índices para dividir los datos en conjuntos de entrenamiento (`idx_train`), validación (`idx_val`) y prueba (`idx_test`). *(Valor por defecto: `None`)*.

In [89]:
configuracion_TorchMDNet("input/config.yaml", splits="Default")

`--train-size`: Especifica el tamaño (en porcentaje o número absoluto) del conjunto de entrenamiento. Si se deja como `None`, se utiliza todo el conjunto restante. *(Valor por defecto: `None`)*.

In [90]:

configuracion_TorchMDNet("input/config.yaml", train_size=0.81)

`--val-size`: Especifica el tamaño (en porcentaje o número absoluto) del conjunto de validación. Si se deja como `None`, se utiliza todo el conjunto restante después de dividir el entrenamiento. *(Valor por defecto: `0.05`)*.


In [91]:
configuracion_TorchMDNet("input/config.yaml", val_size=0.09)

`--test-size`: Especifica el tamaño (en porcentaje o número absoluto) del conjunto de prueba. Si se deja como `None`, se utiliza todo el conjunto restante después de las divisiones anteriores. *(Valor por defecto: `0.1`)*.


In [92]:
configuracion_TorchMDNet("input/config.yaml", test_size=0.1)

`--test-interval`: Frecuencia (en épocas) con la que se evalúa el conjunto de prueba. Un valor predeterminado de `10` significa que la evaluación se realiza cada 10 épocas. *(Valor por defecto: `10`)*.

In [93]:
configuracion_TorchMDNet("input/config.yaml", test_interval="Default")

`--save-interval`: Frecuencia (en épocas) con la que se guarda un checkpoint del modelo durante el entrenamiento. *(Valor por defecto: `10`)*.

In [94]:
configuracion_TorchMDNet("input/config.yaml", save_interval="Default")

`--seed`: Semilla aleatoria para garantizar reproducibilidad en la inicialización del modelo y los procesos de entrenamiento. *(Valor por defecto: `1`)*.

In [95]:
configuracion_TorchMDNet("input/config.yaml", seed=42)

`--num-workers`: Número de procesos paralelos para preprocesar y cargar los datos. Un mayor número puede mejorar la velocidad de carga, pero también aumenta el uso de memoria. *(Valor por defecto: `4`)*.

In [96]:
configuracion_TorchMDNet("input/config.yaml", num_workers=6)

`--redirect`: Si está habilitado, redirige las salidas estándar (`stdout`) y los errores (`stderr`) a un archivo de registro en el directorio especificado. *(Valor por defecto: `False`)*.


In [97]:
configuracion_TorchMDNet("input/config.yaml", redirect="Default")

`--gradient-clipping`: Limita la magnitud de los gradientes para evitar explosiones de gradientes, especialmente en redes profundas. *(Valor por defecto: `0.0`)*.

In [98]:
configuracion_TorchMDNet("input/config.yaml", gradient_clipping="Default")

## Argumentos especificos del dataset

`--dataset`: Especifica el nombre del dataset que se utilizará. Este argumento debe ser uno de los disponibles en `torch_geometric.datasets.__all__`. Esto es útil para seleccionar entre datasets predefinidos de gráficos. *(Valor por defecto: `HDF5`)*.


In [99]:
configuracion_TorchMDNet("input/config.yaml", dataset="Default")

`--dataset-root`: Directorio donde se almacenan los datos del dataset. Si el dataset es "CG", este argumento no será utilizado. *(Valor por defecto: `'input/input_torchmd-net.h5'`)*.

In [100]:
configuracion_TorchMDNet("input/config.yaml", dataset_root="Default")

`--dataset-arg`: Permite pasar argumentos adicionales para ciertos datasets, como propiedades específicas en QM9 o moléculas específicas en MD17. Deben especificarse en formato JSON, por ejemplo: `{"molecules": "aspirin,benzene"}`. *(Valor por defecto: `None`)*.


In [101]:
configuracion_TorchMDNet("input/config.yaml", dataset_arg="Default")

`--coord-files`: Ruta para archivos personalizados de coordenadas, definida mediante un patrón glob. Esto permite trabajar con datos personalizados en lugar de usar el dataset por defecto. *(Valor por defecto: `None`)*.


In [102]:
configuracion_TorchMDNet("input/config.yaml", coord_files="Default")

`--embed-files`: Ruta para archivos personalizados de embeddings, definida mediante un patrón glob. Los embeddings son representaciones aprendidas de las entidades en el dataset. *(Valor por defecto: `None`)*.

In [103]:
configuracion_TorchMDNet("input/config.yaml", embed_files="Default")

`--energy-files`: Ruta para archivos personalizados de energía, definida mediante un patrón glob. Esto es útil si las energías no forman parte del dataset por defecto. *(Valor por defecto: `None`)*.

In [104]:
configuracion_TorchMDNet("input/config.yaml", energy_files="Default")

`--force-files`: Ruta para archivos personalizados de fuerzas, definida mediante un patrón glob. Las fuerzas son importantes en simulaciones como MD (dinámica molecular). *(Valor por defecto: `None`)*.

In [105]:
configuracion_TorchMDNet("input/config.yaml", force_files="Default")

`--y-weight`: Factor de peso aplicado a la etiqueta `y` en la función de pérdida. Esto ajusta la importancia relativa de las predicciones de `y` durante el entrenamiento. *(Valor por defecto: `1.0`)*.

In [106]:

configuracion_TorchMDNet("input/config.yaml", y_weight="Default")

`--neg-dy-weight`: Factor de peso aplicado a la etiqueta `neg_dy` en la función de pérdida. Similar al `y-weight`, ajusta la importancia relativa de las predicciones de `neg_dy`. *(Valor por defecto: `1.0`)*.

In [107]:
configuracion_TorchMDNet("input/config.yaml", neg_dy_weight="Default")

## Argumentos del modelo

`--model`: Especifica el modelo que se utilizará para el entrenamiento. Debe ser uno de los modelos disponibles en `models.__all__`. Este argumento define la arquitectura base de la red neuronal. *(Valor por defecto: `'graph-network'`)*.

In [108]:
configuracion_TorchMDNet("input/config.yaml", model="equivariant-transformer")

`--output-model`: Define el tipo de modelo de salida que se empleará. Esto controla cómo se procesan las salidas del modelo base para producir predicciones finales. Debe ser una de las opciones en `output_modules.__all__`. *(Valor por defecto: `'Scalar'`)*.

In [109]:
configuracion_TorchMDNet("input/config.yaml", output_model="Default")

`--prior-model`: Especifica el modelo previo (prior model) que se utilizará. Este tipo de modelo puede incorporar conocimiento previo o restricciones adicionales al proceso de aprendizaje. Debe seleccionarse de entre las opciones disponibles en `priors.__all__`. *(Valor por defecto: `None`)*.

In [110]:
configuracion_TorchMDNet("input/config.yaml", prior_model="Default")

## Argumentos de la arquitectura

`--charge`: Indica si el modelo necesita información sobre la carga total del sistema como entrada. Esto es relevante en simulaciones químicas o físicas donde la carga afecta los cálculos. *(Valor por defecto: `False`)*.

In [111]:
configuracion_TorchMDNet("input/config.yaml", charge="Default")

`--spin`: Especifica si el modelo necesita el estado de espín como entrada. Esto es importante para modelos que trabajan con propiedades electrónicas o magnéticas. *(Valor por defecto: `False`)*.

In [112]:
configuracion_TorchMDNet("input/config.yaml", spin="Default")

`--embedding-dimension`: Define la dimensión de las capas de embedding en el modelo. Una mayor dimensión permite al modelo aprender representaciones más complejas, pero aumenta el uso de memoria y el costo computacional. *(Valor por defecto: `256`)*.

In [113]:
configuracion_TorchMDNet("input/config.yaml", embedding_dimension=128)

`--num-layers`: Especifica el número de capas de interacción en el modelo. Más capas suelen mejorar la capacidad del modelo para capturar relaciones complejas, pero pueden aumentar el riesgo de sobreajuste. *(Valor por defecto: `6`)*.

In [114]:
configuracion_TorchMDNet("input/config.yaml", num_layers="Default")

`--num-rbf`: Número de funciones base radiales (RBF) utilizadas en el modelo para expandir distancias. Estas funciones permiten representar interacciones entre puntos en el espacio de manera más detallada. *(Valor por defecto: `64`)*.

In [115]:
configuracion_TorchMDNet("input/config.yaml", num_rbf=32)

`--activation`: Define la función de activación que se usará en las capas del modelo. Las funciones de activación no lineales permiten que el modelo capture relaciones complejas en los datos. Debe ser una de las disponibles en `act_class_mapping.keys()`. *(Valor por defecto: `'silu'`)*.


In [116]:
configuracion_TorchMDNet("input/config.yaml", activation="Default")

`--rbf-type`: Especifica el tipo de expansión de distancia que se usará. Esto determina cómo se representan las distancias en el modelo, afectando la capacidad del modelo para capturar relaciones espaciales. Debe ser una de las opciones en `rbf_class_mapping.keys()`. *(Valor por defecto: `'expnorm'`)*.

In [117]:
configuracion_TorchMDNet("input/config.yaml", rbf_type="Default")

`--trainable-rbf`: Indica si las funciones de expansión de distancia (RBF) deben ser entrenables. Esto permite que el modelo ajuste dinámicamente cómo se representan las distancias durante el entrenamiento. *(Valor por defecto: `False`)*.


In [118]:
configuracion_TorchMDNet("input/config.yaml", trainable_rbf="Default")

`--neighbor-embedding`: Especifica si se debe aplicar un embedding a los vecinos antes de las interacciones. Esto puede mejorar la representación de los vecinos en sistemas donde las interacciones locales son importantes. *(Valor por defecto: `False`)*.

In [119]:
configuracion_TorchMDNet("input/config.yaml", neighbor_embedding=True)

`--aggr`: Define la operación de agregación que se usará en las salidas del filtro CFConv. Las opciones disponibles son `'add'`, `'mean'` o `'max'`. Esto afecta cómo se combinan las contribuciones de múltiples vecinos. *(Valor por defecto: `'add'`)*.


In [120]:
configuracion_TorchMDNet("input/config.yaml", aggr="Default")

## Argumentos del transformer

`--distance-influence`: Define cómo se incluye la información de las distancias en el mecanismo de atención del transformador. Las opciones son:
- `'keys'`: Las distancias afectan las claves en la atención.
- `'values'`: Las distancias afectan los valores.
- `'both'`: Las distancias afectan tanto las claves como los valores.
- `'none'`: No se incluye información de distancia en la atención.

Esto es relevante en contextos como dinámica molecular, donde las distancias espaciales entre átomos influyen en las interacciones. *(Valor por defecto: `'both'`)*.

In [121]:
configuracion_TorchMDNet("input/config.yaml", distance_influence="Default")

`--attn-activation`: Especifica la función de activación utilizada dentro del mecanismo de atención del transformador. Una activación adecuada mejora la capacidad de modelar interacciones complejas. Debe ser una de las opciones disponibles en `act_class_mapping.keys()`. *(Valor por defecto: `'silu'`)*.


In [122]:
configuracion_TorchMDNet("input/config.yaml", attn_activation="Default")

`--num-heads`: Define el número de cabezas de atención en el transformador. Más cabezas permiten que el modelo enfoque su atención en múltiples aspectos de los datos simultáneamente, lo que puede mejorar la captura de relaciones complejas. Sin embargo, aumenta el costo computacional. *(Valor por defecto: `8`)*.

In [123]:
configuracion_TorchMDNet("input/config.yaml", num_heads="Default")

## Argumentos Tensornet

`--equivariance-invariance-group`: Especifica el grupo de equivariancia e invariancia utilizado en TensorNet. Esto define las simetrías que el modelo debe respetar durante el aprendizaje, como la simetría rotacional y traslacional. En el contexto de dinámicas moleculares y gráficos espaciales, la elección de un grupo como `O(3)` asegura que el modelo sea insensible a rotaciones y traslaciones en el espacio tridimensional. *(Valor por defecto: `'O(3)'`)*.

In [124]:
configuracion_TorchMDNet("input/config.yaml", equivariance_invariance_group="Default")

## Otros Argumentos

`--derivative`: Si se establece en `True`, calcula la derivada de la predicción con respecto a las coordenadas. Esto es útil en aplicaciones como dinámica molecular, donde las fuerzas se derivan de la energía potencial. *(Valor por defecto: `False`)*.

In [125]:
configuracion_TorchMDNet("input/config.yaml", derivative=True)

`--cutoff-lower`: Define el límite inferior para la distancia de interacción en el modelo. Átomos más cercanos que este valor no se tendrán en cuenta. *(Valor por defecto: `0.0`)*.

In [126]:

configuracion_TorchMDNet("input/config.yaml", cutoff_lower="Default")

`--cutoff-upper`: Define el límite superior para la distancia de interacción en el modelo. Átomos más lejanos que este valor no se tendrán en cuenta. *(Valor por defecto: `5.0`)*.

In [127]:
configuracion_TorchMDNet("input/config.yaml", cutoff_upper=6.35)

`--atom-filter`: Especifica un filtro basado en el número atómico (`Z`). Solo se consideran átomos con un número atómico mayor que este valor en los cálculos. *(Valor por defecto: `-1`, lo que significa que todos los átomos son considerados)*.

In [128]:
configuracion_TorchMDNet("input/config.yaml", atom_filter="Default")

`--max-z`: Define el número atómico máximo que puede representarse en la matriz de embedding. Esto asegura que el modelo pueda manejar átomos hasta este número atómico. *(Valor por defecto: `100`)*.

In [129]:
configuracion_TorchMDNet("input/config.yaml", max_z="Default")

`--max-num-neighbors`: Establece el número máximo de vecinos a considerar en la red. Esto controla la complejidad computacional al limitar las interacciones procesadas. *(Valor por defecto: `32`)*.

In [130]:
configuracion_TorchMDNet("input/config.yaml", max_num_neighbors=140)

`--standardize`: Si se establece en `True`, multiplica la predicción por la desviación estándar y suma la media del conjunto de datos, reescalando las predicciones a la escala original de los datos. *(Valor por defecto: `False`)*.

In [131]:
configuracion_TorchMDNet("input/config.yaml", standardize="Default")

`--reduce-op`: Define la operación de reducción que se aplica a las predicciones atómicas para obtener una predicción global. Las opciones son:
- `'add'`: Suma todas las contribuciones atómicas.
- `'mean'`: Calcula el promedio de las contribuciones atómicas.
*(Valor por defecto: `'add'`)*.

In [132]:
configuracion_TorchMDNet("input/config.yaml", reduce_op="Default")

`--wandb-use`: Indica si se utilizará *Weights & Biases* (wandb) para el seguimiento y registro de experimentos. *(Valor por defecto: `False`)*.

In [133]:
configuracion_TorchMDNet("input/config.yaml", wandb_use="Default")

`--wandb-name`: Asigna un nombre al experimento registrado en wandb. Esto facilita la identificación de ejecuciones específicas. *(Valor por defecto: `'training'`)*.

In [134]:
configuracion_TorchMDNet("input/config.yaml", wandb_name="Default")

`--wandb-project`: Define el proyecto de wandb en el que se registrarán los datos de la ejecución. *(Valor por defecto: `'training_'`)*.

In [135]:
configuracion_TorchMDNet("input/config.yaml", wandb_project="Default")

`--wandb-resume-from-id`: Permite reanudar una ejecución previa en wandb a partir de un ID de ejecución específico. El ID puede recuperarse desde el tablero de wandb. *(Valor por defecto: `None`)*.

In [136]:
configuracion_TorchMDNet("input/config.yaml", wandb_resume_from_id="Default")

`--tensorboard-use`: Indica si se utilizará TensorBoard para visualizar métricas y gráficos durante el entrenamiento. *(Valor por defecto: `False`)*.


In [137]:
configuracion_TorchMDNet("input/config.yaml", tensorboard_use="Default")

# Generar script de entrenamiento

In [138]:
ruta_script="iniciar-entrenamiento.sh"
gpus="0,1,2,3,4"
ruta_conf="input/config.yaml"
ruta_archivo_de_salida="output/informacion_entrenamiento.txt"

scripts.utils.crear_script_entrenamiento(ruta_script, gpus, ruta_conf,ruta_archivo_de_salida)

El script se ha guardado correctamente en: iniciar-entrenamiento.sh


Comprobar permisos script

```bash
chmod +x iniciar-entrenamiento.sh
```

Ejecutar con nohup

```bash
nohup ./iniciar-entrenamiento.sh > output/salida.log 2>&1 &
```