# Identify the best practices of an MLOps strategy

## 🧠 Conceptos clave que debes dominar

| Categoría                      | Buenas prácticas                                                         | En Databricks…                                                            |
| ------------------------------ | ------------------------------------------------------------------------ | ------------------------------------------------------------------------- |
| **Ciclo de vida reproducible** | Usar pipelines reproducibles para entrenamiento, validación y despliegue | Usa MLflow (tracking y proyectos) y notebooks versionados                 |
| **Tracking de experimentos**   | Registrar automáticamente métricas, parámetros y artefactos              | `mlflow.start_run()`, `mlflow.log_metric()`, etc.                         |
| **Gestión de modelos**         | Registrar modelos con versión, etapa (`Staging`, `Production`) y alias   | Usa MLflow Model Registry (de Unity Catalog si es posible)                |
| **Feature consistency**        | Reutilizar y centralizar features a través del **Feature Store**         | Usa `FeatureStoreClient`, tablas offline y online                         |
| **Despliegue automatizado**    | Automatizar el paso de entrenamiento a producción mediante CI/CD         | Integra con repositorios Git + Jobs + REST APIs                           |
| **Validación de modelos**      | Validación automática (unit tests, benchmarks) antes de promover         | Implementar validadores dentro de pipelines o con notebooks de validación |
| **Gobernanza y auditoría**     | Control de accesos, trazabilidad de runs, versionado de código/modelos   | Usa Unity Catalog y MLflow para registrar todo                            |
| **Monitoreo post-despliegue**  | Monitorear performance de modelos en producción (drift, errores)         | Logs personalizados, uso de dashboards (ej. Databricks SQL)               |
| **Promoción controlada**       | Promover modelos con alias (`Champion`, `Challenger`) y rollback         | Usa `set_registered_model_alias()` y validación manual o automática       |
| **Separación de entornos**     | Desarrollo, staging y producción deben estar claramente separados        | Usa workspaces, clusters o UC para aislar entornos                        |


## 📌 Puntos claves
🔁 **Ciclo de vida del modelo**

- MLOps automatiza: entrenamiento → validación → registro → despliegue → monitoreo.
- Siempre busca reproducibilidad → versión de código, datos, modelos y features.

### 🧠 Best practices clave que debes conocer
| Práctica                   | Qué recordar                                                  |
| -------------------------- | ------------------------------------------------------------- |
| **Tracking**               | Siempre registra métricas, parámetros y artefactos            |
| **Versionado**             | Versiona modelo + código + datos para trazabilidad            |
| **Validación**             | Usa métricas + visuales + revisión humana antes de promover   |
| **Feature Store**          | Garantiza consistencia entre training y serving               |
| **Separación de entornos** | Usa staging vs producción para minimizar riesgos              |
| **Alias en modelos**       | `Champion` es el modelo activo, `Challenger` es el competidor |
| **Gobernanza UC**          | Unity Catalog permite centralizar permisos y versiones        |

## 🆚 Diferencias comunes para memorizar
| Concepto A                      | vs | Concepto B                 | Diferencia clave                                                         |
| ------------------------------- | -- | -------------------------- | ------------------------------------------------------------------------ |
| **MLflow Registry (workspace)** | vs | **Unity Catalog Registry** | El primero es local al workspace, el segundo es global y gobernado       |
| **Promover modelos**            | vs | **Promover código**        | Promover código es para notebooks/scripts; modelos para flujos validados |
| **Online features**             | vs | **Offline features**       | Online: baja latencia, serving; Offline: batch, training                 |


# Identify the advantages of using ML runtimes

## 🧠 ¿Qué es un ML Runtime en Databricks?
Un ML Runtime es una versión de entorno preconfigurado en Databricks que incluye:

- Librerías de machine learning más usadas
- Integración lista con MLflow
- Compatibilidad con GPU/TPU (según instancia)
- Compatibilidad con Spark para trabajo distribuido
- Soporte para AutoML, Feature Store y Model Serving
- Es como un "conda env" + Spark + MLflow listo para usar.

## 📌 Puntos claves

| **Ventaja**                                            | **Explicación clara**                                                                                          | **Término clave a recordar** |
| ------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------- | ---------------------------- |
| 🔌 **Preconfigurado**                                  | Incluye `scikit-learn`, `xgboost`, `tensorflow`, `pytorch`, `mlflow`, etc. sin necesidad de instalación manual | "Listo para usar"            |
| 🧩 **Integración total con MLflow**                    | No necesitas configurar tracking, UI, ni artifacts: ya viene integrado                                         | "MLflow nativo"              |
| 🧠 **Soporte para AutoML**                             | AutoML en Databricks solo está disponible en ML Runtime                                                        | "AutoML solo en ML Runtime"  |
| 🧱 **Compatible con Feature Store**                    | Solo disponible cuando usas ML Runtime en clusters de tipo `ml`                                                | "Feature Store funcional"    |
| 🚀 **Optimizado para GPU y deep learning**             | Versiones de ML Runtime tienen builds con CUDA/cuDNN listos para usar                                          | "GPU-ready"                  |
| 🧪 **Entorno consistente para entrenar y servir**      | Permite que el modelo sea entrenado y desplegado en el mismo entorno (¡menos errores!)                         | "Same environment"           |
| 🔒 **Seguridad y mantenimiento oficial**               | Actualizado por Databricks con parches, dependencias seguras y validación                                      | "Mantenido por Databricks"   |
| ⚙️ **Soporte para clusters compartidos y autoscaling** | Se puede usar con clusters dinámicos para batch y producción                                                   | "Optimizado Spark + ML"      |


## Casos donde usar ML Runtime te da ventaja

| Escenario                                                   | ¿Por qué usar ML Runtime?                  |
| ----------------------------------------------------------- | ------------------------------------------ |
| Quieres hacer pruebas con AutoML rápido                     | Está disponible solo en ML Runtime         |
| Quieres registrar métricas en MLflow automáticamente        | ML Runtime lo hace sin configuración       |
| Necesitas entrenar un modelo con PyTorch en GPU             | Hay ML Runtime con soporte para CUDA       |
| Quieres servir un modelo con Databricks Model Serving       | ML Runtime garantiza compatibilidad        |
| Usas Feature Store para features de entrenamiento y scoring | Solo funciona completamente con ML Runtime |


# Identify how AutoML facilitates model/feature selection

## ¿Qué hace AutoML en Databricks?
AutoML en Databricks automatiza gran parte del proceso de entrenamiento de modelos. En particular:

- Prueba varios algoritmos (modelos) automáticamente
- Hace selección de features relevantes
- Aplica técnicas de preprocesamiento y transformación
- Ajusta hiperparámetros con search space razonable
- Genera un notebook reutilizable y reproducible


## ¿Cómo facilita la selección de modelos y features?
| Función                                         | ¿Cómo AutoML lo hace por ti?                                                                                                 | ¿Por qué es útil?                                              |
| ----------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------- |
| 🧠 **Prueba múltiples modelos automáticamente** | Prueba `LogisticRegression`, `RandomForest`, `XGBoost`, etc., y compara métricas como accuracy, ROC AUC, RMSE, etc.          | Ahorra tiempo; puedes elegir el mejor modelo sin codificar     |
| 🧪 **Selecciona features relevantes**           | Aplica técnicas de importancia de variables (ej. `feature_importances_` o SHAP) y elimina features irrelevantes o colineales | Mejora performance y evita overfitting                         |
| 🧹 **Hace preprocesamiento automático**         | Imputación de valores nulos, codificación de variables categóricas, escalado de variables continuas                          | Evita errores comunes y garantiza inputs válidos para modelos  |
| 📊 **Entrega métricas comparativas**            | Genera tabla de runs con métricas por modelo                                                                                 | Puedes analizar resultados y justificar la elección del modelo |
| 🧱 **Genera notebook con el mejor pipeline**    | El código completo con steps, hiperparámetros, evaluación, etc.                                                              | Puedes reproducir, mejorar o usar como base para producción    |


## ¿Qué ocurre internamente?
Cuando ejecutas:

```python
import databricks.automl
summary = databricks.automl.classify(df, target_col="y")
```

Databricks AutoML:

- Detecta automáticamente los tipos de columnas (numéricas, categóricas, fecha, etc.)
- Realiza limpieza básica: elimina columnas constantes, llena nulos, etc.
- Hace ingeniería de características (p. ej., one-hot encoding, extracción de fecha)
- Corre múltiples modelos como:
  - LogisticRegression
  - LightGBM
  - XGBoost
  - RandomForest
- Evalúa modelos con métricas como f1, precision, roc_auc, etc.
- Registra cada experimento en MLflow Tracking
- Te devuelve:
  - El mejor modelo
  - Notebook del pipeline completo
  - MLflow experiment con todas las ejecuciones

## 📌 Puntos claves

| Pregunta típica                                                 | Respuesta esperada                                                    |
| --------------------------------------------------------------- | --------------------------------------------------------------------- |
| ¿Cómo facilita AutoML la selección de modelo?                   | Ejecuta múltiples modelos y compara métricas automáticamente          |
| ¿Cómo ayuda AutoML con la selección de features?                | Evalúa la importancia de variables y elimina las irrelevantes         |
| ¿Qué beneficio clave ofrece AutoML para el proceso de modelado? | Genera automáticamente un notebook con el mejor pipeline reproducible |
| ¿Dónde puedes comparar el rendimiento de los modelos?           | En el experimento de MLflow que AutoML crea automáticamente           |


# Identify the advantages AutoML brings to the model development process

## 📌 Puntos claves

| Etapa del proceso                                      | ¿Qué hace AutoML?                                                               | Ventaja clave                                             |
| ------------------------------------------------------ | ------------------------------------------------------------------------------- | --------------------------------------------------------- |
| 📦 **Carga y limpieza de datos**                       | Detecta tipos de columnas, rellena nulos, descarta columnas vacías o constantes | Reduce errores de entrada y tiempo de preparación         |
| 🧼 **Preprocesamiento automático**                     | Aplica one-hot encoding, escalado, transformaciones temporales, etc.            | Evita código redundante y asegura inputs válidos          |
| 🧠 **Selección automática de modelos y features**      | Corre múltiples algoritmos y selecciona el mejor según métricas                 | Acelera la exploración y evita sesgos del analista        |
| 🧪 **Entrenamiento automático y optimización**         | Ajusta hiperparámetros con lógica propia (ej. grid/random search)               | Ahorra tiempo y mejora la performance sin intervención    |
| 📊 **Evaluación automática**                           | Muestra comparaciones de métricas: ROC AUC, RMSE, F1, etc.                      | Facilita decisiones sin necesidad de graficar manualmente |
| 📝 **Notebook generado automáticamente**               | Entrega notebook 100 % editable y reproducible del mejor pipeline               | Acelera producción y aprendizaje del proceso              |
| 🔄 **Integración con MLflow**                          | Registra experimentos, parámetros, métricas, modelos y código                   | Garantiza trazabilidad y reproducibilidad                 |
| 🚀 **Escalabilidad con Spark y clusters distribuidos** | Corre en Spark clusters si el dataset es grande                                 | Permite manejar datasets grandes sin reescribir código    |


## 🧠 Flashcards mentales para memorizar
- AutoML reduce el tiempo de desarrollo → automatiza desde limpieza hasta evaluación
- AutoML genera código reutilizable → notebook editable y listo para producción
- AutoML integra con MLflow → todo el tracking ya está hecho
- AutoML escala en Spark → puedes usarlo con datasets grandes
- AutoML mejora productividad y precisión → compara modelos con criterios objetivos

# Identify the benefits of creating feature store tables at the account level in Unity Catalog in Databricks vs at the workspace level


## ✅ Contexto: Qué es el Feature Store en Databricks
El Feature Store de Databricks es un sistema centralizado para gestionar, versionar y reutilizar características (features) para modelos de ML. Permite:

Definir, almacenar y documentar features.

Compartir features entre equipos.

Acceder a las features de forma consistente tanto en entrenamiento como en inferencia.

## 🔍 Diferencia clave: Nivel de cuenta (Account-level / Unity Catalog) vs Nivel de workspace

| Aspecto                   | Workspace-level Feature Store                                            | Unity Catalog (Account-level) Feature Store                                                                                |
| ------------------------- | ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------------------- |
| **Scope**                 | Solo accesible desde el workspace en que fue creado.                     | Accesible desde todos los workspaces que usen Unity Catalog dentro de la misma cuenta.                                     |
| **Governanza**            | Gestión limitada por workspace.                                          | Control total a través de UC: roles, permisos, lineage, etc.                                                               |
| **Reutilización**         | Limitada: features deben recrearse si se quieren usar en otro workspace. | Alta reutilización: features se centralizan y pueden compartirse globalmente.                                              |
| **Seguridad y auditoría** | Permisos locales del workspace.                                          | Seguridad avanzada con Unity Catalog, incluyendo **Auditing**, **Data Lineage**, y **Fine-grained Access Control (ABAC)**. |
| **Escalabilidad**         | Difícil de escalar a nivel organización.                                 | Ideal para equipos grandes, entornos multicloud o multiworkspaces.                                                         |
| **Colaboración**          | Features aislados por workspace.                                         | Promueve la colaboración entre equipos al compartir features desde un catálogo centralizado.                               |


## 📌 Puntos claves

UC permite centralizar y reutilizar features entre múltiples workspaces.

UC mejora la seguridad, ya que se basa en acceso por Unity Catalog, no por configuración local.

UC permite la trazabilidad y gobernanza completa del ciclo de vida de las features (quién las creó, qué modelos las usan, etc.).

UC es escalable a nivel de organización y multicloud.

Crear tablas de Feature Store en UC es más adecuado para entornos de producción colaborativos.

# Create a feature store table in Unity Catalog

## 📌 Puntos claves

# Write data to a feature store table

## 📌 Puntos claves

#Train a model with features from a feature store table.

## 📌 Puntos claves

# Score a model using features from a feature store table.


## 📌 Puntos claves

# Describe the differences between online and offline feature tables

## 📌 Puntos claves

# Identify the best run using the MLflow Client API.

## 📌 Puntos claves

# Manually log metrics, artifacts, and models in an MLflow Run.

## 📌 Puntos claves

# Identify information available in the MLFlow UI

## 📌 Puntos claves

# Register a model using the MLflow Client API in the Unity Catalog registry

## 📌 Puntos claves

# Identify benefits of registering models in the Unity Catalog registry over the workspace registry

## 📌 Puntos claves

# Identify scenarios where promoting code is preferred over promoting models and vice versa

## 📌 Puntos claves

# Set or remove a tag for a model

## 📌 Puntos claves

# Promote a challenger model to a champion model using aliases

## 📌 Puntos claves