# Identify the best practices of an MLOps strategy

## üß† Conceptos clave que debes dominar

| Categor√≠a                      | Buenas pr√°cticas                                                         | En Databricks‚Ä¶                                                            |
| ------------------------------ | ------------------------------------------------------------------------ | ------------------------------------------------------------------------- |
| **Ciclo de vida reproducible** | Usar pipelines reproducibles para entrenamiento, validaci√≥n y despliegue | Usa MLflow (tracking y proyectos) y notebooks versionados                 |
| **Tracking de experimentos**   | Registrar autom√°ticamente m√©tricas, par√°metros y artefactos              | `mlflow.start_run()`, `mlflow.log_metric()`, etc.                         |
| **Gesti√≥n de modelos**         | Registrar modelos con versi√≥n, etapa (`Staging`, `Production`) y alias   | Usa MLflow Model Registry (de Unity Catalog si es posible)                |
| **Feature consistency**        | Reutilizar y centralizar features a trav√©s del **Feature Store**         | Usa `FeatureStoreClient`, tablas offline y online                         |
| **Despliegue automatizado**    | Automatizar el paso de entrenamiento a producci√≥n mediante CI/CD         | Integra con repositorios Git + Jobs + REST APIs                           |
| **Validaci√≥n de modelos**      | Validaci√≥n autom√°tica (unit tests, benchmarks) antes de promover         | Implementar validadores dentro de pipelines o con notebooks de validaci√≥n |
| **Gobernanza y auditor√≠a**     | Control de accesos, trazabilidad de runs, versionado de c√≥digo/modelos   | Usa Unity Catalog y MLflow para registrar todo                            |
| **Monitoreo post-despliegue**  | Monitorear performance de modelos en producci√≥n (drift, errores)         | Logs personalizados, uso de dashboards (ej. Databricks SQL)               |
| **Promoci√≥n controlada**       | Promover modelos con alias (`Champion`, `Challenger`) y rollback         | Usa `set_registered_model_alias()` y validaci√≥n manual o autom√°tica       |
| **Separaci√≥n de entornos**     | Desarrollo, staging y producci√≥n deben estar claramente separados        | Usa workspaces, clusters o UC para aislar entornos                        |


## üìå Puntos claves
üîÅ **Ciclo de vida del modelo**

- MLOps automatiza: entrenamiento ‚Üí validaci√≥n ‚Üí registro ‚Üí despliegue ‚Üí monitoreo.
- Siempre busca reproducibilidad ‚Üí versi√≥n de c√≥digo, datos, modelos y features.

### üß† Best practices clave que debes conocer
| Pr√°ctica                   | Qu√© recordar                                                  |
| -------------------------- | ------------------------------------------------------------- |
| **Tracking**               | Siempre registra m√©tricas, par√°metros y artefactos            |
| **Versionado**             | Versiona modelo + c√≥digo + datos para trazabilidad            |
| **Validaci√≥n**             | Usa m√©tricas + visuales + revisi√≥n humana antes de promover   |
| **Feature Store**          | Garantiza consistencia entre training y serving               |
| **Separaci√≥n de entornos** | Usa staging vs producci√≥n para minimizar riesgos              |
| **Alias en modelos**       | `Champion` es el modelo activo, `Challenger` es el competidor |
| **Gobernanza UC**          | Unity Catalog permite centralizar permisos y versiones        |

## üÜö Diferencias comunes para memorizar
| Concepto A                      | vs | Concepto B                 | Diferencia clave                                                         |
| ------------------------------- | -- | -------------------------- | ------------------------------------------------------------------------ |
| **MLflow Registry (workspace)** | vs | **Unity Catalog Registry** | El primero es local al workspace, el segundo es global y gobernado       |
| **Promover modelos**            | vs | **Promover c√≥digo**        | Promover c√≥digo es para notebooks/scripts; modelos para flujos validados |
| **Online features**             | vs | **Offline features**       | Online: baja latencia, serving; Offline: batch, training                 |


# Identify the advantages of using ML runtimes

## üß† ¬øQu√© es un ML Runtime en Databricks?
Un ML Runtime es una versi√≥n de entorno preconfigurado en Databricks que incluye:

- Librer√≠as de machine learning m√°s usadas
- Integraci√≥n lista con MLflow
- Compatibilidad con GPU/TPU (seg√∫n instancia)
- Compatibilidad con Spark para trabajo distribuido
- Soporte para AutoML, Feature Store y Model Serving
- Es como un "conda env" + Spark + MLflow listo para usar.

## üìå Puntos claves

| **Ventaja**                                            | **Explicaci√≥n clara**                                                                                          | **T√©rmino clave a recordar** |
| ------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------- | ---------------------------- |
| üîå **Preconfigurado**                                  | Incluye `scikit-learn`, `xgboost`, `tensorflow`, `pytorch`, `mlflow`, etc. sin necesidad de instalaci√≥n manual | "Listo para usar"            |
| üß© **Integraci√≥n total con MLflow**                    | No necesitas configurar tracking, UI, ni artifacts: ya viene integrado                                         | "MLflow nativo"              |
| üß† **Soporte para AutoML**                             | AutoML en Databricks solo est√° disponible en ML Runtime                                                        | "AutoML solo en ML Runtime"  |
| üß± **Compatible con Feature Store**                    | Solo disponible cuando usas ML Runtime en clusters de tipo `ml`                                                | "Feature Store funcional"    |
| üöÄ **Optimizado para GPU y deep learning**             | Versiones de ML Runtime tienen builds con CUDA/cuDNN listos para usar                                          | "GPU-ready"                  |
| üß™ **Entorno consistente para entrenar y servir**      | Permite que el modelo sea entrenado y desplegado en el mismo entorno (¬°menos errores!)                         | "Same environment"           |
| üîí **Seguridad y mantenimiento oficial**               | Actualizado por Databricks con parches, dependencias seguras y validaci√≥n                                      | "Mantenido por Databricks"   |
| ‚öôÔ∏è **Soporte para clusters compartidos y autoscaling** | Se puede usar con clusters din√°micos para batch y producci√≥n                                                   | "Optimizado Spark + ML"      |


## Casos donde usar ML Runtime te da ventaja

| Escenario                                                   | ¬øPor qu√© usar ML Runtime?                  |
| ----------------------------------------------------------- | ------------------------------------------ |
| Quieres hacer pruebas con AutoML r√°pido                     | Est√° disponible solo en ML Runtime         |
| Quieres registrar m√©tricas en MLflow autom√°ticamente        | ML Runtime lo hace sin configuraci√≥n       |
| Necesitas entrenar un modelo con PyTorch en GPU             | Hay ML Runtime con soporte para CUDA       |
| Quieres servir un modelo con Databricks Model Serving       | ML Runtime garantiza compatibilidad        |
| Usas Feature Store para features de entrenamiento y scoring | Solo funciona completamente con ML Runtime |


# Identify how AutoML facilitates model/feature selection

## ¬øQu√© hace AutoML en Databricks?
AutoML en Databricks automatiza gran parte del proceso de entrenamiento de modelos. En particular:

- Prueba varios algoritmos (modelos) autom√°ticamente
- Hace selecci√≥n de features relevantes
- Aplica t√©cnicas de preprocesamiento y transformaci√≥n
- Ajusta hiperpar√°metros con search space razonable
- Genera un notebook reutilizable y reproducible


## ¬øC√≥mo facilita la selecci√≥n de modelos y features?
| Funci√≥n                                         | ¬øC√≥mo AutoML lo hace por ti?                                                                                                 | ¬øPor qu√© es √∫til?                                              |
| ----------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------- |
| üß† **Prueba m√∫ltiples modelos autom√°ticamente** | Prueba `LogisticRegression`, `RandomForest`, `XGBoost`, etc., y compara m√©tricas como accuracy, ROC AUC, RMSE, etc.          | Ahorra tiempo; puedes elegir el mejor modelo sin codificar     |
| üß™ **Selecciona features relevantes**           | Aplica t√©cnicas de importancia de variables (ej. `feature_importances_` o SHAP) y elimina features irrelevantes o colineales | Mejora performance y evita overfitting                         |
| üßπ **Hace preprocesamiento autom√°tico**         | Imputaci√≥n de valores nulos, codificaci√≥n de variables categ√≥ricas, escalado de variables continuas                          | Evita errores comunes y garantiza inputs v√°lidos para modelos  |
| üìä **Entrega m√©tricas comparativas**            | Genera tabla de runs con m√©tricas por modelo                                                                                 | Puedes analizar resultados y justificar la elecci√≥n del modelo |
| üß± **Genera notebook con el mejor pipeline**    | El c√≥digo completo con steps, hiperpar√°metros, evaluaci√≥n, etc.                                                              | Puedes reproducir, mejorar o usar como base para producci√≥n    |


## ¬øQu√© ocurre internamente?
Cuando ejecutas:

```python
import databricks.automl
summary = databricks.automl.classify(df, target_col="y")
```

Databricks AutoML:

- Detecta autom√°ticamente los tipos de columnas (num√©ricas, categ√≥ricas, fecha, etc.)
- Realiza limpieza b√°sica: elimina columnas constantes, llena nulos, etc.
- Hace ingenier√≠a de caracter√≠sticas (p. ej., one-hot encoding, extracci√≥n de fecha)
- Corre m√∫ltiples modelos como:
  - LogisticRegression
  - LightGBM
  - XGBoost
  - RandomForest
- Eval√∫a modelos con m√©tricas como f1, precision, roc_auc, etc.
- Registra cada experimento en MLflow Tracking
- Te devuelve:
  - El mejor modelo
  - Notebook del pipeline completo
  - MLflow experiment con todas las ejecuciones

## üìå Puntos claves

| Pregunta t√≠pica                                                 | Respuesta esperada                                                    |
| --------------------------------------------------------------- | --------------------------------------------------------------------- |
| ¬øC√≥mo facilita AutoML la selecci√≥n de modelo?                   | Ejecuta m√∫ltiples modelos y compara m√©tricas autom√°ticamente          |
| ¬øC√≥mo ayuda AutoML con la selecci√≥n de features?                | Eval√∫a la importancia de variables y elimina las irrelevantes         |
| ¬øQu√© beneficio clave ofrece AutoML para el proceso de modelado? | Genera autom√°ticamente un notebook con el mejor pipeline reproducible |
| ¬øD√≥nde puedes comparar el rendimiento de los modelos?           | En el experimento de MLflow que AutoML crea autom√°ticamente           |


# Identify the advantages AutoML brings to the model development process

## üìå Puntos claves

| Etapa del proceso                                      | ¬øQu√© hace AutoML?                                                               | Ventaja clave                                             |
| ------------------------------------------------------ | ------------------------------------------------------------------------------- | --------------------------------------------------------- |
| üì¶ **Carga y limpieza de datos**                       | Detecta tipos de columnas, rellena nulos, descarta columnas vac√≠as o constantes | Reduce errores de entrada y tiempo de preparaci√≥n         |
| üßº **Preprocesamiento autom√°tico**                     | Aplica one-hot encoding, escalado, transformaciones temporales, etc.            | Evita c√≥digo redundante y asegura inputs v√°lidos          |
| üß† **Selecci√≥n autom√°tica de modelos y features**      | Corre m√∫ltiples algoritmos y selecciona el mejor seg√∫n m√©tricas                 | Acelera la exploraci√≥n y evita sesgos del analista        |
| üß™ **Entrenamiento autom√°tico y optimizaci√≥n**         | Ajusta hiperpar√°metros con l√≥gica propia (ej. grid/random search)               | Ahorra tiempo y mejora la performance sin intervenci√≥n    |
| üìä **Evaluaci√≥n autom√°tica**                           | Muestra comparaciones de m√©tricas: ROC AUC, RMSE, F1, etc.                      | Facilita decisiones sin necesidad de graficar manualmente |
| üìù **Notebook generado autom√°ticamente**               | Entrega notebook 100‚ÄØ% editable y reproducible del mejor pipeline               | Acelera producci√≥n y aprendizaje del proceso              |
| üîÑ **Integraci√≥n con MLflow**                          | Registra experimentos, par√°metros, m√©tricas, modelos y c√≥digo                   | Garantiza trazabilidad y reproducibilidad                 |
| üöÄ **Escalabilidad con Spark y clusters distribuidos** | Corre en Spark clusters si el dataset es grande                                 | Permite manejar datasets grandes sin reescribir c√≥digo    |


## üß† Flashcards mentales para memorizar
- AutoML reduce el tiempo de desarrollo ‚Üí automatiza desde limpieza hasta evaluaci√≥n
- AutoML genera c√≥digo reutilizable ‚Üí notebook editable y listo para producci√≥n
- AutoML integra con MLflow ‚Üí todo el tracking ya est√° hecho
- AutoML escala en Spark ‚Üí puedes usarlo con datasets grandes
- AutoML mejora productividad y precisi√≥n ‚Üí compara modelos con criterios objetivos

# Identify the benefits of creating feature store tables at the account level in Unity Catalog in Databricks vs at the workspace level


## ‚úÖ Contexto: Qu√© es el Feature Store en Databricks
El Feature Store de Databricks es un sistema centralizado para gestionar, versionar y reutilizar caracter√≠sticas (features) para modelos de ML. Permite:

Definir, almacenar y documentar features.

Compartir features entre equipos.

Acceder a las features de forma consistente tanto en entrenamiento como en inferencia.

## üîç Diferencia clave: Nivel de cuenta (Account-level / Unity Catalog) vs Nivel de workspace

| Aspecto                   | Workspace-level Feature Store                                            | Unity Catalog (Account-level) Feature Store                                                                                |
| ------------------------- | ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------------------- |
| **Scope**                 | Solo accesible desde el workspace en que fue creado.                     | Accesible desde todos los workspaces que usen Unity Catalog dentro de la misma cuenta.                                     |
| **Governanza**            | Gesti√≥n limitada por workspace.                                          | Control total a trav√©s de UC: roles, permisos, lineage, etc.                                                               |
| **Reutilizaci√≥n**         | Limitada: features deben recrearse si se quieren usar en otro workspace. | Alta reutilizaci√≥n: features se centralizan y pueden compartirse globalmente.                                              |
| **Seguridad y auditor√≠a** | Permisos locales del workspace.                                          | Seguridad avanzada con Unity Catalog, incluyendo **Auditing**, **Data Lineage**, y **Fine-grained Access Control (ABAC)**. |
| **Escalabilidad**         | Dif√≠cil de escalar a nivel organizaci√≥n.                                 | Ideal para equipos grandes, entornos multicloud o multiworkspaces.                                                         |
| **Colaboraci√≥n**          | Features aislados por workspace.                                         | Promueve la colaboraci√≥n entre equipos al compartir features desde un cat√°logo centralizado.                               |


## üìå Puntos claves

UC permite centralizar y reutilizar features entre m√∫ltiples workspaces.

UC mejora la seguridad, ya que se basa en acceso por Unity Catalog, no por configuraci√≥n local.

UC permite la trazabilidad y gobernanza completa del ciclo de vida de las features (qui√©n las cre√≥, qu√© modelos las usan, etc.).

UC es escalable a nivel de organizaci√≥n y multicloud.

Crear tablas de Feature Store en UC es m√°s adecuado para entornos de producci√≥n colaborativos.

# Create a feature store table in Unity Catalog

## üìå Puntos claves

# Write data to a feature store table

## üìå Puntos claves

#Train a model with features from a feature store table.

## üìå Puntos claves

# Score a model using features from a feature store table.


## üìå Puntos claves

# Describe the differences between online and offline feature tables

## üìå Puntos claves

# Identify the best run using the MLflow Client API.

## üìå Puntos claves

# Manually log metrics, artifacts, and models in an MLflow Run.

## üìå Puntos claves

# Identify information available in the MLFlow UI

## üìå Puntos claves

# Register a model using the MLflow Client API in the Unity Catalog registry

## üìå Puntos claves

# Identify benefits of registering models in the Unity Catalog registry over the workspace registry

## üìå Puntos claves

# Identify scenarios where promoting code is preferred over promoting models and vice versa

## üìå Puntos claves

# Set or remove a tag for a model

## üìå Puntos claves

# Promote a challenger model to a champion model using aliases

## üìå Puntos claves