# Use ML foundations to select the appropriate algorithm for a given model scenario


Tipo de problema: clasificación vs regresión
Clasificación (binaria o multiclase):

¿Predices categorías o etiquetas? (Ej: churn: sí/no)

Algoritmos típicos: Logistic Regression, Decision Tree, Random Forest, GBTClassifier

Regresión:

¿Predices una variable numérica continua? (Ej: predicción de precio)

Algoritmos típicos: Linear Regression, Decision Tree Regressor, GBTRegressor, XGBoostRegressor

##  Algoritmos frecuentes y cuándo usarlos

| Algoritmo                        | Tipo          | Cuándo usarlo                                        | Pros                                      | Contras                                   |
| -------------------------------- | ------------- | ---------------------------------------------------- | ----------------------------------------- | ----------------------------------------- |
| **Logistic Regression**          | Clasificación | Problemas lineales, interpretabilidad alta           | Rápido, interpretable                     | No captura relaciones no lineales         |
| **Linear Regression**            | Regresión     | Relaciones lineales simples                          | Sencillo, explicable                      | Poco flexible ante relaciones no lineales |
| **Decision Tree**                | Ambos         | Datos interpretables, no lineales, sin normalización | No requiere escalado, fácil de visualizar | Propenso a overfitting                    |
| **Random Forest**                | Ambos         | Datos complejos, buena generalización                | Robusto, mejora overfitting               | Menos interpretable, más lento            |
| **GBT (Gradient-Boosted Trees)** | Ambos         | Alta precisión, datos desbalanceados                 | Mejor rendimiento que RF en muchos casos  | Entrenamiento lento, sensible a ruido     |
| **XGBoost**                      | Ambos         | Escenarios con muchos datos y features importantes   | Precisión alta, regularización integrada  | Requiere más tuning, menos interpretable  |

## Factores que influyen en la elección del modelo

| Factor                         | Consideración                                                                    |
| ------------------------------ | -------------------------------------------------------------------------------- |
| **Tamaño del dataset**         | GBT y XGBoost funcionan mejor con muchos datos                                   |
| **Balance de clases**          | Algoritmos como GBT y Logistic soportan `class_weight`; Random Forest es robusto |
| **Interpretabilidad**          | Preferir Logistic o Decision Tree                                                |
| **Requerimientos de tiempo**   | Logistic y Linear son rápidos; GBT y XGBoost pueden tardar                       |
| **Relación entre variables**   | Si es no lineal → evitar regresiones lineales simples                            |
| **Colinealidad / redundancia** | XGBoost y árboles manejan mejor variables redundantes                            |


## 📌 Puntos clave
- **¿Qué es normalización?**
En muchos algoritmos (como regresiones o redes neuronales), necesitas que tus features numéricos estén en una misma escala (por ejemplo, entre 0 y 1), usando técnicas como:

StandardScaler: para que cada feature tenga media 0 y desviación estándar 1

MinMaxScaler: para escalar entre un rango definido (usualmente 0 a 1)

- **Qué es "ruido"**
| Tipo de ruido              | Ejemplo                                     | Impacto                                                   |
| -------------------------- | ------------------------------------------- | --------------------------------------------------------- |
| **Errores en los datos**   | Registros con etiquetas incorrectas o typos | GBT puede aprender a "explicar" errores que no se repiten |
| **Outliers**               | Valores extremos en variables numéricas     | Puede crear divisiones innecesarias solo para esos casos  |
| **Variables irrelevantes** | Features que no aportan al target           | GBT puede intentar exprimirles señal que no existe        |
| **Variabilidad aleatoria** | Efectos que no se repetirán en nuevos datos | Aprendidos como si fueran patrones reales                 |

- **Qué es regularización"**

| Concepto       | Explicación simple                                                                       |
| -------------- | ---------------------------------------------------------------------------------------- |
| Regularización | Penalizar la complejidad del modelo para evitar que aprenda demasiado                    |
| ¿Cuándo?       | Cuando hay riesgo de overfitting                                                         |
| ¿Cómo?         | Penalizando coeficientes (regresión) o limitando profundidad/tamaño del modelo (árboles) |




# Identify methods to mitigate data imbalance in training data

## ¿Qué es un dataset desbalanceado?

| Problema            | Clase mayoritaria      | Clase minoritaria     |
| ------------------- | ---------------------- | --------------------- |
| Detección de fraude | Transacciones normales | Fraudes               |
| Churn prediction    | Clientes activos       | Clientes que cancelan |
| Diagnóstico médico  | Pacientes sanos        | Casos positivos       |



## Técnicas para mitigar el desbalance

### 1. Modificación del dataset

| Técnica           | Qué hace                                           | Cuándo usarla                                                | Herramientas         |
| ----------------- | -------------------------------------------------- | ------------------------------------------------------------ | -------------------- |
| **Undersampling** | Quita ejemplos de la clase mayoritaria             | Cuando hay muchos datos disponibles                          | `RandomUnderSampler` |
| **Oversampling**  | Duplica ejemplos de la clase minoritaria           | Cuando se tiene pocos datos de esa clase                     | `RandomOverSampler`  |
| **SMOTE**         | Genera ejemplos sintéticos de la clase minoritaria | Cuando quieres mejorar la diversidad de la clase minoritaria | `imblearn.SMOTE`     |


### 2. Modificación del modelo (ajuste de pesos)

En vez de tocar los datos, puedes ajustar el modelo para que:

- Le dé más peso a los errores en la clase minoritaria
- Algunas implementaciones permiten class_weight='balanced'

| Modelo                           | ¿Soporta class\_weight?      |
| -------------------------------- | ---------------------------- |
| Logistic Regression              | ✅ Sí                         |
| Decision Tree / RF / GBT (Spark) | ✅ Sí, con `weightCol`        |
| XGBoost                          | ✅ Sí, con `scale_pos_weight` |


## 📌 Puntos clave

Elegir métricas adecuadas cuando el dataset está desbalanceado:

| Evitar                  | Usar en su lugar              |
| ----------------------- | ----------------------------- |
| ❌ Accuracy              | ✅ F1-score, Precision, Recall |
| ❌ ROC-AUC (en extremos) | ✅ Precision-Recall Curve      |


#  Compare estimators and transformers

- pipeline en sklearn https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html 
- Transformer rm sklearn https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

## ¿Qué es un Estimator?

Un Estimator es cualquier objeto que aprende a partir de los datos. Su función principal es:
Aplicar .fit() sobre un DataFrame para producir un Transformer.

💡 Ejemplo: LogisticRegression, StandardScaler, PCA, StringIndexer, RandomForestClassifier


In [0]:
#Estimator
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression()
model = lr.fit(train_df)


## ¿Qué es un Transformer?

Un Transformer es un objeto que aplica una transformación sobre un dataset, sin aprender nada nuevo. Su función principal es:

Aplicar .transform() para crear un nuevo DataFrame.

💡 Ejemplo: model producido por LogisticRegression.fit(), o PipelineModel, o StandardScalerModel

In [0]:
#Transformer
transformed = model.transform(test_df)

## En el contexto de un Pipeline

Un Pipeline está compuesto de etapas (stages) que pueden ser:

Estimators → deben ser ajustados (fit)

Transformers → aplican transformaciones (transform)

In [0]:
from pyspark.ml.feature import StringIndexer, StandardScalerModel, VectorAssembler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline

# Supón que ya tienes un StandardScalerModel entrenado previamente
scaler_model = StandardScalerModel.load("path/to/scaler_model")

pipeline = Pipeline(stages=[
    StringIndexer(inputCol="category", outputCol="category_indexed"),  # Estimator
    scaler_model,                                                      # Transformer
    LogisticRegression(featuresCol="features", labelCol="label")       # Estimator
])


## 📌 Puntos clave

**Estimators que aparecen en el examen**

| Estimator                | Tipo                         | Contexto en el examen                                                        |
| ------------------------ | ---------------------------- | ---------------------------------------------------------------------------- |
| `StringIndexer`          | Preprocesamiento             | Transformar texto a índice numérico antes de entrenar                        |
| `OneHotEncoder`          | Preprocesamiento             | Cuando el índice generado se usa como feature                                |
| `StandardScaler`         | Preprocesamiento             | Preguntas con variables numéricas que deben escalarse                        |
| `PCA`                    | Reducción de dimensionalidad | Escenario con muchas variables correlacionadas                               |
| `VectorAssembler`        | Feature engineering          | Se usa en la mayoría de pipelines (reconocible por `inputCols`, `outputCol`) |
| `LogisticRegression`     | Modelo de clasificación      | Común en preguntas sobre interpretabilidad o rendimiento                     |
| `LinearRegression`       | Modelo de regresión          | Aparece menos, pero presente en problemas numéricos                          |
| `DecisionTreeClassifier` | Modelo de clasificación      | Opción en preguntas de comparación de modelos                                |
| `RandomForestClassifier` | Modelo de clasificación      | Aparece como alternativa en comparación vs GBT                               |
| `GBTClassifier`          | Modelo de clasificación      | Muy común en preguntas sobre overfitting y evaluación                        |
| `GBTRegressor`           | Modelo de regresión          | Menos frecuente, pero presente en pipelines de regresión                     |


**Transformers que aparecen en el examen**

| Transformer               | Proviene de...                   | Contexto en el examen                                |
| ------------------------- | -------------------------------- | ---------------------------------------------------- |
| `StringIndexerModel`      | `.fit()` de `StringIndexer`      | Usado para aplicar transformaciones ya ajustadas     |
| `OneHotEncoderModel`      | `.fit()` de `OneHotEncoder`      | Cuando se pregunta por el resultado del pipeline     |
| `StandardScalerModel`     | `.fit()` de `StandardScaler`     | Escenario donde se aplica escalado antes de entrenar |
| `PCAModel`                | `.fit()` de `PCA`                | Cuando hay reducción de features antes del modelo    |
| `LogisticRegressionModel` | `.fit()` de `LogisticRegression` | Predicción, evaluación, métricas                     |
| `GBTClassificationModel`  | `.fit()` de `GBTClassifier`      | Aparece en preguntas de evaluación de performance    |
| `PipelineModel`           | `.fit()` de un `Pipeline`        | Muy común en preguntas con código de varios pasos    |


# Develop a training pipeline

## ¿Qué es un pipeline de entrenamiento?
Un pipeline de entrenamiento es una estructura modular que encapsula todo el flujo de machine learning:

- Preparación de datos
- Transformaciones
- Entrenamiento del modelo
- (Opcional) Validación
- (Opcional) Evaluación y persistencia

En PySpark, se representa con el objeto Pipeline de pyspark.ml.

## ¿Qué componentes se usan en Spark ML Pipelines?
1. Transformers
Objetos que aplican .transform(df)

No requieren aprendizaje

Ejemplos: VectorAssembler, MinMaxScalerModel, StandardScalerModel, PCAModel

2. Estimators
Objetos que requieren .fit(df) para aprender de los datos

Devuelven Transformers

Ejemplos: StringIndexer, LogisticRegression, GBTClassifier, RandomForestRegressor

3. Pipeline
Contenedor de etapas ordenadas (stages = [])

Combina estimadores y transformers

.fit(df) entrena todo el pipeline, devuelve un PipelineModel

In [0]:
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import LogisticRegression

pipeline = Pipeline(stages=[
    StringIndexer(inputCol="category", outputCol="category_indexed"),  # Estimator
    VectorAssembler(
        inputCols=["feature1", "feature2", "category_indexed"],
        outputCol="features"
    ),  # Transformer
    LogisticRegression(featuresCol="features", labelCol="label")  # Estimator
])

# Entrenamiento completo del pipeline
pipeline_model = pipeline.fit(train_df)

# Aplicación a datos de test
predictions = pipeline_model.transform(test_df)


## 📌 Puntos clave
| Elemento                  | Clave para examen                        |
| ------------------------- | ---------------------------------------- |
| Objetivo del pipeline     | Organizar pasos ML de forma reproducible |
| Composición               | Estimators + Transformers                |
| Ejecución                 | `pipeline.fit()` produce `PipelineModel` |
| Aplicación a nuevos datos | `pipeline_model.transform()`             |
| Uso en tuning             | Compatible con CV y hyperopt             |


# Use Hyperopt's fmin operation to tune a model's hyperparameters

## ¿Qué es Hyperopt?
Hyperopt es una librería de optimización de hiperparámetros basada en búsqueda Bayesiana. Es más eficiente que grid o random search para espacios de búsqueda grandes.

Databricks lo integra con su framework de ML para escalar fácilmente los experimentos.



In [0]:
# Sintaxis general de fmin
from hyperopt import fmin, tpe, hp, Trials

best_result = fmin(
    fn=objective_function,         # Función objetivo (devuelve la métrica a minimizar)
    space=search_space,            # Espacio de búsqueda de hiperparámetros
    algo=tpe.suggest,              # Algoritmo de búsqueda (TPE = Tree-structured Parzen Estimator)
    max_evals=50,                  # Número máximo de evaluaciones
    trials=Trials()                # Objeto opcional para guardar resultados
)


| Elemento    | Descripción                                                          | Tipo en examen                         |
| ----------- | -------------------------------------------------------------------- | -------------------------------------- |
| `fn`        | Función que entrena el modelo y devuelve una métrica (ej: `loss`)    | Preguntan qué retorna, qué espera      |
| `space`     | Diccionario o estructura que define los hiperparámetros y sus rangos | Te preguntan cómo definirlo            |
| `algo`      | Algoritmo de búsqueda (usualmente `tpe.suggest`)                     | Preguntan cuál es el más eficiente     |
| `max_evals` | Cuántas combinaciones probar                                         | Preguntas de costo computacional       |
| `Trials()`  | Objeto para registrar los experimentos                               | Preguntan si es obligatorio (no lo es) |


In [0]:
from hyperopt import fmin, tpe, hp, Trials, STATUS_OK
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import log_loss

def objective(params):
    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict_proba(X_val)
    loss = log_loss(y_val, preds)
    return {'loss': loss, 'status': STATUS_OK}

search_space = {
    'n_estimators': hp.choice('n_estimators', [50, 100, 150]),
    'max_depth': hp.quniform('max_depth', 3, 10, 1),
    'max_features': hp.choice('max_features', ['auto', 'sqrt']),
}

best_result = fmin(
    fn=objective,
    space=search_space,
    algo=tpe.suggest,
    max_evals=20,
    trials=Trials()
)


## 📌 Puntos clave

**NOTEBOOK CON EJEMPLO**
https://docs.databricks.com/aws/en/machine-learning/automl-hyperparam-tuning/hyperopt-distributed-ml

| Concepto         | Detalles                                                                    |
| ---------------- | --------------------------------------------------------------------------- |
| `hp.choice`      | Selección discreta entre valores                                            |
| `hp.uniform`     | Números continuos entre dos valores                                         |
| `hp.quniform`    | Números enteros escalonados (`start`, `end`, `step`)                        |
| Función objetivo | Debe retornar un diccionario con `loss` y `status`                          |
| Métrica objetivo | `loss` debe ser **mínima**, típicamente `log_loss`, `RMSE`, etc             |
| `fmin`           | Encuentra la mejor combinación de hiperparámetros según la función objetivo |

⚠️ Cuando uses Hyperopt con MLlib y otros algoritmos de entrenamiento distribuido, no pases el argumento **trials** a fmin(). Si no incluyes el argumento trials, Hyperopt usará la clase Trials por defecto, que se ejecuta en el driver del clúster. Hyperopt necesita evaluar cada prueba (trial) en el nodo driver para que cada prueba pueda iniciar trabajos de entrenamiento distribuidos.

No uses la clase SparkTrials con MLlib. SparkTrials está diseñada para distribuir pruebas en algoritmos que no son distribuidos por sí mismos. MLlib ya utiliza computación distribuida y no es compatible con SparkTrials.


# Perform random or grid search or Bayesian search as a method for tuning hyperparameters.

## Grid Search (Búsqueda por rejilla)

Evalúa todas las combinaciones posibles de un conjunto definido de valores.

{
  "maxDepth": [5, 10],
  "minInstancesPerNode": [1, 5]
}

Genera 4 combinaciones:

- (5,1)
- (5,5)
- (10,1)
- (10,5)

**Ventajas:**
- Exhaustivo → encuentra el mejor dentro de los valores que definiste.
- Fácil de entender.

**Desventajas:**
- Costoso: crece exponencialmente con el número de parámetros y valores.
- No generaliza fuera de los valores definidos.

## Bayesian Search (ej. TPE con Hyperopt)
Usa los resultados anteriores para predecir qué combinaciones valdrán la pena probar.

- Construye un modelo probabilístico del espacio de búsqueda.
- Escoge el próximo punto basándose en cuál tiene más probabilidad de ser mejor (balancea exploración y explotación).


**Ventajas:**

Aprende con cada evaluación → mejora progresiva.
Más eficiente que Random/Grid en espacios complejos.
Especialmente útil cuando hay tiempo/costo limitado.

**Desventajas:**

Más difícil de entender e implementar.
Menos reproducible (dependiente del orden de evaluaciones).

In [0]:
fmin(
    fn=objective,
    space=search_space,
    algo=tpe.suggest,
    max_evals=50
)


## 📌 Puntos clave

| Método         | Inteligente | Evaluaciones | Exploración | Velocidad  | Costoso  |
| -------------- | ----------- | ------------ | ----------- | ---------- | -------- |
| Grid Search    | ❌           | Todas        | Baja        | Lento      | Sí       |
| Random Search  | ❌           | Aleatorias   | Alta        | Rápido     | Moderado |
| Bayesian (TPE) | ✅           | Dirigidas    | Media       | Muy rápido | No       |

**¿Qué debes saber para el examen?**

- Grid Search → exhaustivo, costoso, útil si espacio reducido.
- Random Search → más eficiente, útil si espacio es amplio.
- Bayesian Search (TPE) → aprende con cada intento, recomendado en escenarios de recursos limitados.
- En Databricks, Hyperopt implementa Bayesian Search por defecto con tpe.suggest.

# Parallelize single node models for hyperparameter tuning


**¿Qué significa “paralelizar modelos single-node”?**
En el contexto de tuning de hiperparámetros, especialmente con métodos como Hyperopt, es frecuente ejecutar muchos experimentos independientes. Cada combinación de hiperparámetros genera un nuevo modelo que debe ser:

- Entrenado (fit),
- Validado (evaluate),
- Comparado con otros.

🔁 Estos entrenamientos son independientes unos de otros → se pueden correr en paralelo.

**¿Qué es un “single-node model”?**
Son modelos entrenados en una sola máquina (no distribuidos), por ejemplo:

- RandomForestClassifier de sklearn o pyspark.ml
- LogisticRegression
- XGBoost en modo local

Aunque estos modelos no escalan naturalmente a múltiples nodos, el tuning sí puede distribuirse, porque los experimentos no dependen entre sí.

**¿Cómo se paraleliza en Databricks con Hyperopt?**
Databricks soporta el modo paralelo de Hyperopt usando spark_trials, una utilidad que permite distribuir los experimentos en un clúster Spark.

In [0]:
from hyperopt import fmin, tpe, hp, STATUS_OK, SparkTrials
from sklearn.ensemble import RandomForestClassifier

# Definir función objetivo
def objective(params):
    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict(X_val)
    f1 = f1_score(y_val, preds)
    return {'loss': -f1, 'status': STATUS_OK}

# Definir espacio de búsqueda
space = {
    'max_depth': hp.choice('max_depth', [5, 10, 15]),
    'n_estimators': hp.quniform('n_estimators', 50, 200, 10)
}

# Paralelizar con SparkTrials
spark_trials = SparkTrials(parallelism=4)

best_model = fmin(
    fn=objective,
    space=space,
    algo=tpe.suggest,
    max_evals=20,
    trials=spark_trials  # <-- distribución en clúster
)


## 📌 Puntos clave

| Parámetro   | `Trials` (default) | `SparkTrials`           |
| ----------- | ------------------ | ----------------------- |
| Paralelismo | ❌ No               | ✅ Sí                    |
| Entorno     | Local (1 nodo)     | Clúster Databricks      |
| Ideal para  | Debug, tests       | Producción, tuning real |

Puedes controlar el número de evaluaciones simultáneas con parallelism=n.

**Lo que puede aparecer en el examen:**
- Saber que SparkTrials se usa para paralelizar tuning.
- Identificar cuándo vale la pena paralelizar (muchas combinaciones, modelos costosos).
- Entender que los modelos se entrenan en paralelo, no dentro del mismo modelo, sino a nivel de tuning.
- Reconocer que esto se puede aplicar a modelos que no son distribuidos (como sklearn, xgboost, pyspark.ml).


# Describe the benefits and downsides of using cross-validation over a train-validation split.

## ¿Qué es Train-Validation Split?
Es la forma más sencilla de evaluar un modelo:

Se parte el dataset en dos subconjuntos:

- Train set (por ejemplo, 80%)
- Validation set (por ejemplo, 20%)

Se entrena el modelo en el train set y se evalúa en el validation set.

| Ventaja                     | Explicación                                                                                |
| --------------------------- | ------------------------------------------------------------------------------------------ |
| ✅ Rápido                    | Solo se entrena una vez. Ideal para grandes volúmenes de datos o cuando el tiempo importa. |
| ✅ Fácil de implementar      | No necesitas bucles, simplemente haces `.randomSplit()` en Spark.                          |
| ✅ Menor carga computacional | Útil si estás haciendo tuning con muchos modelos.                                          |

| Desventaja                                   | Explicación                                                                                         |
| -------------------------------------------- | --------------------------------------------------------------------------------------------------- |
| ❌ Alta varianza                              | La performance depende **mucho de cómo cayó el 20%** del validation set. Podrías tener mala suerte. |
| ❌ No aprovecha todos los datos para entrenar | Solo el 80% se usa para entrenar.                                                                   |




## ¿Qué es Cross-Validation (CV)?
Es un enfoque más robusto:

- El dataset se divide en k partes (folds), por ejemplo, 5.
- Se entrena y valida el modelo k veces, rotando los folds.

Se calcula el promedio del rendimiento.

| Ventaja                           | Explicación                                                            |
| --------------------------------- | ---------------------------------------------------------------------- |
| ✅ Más robusto                     | Reduce la varianza. La evaluación es más confiable.                    |
| ✅ Usa todos los datos             | Cada observación actúa como parte del validation set en algún momento. |
| ✅ Más justo para comparar modelos | Útil en selección de hiperparámetros y algoritmos.                     |

| Desventaja     | Explicación                                                   |
| -------------- | ------------------------------------------------------------- |
| ❌ Más lento    | Se entrena el modelo k veces. Si k=5, es 5 veces más trabajo. |
| ❌ Más complejo | Especialmente si haces Grid Search o pipelines distribuidos.  |


## 📌 Puntos clave

| Escenario                               | ¿Qué usar?                            | Justificación                                    |
| --------------------------------------- | ------------------------------------- | ------------------------------------------------ |
| Dataset muy grande (millones de filas)  | Train-validation split                | Más rápido, el volumen ya garantiza diversidad.  |
| Dataset pequeño o desequilibrado        | Cross-validation                      | Asegura una evaluación robusta y balanceada.     |
| Tuning intensivo (Grid o Random Search) | Train-validation split con test final | Reduce el costo computacional.                   |
| Validación final para comparar modelos  | Cross-validation                      | Da confianza estadística al comparar resultados. |


# Use common classification metrics: F1, Log Loss, ROC/AUC, etc

Metricas mencionadas en la academia:

Para modelos supervisados: Accuracy, precision , recall, F1 Score, Log loss (Cross-Entropy Loss), ROC/AUC (Área bajo la curva ROC)

## F1 Score

**Qué mide:** La media armónica entre precisión (precision) y exhaustividad (recall).

**Formula**

F1= 2⋅(Precision⋅Recall)/ Precision+Recall

**Cuándo usarla:**
- Cuando tienes clases desbalanceadas (por ejemplo, fraude, enfermedad rara).
- Cuando falsos positivos y falsos negativos son importantes.
- Mejor que accuracy si los datos están desbalanceados.

**Recuerda:**
F1 alto = buen balance entre precision y recall.


## Log Loss (a.k.a. Logarithmic Loss, Cross-Entropy Loss)
**Qué mide:** 
- Cuánto se equivoca el modelo al predecir probabilidades.
- Penaliza mucho las predicciones seguras pero erróneas.

**Cuándo usarla:**
- Cuando necesitas evaluar la calidad de las probabilidades predichas, no solo etiquetas.
- Es la métrica por defecto en muchos clasificadores probabilísticos.
- Útil en escenarios donde la calibración de probabilidad es crítica (ej. predicción médica, scoring financiero).

**Recuerda:**
- Menor LogLoss = mejor modelo.
- Puede ser bajo aunque el modelo se equivoque poco, si las probabilidades son poco confiable

## ROC-AUC (Receiver Operating Characteristic - Area Under Curve)**

**Qué mide:**
- La capacidad del modelo para separar clases positivas y negativas en múltiples umbrales.
- Compara tasa de verdaderos positivos (TPR) vs tasa de falsos positivos (FPR) a distintos umbrales.

**Área bajo la curva = ROC-AUC.**

**Cuándo usarla:**
- Evaluación general de la capacidad discriminatoria del modelo.
- Muy útil en datasets desbalanceados.
- Cuando el umbral de decisión puede cambiar según el caso de uso.

**Recuerda:**
- AUC = 0.5 → modelo aleatorio.
- AUC = 1.0 → modelo perfecto.

## Accuracy

**Qué mide:**
Proporción de predicciones correctas sobre el total.

**Ventaja**: Muy fácil de entender.

**Desventaja:**

Engañosa con datos desbalanceados.
Por ejemplo, si el 95% de los casos son clase 0, un modelo que siempre predice 0 tendrá 95% de accuracy… aunque no haga nada útil.

Uso recomendado:
Solo cuando las clases están balanceadas y los errores en ambas clases tienen el mismo costo.

## Precision (Precisión o Valor Predictivo Positivo)**

**Qué mide:**
- La proporción de predicciones positivas que son realmente correctas.
- De todas las veces que el modelo predijo la clase positiva, cuántas veces acertó.

**Fórmula:**  
Precision = TP / (TP + FP)

**Cuándo usarla:**
- Cuando es más importante **evitar falsos positivos**.
- En contextos donde etiquetar algo como positivo tiene un **costo alto si se comete un error** (por ejemplo, spam, detección de tumores falsos, sistemas judiciales).
- Cuando necesitas que las predicciones positivas sean confiables.

**Recuerda:**
- Precision = 1.0 → el modelo no comete ningún falso positivo.
- Precision = 0.0 → todas las predicciones positivas fueron incorrectas.


## Recall (Sensibilidad o Tasa de Verdaderos Positivos)

**Qué mide:**
- La proporción de verdaderos positivos (TP) que el modelo logra identificar correctamente.
- De todas las observaciones que realmente pertenecen a la clase positiva, cuántas fueron correctamente detectadas.

**Fórmula:**  
Recall = TP / (TP + FN)

**Cuándo usarla:**
- Cuando es más importante **capturar todos los casos positivos**.
- En problemas donde los falsos negativos tienen un **alto costo** (por ejemplo, detección de enfermedades, fraudes, fallos de seguridad).
- Cuando prefieres minimizar el riesgo de pasar por alto un positivo.

**Recuerda:**
- Recall = 1.0 → el modelo no comete ningún falso negativo.
- Recall = 0.0 → el modelo no detecta ningún positivo.


## 📌 Puntos clave

| Métrica              | Útil cuando…                      | Detalles clave                                                             |
| -------------------- | --------------------------------- | -------------------------------------------------------------------------- |
| **Accuracy**         | Las clases están balanceadas      | $(TP + TN) / total$. No recomendable si hay desbalance.                    |
| **Precision**        | Costo de falsos positivos es alto | $\frac{TP}{TP + FP}$. ¿Qué tan confiables son los positivos predichos?     |
| **Recall**           | Costo de falsos negativos es alto | $\frac{TP}{TP + FN}$. ¿Cuántos positivos reales detecta el modelo?         |
| **PR-AUC**           | Clases muy desbalanceadas         | AUC de la curva Precision-Recall. Más informativa que ROC-AUC en ese caso. |
| **Confusion Matrix** | Interpretabilidad                 | Te muestra TP, FP, FN, TN. Muy útil para analizar errores concretos.       |


| Métrica              | Rango | Valor óptimo | Cuándo usarla o interpretarla                                                                            |
| -------------------- | ----- | ------------ | -------------------------------------------------------------------------------------------------------- |
| **Accuracy**         | 0 a 1 | Cerca de 1   | Proporción de predicciones correctas. ⚠️ **Engañosa si los datos están desbalanceados.**                 |
| **Precision**        | 0 a 1 | Cerca de 1   | De los predichos positivos, cuántos eran realmente positivos. ⚠️ Alta si pocos **falsos positivos**.     |
| **Recall**           | 0 a 1 | Cerca de 1   | De los positivos reales, cuántos fueron capturados. ⚠️ Alta si pocos **falsos negativos**.               |
| **F1 Score**         | 0 a 1 | Cerca de 1   | Promedio armónico entre precision y recall. Ideal cuando hay desbalance o quieres compensar ambos.       |
| **Log Loss**         | 0 a ∞ | Cero (0)     | Penaliza probabilidades incorrectas. **Más bajo es mejor**. Afectado si predices mal con alta confianza. |
| **ROC AUC**          | 0 a 1 | Cerca de 1   | Mide qué tan bien el modelo separa clases. Bueno con clases balanceadas. 0.5 = random.                   |
| **PR AUC**           | 0 a 1 | Cerca de 1   | Más útil que ROC-AUC con **clases desbalanceadas**. Se enfoca en la clase positiva.                      |
| **Confusion Matrix** | -     | -            | Muestra TP, FP, FN, TN. Útil para calcular otras métricas y entender errores.                            |


# Use common regression metrics: RMSE, MAE, R-squared, etc.

Metricas mencionadas en curso de la academia: R² (Coeficiente de determinación),  Mean Absolute Error (MAE),  Mean Squared Error (MSE), Root Mean Squared Error (RMSE)

## R² (Coeficiente de determinación)


**Qué mide:**
- Cuánta proporción de la varianza de la variable objetivo es explicada por el modelo.
- Indica la calidad del ajuste del modelo a los datos.

**Fórmula:**  
R² = 1 - (Suma de errores del modelo / Suma de errores del modelo base)

**Cuándo usarla:**
- Cuando quieres saber **qué tan bien explica el modelo la variabilidad de los datos**.
- En modelos de regresión donde el objetivo es predecir valores continuos.

**Recuerda:**
- R² = 1.0 → ajuste perfecto.
- R² = 0.0 → el modelo no mejora sobre una predicción constante (media).
- R² < 0.0 → el modelo es peor que simplemente predecir la media.


## Mean Absolute Error (MAE)

**Qué mide:**
- El error promedio absoluto entre las predicciones y los valores reales.
- Mide la magnitud promedio del error sin considerar su dirección.

**Fórmula:**  
MAE = (1/n) ∑ |y_real - y_pred|

**Cuándo usarla:**
- Cuando necesitas una métrica de error **fácil de interpretar en las mismas unidades de la variable objetivo**.
- Cuando deseas que todos los errores cuenten por igual (sin penalizar más los errores grandes).

**Recuerda:**
- MAE es más robusta frente a valores atípicos que MSE o RMSE.
- MAE = 0 → el modelo predice perfectamente todos los valores.




## Mean Squared Error (MSE)

**Qué mide:**
- El promedio de los errores al cuadrado entre las predicciones y los valores reales.
- Penaliza los errores grandes de forma más severa que MAE.

**Fórmula:**  
MSE = (1/n) ∑ (y_real - y_pred)²

**Cuándo usarla:**
- Cuando quieres penalizar más fuertemente los **errores grandes**.
- En problemas donde los outliers son relevantes o deben evitarse.

**Recuerda:**
- MSE siempre es ≥ 0.
- Cuanto más pequeño, mejor es el modelo.
- Está en unidades cuadradas de la variable objetivo.


## Root Mean Squared Error (RMSE)

**Qué mide:**
- La raíz cuadrada del error cuadrático medio.
- Representa el error típico de predicción en las mismas unidades que la variable objetivo.

**Fórmula:**  
RMSE = √( (1/n) ∑ (y_real - y_pred)² )

**Cuándo usarla:**
- Cuando quieres penalizar errores grandes y **mantener las unidades originales** de la variable.
- Es útil para interpretar el error en el mismo contexto del negocio.

**Recuerda:**
- RMSE es más sensible a errores grandes que MAE.
- Cuanto menor sea el RMSE, mejor es el modelo.


## 📌 Puntos clave
| Métrica                                      | Rango   | Valor óptimo | Qué mide                                                                                   | Cuándo usarla o preferirla                                                                                                   |
| -------------------------------------------- | ------- | ------------ | ------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------- |
| **MAE** (Mean Absolute Error)                | 0 a ∞   | 0 (cero)     | Promedio de errores absolutos. Mide cuán lejos están las predicciones del valor real.      | Fácil de interpretar. Menos sensible a valores extremos (outliers).                                                          |
| **RMSE** (Root Mean Squared Error)           | 0 a ∞   | 0 (cero)     | Raíz cuadrada del promedio de los errores al cuadrado. Penaliza más los errores grandes.   | Útil si quieres castigar más los errores grandes.                                                                            |
| **R-squared** (Coeficiente de determinación) | -∞ a 1  | 1            | Cuánto del total de la varianza del target explica el modelo.                              | Métrica estándar general para evaluar qué tan bien se ajusta el modelo.                                                      |
| **MAPE** (Mean Absolute Percentage Error)    | 0% a ∞% | 0%           | Error absoluto expresado como porcentaje del valor real.                                   | Bueno para presentaciones o comparación entre modelos en escalas distintas. ⚠️ Puede fallar con valores reales cercanos a 0. |
| **MSLE** (Mean Squared Logarithmic Error)    | 0 a ∞   | 0            | Similar a MSE, pero usa el log de los valores. Reduce impacto de errores en valores altos. | Útil cuando te interesa el **error relativo**, no el valor absoluto.                                                         |


## Otras métricas mencionadas en la academia 

### **Silhouette Score (Índice de Silueta) - Modelos NO supervizados**

**Qué mide:**
- Qué tan bien se agrupa un punto dentro de su propio clúster en comparación con otros clústeres.
- Evalúa **la cohesión y separación** de los clústeres.

**Fórmula:**  
Silhouette = (b - a) / max(a, b)  
Donde:  
- a = distancia media al resto de puntos en el mismo clúster  
- b = distancia media al clúster más cercano

**Cuándo usarla:**
- Para **evaluar la calidad del clustering**, especialmente en k-means, DBSCAN, etc.
- Para **comparar resultados con diferentes valores de k (número de clústeres)**.

**Recuerda:**
- Silhouette cerca de **1.0** → puntos bien agrupados.
- Silhouette cerca de **0.0** → puntos en el borde entre clústeres.
- Silhouette **< 0.0** → puntos mal asignados.


### **Elbow Method (Método del Codo)**

**Qué mide:**
- Ayuda a determinar el número óptimo de clústeres (**k**) al observar la variación explicada por el modelo.

**Cómo se aplica:**
- Se entrena el modelo con diferentes valores de **k**.
- Se grafica el valor de la inercia (Suma de errores cuadráticos dentro del clúster: SSE) contra k.
- El punto donde la **disminución de SSE se vuelve menos pronunciada** es el “codo”, el valor óptimo de k.

**Cuándo usarla:**
- En algoritmos de clustering como **k-means**.
- Para **estimar de forma visual y empírica el número de clústeres adecuados**.

**Recuerda:**
- No siempre hay un codo claro.
- Es una **técnica heurística**: se complementa bien con métricas como Silhouette Score.


# Choose the most appropriate metric for a given scenario objective

## Clasificación binaria (0 o 1)
| Escenario                                                                         | Métrica ideal          | ¿Por qué?                                                               |
| --------------------------------------------------------------------------------- | ---------------------- | ----------------------------------------------------------------------- |
| **Clases balanceadas**, quieres precisión general                                 | **Accuracy**           | Sencilla y útil si el dataset está balanceado.                          |
| **Clases desbalanceadas** (ej: 95% negativos)                                     | **F1 Score o ROC-AUC** | Accuracy es engañosa. F1 equilibra precisión y recall.                  |
| **Evitar falsos negativos (FN)** es crítico (ej: fraude, cáncer)                  | **Recall**             | Detectar todos los positivos. Mejor un falso positivo que uno negativo. |
| **Evitar falsos positivos (FP)** es más crítico (ej: cárcel, alarmas falsas)      | **Precision**          | Sólo queremos marcar positivo si estamos muy seguros.                   |
| Predices **probabilidades** y quieres medir qué tan bien calibrado está el modelo | **Log Loss**           | Penaliza fuertemente la sobreconfianza con errores.                     |


## Clasificación multiclase (más de 2 clases)

| Escenario                                                | Métrica ideal                       | ¿Por qué?                                   |
| -------------------------------------------------------- | ----------------------------------- | ------------------------------------------- |
| Todas las clases tienen similar importancia              | **Accuracy**                        | Correcto en general si no hay desbalance.   |
| Algunas clases son más importantes o hay desbalance      | **F1 macro o weighted**             | Equilibra la contribución de cada clase.    |
| Interesa más una clase específica (ej: detectar clase C) | **Precision/Recall para esa clase** | Foco en clase minoritaria o de alto riesgo. |


## Regresión
| Escenario                                                                              | Métrica ideal                                    | ¿Por qué?                                                                               |
| -------------------------------------------------------------------------------------- | ------------------------------------------------ | --------------------------------------------------------------------------------------- |
| Quieres un error promedio fácil de entender                                            | **MAE**                                          | Intuitivo. Poco sensible a outliers.                                                    |
| Quieres penalizar errores grandes más fuertemente                                      | **RMSE**                                         | Ideal si los errores grandes son muy costosos.                                          |
| Quieres saber qué tan bien el modelo explica la varianza                               | **R-squared (R²)**                               | Muy común. “Qué tanto del target está explicado por el modelo”.                         |
| Trabajas con **precios, ventas**, y necesitas comparar modelos entre escalas distintas | **MAPE**                                         | Da errores en porcentaje, muy útil para reporting. ⚠️ No usar si el target tiene ceros. |
| Target fue **log-transformado (ej: np.log1p(y))**                                      | **Evalúa sobre np.expm1(pred)** y usa MAE o RMSE | Siempre deshace el log antes de evaluar. Evita métricas sobre escala logarítmica.       |
| Quieres medir precisión relativa en crecimiento o tasas                                | **MSLE**                                         | Penaliza menos errores absolutos grandes; útil con datos de crecimiento.                |


## 📌 Puntos clave
| Concepto                                      | Pregunta frecuente                                                         |
| --------------------------------------------- | -------------------------------------------------------------------------- |
| ¿Accuracy funciona con clases desbalanceadas? | ❌ No. Usa F1 o ROC-AUC.                                                    |
| ¿Se puede usar RMSE con log-transform?        | ✅ Solo si deslog-transformas antes (`np.expm1`).                           |
| ¿MAPE falla con ceros?                        | ✅ Sí, porque divide por el valor real.                                     |
| ¿Cuándo usar Log Loss?                        | ✅ Cuando predices probabilidades. Penaliza con fuerza los errores seguros. |
| ¿ROC-AUC qué mide?                            | ✅ La capacidad del modelo de rankear correctamente entre clases.           |

**1. ¿Qué debes saber?**

- Debes ser capaz de:
- Distinguir entre métricas de clasificación y regresión.
- Saber qué métrica favorece un objetivo específico: minimizar falsos negativos, castigar errores grandes, interpretar probabilidades, etc.
- Elegir métricas cuando hay desbalance de clases, predicción de probabilidades, o necesidad de explicabilidad.
- Identificar si el target fue log-transformado, y si se debe aplicar np.expm1() antes de evaluar.

# Identify the need to exponentiate log-transformed variables before calculating evaluation metrics or interpreting predictions


¿Por qué se usan transformaciones logarítmicas en regresión?
- Para que distribuciones muy sesgadas (skewed) se asemejen más a una gaussiana (normal).
- Para reducir el impacto de valores extremos o outliers.
- Para que modelos lineales funcionen mejor cuando hay relaciones exponenciales o multiplicativas.

¿Qué implica usar log en el target?
Cuando transformas tu variable objetivo (y) con logaritmo antes de entrenar, estás haciendo que el modelo aprenda a predecir log(y), no y directamente.




In [0]:
train_df = train_df.withColumn("label", log1p("price"))  # log1p(x) = log(x + 1)

**Entonces, ¿qué error cometen muchos?**

- Evaluar el modelo sobre log(y_pred) y log(y_test) está bien si te interesa performance en la escala logarítmica.
- Pero si quieres evaluar el rendimiento real (RMSE en dólares, por ejemplo), tienes que invertir la transformación (con expm1):

In [0]:
from pyspark.sql.functions import expm1

# Corrige predicciones antes de evaluar
pred_df = pred_df.withColumn("prediction_exp", expm1("prediction"))
pred_df = pred_df.withColumn("label_exp", expm1("label"))

# Ahora sí puedes calcular RMSE real
evaluator = RegressionEvaluator(
    labelCol="label_exp",
    predictionCol="prediction_exp",
    metricName="rmse"
)


**¿Qué pasa si no haces expm1() antes de evaluar?**

Tu RMSE, MAE o R² será en la escala del log, y no representará errores reales en la escala del negocio.
Por ejemplo:

- Un error de 0.1 en log(price) no se traduce directamente en 0.1 dólares.
- Podrías tener un modelo con bajo error logarítmico, pero con errores enormes en precios reales.

## 📌 Puntos clave
| Situación                                                      | ¿Aplico `expm1()` antes de evaluar? | Métricas que se afectan |
| -------------------------------------------------------------- | ----------------------------------- | ----------------------- |
| Quiero medir RMSE real en dólares                              | ✅ Sí                                | RMSE, MAE, MAPE         |
| Voy a interpretar predicciones (por ejemplo, precio estimado)  | ✅ Sí                                | Todas                   |
| Sólo me interesa performance en log-escala (estudio académico) | ❌ No                                | RMSE (log), R² (log)    |
| Estoy graficando residuos o errores                            | ✅ Sí                                | Para interpretar bien   |

Pro tip (¡súper útil para el examen!):

- Si ves "label" como log1p(y) en el código, busca si usan expm1 antes de evaluar o graficar. Si no, probablemente hay un error que deberás identificar.
- Te pueden mostrar dos pipelines, uno correcto y otro sin expm1() y preguntarte cuál da métricas válidas.

# Assess the impact of model complexity and the bias variance tradeoff on model performance

**¿Qué es el tradeoff bias-variance?**

Es un principio fundamental en machine learning que describe el equilibrio entre dos tipos de error que afectan al rendimiento del modelo:

Tipo de error	Qué significa	Causa principal
Bias (sesgo)	Error por supuestos demasiado simples sobre los datos	Modelo demasiado simple (subajuste / underfitting)
Varianza	Error por sensibilidad excesiva a los datos de entrenamiento	Modelo demasiado complejo (sobreajuste / overfitting)

**Relación con la complejidad del modelo**

A medida que aumentas la complejidad del modelo:

- El bias disminuye → el modelo se ajusta mejor a los datos.
- Pero la varianza aumenta → el modelo se vuelve más inestable frente a datos nuevos.

Esto se conoce como la curva en U del error total:

## 📌 Puntos clave

**Ejemplos en modelos reales**
| Modelo o técnica                   | Complejidad típica | Riesgo principal            |
| ---------------------------------- | ------------------ | --------------------------- |
| Regresión lineal                   | Baja               | Alto bias                   |
| Árbol de decisión con maxDepth=2   | Baja               | Alto bias                   |
| Árbol de decisión sin restricción  | Alta               | Alta varianza               |
| Random Forest (con `n_estimators`) | Media              | Generaliza bien             |
| Gradient Boosting                  | Alta               | Alta varianza si no regulas |
| Regularización (L1/L2)             | Reduce complejidad | Baja varianza               |

**Resumen que debes saber para el examen**

| Concepto                        | Señales típicas                   | Soluciones                                                      |
| ------------------------------- | --------------------------------- | --------------------------------------------------------------- |
| **High bias (underfitting)**    | Error alto en train y test        | Aumentar complejidad, usar modelo más flexible                  |
| **High variance (overfitting)** | Error bajo en train, alto en test | Regularización, cross-validation, más datos, simplificar modelo |
| **Good generalization**         | Error similar en train y test     | ¡Ideal!                                                         |

