# Use ML foundations to select the appropriate algorithm for a given model scenario


Tipo de problema: clasificaci√≥n vs regresi√≥n
Clasificaci√≥n (binaria o multiclase):

¬øPredices categor√≠as o etiquetas? (Ej: churn: s√≠/no)

Algoritmos t√≠picos: Logistic Regression, Decision Tree, Random Forest, GBTClassifier

Regresi√≥n:

¬øPredices una variable num√©rica continua? (Ej: predicci√≥n de precio)

Algoritmos t√≠picos: Linear Regression, Decision Tree Regressor, GBTRegressor, XGBoostRegressor

##  Algoritmos frecuentes y cu√°ndo usarlos

| Algoritmo                        | Tipo          | Cu√°ndo usarlo                                        | Pros                                      | Contras                                   |
| -------------------------------- | ------------- | ---------------------------------------------------- | ----------------------------------------- | ----------------------------------------- |
| **Logistic Regression**          | Clasificaci√≥n | Problemas lineales, interpretabilidad alta           | R√°pido, interpretable                     | No captura relaciones no lineales         |
| **Linear Regression**            | Regresi√≥n     | Relaciones lineales simples                          | Sencillo, explicable                      | Poco flexible ante relaciones no lineales |
| **Decision Tree**                | Ambos         | Datos interpretables, no lineales, sin normalizaci√≥n | No requiere escalado, f√°cil de visualizar | Propenso a overfitting                    |
| **Random Forest**                | Ambos         | Datos complejos, buena generalizaci√≥n                | Robusto, mejora overfitting               | Menos interpretable, m√°s lento            |
| **GBT (Gradient-Boosted Trees)** | Ambos         | Alta precisi√≥n, datos desbalanceados                 | Mejor rendimiento que RF en muchos casos  | Entrenamiento lento, sensible a ruido     |
| **XGBoost**                      | Ambos         | Escenarios con muchos datos y features importantes   | Precisi√≥n alta, regularizaci√≥n integrada  | Requiere m√°s tuning, menos interpretable  |

## Factores que influyen en la elecci√≥n del modelo

| Factor                         | Consideraci√≥n                                                                    |
| ------------------------------ | -------------------------------------------------------------------------------- |
| **Tama√±o del dataset**         | GBT y XGBoost funcionan mejor con muchos datos                                   |
| **Balance de clases**          | Algoritmos como GBT y Logistic soportan `class_weight`; Random Forest es robusto |
| **Interpretabilidad**          | Preferir Logistic o Decision Tree                                                |
| **Requerimientos de tiempo**   | Logistic y Linear son r√°pidos; GBT y XGBoost pueden tardar                       |
| **Relaci√≥n entre variables**   | Si es no lineal ‚Üí evitar regresiones lineales simples                            |
| **Colinealidad / redundancia** | XGBoost y √°rboles manejan mejor variables redundantes                            |


## üìå Puntos clave
- **¬øQu√© es normalizaci√≥n?**
En muchos algoritmos (como regresiones o redes neuronales), necesitas que tus features num√©ricos est√©n en una misma escala (por ejemplo, entre 0 y 1), usando t√©cnicas como:

StandardScaler: para que cada feature tenga media 0 y desviaci√≥n est√°ndar 1

MinMaxScaler: para escalar entre un rango definido (usualmente 0 a 1)

- **Qu√© es "ruido"**
| Tipo de ruido              | Ejemplo                                     | Impacto                                                   |
| -------------------------- | ------------------------------------------- | --------------------------------------------------------- |
| **Errores en los datos**   | Registros con etiquetas incorrectas o typos | GBT puede aprender a "explicar" errores que no se repiten |
| **Outliers**               | Valores extremos en variables num√©ricas     | Puede crear divisiones innecesarias solo para esos casos  |
| **Variables irrelevantes** | Features que no aportan al target           | GBT puede intentar exprimirles se√±al que no existe        |
| **Variabilidad aleatoria** | Efectos que no se repetir√°n en nuevos datos | Aprendidos como si fueran patrones reales                 |

- **Qu√© es regularizaci√≥n"**

| Concepto       | Explicaci√≥n simple                                                                       |
| -------------- | ---------------------------------------------------------------------------------------- |
| Regularizaci√≥n | Penalizar la complejidad del modelo para evitar que aprenda demasiado                    |
| ¬øCu√°ndo?       | Cuando hay riesgo de overfitting                                                         |
| ¬øC√≥mo?         | Penalizando coeficientes (regresi√≥n) o limitando profundidad/tama√±o del modelo (√°rboles) |




# Identify methods to mitigate data imbalance in training data

## ¬øQu√© es un dataset desbalanceado?

| Problema            | Clase mayoritaria      | Clase minoritaria     |
| ------------------- | ---------------------- | --------------------- |
| Detecci√≥n de fraude | Transacciones normales | Fraudes               |
| Churn prediction    | Clientes activos       | Clientes que cancelan |
| Diagn√≥stico m√©dico  | Pacientes sanos        | Casos positivos       |



## T√©cnicas para mitigar el desbalance

### 1. Modificaci√≥n del dataset

| T√©cnica           | Qu√© hace                                           | Cu√°ndo usarla                                                | Herramientas         |
| ----------------- | -------------------------------------------------- | ------------------------------------------------------------ | -------------------- |
| **Undersampling** | Quita ejemplos de la clase mayoritaria             | Cuando hay muchos datos disponibles                          | `RandomUnderSampler` |
| **Oversampling**  | Duplica ejemplos de la clase minoritaria           | Cuando se tiene pocos datos de esa clase                     | `RandomOverSampler`  |
| **SMOTE**         | Genera ejemplos sint√©ticos de la clase minoritaria | Cuando quieres mejorar la diversidad de la clase minoritaria | `imblearn.SMOTE`     |


### 2. Modificaci√≥n del modelo (ajuste de pesos)

En vez de tocar los datos, puedes ajustar el modelo para que:

- Le d√© m√°s peso a los errores en la clase minoritaria
- Algunas implementaciones permiten class_weight='balanced'

| Modelo                           | ¬øSoporta class\_weight?      |
| -------------------------------- | ---------------------------- |
| Logistic Regression              | ‚úÖ S√≠                         |
| Decision Tree / RF / GBT (Spark) | ‚úÖ S√≠, con `weightCol`        |
| XGBoost                          | ‚úÖ S√≠, con `scale_pos_weight` |


## üìå Puntos clave

Elegir m√©tricas adecuadas cuando el dataset est√° desbalanceado:

| Evitar                  | Usar en su lugar              |
| ----------------------- | ----------------------------- |
| ‚ùå Accuracy              | ‚úÖ F1-score, Precision, Recall |
| ‚ùå ROC-AUC (en extremos) | ‚úÖ Precision-Recall Curve      |


#  Compare estimators and transformers

- pipeline en sklearn https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html 
- Transformer rm sklearn https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

## ¬øQu√© es un Estimator?

Un Estimator es cualquier objeto que aprende a partir de los datos. Su funci√≥n principal es:
Aplicar .fit() sobre un DataFrame para producir un Transformer.

üí° Ejemplo: LogisticRegression, StandardScaler, PCA, StringIndexer, RandomForestClassifier


In [0]:
#Estimator
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression()
model = lr.fit(train_df)


## ¬øQu√© es un Transformer?

Un Transformer es un objeto que aplica una transformaci√≥n sobre un dataset, sin aprender nada nuevo. Su funci√≥n principal es:

Aplicar .transform() para crear un nuevo DataFrame.

üí° Ejemplo: model producido por LogisticRegression.fit(), o PipelineModel, o StandardScalerModel

In [0]:
#Transformer
transformed = model.transform(test_df)

## En el contexto de un Pipeline

Un Pipeline est√° compuesto de etapas (stages) que pueden ser:

Estimators ‚Üí deben ser ajustados (fit)

Transformers ‚Üí aplican transformaciones (transform)

In [0]:
from pyspark.ml.feature import StringIndexer, StandardScalerModel, VectorAssembler
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline

# Sup√≥n que ya tienes un StandardScalerModel entrenado previamente
scaler_model = StandardScalerModel.load("path/to/scaler_model")

pipeline = Pipeline(stages=[
    StringIndexer(inputCol="category", outputCol="category_indexed"),  # Estimator
    scaler_model,                                                      # Transformer
    LogisticRegression(featuresCol="features", labelCol="label")       # Estimator
])


## üìå Puntos clave

**Estimators que aparecen en el examen**

| Estimator                | Tipo                         | Contexto en el examen                                                        |
| ------------------------ | ---------------------------- | ---------------------------------------------------------------------------- |
| `StringIndexer`          | Preprocesamiento             | Transformar texto a √≠ndice num√©rico antes de entrenar                        |
| `OneHotEncoder`          | Preprocesamiento             | Cuando el √≠ndice generado se usa como feature                                |
| `StandardScaler`         | Preprocesamiento             | Preguntas con variables num√©ricas que deben escalarse                        |
| `PCA`                    | Reducci√≥n de dimensionalidad | Escenario con muchas variables correlacionadas                               |
| `VectorAssembler`        | Feature engineering          | Se usa en la mayor√≠a de pipelines (reconocible por `inputCols`, `outputCol`) |
| `LogisticRegression`     | Modelo de clasificaci√≥n      | Com√∫n en preguntas sobre interpretabilidad o rendimiento                     |
| `LinearRegression`       | Modelo de regresi√≥n          | Aparece menos, pero presente en problemas num√©ricos                          |
| `DecisionTreeClassifier` | Modelo de clasificaci√≥n      | Opci√≥n en preguntas de comparaci√≥n de modelos                                |
| `RandomForestClassifier` | Modelo de clasificaci√≥n      | Aparece como alternativa en comparaci√≥n vs GBT                               |
| `GBTClassifier`          | Modelo de clasificaci√≥n      | Muy com√∫n en preguntas sobre overfitting y evaluaci√≥n                        |
| `GBTRegressor`           | Modelo de regresi√≥n          | Menos frecuente, pero presente en pipelines de regresi√≥n                     |


**Transformers que aparecen en el examen**

| Transformer               | Proviene de...                   | Contexto en el examen                                |
| ------------------------- | -------------------------------- | ---------------------------------------------------- |
| `StringIndexerModel`      | `.fit()` de `StringIndexer`      | Usado para aplicar transformaciones ya ajustadas     |
| `OneHotEncoderModel`      | `.fit()` de `OneHotEncoder`      | Cuando se pregunta por el resultado del pipeline     |
| `StandardScalerModel`     | `.fit()` de `StandardScaler`     | Escenario donde se aplica escalado antes de entrenar |
| `PCAModel`                | `.fit()` de `PCA`                | Cuando hay reducci√≥n de features antes del modelo    |
| `LogisticRegressionModel` | `.fit()` de `LogisticRegression` | Predicci√≥n, evaluaci√≥n, m√©tricas                     |
| `GBTClassificationModel`  | `.fit()` de `GBTClassifier`      | Aparece en preguntas de evaluaci√≥n de performance    |
| `PipelineModel`           | `.fit()` de un `Pipeline`        | Muy com√∫n en preguntas con c√≥digo de varios pasos    |


# Develop a training pipeline

## ¬øQu√© es un pipeline de entrenamiento?
Un pipeline de entrenamiento es una estructura modular que encapsula todo el flujo de machine learning:

- Preparaci√≥n de datos
- Transformaciones
- Entrenamiento del modelo
- (Opcional) Validaci√≥n
- (Opcional) Evaluaci√≥n y persistencia

En PySpark, se representa con el objeto Pipeline de pyspark.ml.

## ¬øQu√© componentes se usan en Spark ML Pipelines?
1. Transformers
Objetos que aplican .transform(df)

No requieren aprendizaje

Ejemplos: VectorAssembler, MinMaxScalerModel, StandardScalerModel, PCAModel

2. Estimators
Objetos que requieren .fit(df) para aprender de los datos

Devuelven Transformers

Ejemplos: StringIndexer, LogisticRegression, GBTClassifier, RandomForestRegressor

3. Pipeline
Contenedor de etapas ordenadas (stages = [])

Combina estimadores y transformers

.fit(df) entrena todo el pipeline, devuelve un PipelineModel

In [0]:
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import LogisticRegression

pipeline = Pipeline(stages=[
    StringIndexer(inputCol="category", outputCol="category_indexed"),  # Estimator
    VectorAssembler(
        inputCols=["feature1", "feature2", "category_indexed"],
        outputCol="features"
    ),  # Transformer
    LogisticRegression(featuresCol="features", labelCol="label")  # Estimator
])

# Entrenamiento completo del pipeline
pipeline_model = pipeline.fit(train_df)

# Aplicaci√≥n a datos de test
predictions = pipeline_model.transform(test_df)


## üìå Puntos clave
| Elemento                  | Clave para examen                        |
| ------------------------- | ---------------------------------------- |
| Objetivo del pipeline     | Organizar pasos ML de forma reproducible |
| Composici√≥n               | Estimators + Transformers                |
| Ejecuci√≥n                 | `pipeline.fit()` produce `PipelineModel` |
| Aplicaci√≥n a nuevos datos | `pipeline_model.transform()`             |
| Uso en tuning             | Compatible con CV y hyperopt             |


# Use Hyperopt's fmin operation to tune a model's hyperparameters

## ¬øQu√© es Hyperopt?
Hyperopt es una librer√≠a de optimizaci√≥n de hiperpar√°metros basada en b√∫squeda Bayesiana. Es m√°s eficiente que grid o random search para espacios de b√∫squeda grandes.

Databricks lo integra con su framework de ML para escalar f√°cilmente los experimentos.



In [0]:
# Sintaxis general de fmin
from hyperopt import fmin, tpe, hp, Trials

best_result = fmin(
    fn=objective_function,         # Funci√≥n objetivo (devuelve la m√©trica a minimizar)
    space=search_space,            # Espacio de b√∫squeda de hiperpar√°metros
    algo=tpe.suggest,              # Algoritmo de b√∫squeda (TPE = Tree-structured Parzen Estimator)
    max_evals=50,                  # N√∫mero m√°ximo de evaluaciones
    trials=Trials()                # Objeto opcional para guardar resultados
)


| Elemento    | Descripci√≥n                                                          | Tipo en examen                         |
| ----------- | -------------------------------------------------------------------- | -------------------------------------- |
| `fn`        | Funci√≥n que entrena el modelo y devuelve una m√©trica (ej: `loss`)    | Preguntan qu√© retorna, qu√© espera      |
| `space`     | Diccionario o estructura que define los hiperpar√°metros y sus rangos | Te preguntan c√≥mo definirlo            |
| `algo`      | Algoritmo de b√∫squeda (usualmente `tpe.suggest`)                     | Preguntan cu√°l es el m√°s eficiente     |
| `max_evals` | Cu√°ntas combinaciones probar                                         | Preguntas de costo computacional       |
| `Trials()`  | Objeto para registrar los experimentos                               | Preguntan si es obligatorio (no lo es) |


In [0]:
from hyperopt import fmin, tpe, hp, Trials, STATUS_OK
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import log_loss

def objective(params):
    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict_proba(X_val)
    loss = log_loss(y_val, preds)
    return {'loss': loss, 'status': STATUS_OK}

search_space = {
    'n_estimators': hp.choice('n_estimators', [50, 100, 150]),
    'max_depth': hp.quniform('max_depth', 3, 10, 1),
    'max_features': hp.choice('max_features', ['auto', 'sqrt']),
}

best_result = fmin(
    fn=objective,
    space=search_space,
    algo=tpe.suggest,
    max_evals=20,
    trials=Trials()
)


## üìå Puntos clave

**NOTEBOOK CON EJEMPLO**
https://docs.databricks.com/aws/en/machine-learning/automl-hyperparam-tuning/hyperopt-distributed-ml

| Concepto         | Detalles                                                                    |
| ---------------- | --------------------------------------------------------------------------- |
| `hp.choice`      | Selecci√≥n discreta entre valores                                            |
| `hp.uniform`     | N√∫meros continuos entre dos valores                                         |
| `hp.quniform`    | N√∫meros enteros escalonados (`start`, `end`, `step`)                        |
| Funci√≥n objetivo | Debe retornar un diccionario con `loss` y `status`                          |
| M√©trica objetivo | `loss` debe ser **m√≠nima**, t√≠picamente `log_loss`, `RMSE`, etc             |
| `fmin`           | Encuentra la mejor combinaci√≥n de hiperpar√°metros seg√∫n la funci√≥n objetivo |

‚ö†Ô∏è Cuando uses Hyperopt con MLlib y otros algoritmos de entrenamiento distribuido, no pases el argumento **trials** a fmin(). Si no incluyes el argumento trials, Hyperopt usar√° la clase Trials por defecto, que se ejecuta en el driver del cl√∫ster. Hyperopt necesita evaluar cada prueba (trial) en el nodo driver para que cada prueba pueda iniciar trabajos de entrenamiento distribuidos.

No uses la clase SparkTrials con MLlib. SparkTrials est√° dise√±ada para distribuir pruebas en algoritmos que no son distribuidos por s√≠ mismos. MLlib ya utiliza computaci√≥n distribuida y no es compatible con SparkTrials.


# Perform random or grid search or Bayesian search as a method for tuning hyperparameters.

## Grid Search (B√∫squeda por rejilla)

Eval√∫a todas las combinaciones posibles de un conjunto definido de valores.

{
  "maxDepth": [5, 10],
  "minInstancesPerNode": [1, 5]
}

Genera 4 combinaciones:

- (5,1)
- (5,5)
- (10,1)
- (10,5)

**Ventajas:**
- Exhaustivo ‚Üí encuentra el mejor dentro de los valores que definiste.
- F√°cil de entender.

**Desventajas:**
- Costoso: crece exponencialmente con el n√∫mero de par√°metros y valores.
- No generaliza fuera de los valores definidos.

## Bayesian Search (ej. TPE con Hyperopt)
Usa los resultados anteriores para predecir qu√© combinaciones valdr√°n la pena probar.

- Construye un modelo probabil√≠stico del espacio de b√∫squeda.
- Escoge el pr√≥ximo punto bas√°ndose en cu√°l tiene m√°s probabilidad de ser mejor (balancea exploraci√≥n y explotaci√≥n).


**Ventajas:**

Aprende con cada evaluaci√≥n ‚Üí mejora progresiva.
M√°s eficiente que Random/Grid en espacios complejos.
Especialmente √∫til cuando hay tiempo/costo limitado.

**Desventajas:**

M√°s dif√≠cil de entender e implementar.
Menos reproducible (dependiente del orden de evaluaciones).

In [0]:
fmin(
    fn=objective,
    space=search_space,
    algo=tpe.suggest,
    max_evals=50
)


## üìå Puntos clave

| M√©todo         | Inteligente | Evaluaciones | Exploraci√≥n | Velocidad  | Costoso  |
| -------------- | ----------- | ------------ | ----------- | ---------- | -------- |
| Grid Search    | ‚ùå           | Todas        | Baja        | Lento      | S√≠       |
| Random Search  | ‚ùå           | Aleatorias   | Alta        | R√°pido     | Moderado |
| Bayesian (TPE) | ‚úÖ           | Dirigidas    | Media       | Muy r√°pido | No       |

**¬øQu√© debes saber para el examen?**

- Grid Search ‚Üí exhaustivo, costoso, √∫til si espacio reducido.
- Random Search ‚Üí m√°s eficiente, √∫til si espacio es amplio.
- Bayesian Search (TPE) ‚Üí aprende con cada intento, recomendado en escenarios de recursos limitados.
- En Databricks, Hyperopt implementa Bayesian Search por defecto con tpe.suggest.

# Parallelize single node models for hyperparameter tuning


**¬øQu√© significa ‚Äúparalelizar modelos single-node‚Äù?**
En el contexto de tuning de hiperpar√°metros, especialmente con m√©todos como Hyperopt, es frecuente ejecutar muchos experimentos independientes. Cada combinaci√≥n de hiperpar√°metros genera un nuevo modelo que debe ser:

- Entrenado (fit),
- Validado (evaluate),
- Comparado con otros.

üîÅ Estos entrenamientos son independientes unos de otros ‚Üí se pueden correr en paralelo.

**¬øQu√© es un ‚Äúsingle-node model‚Äù?**
Son modelos entrenados en una sola m√°quina (no distribuidos), por ejemplo:

- RandomForestClassifier de sklearn o pyspark.ml
- LogisticRegression
- XGBoost en modo local

Aunque estos modelos no escalan naturalmente a m√∫ltiples nodos, el tuning s√≠ puede distribuirse, porque los experimentos no dependen entre s√≠.

**¬øC√≥mo se paraleliza en Databricks con Hyperopt?**
Databricks soporta el modo paralelo de Hyperopt usando spark_trials, una utilidad que permite distribuir los experimentos en un cl√∫ster Spark.

In [0]:
from hyperopt import fmin, tpe, hp, STATUS_OK, SparkTrials
from sklearn.ensemble import RandomForestClassifier

# Definir funci√≥n objetivo
def objective(params):
    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict(X_val)
    f1 = f1_score(y_val, preds)
    return {'loss': -f1, 'status': STATUS_OK}

# Definir espacio de b√∫squeda
space = {
    'max_depth': hp.choice('max_depth', [5, 10, 15]),
    'n_estimators': hp.quniform('n_estimators', 50, 200, 10)
}

# Paralelizar con SparkTrials
spark_trials = SparkTrials(parallelism=4)

best_model = fmin(
    fn=objective,
    space=space,
    algo=tpe.suggest,
    max_evals=20,
    trials=spark_trials  # <-- distribuci√≥n en cl√∫ster
)


## üìå Puntos clave

| Par√°metro   | `Trials` (default) | `SparkTrials`           |
| ----------- | ------------------ | ----------------------- |
| Paralelismo | ‚ùå No               | ‚úÖ S√≠                    |
| Entorno     | Local (1 nodo)     | Cl√∫ster Databricks      |
| Ideal para  | Debug, tests       | Producci√≥n, tuning real |

Puedes controlar el n√∫mero de evaluaciones simult√°neas con parallelism=n.

**Lo que puede aparecer en el examen:**
- Saber que SparkTrials se usa para paralelizar tuning.
- Identificar cu√°ndo vale la pena paralelizar (muchas combinaciones, modelos costosos).
- Entender que los modelos se entrenan en paralelo, no dentro del mismo modelo, sino a nivel de tuning.
- Reconocer que esto se puede aplicar a modelos que no son distribuidos (como sklearn, xgboost, pyspark.ml).


# Describe the benefits and downsides of using cross-validation over a train-validation split.

## ¬øQu√© es Train-Validation Split?
Es la forma m√°s sencilla de evaluar un modelo:

Se parte el dataset en dos subconjuntos:

- Train set (por ejemplo, 80%)
- Validation set (por ejemplo, 20%)

Se entrena el modelo en el train set y se eval√∫a en el validation set.

| Ventaja                     | Explicaci√≥n                                                                                |
| --------------------------- | ------------------------------------------------------------------------------------------ |
| ‚úÖ R√°pido                    | Solo se entrena una vez. Ideal para grandes vol√∫menes de datos o cuando el tiempo importa. |
| ‚úÖ F√°cil de implementar      | No necesitas bucles, simplemente haces `.randomSplit()` en Spark.                          |
| ‚úÖ Menor carga computacional | √ötil si est√°s haciendo tuning con muchos modelos.                                          |

| Desventaja                                   | Explicaci√≥n                                                                                         |
| -------------------------------------------- | --------------------------------------------------------------------------------------------------- |
| ‚ùå Alta varianza                              | La performance depende **mucho de c√≥mo cay√≥ el 20%** del validation set. Podr√≠as tener mala suerte. |
| ‚ùå No aprovecha todos los datos para entrenar | Solo el 80% se usa para entrenar.                                                                   |




## ¬øQu√© es Cross-Validation (CV)?
Es un enfoque m√°s robusto:

- El dataset se divide en k partes (folds), por ejemplo, 5.
- Se entrena y valida el modelo k veces, rotando los folds.

Se calcula el promedio del rendimiento.

| Ventaja                           | Explicaci√≥n                                                            |
| --------------------------------- | ---------------------------------------------------------------------- |
| ‚úÖ M√°s robusto                     | Reduce la varianza. La evaluaci√≥n es m√°s confiable.                    |
| ‚úÖ Usa todos los datos             | Cada observaci√≥n act√∫a como parte del validation set en alg√∫n momento. |
| ‚úÖ M√°s justo para comparar modelos | √ötil en selecci√≥n de hiperpar√°metros y algoritmos.                     |

| Desventaja     | Explicaci√≥n                                                   |
| -------------- | ------------------------------------------------------------- |
| ‚ùå M√°s lento    | Se entrena el modelo k veces. Si k=5, es 5 veces m√°s trabajo. |
| ‚ùå M√°s complejo | Especialmente si haces Grid Search o pipelines distribuidos.  |


## üìå Puntos clave

| Escenario                               | ¬øQu√© usar?                            | Justificaci√≥n                                    |
| --------------------------------------- | ------------------------------------- | ------------------------------------------------ |
| Dataset muy grande (millones de filas)  | Train-validation split                | M√°s r√°pido, el volumen ya garantiza diversidad.  |
| Dataset peque√±o o desequilibrado        | Cross-validation                      | Asegura una evaluaci√≥n robusta y balanceada.     |
| Tuning intensivo (Grid o Random Search) | Train-validation split con test final | Reduce el costo computacional.                   |
| Validaci√≥n final para comparar modelos  | Cross-validation                      | Da confianza estad√≠stica al comparar resultados. |


# Use common classification metrics: F1, Log Loss, ROC/AUC, etc

Metricas mencionadas en la academia:

Para modelos supervisados: Accuracy, precision , recall, F1 Score, Log loss (Cross-Entropy Loss), ROC/AUC (√Årea bajo la curva ROC)

## F1 Score

**Qu√© mide:** La media arm√≥nica entre precisi√≥n (precision) y exhaustividad (recall).

**Formula**

F1= 2‚ãÖ(Precision‚ãÖRecall)/ Precision+Recall

**Cu√°ndo usarla:**
- Cuando tienes clases desbalanceadas (por ejemplo, fraude, enfermedad rara).
- Cuando falsos positivos y falsos negativos son importantes.
- Mejor que accuracy si los datos est√°n desbalanceados.

**Recuerda:**
F1 alto = buen balance entre precision y recall.


## Log Loss (a.k.a. Logarithmic Loss, Cross-Entropy Loss)
**Qu√© mide:** 
- Cu√°nto se equivoca el modelo al predecir probabilidades.
- Penaliza mucho las predicciones seguras pero err√≥neas.

**Cu√°ndo usarla:**
- Cuando necesitas evaluar la calidad de las probabilidades predichas, no solo etiquetas.
- Es la m√©trica por defecto en muchos clasificadores probabil√≠sticos.
- √ötil en escenarios donde la calibraci√≥n de probabilidad es cr√≠tica (ej. predicci√≥n m√©dica, scoring financiero).

**Recuerda:**
- Menor LogLoss = mejor modelo.
- Puede ser bajo aunque el modelo se equivoque poco, si las probabilidades son poco confiable

## ROC-AUC (Receiver Operating Characteristic - Area Under Curve)**

**Qu√© mide:**
- La capacidad del modelo para separar clases positivas y negativas en m√∫ltiples umbrales.
- Compara tasa de verdaderos positivos (TPR) vs tasa de falsos positivos (FPR) a distintos umbrales.

**√Årea bajo la curva = ROC-AUC.**

**Cu√°ndo usarla:**
- Evaluaci√≥n general de la capacidad discriminatoria del modelo.
- Muy √∫til en datasets desbalanceados.
- Cuando el umbral de decisi√≥n puede cambiar seg√∫n el caso de uso.

**Recuerda:**
- AUC = 0.5 ‚Üí modelo aleatorio.
- AUC = 1.0 ‚Üí modelo perfecto.

## Accuracy

**Qu√© mide:**
Proporci√≥n de predicciones correctas sobre el total.

**Ventaja**: Muy f√°cil de entender.

**Desventaja:**

Enga√±osa con datos desbalanceados.
Por ejemplo, si el 95% de los casos son clase 0, un modelo que siempre predice 0 tendr√° 95% de accuracy‚Ä¶ aunque no haga nada √∫til.

Uso recomendado:
Solo cuando las clases est√°n balanceadas y los errores en ambas clases tienen el mismo costo.

## Precision (Precisi√≥n o Valor Predictivo Positivo)**

**Qu√© mide:**
- La proporci√≥n de predicciones positivas que son realmente correctas.
- De todas las veces que el modelo predijo la clase positiva, cu√°ntas veces acert√≥.

**F√≥rmula:**  
Precision = TP / (TP + FP)

**Cu√°ndo usarla:**
- Cuando es m√°s importante **evitar falsos positivos**.
- En contextos donde etiquetar algo como positivo tiene un **costo alto si se comete un error** (por ejemplo, spam, detecci√≥n de tumores falsos, sistemas judiciales).
- Cuando necesitas que las predicciones positivas sean confiables.

**Recuerda:**
- Precision = 1.0 ‚Üí el modelo no comete ning√∫n falso positivo.
- Precision = 0.0 ‚Üí todas las predicciones positivas fueron incorrectas.


## Recall (Sensibilidad o Tasa de Verdaderos Positivos)

**Qu√© mide:**
- La proporci√≥n de verdaderos positivos (TP) que el modelo logra identificar correctamente.
- De todas las observaciones que realmente pertenecen a la clase positiva, cu√°ntas fueron correctamente detectadas.

**F√≥rmula:**  
Recall = TP / (TP + FN)

**Cu√°ndo usarla:**
- Cuando es m√°s importante **capturar todos los casos positivos**.
- En problemas donde los falsos negativos tienen un **alto costo** (por ejemplo, detecci√≥n de enfermedades, fraudes, fallos de seguridad).
- Cuando prefieres minimizar el riesgo de pasar por alto un positivo.

**Recuerda:**
- Recall = 1.0 ‚Üí el modelo no comete ning√∫n falso negativo.
- Recall = 0.0 ‚Üí el modelo no detecta ning√∫n positivo.


## üìå Puntos clave

| M√©trica              | √ötil cuando‚Ä¶                      | Detalles clave                                                             |
| -------------------- | --------------------------------- | -------------------------------------------------------------------------- |
| **Accuracy**         | Las clases est√°n balanceadas      | $(TP + TN) / total$. No recomendable si hay desbalance.                    |
| **Precision**        | Costo de falsos positivos es alto | $\frac{TP}{TP + FP}$. ¬øQu√© tan confiables son los positivos predichos?     |
| **Recall**           | Costo de falsos negativos es alto | $\frac{TP}{TP + FN}$. ¬øCu√°ntos positivos reales detecta el modelo?         |
| **PR-AUC**           | Clases muy desbalanceadas         | AUC de la curva Precision-Recall. M√°s informativa que ROC-AUC en ese caso. |
| **Confusion Matrix** | Interpretabilidad                 | Te muestra TP, FP, FN, TN. Muy √∫til para analizar errores concretos.       |


| M√©trica              | Rango | Valor √≥ptimo | Cu√°ndo usarla o interpretarla                                                                            |
| -------------------- | ----- | ------------ | -------------------------------------------------------------------------------------------------------- |
| **Accuracy**         | 0 a 1 | Cerca de 1   | Proporci√≥n de predicciones correctas. ‚ö†Ô∏è **Enga√±osa si los datos est√°n desbalanceados.**                 |
| **Precision**        | 0 a 1 | Cerca de 1   | De los predichos positivos, cu√°ntos eran realmente positivos. ‚ö†Ô∏è Alta si pocos **falsos positivos**.     |
| **Recall**           | 0 a 1 | Cerca de 1   | De los positivos reales, cu√°ntos fueron capturados. ‚ö†Ô∏è Alta si pocos **falsos negativos**.               |
| **F1 Score**         | 0 a 1 | Cerca de 1   | Promedio arm√≥nico entre precision y recall. Ideal cuando hay desbalance o quieres compensar ambos.       |
| **Log Loss**         | 0 a ‚àû | Cero (0)     | Penaliza probabilidades incorrectas. **M√°s bajo es mejor**. Afectado si predices mal con alta confianza. |
| **ROC AUC**          | 0 a 1 | Cerca de 1   | Mide qu√© tan bien el modelo separa clases. Bueno con clases balanceadas. 0.5 = random.                   |
| **PR AUC**           | 0 a 1 | Cerca de 1   | M√°s √∫til que ROC-AUC con **clases desbalanceadas**. Se enfoca en la clase positiva.                      |
| **Confusion Matrix** | -     | -            | Muestra TP, FP, FN, TN. √ötil para calcular otras m√©tricas y entender errores.                            |


# Use common regression metrics: RMSE, MAE, R-squared, etc.

Metricas mencionadas en curso de la academia: R¬≤ (Coeficiente de determinaci√≥n),  Mean Absolute Error (MAE),  Mean Squared Error (MSE), Root Mean Squared Error (RMSE)

## R¬≤ (Coeficiente de determinaci√≥n)


**Qu√© mide:**
- Cu√°nta proporci√≥n de la varianza de la variable objetivo es explicada por el modelo.
- Indica la calidad del ajuste del modelo a los datos.

**F√≥rmula:**  
R¬≤ = 1 - (Suma de errores del modelo / Suma de errores del modelo base)

**Cu√°ndo usarla:**
- Cuando quieres saber **qu√© tan bien explica el modelo la variabilidad de los datos**.
- En modelos de regresi√≥n donde el objetivo es predecir valores continuos.

**Recuerda:**
- R¬≤ = 1.0 ‚Üí ajuste perfecto.
- R¬≤ = 0.0 ‚Üí el modelo no mejora sobre una predicci√≥n constante (media).
- R¬≤ < 0.0 ‚Üí el modelo es peor que simplemente predecir la media.


## Mean Absolute Error (MAE)

**Qu√© mide:**
- El error promedio absoluto entre las predicciones y los valores reales.
- Mide la magnitud promedio del error sin considerar su direcci√≥n.

**F√≥rmula:**  
MAE = (1/n) ‚àë |y_real - y_pred|

**Cu√°ndo usarla:**
- Cuando necesitas una m√©trica de error **f√°cil de interpretar en las mismas unidades de la variable objetivo**.
- Cuando deseas que todos los errores cuenten por igual (sin penalizar m√°s los errores grandes).

**Recuerda:**
- MAE es m√°s robusta frente a valores at√≠picos que MSE o RMSE.
- MAE = 0 ‚Üí el modelo predice perfectamente todos los valores.




## Mean Squared Error (MSE)

**Qu√© mide:**
- El promedio de los errores al cuadrado entre las predicciones y los valores reales.
- Penaliza los errores grandes de forma m√°s severa que MAE.

**F√≥rmula:**  
MSE = (1/n) ‚àë (y_real - y_pred)¬≤

**Cu√°ndo usarla:**
- Cuando quieres penalizar m√°s fuertemente los **errores grandes**.
- En problemas donde los outliers son relevantes o deben evitarse.

**Recuerda:**
- MSE siempre es ‚â• 0.
- Cuanto m√°s peque√±o, mejor es el modelo.
- Est√° en unidades cuadradas de la variable objetivo.


## Root Mean Squared Error (RMSE)

**Qu√© mide:**
- La ra√≠z cuadrada del error cuadr√°tico medio.
- Representa el error t√≠pico de predicci√≥n en las mismas unidades que la variable objetivo.

**F√≥rmula:**  
RMSE = ‚àö( (1/n) ‚àë (y_real - y_pred)¬≤ )

**Cu√°ndo usarla:**
- Cuando quieres penalizar errores grandes y **mantener las unidades originales** de la variable.
- Es √∫til para interpretar el error en el mismo contexto del negocio.

**Recuerda:**
- RMSE es m√°s sensible a errores grandes que MAE.
- Cuanto menor sea el RMSE, mejor es el modelo.


## üìå Puntos clave
| M√©trica                                      | Rango   | Valor √≥ptimo | Qu√© mide                                                                                   | Cu√°ndo usarla o preferirla                                                                                                   |
| -------------------------------------------- | ------- | ------------ | ------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------- |
| **MAE** (Mean Absolute Error)                | 0 a ‚àû   | 0 (cero)     | Promedio de errores absolutos. Mide cu√°n lejos est√°n las predicciones del valor real.      | F√°cil de interpretar. Menos sensible a valores extremos (outliers).                                                          |
| **RMSE** (Root Mean Squared Error)           | 0 a ‚àû   | 0 (cero)     | Ra√≠z cuadrada del promedio de los errores al cuadrado. Penaliza m√°s los errores grandes.   | √ötil si quieres castigar m√°s los errores grandes.                                                                            |
| **R-squared** (Coeficiente de determinaci√≥n) | -‚àû a 1  | 1            | Cu√°nto del total de la varianza del target explica el modelo.                              | M√©trica est√°ndar general para evaluar qu√© tan bien se ajusta el modelo.                                                      |
| **MAPE** (Mean Absolute Percentage Error)    | 0% a ‚àû% | 0%           | Error absoluto expresado como porcentaje del valor real.                                   | Bueno para presentaciones o comparaci√≥n entre modelos en escalas distintas. ‚ö†Ô∏è Puede fallar con valores reales cercanos a 0. |
| **MSLE** (Mean Squared Logarithmic Error)    | 0 a ‚àû   | 0            | Similar a MSE, pero usa el log de los valores. Reduce impacto de errores en valores altos. | √ötil cuando te interesa el **error relativo**, no el valor absoluto.                                                         |


## Otras m√©tricas mencionadas en la academia 

### **Silhouette Score (√çndice de Silueta) - Modelos NO supervizados**

**Qu√© mide:**
- Qu√© tan bien se agrupa un punto dentro de su propio cl√∫ster en comparaci√≥n con otros cl√∫steres.
- Eval√∫a **la cohesi√≥n y separaci√≥n** de los cl√∫steres.

**F√≥rmula:**  
Silhouette = (b - a) / max(a, b)  
Donde:  
- a = distancia media al resto de puntos en el mismo cl√∫ster  
- b = distancia media al cl√∫ster m√°s cercano

**Cu√°ndo usarla:**
- Para **evaluar la calidad del clustering**, especialmente en k-means, DBSCAN, etc.
- Para **comparar resultados con diferentes valores de k (n√∫mero de cl√∫steres)**.

**Recuerda:**
- Silhouette cerca de **1.0** ‚Üí puntos bien agrupados.
- Silhouette cerca de **0.0** ‚Üí puntos en el borde entre cl√∫steres.
- Silhouette **< 0.0** ‚Üí puntos mal asignados.


### **Elbow Method (M√©todo del Codo)**

**Qu√© mide:**
- Ayuda a determinar el n√∫mero √≥ptimo de cl√∫steres (**k**) al observar la variaci√≥n explicada por el modelo.

**C√≥mo se aplica:**
- Se entrena el modelo con diferentes valores de **k**.
- Se grafica el valor de la inercia (Suma de errores cuadr√°ticos dentro del cl√∫ster: SSE) contra k.
- El punto donde la **disminuci√≥n de SSE se vuelve menos pronunciada** es el ‚Äúcodo‚Äù, el valor √≥ptimo de k.

**Cu√°ndo usarla:**
- En algoritmos de clustering como **k-means**.
- Para **estimar de forma visual y emp√≠rica el n√∫mero de cl√∫steres adecuados**.

**Recuerda:**
- No siempre hay un codo claro.
- Es una **t√©cnica heur√≠stica**: se complementa bien con m√©tricas como Silhouette Score.


# Choose the most appropriate metric for a given scenario objective

## Clasificaci√≥n binaria (0 o 1)
| Escenario                                                                         | M√©trica ideal          | ¬øPor qu√©?                                                               |
| --------------------------------------------------------------------------------- | ---------------------- | ----------------------------------------------------------------------- |
| **Clases balanceadas**, quieres precisi√≥n general                                 | **Accuracy**           | Sencilla y √∫til si el dataset est√° balanceado.                          |
| **Clases desbalanceadas** (ej: 95% negativos)                                     | **F1 Score o ROC-AUC** | Accuracy es enga√±osa. F1 equilibra precisi√≥n y recall.                  |
| **Evitar falsos negativos (FN)** es cr√≠tico (ej: fraude, c√°ncer)                  | **Recall**             | Detectar todos los positivos. Mejor un falso positivo que uno negativo. |
| **Evitar falsos positivos (FP)** es m√°s cr√≠tico (ej: c√°rcel, alarmas falsas)      | **Precision**          | S√≥lo queremos marcar positivo si estamos muy seguros.                   |
| Predices **probabilidades** y quieres medir qu√© tan bien calibrado est√° el modelo | **Log Loss**           | Penaliza fuertemente la sobreconfianza con errores.                     |


## Clasificaci√≥n multiclase (m√°s de 2 clases)

| Escenario                                                | M√©trica ideal                       | ¬øPor qu√©?                                   |
| -------------------------------------------------------- | ----------------------------------- | ------------------------------------------- |
| Todas las clases tienen similar importancia              | **Accuracy**                        | Correcto en general si no hay desbalance.   |
| Algunas clases son m√°s importantes o hay desbalance      | **F1 macro o weighted**             | Equilibra la contribuci√≥n de cada clase.    |
| Interesa m√°s una clase espec√≠fica (ej: detectar clase C) | **Precision/Recall para esa clase** | Foco en clase minoritaria o de alto riesgo. |


## Regresi√≥n
| Escenario                                                                              | M√©trica ideal                                    | ¬øPor qu√©?                                                                               |
| -------------------------------------------------------------------------------------- | ------------------------------------------------ | --------------------------------------------------------------------------------------- |
| Quieres un error promedio f√°cil de entender                                            | **MAE**                                          | Intuitivo. Poco sensible a outliers.                                                    |
| Quieres penalizar errores grandes m√°s fuertemente                                      | **RMSE**                                         | Ideal si los errores grandes son muy costosos.                                          |
| Quieres saber qu√© tan bien el modelo explica la varianza                               | **R-squared (R¬≤)**                               | Muy com√∫n. ‚ÄúQu√© tanto del target est√° explicado por el modelo‚Äù.                         |
| Trabajas con **precios, ventas**, y necesitas comparar modelos entre escalas distintas | **MAPE**                                         | Da errores en porcentaje, muy √∫til para reporting. ‚ö†Ô∏è No usar si el target tiene ceros. |
| Target fue **log-transformado (ej: np.log1p(y))**                                      | **Eval√∫a sobre np.expm1(pred)** y usa MAE o RMSE | Siempre deshace el log antes de evaluar. Evita m√©tricas sobre escala logar√≠tmica.       |
| Quieres medir precisi√≥n relativa en crecimiento o tasas                                | **MSLE**                                         | Penaliza menos errores absolutos grandes; √∫til con datos de crecimiento.                |


## üìå Puntos clave
| Concepto                                      | Pregunta frecuente                                                         |
| --------------------------------------------- | -------------------------------------------------------------------------- |
| ¬øAccuracy funciona con clases desbalanceadas? | ‚ùå No. Usa F1 o ROC-AUC.                                                    |
| ¬øSe puede usar RMSE con log-transform?        | ‚úÖ Solo si deslog-transformas antes (`np.expm1`).                           |
| ¬øMAPE falla con ceros?                        | ‚úÖ S√≠, porque divide por el valor real.                                     |
| ¬øCu√°ndo usar Log Loss?                        | ‚úÖ Cuando predices probabilidades. Penaliza con fuerza los errores seguros. |
| ¬øROC-AUC qu√© mide?                            | ‚úÖ La capacidad del modelo de rankear correctamente entre clases.           |

**1. ¬øQu√© debes saber?**

- Debes ser capaz de:
- Distinguir entre m√©tricas de clasificaci√≥n y regresi√≥n.
- Saber qu√© m√©trica favorece un objetivo espec√≠fico: minimizar falsos negativos, castigar errores grandes, interpretar probabilidades, etc.
- Elegir m√©tricas cuando hay desbalance de clases, predicci√≥n de probabilidades, o necesidad de explicabilidad.
- Identificar si el target fue log-transformado, y si se debe aplicar np.expm1() antes de evaluar.

# Identify the need to exponentiate log-transformed variables before calculating evaluation metrics or interpreting predictions


¬øPor qu√© se usan transformaciones logar√≠tmicas en regresi√≥n?
- Para que distribuciones muy sesgadas (skewed) se asemejen m√°s a una gaussiana (normal).
- Para reducir el impacto de valores extremos o outliers.
- Para que modelos lineales funcionen mejor cuando hay relaciones exponenciales o multiplicativas.

¬øQu√© implica usar log en el target?
Cuando transformas tu variable objetivo (y) con logaritmo antes de entrenar, est√°s haciendo que el modelo aprenda a predecir log(y), no y directamente.




In [0]:
train_df = train_df.withColumn("label", log1p("price"))  # log1p(x) = log(x + 1)

**Entonces, ¬øqu√© error cometen muchos?**

- Evaluar el modelo sobre log(y_pred) y log(y_test) est√° bien si te interesa performance en la escala logar√≠tmica.
- Pero si quieres evaluar el rendimiento real (RMSE en d√≥lares, por ejemplo), tienes que invertir la transformaci√≥n (con expm1):

In [0]:
from pyspark.sql.functions import expm1

# Corrige predicciones antes de evaluar
pred_df = pred_df.withColumn("prediction_exp", expm1("prediction"))
pred_df = pred_df.withColumn("label_exp", expm1("label"))

# Ahora s√≠ puedes calcular RMSE real
evaluator = RegressionEvaluator(
    labelCol="label_exp",
    predictionCol="prediction_exp",
    metricName="rmse"
)


**¬øQu√© pasa si no haces expm1() antes de evaluar?**

Tu RMSE, MAE o R¬≤ ser√° en la escala del log, y no representar√° errores reales en la escala del negocio.
Por ejemplo:

- Un error de 0.1 en log(price) no se traduce directamente en 0.1 d√≥lares.
- Podr√≠as tener un modelo con bajo error logar√≠tmico, pero con errores enormes en precios reales.

## üìå Puntos clave
| Situaci√≥n                                                      | ¬øAplico `expm1()` antes de evaluar? | M√©tricas que se afectan |
| -------------------------------------------------------------- | ----------------------------------- | ----------------------- |
| Quiero medir RMSE real en d√≥lares                              | ‚úÖ S√≠                                | RMSE, MAE, MAPE         |
| Voy a interpretar predicciones (por ejemplo, precio estimado)  | ‚úÖ S√≠                                | Todas                   |
| S√≥lo me interesa performance en log-escala (estudio acad√©mico) | ‚ùå No                                | RMSE (log), R¬≤ (log)    |
| Estoy graficando residuos o errores                            | ‚úÖ S√≠                                | Para interpretar bien   |

Pro tip (¬°s√∫per √∫til para el examen!):

- Si ves "label" como log1p(y) en el c√≥digo, busca si usan expm1 antes de evaluar o graficar. Si no, probablemente hay un error que deber√°s identificar.
- Te pueden mostrar dos pipelines, uno correcto y otro sin expm1() y preguntarte cu√°l da m√©tricas v√°lidas.

# Assess the impact of model complexity and the bias variance tradeoff on model performance

**¬øQu√© es el tradeoff bias-variance?**

Es un principio fundamental en machine learning que describe el equilibrio entre dos tipos de error que afectan al rendimiento del modelo:

Tipo de error	Qu√© significa	Causa principal
Bias (sesgo)	Error por supuestos demasiado simples sobre los datos	Modelo demasiado simple (subajuste / underfitting)
Varianza	Error por sensibilidad excesiva a los datos de entrenamiento	Modelo demasiado complejo (sobreajuste / overfitting)

**Relaci√≥n con la complejidad del modelo**

A medida que aumentas la complejidad del modelo:

- El bias disminuye ‚Üí el modelo se ajusta mejor a los datos.
- Pero la varianza aumenta ‚Üí el modelo se vuelve m√°s inestable frente a datos nuevos.

Esto se conoce como la curva en U del error total:

## üìå Puntos clave

**Ejemplos en modelos reales**
| Modelo o t√©cnica                   | Complejidad t√≠pica | Riesgo principal            |
| ---------------------------------- | ------------------ | --------------------------- |
| Regresi√≥n lineal                   | Baja               | Alto bias                   |
| √Årbol de decisi√≥n con maxDepth=2   | Baja               | Alto bias                   |
| √Årbol de decisi√≥n sin restricci√≥n  | Alta               | Alta varianza               |
| Random Forest (con `n_estimators`) | Media              | Generaliza bien             |
| Gradient Boosting                  | Alta               | Alta varianza si no regulas |
| Regularizaci√≥n (L1/L2)             | Reduce complejidad | Baja varianza               |

**Resumen que debes saber para el examen**

| Concepto                        | Se√±ales t√≠picas                   | Soluciones                                                      |
| ------------------------------- | --------------------------------- | --------------------------------------------------------------- |
| **High bias (underfitting)**    | Error alto en train y test        | Aumentar complejidad, usar modelo m√°s flexible                  |
| **High variance (overfitting)** | Error bajo en train, alto en test | Regularizaci√≥n, cross-validation, m√°s datos, simplificar modelo |
| **Good generalization**         | Error similar en train y test     | ¬°Ideal!                                                         |

