## Fundamentos de MLlib

### 1. Estimadores: Concepto y rol en el entrenamiento de modelos
En Spark MLlib, los Estimadores son algoritmos o componentes que aprenden de los datos para generar un modelo. Su principal función es ajustar un conjunto de datos de entrada y producir un modelo que pueda ser utilizado para hacer predicciones o inferencias.

- Concepto clave:

  - Los estimadores implementan el método .fit(), que toma un DataFrame como entrada y devuelve un Modelo (Transformer).

  - El modelo resultante es un Transformer porque puede transformar nuevos datos en predicciones.

- Ejemplos de estimadores:

  - LinearRegression: Ajusta un modelo de regresión lineal.

  - LogisticRegression: Entrena un modelo de clasificación binaria o multiclase.

  - KMeans: Genera un modelo de clustering utilizando el algoritmo K-Means.

- Rol en el entrenamiento de modelos:

  - Los estimadores son responsables de encontrar los parámetros óptimos del modelo que minimizan una función de pérdida (en el caso de aprendizaje supervisado) o maximizan una métrica de agrupación (en el caso de aprendizaje no supervisado).

  - Permiten la automatización del proceso de entrenamiento, especialmente cuando se integran en un Pipeline.

### 2. Entrenamiento y evaluación de modelos
El proceso de entrenamiento y evaluación de modelos en Spark MLlib sigue un flujo de trabajo estructurado:

#### **1.** Preparación de datos:

- Limpieza y transformación de datos (por ejemplo, normalización, codificación de variables categóricas).

- División del conjunto de datos en train (entrenamiento) y test (prueba).

In [None]:
val Array(trainingData, testData) = data.randomSplit(Array(0.8, 0.2))

#### **2.** Entrenamiento del modelo:

- Se utiliza el método .fit() del estimador para entrenar el modelo con los datos de entrenamiento.

In [None]:
val lr = new LinearRegression()
  .setLabelCol("label")
  .setFeaturesCol("features")

val model = lr.fit(trainingData)

#### **3.** Evaluación del modelo:

- Se utilizan métricas específicas para evaluar el rendimiento del modelo en los datos de prueba.

- Spark MLlib proporciona herramientas para calcular métricas comunes, como:

  - Regresión:

    - Error cuadrático medio (MSE).

    - Coeficiente de determinación (R²).

  - Clasificación:

    - Precisión (Accuracy).

    - Matriz de confusión.

    - Área bajo la curva ROC (AUC).

  - Clustering:

     - Silhouette Score.

In [None]:
import org.apache.spark.ml.evaluation.RegressionEvaluator

val predictions = model.transform(testData)
val evaluator = new RegressionEvaluator()
  .setLabelCol("label")
  .setPredictionCol("prediction")
  .setMetricName("rmse")

val rmse = evaluator.evaluate(predictions)
println(s"Root Mean Squared Error (RMSE): $rmse")

## 3. Persistencia y aplicación de modelos
Una vez entrenado y evaluado un modelo, es importante poder guardarlo para su uso futuro o en aplicaciones en producción. Spark MLlib proporciona métodos para guardar y cargar modelos.



#### **1.** Persistencia de modelos:

- Los modelos entrenados pueden guardarse en disco para su uso posterior.

- Esto es especialmente útil en entornos de producción donde el modelo debe ser reutilizado sin necesidad de reentrenarlo.

In [None]:
model.write.overwrite().save("path/to/save/model")

#### **2.** Carga de modelos:

- Los modelos guardados pueden cargarse en cualquier momento para hacer predicciones sobre nuevos datos.

In [None]:
import org.apache.spark.ml.regression.LinearRegressionModel

val loadedModel = LinearRegressionModel.load("path/to/save/model")

#### **3.** Aplicación de modelos:

- Una vez cargado, el modelo puede utilizarse para transformar nuevos datos y generar predicciones.

In [None]:
val newPredictions = loadedModel.transform(newData)
newPredictions.show()

## Optimización de hiperparámetros y selección de modelos:

- Técnicas como Cross-Validation y Grid Search para encontrar los mejores hiperparámetros.

- Uso de herramientas como CrossValidator y ParamGridBuilder en Spark MLlib.