## Introducción a MLlib

Apache Spark MLlib es la biblioteca de aprendizaje automático de Spark. Proporciona múltiples herramientas y algoritmos para el diseño y entrenamiento de modelos, así como para su evaluación y despliegue. MLlib soporta diferentes tipos de algoritmos de aprendizaje automático, incluyendo clasificación, regresión, clustering y filtrado colaborativo, entre otros. Además, ofrece herramientas para la construcción de pipelines de aprendizaje automático, lo que facilita el proceso de construcción, evaluación y despliegue de modelos.


## Características principales de MLlib

Las capacidades de MLlib se pueden agrupar en varias categorías:

1. **Algoritmos de aprendizaje automático**: Esto incluye herramientas comunes para clasificación, regresión, clustering y filtrado colaborativo.
2. **Transformaciones de features**: Herramientas para transformar y procesar características. Por ejemplo, codificación one-hot, normalización, etc.
3. **Pipelines**: Herramientas para construir, evaluar y ajustar pipelines de aprendizaje automático.
4. **Almacenamiento y exportación de modelos**: Una vez que un modelo ha sido entrenado, puede ser almacenado y exportado para su uso en otros sistemas o aplicaciones.
5. **Herramientas de evaluación**: Métodos para evaluar la eficacia de los modelos en función de ciertos criterios, como la precisión, el AUC, entre otros.
6. **Utilidades de álgebra lineal y estadísticas**: Funciones útiles para trabajar con datos y realizar operaciones matemáticas y estadísticas.


## Ventajas de usar MLlib

1. **Escalabilidad**: Puede manejar grandes conjuntos de datos aprovechando la naturaleza distribuida de Spark.
2. **Integración con Spark**: Al ser una biblioteca nativa de Spark, se integra perfectamente con otras herramientas y bibliotecas de Spark, como Spark SQL y Spark Streaming.
3. **Variedad de algoritmos**: Ofrece una amplia gama de algoritmos de aprendizaje automático, desde clasificación hasta recomendación.
4. **Flexibilidad**: Proporciona herramientas para construir pipelines completos de aprendizaje automático, desde el preprocesamiento de datos hasta la evaluación del modelo.


## DataFrames y Datasets en MLlib

MLlib utiliza DataFrames y Datasets como estructuras de datos principales. Estas estructuras permiten un procesamiento eficiente y distribuido de los datos. Además, proporcionan una API unificada para trabajar con datos, ya sea para tareas de procesamiento o para entrenamiento de modelos.


## Transformers y Estimators

En MLlib, un **Transformer** es un algoritmo que puede transformar un DataFrame en otro, generalmente añadiendo una o más columnas. Por ejemplo, un modelo de aprendizaje automático es un Transformer que añade predicciones a un DataFrame.

Un **Estimator** es un algoritmo que se puede ajustar a un DataFrame para producir un Transformer. Por ejemplo, un algoritmo de aprendizaje es un Estimator que se entrena en un DataFrame y produce un modelo.


## Pipelines

Un pipeline encadena múltiples etapas de Transformers y Estimators para especificar un flujo de trabajo de aprendizaje automático. Es una forma de organizar y estructurar el proceso de construcción, entrenamiento y evaluación de modelos en Spark.


In [1]:
# Importación de las bibliotecas necesarias de MLlib
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import HashingTF, Tokenizer

# Configuración básica (aquí sólo estamos importando, no hay salida específica)


En la celda anterior, hemos importado algunas de las herramientas básicas que MLlib nos proporciona. Estas herramientas se utilizarán en ejemplos posteriores. Es esencial familiarizarse con los módulos y las clases que ofrece MLlib, ya que la construcción de modelos y pipelines suele requerir la combinación de múltiples herramientas y algoritmos.


## Algoritmos de aprendizaje automático en Spark

MLlib proporciona implementaciones de algoritmos de aprendizaje automático que son escalables y diseñados para trabajar con datos distribuidos. Estos algoritmos cubren una variedad de tareas, desde regresión y clasificación hasta clustering y reducción de dimensionalidad. Vamos a explorar algunos de estos algoritmos y cómo se pueden utilizar en Spark.


## Inicialización de SparkSession

Para trabajar con Spark MLlib, primero debemos inicializar una SparkSession. Esta SparkSession actuará como el punto de entrada para nuestras operaciones con Spark.


In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Spark MLlib Intro") \
    .getOrCreate()


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/25 18:06:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


### Regresión Lineal

Uno de los algoritmos más básicos y ampliamente utilizados en aprendizaje supervisado es la regresión lineal. Es utilizado para predecir un valor numérico basado en variables independientes.


In [5]:
from pyspark.ml.regression import LinearRegression
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

# Datos de ejemplo
data = [
    (Vectors.dense([0.0]), 1.0),
    (Vectors.dense([1.0]), 2.0),
    (Vectors.dense([2.0]), 3.0),
    (Vectors.dense([3.0]), 4.0)
]
df = spark.createDataFrame(data, ["features", "label"])

# Definir y entrenar el modelo
lr = LinearRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
lr_model = lr.fit(df)

# Mostrar los coeficientes y la ordenada al origen
print(f"Coefficients: {lr_model.coefficients}, Intercept: {lr_model.intercept}")


23/09/25 11:16:53 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.blas.JNIBLAS
                                                                                

Coefficients: [0.7453384173419662], Intercept: 1.381992373987051


En el ejemplo anterior, hemos creado un pequeño conjunto de datos para regresión lineal y entrenado un modelo utilizando MLlib. La regresión lineal intenta encontrar la mejor línea (en términos de mínimos cuadrados) que se ajuste a los datos. Los resultados mostrados son los coeficientes de las variables independientes y la ordenada al origen de la línea.


## Algoritmos de clasificación

La clasificación es una técnica de aprendizaje supervisado que tiene como objetivo categorizar las entradas en clases distintas. En Spark MLlib, hay varios algoritmos de clasificación disponibles, como regresión logística, árboles de decisión, máquinas de vectores de soporte, entre otros. En este segmento, exploraremos cómo implementar la regresión logística usando Spark MLlib.


In [6]:
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

# Creación de un conjunto de datos de muestra
sample_data = [
    (1.0, Vectors.dense([0.0, 1.1, 0.1])),
    (0.0, Vectors.dense([2.0, 1.0, -1.0])),
    (0.0, Vectors.dense([2.0, 1.3, 1.0])),
    (1.0, Vectors.dense([0.0, 1.2, -0.5]))
]

df = spark.createDataFrame(sample_data, ["label", "features"])

# Dividir los datos en entrenamiento y prueba
train, test = df.randomSplit([0.7, 0.3], seed=12345)

# Definir el modelo de regresión logística
lr = LogisticRegression(maxIter=10, regParam=0.01)

# Entrenar el modelo
lr_model = lr.fit(train)

# Predicciones
predictions = lr_model.transform(test)
predictions.select("features", "label", "probability", "prediction").show()


23/09/25 11:25:11 WARN Instrumentation: [fb891952] All labels are the same value and fitIntercept=true, so the coefficients will be zeros. Training is not needed.


+--------------+-----+-----------+----------+
|      features|label|probability|prediction|
+--------------+-----+-----------+----------+
|[2.0,1.0,-1.0]|  0.0|  [0.0,1.0]|       1.0|
| [2.0,1.3,1.0]|  0.0|  [0.0,1.0]|       1.0|
+--------------+-----+-----------+----------+



En el código anterior:

1. Importamos las bibliotecas necesarias para la regresión logística y la creación de vectores.
2. Creamos un conjunto de datos de muestra con etiquetas y características.
3. Dividimos los datos en conjuntos de entrenamiento y prueba.
4. Definimos el modelo de regresión logística con un máximo de 10 iteraciones y un parámetro de regularización de 0.01.
5. Entrenamos el modelo usando el conjunto de entrenamiento.
6. Realizamos predicciones en el conjunto de prueba y mostramos las características, la etiqueta real, la probabilidad y la predicción.

En escenarios reales, el proceso involucra más pasos, como la selección de características, el ajuste de hiperparámetros y la evaluación del modelo.


## Árboles de Decisión

Los árboles de decisión son uno de los algoritmos más intuitivos y populares en aprendizaje automático. Son estructuras de árbol donde cada nodo representa una característica (o atributo), cada enlace (o rama) representa una decisión (regla) sobre la característica, y cada hoja representa un resultado (categoría o valor continuo, dependiendo de si es clasificación o regresión).

Spark MLlib proporciona un implementación eficiente de árboles de decisión para clasificación y regresión.




Vamos a trabajar con un conjunto de datos simulado sobre la aprobación de préstamos. Las características incluyen:

- Edad: la edad del solicitante.
- Salario: el salario mensual del solicitante.
- Historial Crediticio: un valor entre 0 (mal historial) y 1 (buen historial).

La etiqueta es:

- Aprobado: 1 si el préstamo fue aprobado, 0 si fue rechazado.


In [8]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import col

# Crear una SparkSession
spark = SparkSession.builder.appName("LoanApproval").getOrCreate()

# Datos de ejemplo
data = [
    (25, 5000, 0.6, 0),
    (45, 8000, 0.8, 1),
    (35, 6000, 0.9, 1),
    (50, 9000, 0.4, 0),
    (23, 4000, 0.7, 0),
    (55, 12000, 0.9, 1),
    (30, 4500, 0.5, 0),
    (40, 7500, 0.8, 1),
    (60, 10000, 0.6, 0)
]

# Crear DataFrame
df = spark.createDataFrame(data, ["edad", "salario", "historial_crediticio", "aprobado"])

# Convertir las características a un vector
feature_cols = ["edad", "salario", "historial_crediticio"]
assembler = VectorAssembler(inputCols=feature_cols, outputCol="features")
df = assembler.transform(df)

# Mostrar el DataFrame
df.select("features", "aprobado").show()


23/09/25 18:17:56 WARN SparkSession: Using an existing Spark session; only runtime SQL configurations will take effect.


+------------------+--------+
|          features|aprobado|
+------------------+--------+
| [25.0,5000.0,0.6]|       0|
| [45.0,8000.0,0.8]|       1|
| [35.0,6000.0,0.9]|       1|
| [50.0,9000.0,0.4]|       0|
| [23.0,4000.0,0.7]|       0|
|[55.0,12000.0,0.9]|       1|
| [30.0,4500.0,0.5]|       0|
| [40.0,7500.0,0.8]|       1|
|[60.0,10000.0,0.6]|       0|
+------------------+--------+





Antes de entrenar el modelo, dividiremos los datos en un conjunto de entrenamiento y un conjunto de prueba. Esto nos permitirá evaluar el rendimiento del modelo en datos no vistos previamente.


In [9]:
# Dividir los datos en conjuntos de entrenamiento (70%) y prueba (30%)
train, test = df.randomSplit([0.7, 0.3], seed=42)

# Mostrar el tamaño de cada conjunto
print(f"Número de ejemplos en el conjunto de entrenamiento: {train.count()}")
print(f"Número de ejemplos en el conjunto de prueba: {test.count()}")


Número de ejemplos en el conjunto de entrenamiento: 6
Número de ejemplos en el conjunto de prueba: 3




Utilizaremos el conjunto de entrenamiento para entrenar un modelo de árbol de decisión y predecir si un préstamo será aprobado o no.


In [11]:
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import StringIndexer

# Convertir las etiquetas en índices numéricos
label_indexer = StringIndexer(inputCol="aprobado", outputCol="indexedLabel").fit(df)

# Crear el modelo de árbol de decisión
dt = DecisionTreeClassifier(labelCol="indexedLabel", featuresCol="features")

# Entrenar el modelo
dt_model = dt.fit(label_indexer.transform(train))


23/09/25 18:20:32 WARN DecisionTreeMetadata: DecisionTree reducing maxBins from 32 to 6 (= number of training instances)




Con el modelo entrenado, ahora podemos hacer predicciones en el conjunto de prueba.


In [13]:
# Realizar predicciones en el conjunto de prueba
predictions = dt_model.transform(label_indexer.transform(test))

# Mostrar las predicciones
predictions.select("features", "aprobado", "prediction").show()


+-----------------+--------+----------+
|         features|aprobado|prediction|
+-----------------+--------+----------+
|[45.0,8000.0,0.8]|       1|       1.0|
|[35.0,6000.0,0.9]|       1|       1.0|
|[50.0,9000.0,0.4]|       0|       0.0|
+-----------------+--------+----------+



### Random Forest

Random Forest es un algoritmo de aprendizaje automático supervisado que se utiliza tanto para clasificación como para regresión. Es un conjunto de árboles de decisión, generalmente entrenados con el método de "bagging". La idea básica detrás del bagging es combinar los resultados de múltiples modelos (en este caso, árboles de decisión) para obtener una generalización final más fuerte y más estable.




Vamos a utilizar un conjunto de datos de ejemplo para predecir si una persona compra o no un producto en función de características como la edad y el salario.


In [14]:
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import RandomForestClassifier

# Conjunto de datos de ejemplo
data_rf = [
    (20, 40000, 0),
    (22, 41000, 0),
    (28, 60000, 1),
    (32, 65000, 1),
    (40, 80000, 0)
]
columns_rf = ["edad", "salario", "compra"]
df_rf = spark.createDataFrame(data_rf, schema=columns_rf)

# Convertir las etiquetas en índices numéricos
label_indexer_rf = StringIndexer(inputCol="compra", outputCol="indexedLabel").fit(df_rf)

# Convertir las columnas en un vector de características
vector_assembler_rf = VectorAssembler(inputCols=["edad", "salario"], outputCol="features")
df_rf = vector_assembler_rf.transform(df_rf)


In [15]:
# Crear y entrenar el modelo Random Forest
rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="features", numTrees=10)
rf_model = rf.fit(label_indexer_rf.transform(df_rf))

# Realizar predicciones
predictions_rf = rf_model.transform(label_indexer_rf.transform(df_rf))
predictions_rf.select("edad", "salario", "compra", "probability", "prediction").show()


23/09/25 18:32:17 WARN DecisionTreeMetadata: DecisionTree reducing maxBins from 32 to 5 (= number of training instances)


+----+-------+------+-----------+----------+
|edad|salario|compra|probability|prediction|
+----+-------+------+-----------+----------+
|  20|  40000|     0|  [0.7,0.3]|       0.0|
|  22|  41000|     0|  [0.6,0.4]|       0.0|
|  28|  60000|     1|  [0.1,0.9]|       1.0|
|  32|  65000|     1|  [0.2,0.8]|       1.0|
|  40|  80000|     0|  [0.8,0.2]|       0.0|
+----+-------+------+-----------+----------+



## Clustering

El clustering, o agrupación, es un método de aprendizaje automático no supervisado que se utiliza para dividir un conjunto de datos en grupos o "clusters". Los datos dentro de un cluster son más similares entre sí que con los de otros clusters. Uno de los algoritmos de clustering más conocidos es el K-means.


### K-means

Vamos a utilizar el algoritmo K-means para agrupar datos de ejemplo basados en características dadas.




Primero, creamos un conjunto de datos de ejemplo que consta de la "edad" y el "salario" de individuos. Este conjunto de datos se utilizará para demostrar cómo el algoritmo K-means puede agrupar datos basados en estas características.


In [16]:
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans

# Conjunto de datos de ejemplo
data_kmeans = [
    (20, 40000),
    (22, 41000),
    (28, 60000),
    (32, 65000),
    (40, 80000),
    (42, 82000),
    (48, 99000),
    (50, 101000)
]
columns_kmeans = ["edad", "salario"]
df_kmeans = spark.createDataFrame(data_kmeans, schema=columns_kmeans)

# Convertir las columnas en un vector de características
vector_assembler_kmeans = VectorAssembler(inputCols=["edad", "salario"], outputCol="features")
df_kmeans = vector_assembler_kmeans.transform(df_kmeans)


VectorAssembler

Antes de poder usar muchos de los algoritmos de MLlib, necesitamos convertir nuestras columnas de datos en una única columna de vectores. `VectorAssembler` es una transformación que combina una lista dada de columnas en una única columna de vectores. En este caso, combinamos las columnas "edad" y "salario" en una columna "features".




Aquí, inicializamos el algoritmo K-means con un valor específico de `k`, que representa el número de clusters que queremos. En este ejemplo, hemos elegido `k=2`, lo que significa que queremos dividir nuestros datos en dos clusters.

Una vez inicializado el algoritmo, utilizamos el método `fit` para entrenar el modelo con nuestro conjunto de datos. El modelo entrenado calculará los centros de los clusters.


In [17]:
# Crear y entrenar el modelo K-means
kmeans = KMeans(featuresCol="features", k=2)
kmeans_model = kmeans.fit(df_kmeans)

# Obtener los centros de los clusters
centers = kmeans_model.clusterCenters()
print("Centros de clusters: ", centers)

# Realizar predicciones
predictions_kmeans = kmeans_model.transform(df_kmeans)
predictions_kmeans.select("edad", "salario", "prediction").show()


23/09/25 18:41:52 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.blas.JNIBLAS


Centros de clusters:  [array([2.55e+01, 5.15e+04]), array([4.50e+01, 9.05e+04])]
+----+-------+----------+
|edad|salario|prediction|
+----+-------+----------+
|  20|  40000|         0|
|  22|  41000|         0|
|  28|  60000|         0|
|  32|  65000|         0|
|  40|  80000|         1|
|  42|  82000|         1|
|  48|  99000|         1|
|  50| 101000|         1|
+----+-------+----------+





Una vez que el modelo ha sido entrenado, podemos utilizarlo para asignar cada punto de datos a uno de los clusters. Esto se hace mediante el método `transform`, que añade una nueva columna "prediction" a nuestro DataFrame, indicando a qué cluster pertenece cada punto de datos.

También se imprimen los centros de los clusters, que son los puntos centrales de cada cluster y representan un "promedio" de los puntos de datos dentro de ese cluster.


El algoritmo K-means utiliza una técnica de agrupación basada en la distancia para determinar a qué clúster pertenece cada punto de datos. La idea central de K-means es minimizar la distancia entre los puntos dentro de un clúster y maximizar la distancia entre diferentes clústeres. Veamos cómo se determinan las predicciones en tu caso específico:

1. **Inicialización de los centros de clústeres**: Al principio, K-means selecciona aleatoriamente \( k \) puntos de datos del conjunto de datos como centros iniciales de los clústeres (en tu caso \( k=2 \)). También hay otras técnicas de inicialización, pero la inicialización aleatoria es la más común.

2. **Asignación a clústeres**: Una vez que se han inicializado los centros, cada punto de datos se asigna al clúster cuyo centro está más cerca. La "cercanía" se mide típicamente usando la distancia euclidiana, aunque hay otras métricas de distancia que se pueden usar.

3. **Recálculo de los centros**: Después de asignar todos los puntos a clústeres, se recalculan los centros de los clústeres tomando el promedio de todos los puntos dentro de un clúster.

4. **Iteración**: Los pasos 2 y 3 se repiten hasta que los centros de los clústeres ya no cambien significativamente entre iteraciones o hasta que se alcance un número máximo de iteraciones.

En este caso específico:
- El primer centro de clúster es aproximadamente [25.5, 51500]. 
- El segundo centro de clúster es aproximadamente [45, 90500].

Por lo tanto, los puntos de datos más cercanos al primer centro (basados en la distancia euclidiana) se etiquetan como `0`, y los puntos más cercanos al segundo centro se etiquetan como `1`.

Para tus datos:
- Los puntos [20,40000], [22,41000], [28,60000], y [32,65000] están más cerca del primer centro, por lo que se les asigna `0`.
- Los puntos [40,80000], [42,82000], [48,99000], y [50,101000] están más cerca del segundo centro, por lo que se les asigna `1`.

Estas asignaciones se reflejan en la columna `prediction` de tu resultado. Es importante recordar que las etiquetas `0` y `1` no tienen un significado inherente en sí mismas; simplemente representan dos clústeres diferentes identificados por el algoritmo.

## Sistemas de recomendación

Los sistemas de recomendación se utilizan para predecir el "rating" o preferencia que un usuario le daría a un ítem. Son ampliamente utilizados en servicios en línea como Netflix, Amazon y Spotify para recomendar contenido y productos a sus usuarios.


### ALS (Alternating Least Squares)

ALS es un algoritmo de factorización de matrices que se utiliza para llenar valores faltantes en matrices de usuario-ítem. Se basa en descomponer la matriz de usuario-ítem en dos matrices de "factores latentes" que se multiplican para obtener la matriz original. Spark MLlib utiliza ALS para entrenar un modelo de sistema de recomendación.


¿Por qué "Alternating" y "Least Squares"?

Alternating: El algoritmo funciona alternando entre la optimización de la matriz de usuarios manteniendo fija la matriz de ítems y viceversa.

Least Squares: Durante la optimización, se utiliza el método de mínimos cuadrados para minimizar el error entre la matriz original y el producto de las dos matrices factorizadas.

Proceso paso a paso en ALS:

Inicialización: Se inicializan aleatoriamente las matrices de usuarios e ítems.

Optimización alternante: Manteniendo fija la matriz de ítems, se optimiza la matriz de usuarios para minimizar el error. Luego, manteniendo fija la matriz de usuarios, se optimiza la matriz de ítems.

Este proceso se repite hasta que el error converge a un mínimo o se alcanza un número máximo de iteraciones.

Regularización:
Para evitar el sobreajuste, ALS incluye un término de regularización en su función de optimización. El parámetro regParam en nuestro código controla la regularización. Cuanto mayor sea este valor, más fuerte será la regularización.




In [18]:
from pyspark.sql import Row

# Datos de ejemplo: [user_id, item_id, rating]
data = [
    Row(user_id=0, item_id=0, rating=4),
    Row(user_id=0, item_id=1, rating=2),
    Row(user_id=1, item_id=1, rating=3),
    Row(user_id=1, item_id=2, rating=4),
    Row(user_id=2, item_id=0, rating=1),
    Row(user_id=2, item_id=2, rating=5)
]

ratings_df = spark.createDataFrame(data)
ratings_df.show()


+-------+-------+------+
|user_id|item_id|rating|
+-------+-------+------+
|      0|      0|     4|
|      0|      1|     2|
|      1|      1|     3|
|      1|      2|     4|
|      2|      0|     1|
|      2|      2|     5|
+-------+-------+------+



In [19]:
from pyspark.ml.recommendation import ALS

# Definir y entrenar el modelo ALS
als = ALS(maxIter=5, regParam=0.01, userCol="user_id", itemCol="item_id", ratingCol="rating")
model = als.fit(ratings_df)

# Realizar predicciones
test_data = spark.createDataFrame([
    Row(user_id=0, item_id=2),
    Row(user_id=1, item_id=0),
    Row(user_id=2, item_id=1)
])
predictions = model.transform(test_data)
predictions.show()


23/09/25 18:53:09 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.lapack.JNILAPACK


+-------+-------+----------+
|user_id|item_id|prediction|
+-------+-------+----------+
|      0|      2| 1.5773301|
|      1|      0| 2.7646449|
|      2|      1|  2.000145|
+-------+-------+----------+



Datos de entrada: Tenemos una matriz de usuario-ítem que contiene ratings de ciertos usuarios para ciertos ítems. Hay muchos valores faltantes, que son precisamente las calificaciones que queremos predecir.

Inicialización: ALS inicializa aleatoriamente las matrices de usuarios e ítems.

Optimización: Se alternan las optimizaciones de las matrices de usuarios e ítems hasta que se alcanzan 5 iteraciones (como se especificó con maxIter=5).

Predicción: Una vez que tenemos nuestras matrices factorizadas, podemos usarlas para predecir ratings para combinaciones de usuario-ítem que no estaban en el conjunto original. Lo hacemos multiplicando las características del usuario por las características del ítem.

Resultado: Las predicciones resultantes son nuestras estimaciones de cómo un usuario calificaría un ítem dado.

 Estas predicciones pueden ser utilizadas para recomendar ítems a usuarios basados en sus preferencias previas.
 
El verdadero poder de ALS radica en su capacidad para descubrir características latentes, es decir, características que no se nos proporcionan explícitamente pero que el algoritmo identifica como importantes para hacer predicciones precisas. Por ejemplo, en un sistema de recomendación de películas, las características latentes podrían relacionarse con géneros, actores populares, directores, etc., aunque no se nos proporcionen explícitamente estos detalles.


## Algoritmos de Reducción de Dimensionalidad

La reducción de dimensionalidad es una técnica clave en el análisis y procesamiento de datos. Su objetivo principal es reducir el número de características (dimensiones) en un conjunto de datos manteniendo la mayor cantidad de información posible. Esto es útil tanto para la visualización de datos como para mejorar el rendimiento de algoritmos de aprendizaje automático, especialmente cuando se enfrentan a conjuntos de datos de alta dimensión.


### PCA (Análisis de Componentes Principales)

PCA es uno de los métodos más populares para la reducción de dimensionalidad. Intenta encontrar las direcciones en las cuales los datos varían más. Estas direcciones, llamadas componentes principales, son combinaciones lineales de las características originales y son ortogonales entre sí.


El Análisis de Componentes Principales (PCA) es un método estadístico que permite simplificar la complejidad en conjuntos de datos espaciales transformando un gran conjunto de variables en un conjunto menor, conservando la mayor cantidad de información original en términos de variabilidad.

La idea principal detrás del PCA es identificar patrones en los datos y detectar la correlación entre características. Si un fuerte nivel de correlación existe entre variables, la intentona es reducir la dimensionalidad. Esto se logra transformando las características originales a un nuevo conjunto de características, los llamados "componentes principales".



Funcionamiento de PCA

1. **Estandarización de los datos:** La estandarización es esencial para el funcionamiento correcto de PCA, ya que es sensible a las variaciones en la magnitud.
2. **Obtención de los Eigenvectors y Eigenvalues:** A partir de la matriz de covarianza o la matriz de correlación o incluso la técnica de Singular Vector Decomposition.
3. **Ordenar los Eigenvalues:** Y seleccionar los `k` eigenvectors que corresponden a los `k` eigenvalues más grandes donde `k` es el número de dimensiones del nuevo subespacio de características (`k ≤ n`).
4. **Construir la matriz de proyección W a partir de los `k` eigenvectors seleccionados.**
5. **Transformar el conjunto de datos original X a través de W para obtener un subconjunto de características k-dimensional Y.**

El resultado es un conjunto de características de dimensión reducida que captura la mayor variabilidad en los datos.


In [25]:
from pyspark.ml.feature import PCA
from pyspark.ml.linalg import Vectors

# Conjunto de datos de ejemplo
data = [(Vectors.sparse(5, [(1, 1.0), (3, 7.0)]),),
        (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),
        (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]
df = spark.createDataFrame(data, ["features"])

# PCA
pca = PCA(k=3, inputCol="features", outputCol="pca_features")
model = pca.fit(df)
result = model.transform(df)

result.select("pca_features").show(truncate=False)


                                                                                

+------------------------------------------------------------+
|pca_features                                                |
+------------------------------------------------------------+
|[1.6485728230883814,-4.0132827005162985,-1.0091435193998504]|
|[-4.645104331781533,-1.1167972663619048,-1.0091435193998501]|
|[-6.428880535676488,-5.337951427775359,-1.009143519399851]  |
+------------------------------------------------------------+



El PCA intenta encontrar las direcciones en las cuales los datos varían más. Estas direcciones, llamadas componentes principales, son combinaciones lineales de las características originales y son ortogonales entre sí. 

En nuestro ejemplo, teníamos un conjunto de datos de 5 dimensiones y lo redujimos a 3 dimensiones usando PCA.

Pasos que seguimos:

1. **Estandarización de los datos:** Esto es crucial ya que PCA es sensible a las magnitudes.
2. **Aplicación de PCA:** Usando Spark MLlib, aplicamos PCA para reducir la dimensionalidad.
3. **Transformación de los datos originales:** Usando el modelo PCA entrenado, transformamos nuestro conjunto de datos original en un nuevo conjunto con dimensiones reducidas.

El resultado fue una representación comprimida de nuestro conjunto de datos original que, en un contexto real, podría usarse para acelerar algoritmos de aprendizaje automático sin perder mucha información.



## Ejemplo de análisis de sentimiento


El análisis de sentimiento es una técnica de procesamiento de lenguaje natural (NLP, por sus siglas en inglés) que tiene como objetivo determinar la tonalidad emocional detrás de una serie de palabras. Se utiliza para obtener una comprensión de las opiniones y emociones expresadas en menciones, comentarios o reseñas.


### Proceso del análisis de sentimiento

1. **Tokenización**: Es el proceso de convertir un texto en tokens, que son secuencias de caracteres individuales. En el contexto del análisis de sentimiento, generalmente se refiere a convertir una frase o párrafo en palabras individuales.

2. **Vectorización**: Una vez que tenemos nuestro texto tokenizado, el siguiente paso es convertir estos tokens en vectores de números que las máquinas pueden usar para aprender. Una técnica común es TF-IDF.

3. **Modelo de clasificación**: Una vez que hemos vectorizado nuestro texto, podemos alimentar esos vectores en un modelo de clasificación, como la regresión logística, para predecir el sentimiento.


In [32]:
from pyspark.sql import Row

# Datos de ejemplo
data = [
    Row(text="El producto es excelente, muy satisfecho", label=1),
    Row(text="No funcionó correctamente, muy decepcionado", label=0),
    Row(text="El servicio al cliente fue muy útil", label=1),
    Row(text="La calidad es pésima", label=0),
    Row(text="El envío fue rápido y el producto llegó en perfecto estado", label=1)
]

# Convertir a DataFrame
sentiment_data = spark.createDataFrame(data)
sentiment_data.show()


+--------------------+-----+
|                text|label|
+--------------------+-----+
|El producto es ex...|    1|
|No funcionó corre...|    0|
|El servicio al cl...|    1|
|La calidad es pésima|    0|
|El envío fue rápi...|    1|
+--------------------+-----+



In [33]:
### Código: Ejemplo de análisis de sentimiento con Spark


from pyspark.ml.feature import Tokenizer, HashingTF, IDF
from pyspark.ml.classification import LogisticRegression

# Suponemos que 'sentiment_data' es un DataFrame con las columnas 'text' (el texto de la opinión) y 'label' (0 para negativo, 1 para positivo).

# 1. Tokenización
tokenizer = Tokenizer(inputCol="text", outputCol="words")
words_data = tokenizer.transform(sentiment_data)

# 2. Vectorización TF-IDF
hashing_tf = HashingTF(inputCol="words", outputCol="raw_features")
tf_data = hashing_tf.transform(words_data)
idf = IDF(inputCol="raw_features", outputCol="features")
tf_idf_model = idf.fit(tf_data)
tf_idf_data = tf_idf_model.transform(tf_data)

# 3. Crear y entrenar el modelo de regresión logística
lr = LogisticRegression(featuresCol="features", labelCol="label")
lr_model = lr.fit(tf_idf_data)

# Predicciones
predictions = lr_model.transform(tf_idf_data)
predictions.select("text", "probability", "prediction").show()


23/09/25 19:34:11 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:11 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:12 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:13 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:14 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:15 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
23/09/25 19:34:15 WARN DAGScheduler: Broadcasting larg

+--------------------+--------------------+----------+
|                text|         probability|prediction|
+--------------------+--------------------+----------+
|El producto es ex...|[6.71957055098081...|       1.0|
|No funcionó corre...|[0.99999999815441...|       0.0|
|El servicio al cl...|[4.64719650625665...|       1.0|
|La calidad es pésima|[0.99999999764744...|       0.0|
|El envío fue rápi...|[2.82353601867221...|       1.0|
+--------------------+--------------------+----------+



Las opiniones "El producto es excelente, muy satisfecho", "El servicio al cliente fue muy útil" y "El envío fue rápido y el producto llegó en perfecto estado" fueron clasificadas correctamente como positivas por el modelo.

Las opiniones "No funcionó correctamente, muy decepcionado" y "La calidad es pésima" fueron identificadas correctamente como negativas.

Esto sugiere que nuestro modelo hizo un buen trabajo al clasificar estas opiniones según el sentimiento expresado en el texto.

## Ejemplo de clasificación de texto

La clasificación de texto es una técnica de procesamiento del lenguaje natural y aprendizaje automático que etiqueta o categoriza el texto según su contenido. Es uno de los ejemplos más comunes de aplicaciones de NLP y se utiliza en una variedad de tareas, desde organización de documentos hasta análisis de sentimiento.

### Uso de Naive Bayes para clasificación de texto

Naive Bayes es un algoritmo basado en el teorema de Bayes con supuestos de independencia entre los predictores. En términos simples, un clasificador Naive Bayes asume que la presencia de una característica particular en una clase no está relacionada con la presencia de ninguna otra característica.

Paso 1: Crear un conjunto de datos de ejemplo.

In [34]:
from pyspark.ml.feature import CountVectorizer, Tokenizer
from pyspark.ml.classification import NaiveBayes
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Ejemplo de DataFrame con texto y etiquetas
data = [
    (0, "Python Spark MLlib"),
    (0, "Python Spark"),
    (1, "Big data Hadoop"),
    (1, "Spark vs Hadoop"),
    (2, "Machine learning AI"),
    (2, "Spark MLlib AI")
]
df = spark.createDataFrame(data, ["label", "text"])


Paso 2: Preprocesamiento y tokenización

In [35]:
# Tokenización del texto
tokenizer = Tokenizer(inputCol="text", outputCol="words")
words_data = tokenizer.transform(df)

# Vectorización usando CountVectorizer
cv = CountVectorizer(inputCol="words", outputCol="features")
model = cv.fit(words_data)
count_vectorized = model.transform(words_data)


                                                                                

Paso 3: Entrenar el modelo Naive Bayes

In [37]:
# Dividir el conjunto de datos en entrenamiento y prueba
(train, test) = count_vectorized.randomSplit([0.7, 0.3])

# Usar Naive Bayes para entrenar el modelo
nb = NaiveBayes(smoothing=1.0, modelType="multinomial", featuresCol="features", labelCol="label")
modelo = nb.fit(train)

# Realizar predicciones
predicciones = modelo.transform(test)


                                                                                

Paso 4: Evaluar el modelo

In [39]:
evaluador = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluador.evaluate(predicciones)
print(f"Accuracy: {accuracy:.2f}")


Accuracy: 1.00


La tokenización es el proceso de convertir el texto en tokens o palabras individuales.

`CountVectorizer` convierte una colección de documentos de texto en vectores de recuentos de tokens.

El modelo Naive Bayes es sencillo y eficiente para tareas de clasificación de texto, especialmente cuando el conjunto de datos es grande.

El evaluador `MulticlassClassificationEvaluator` nos proporciona una métrica (en este caso, precisión) para evaluar la calidad del modelo.


 
En este caso, el modelo de clasificación de texto basado en Naive Bayes logró una precisión de 
1.00
1.00 o 
100
%
100%. Esto significa que el modelo predijo correctamente la etiqueta o categoría para todas las observaciones en el conjunto de datos de prueba.

Interpretación:
Un valor de precisión de 
1.00
1.00 indica que el modelo realizó predicciones perfectas en el conjunto de datos de prueba. Sin embargo, es importante tener precaución con este resultado:

Si el conjunto de datos es pequeño o no es representativo, un valor de precisión alto podría no reflejar el rendimiento real del modelo en datos no vistos.
Una precisión del 
100
%
100% puede ser indicativa de un ajuste excesivo (overfitting), donde el modelo podría estar demasiado adaptado a los datos de entrenamiento y no generalizar bien a nuevos datos.
Siempre es recomendable validar el modelo con diferentes conjuntos de datos y utilizar múltiples métricas para obtener una visión completa del rendimiento del modelo.