## Transformaciones de datos

No siempre se obtendrán datos en un formato conveniente, Spark cuenta con algunos métodos integrados para lidiar con transformaciones: https://spark.apache.org/docs/latest/api/python/reference/pyspark.ml.html

#### StringIndexer

A menudo se debe convertir información de cadenas de caracteres en valores numéricos como una variable categórica. Esto se puede hacer con el método `StringIndexer` de la siguiente forma.

In [0]:
from pyspark.ml.feature import StringIndexer

In [0]:
df = spark.createDataFrame(data=[(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")], schema=["user_id", "category"])
df.display()

In [0]:
indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")

In [0]:
type(indexer)

In [0]:
indexed = indexer.fit(df).transform(df)
indexed.display()

In [0]:
indexed.printSchema()

### VectorAssembler

VectorAssembler es una transformación que combina una lista dada de variables en una sola columna vectorial. Es útil para combinar variables en un solo vector de características para entrenar modelos de ML.

VectorAssembler acepta los siguientes tipos de columnas de entrada: todos los tipos numéricos, tipo booleano y tipo vectorial.

En cada fila, los valores de las columnas de entrada se concatenarán en un vector en el orden especificado.

---

Ejemplo: Supongamos que tenemos un DataFrame con las siguientes variables:

     id | hour | mobile | userFeatures     | clicked
    ----|------|--------|------------------|---------
     0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0
     
Queremos combinar "hour", "mobile" y "userFeatures" en un solo vector de características llamado "features" y usarlo para predecir si se hizo clic o no. Si establecemos las columnas de entrada de VectorAssembler como "hour", "mobile" y "userFeatures" y la columna de salida como "features", después de la transformación se obtiene el siguiente DataFrame:

     id | hour | mobile | userFeatures     | clicked | features
    ----|------|--------|------------------|---------|-----------------------------
     0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0     | [18.0, 1.0, 0.0, 10.0, 0.5]

In [0]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

In [0]:
dataset = spark.createDataFrame([(0, 18, 1.0, Vectors.dense([0.0, 10.0, 0.5]), 1.0)], ["id", "hour", "mobile", "userFeatures", "clicked"])
dataset.display()

In [0]:
dataset.show()

In [0]:
assembler = VectorAssembler(inputCols=["hour", "mobile", "userFeatures"], outputCol="features")

In [0]:
type(assembler)

In [0]:
output = assembler.transform(dataset)
output.show()

In [0]:
output.select("features", "clicked").show()