-sandbox

## Introducción
El objetivo de este notebook es crear e implementar un pipeline de datos utilizando la libreria MLlib de Apache Spark.

<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://i.imgur.com/G4xsv8O.jpg" alt="Databricks Learning" style="width: 450px">
</div>



## Conjunto de datos

Este conjunto de datos consta de una etiqueta categórica con dos valores **(good o bad)**, una variable categórica **(color)**, y dos variables numéricas. Aunque los datos son sintéticos, imaginemos que este conjunto de datos representa la salud de los clientes de una empresa. La columna **"color"** representa una calificación categórica de la salud categórica realizada por un representante del servicio de atención al cliente. La columna **"lab"** representa la salud real del cliente. Los otros dos valores son algunas medidas numéricas de la actividad dentro de una aplicación (por ejemplo minutos pasados en el sitio y compras). Supongamos que queremos entrenar un modelo de clasificación en el que esperamos predecir una variable binaria (label) a partir de los otros valores.

In [0]:
# File location and type
file_location = "/FileStore/tables/part_r_00000_f5c243b9_a015_4a3b_a4a8_eca00f80f04c.json"  #Datos se anexaran a este notebook
file_type = "json"

# CSV options
infer_schema = "false"
first_row_is_header = "false"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

color,lab,value1,value2
green,good,1,14.386294994851127
blue,bad,8,14.386294994851127
blue,bad,12,14.386294994851127
green,good,15,38.97187133755819
green,good,12,14.386294994851127
green,bad,16,14.386294994851127
red,good,35,14.386294994851127
red,bad,1,38.97187133755819
red,bad,2,14.386294994851127
red,bad,16,14.386294994851127


In [0]:
# Número total de filas
df.count()

Out[2]: 110

In [0]:
df.orderBy("value2").show()

+-----+----+------+------------------+
|color| lab|value1|            value2|
+-----+----+------+------------------+
|green|good|     1|14.386294994851129|
|green| bad|    16|14.386294994851129|
| blue| bad|     8|14.386294994851129|
| blue| bad|     8|14.386294994851129|
| blue| bad|    12|14.386294994851129|
|green| bad|    16|14.386294994851129|
|green|good|    12|14.386294994851129|
|  red|good|    35|14.386294994851129|
|  red|good|    35|14.386294994851129|
|  red| bad|     2|14.386294994851129|
|  red| bad|    16|14.386294994851129|
|  red| bad|    16|14.386294994851129|
| blue| bad|     8|14.386294994851129|
|green|good|     1|14.386294994851129|
|green|good|    12|14.386294994851129|
| blue| bad|     8|14.386294994851129|
|  red|good|    35|14.386294994851129|
| blue| bad|    12|14.386294994851129|
|  red| bad|    16|14.386294994851129|
|green|good|    12|14.386294994851129|
+-----+----+------+------------------+
only showing top 20 rows



### Feature Engineering con Transformers

Los transformadores existen para reducir el número de características, añadir más características para manipular las actuales, o simplemente para ayudarnos a formatear nuestros datos correctamente. Los transformadores **añaden nuevas columnas a los DataFrames**.

Cuando utilizamos MLlib, todas las entradas a los algoritmos de aprendizaje automático (con varias excepciones que se discutirán en capítulos posteriores) en Spark deben ser de tipo **Double** (para las etiquetas/labels) y **Vector[Double]** (para las características/features). El conjunto de datos actual no cumple este requisito y, por lo tanto, tenemos que transformarlo al formato adecuado.

[RFormula](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.feature.RFormula.html) admite un subconjunto limitado de operadores de R que, en la práctica, funcionan bastante bien para modelos y manipulaciones simples.

* El operador **"~"** separa el  *target* y *terms*.
* Concatenar términos; **"+ 0"** significa eliminar el intercepto (esto significa que la *y-intercept* de la línea que vamos a ajustar será **0**)
* Eliminar un término; **"- 1"** significa eliminar el intercepto (esto significa que la *y-intercept* de la línea que ajustaremos será 0--yes, esto hace lo mismo que **"+ 0"**)
* **":"** Interacción (multiplicación para valores numéricos, o valores categóricos binarizados)
* **"."** Todas las columnas excepto la variable objetivo/dependiente


Para especificar transformaciones con esta sintaxis, necesitamos importar la clase correspondiente (**from pyspark.ml.feature import RFormula**). A continuación, pasamos a definir nuestra fórmula. En este caso queremos utilizar todas las variables disponibles (el **.**) y también añadir las interacciones entre *valor1* y **color** y *valor2* y **color**, tratándolas como nuevas características

In [0]:
from pyspark.ml.feature import (StringIndexer, OneHotEncoder, VectorAssembler)
indexer = StringIndexer(inputCol="lab", outputCol="label")
df = indexer.fit(df).transform(df)
df.show(10, truncate=False)

+-----+----+------+------------------+-----+
|color|lab |value1|value2            |label|
+-----+----+------+------------------+-----+
|green|good|1     |14.386294994851129|1.0  |
|blue |bad |8     |14.386294994851129|0.0  |
|blue |bad |12    |14.386294994851129|0.0  |
|green|good|15    |38.97187133755819 |1.0  |
|green|good|12    |14.386294994851129|1.0  |
|green|bad |16    |14.386294994851129|0.0  |
|red  |good|35    |14.386294994851129|1.0  |
|red  |bad |1     |38.97187133755819 |0.0  |
|red  |bad |2     |14.386294994851129|0.0  |
|red  |bad |16    |14.386294994851129|0.0  |
+-----+----+------+------------------+-----+
only showing top 10 rows



In [0]:
df = df.drop("lab")
df.show(truncate=False)

+-----+------+------------------+-----+
|color|value1|value2            |label|
+-----+------+------------------+-----+
|green|1     |14.386294994851129|1.0  |
|blue |8     |14.386294994851129|0.0  |
|blue |12    |14.386294994851129|0.0  |
|green|15    |38.97187133755819 |1.0  |
|green|12    |14.386294994851129|1.0  |
|green|16    |14.386294994851129|0.0  |
|red  |35    |14.386294994851129|1.0  |
|red  |1     |38.97187133755819 |0.0  |
|red  |2     |14.386294994851129|0.0  |
|red  |16    |14.386294994851129|0.0  |
|red  |45    |38.97187133755819 |1.0  |
|green|1     |14.386294994851129|1.0  |
|blue |8     |14.386294994851129|0.0  |
|blue |12    |14.386294994851129|0.0  |
|green|15    |38.97187133755819 |1.0  |
|green|12    |14.386294994851129|1.0  |
|green|16    |14.386294994851129|0.0  |
|red  |35    |14.386294994851129|1.0  |
|red  |1     |38.97187133755819 |0.0  |
|red  |2     |14.386294994851129|0.0  |
+-----+------+------------------+-----+
only showing top 20 rows



In [0]:
from pyspark.ml.feature import RFormula
supervised = RFormula(formula="y~ .  + color:value1 + color:value2")

In [0]:
print(f"Tipo de supervised: {type(supervised)}")
supervised

Tipo de supervised: <class 'pyspark.ml.feature.RFormula'>
Out[7]: RFormula_06f8f577ffd1

En este punto, hemos especificado de forma declarativa cómo nos gustaría cambiar nuestros datos en lo que entrenar nuestro modelo. El siguiente paso es ajustar el **transformador RFormula** a los datos para que descubrir los posibles valores de cada columna. No todos los transformadores tienen este requisito, pero pero como RFormula manejará automáticamente las *variables categóricas* por nosotros, necesita determinar qué columnas son categóricas y cuáles no, así como cuáles son los valores distintos de las columnas categóricas. Por esta razón, tenemos que llamar al método fit. Una vez que llamamos a fit, éste devuelve una versión "entrenada" de nuestro transformador que podemos utilizar para transformar nuestros datos.

In [0]:
fittedRF = supervised.fit(df)
preparedDF = fittedRF.transform(df)
preparedDF.show(truncate=False)

+-----+------+------------------+-----+----------------------------------------------------------------------------+
|color|value1|value2            |label|features                                                                    |
+-----+------+------------------+-----+----------------------------------------------------------------------------+
|green|1     |14.386294994851129|1.0  |(11,[1,2,3,4,6,9],[1.0,1.0,14.386294994851129,1.0,1.0,14.386294994851129])  |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])             |
|blue |12    |14.386294994851129|0.0  |(11,[2,3,7,10],[12.0,14.386294994851129,12.0,14.386294994851129])           |
|green|15    |38.97187133755819 |1.0  |(11,[1,2,3,4,6,9],[1.0,15.0,38.97187133755819,1.0,15.0,38.97187133755819])  |
|green|12    |14.386294994851129|1.0  |(11,[1,2,3,4,6,9],[1.0,12.0,14.386294994851129,1.0,12.0,14.386294994851129])|
|green|16    |14.386294994851129|0.0  |(11,[1,2,3,6,9],[1.0,16.0

En la salida podemos ver el resultado de nuestra transformación-una columna llamada **features** que tiene nuestros datos previamente crudos. Lo que ocurre entre bastidores es en realidad bastante sencillo. RFormula inspecciona nuestros datos durante la llamada de ajuste y produce un objeto que transformará nuestros datos según la fórmula especificada, que se llama **RFormulaModel**.

Cuando usamos este transformador, Spark automáticamente convierte nuestra variable categórica en *Doubles* para que podamos introducirla en un modelo de aprendizaje automático. En concreto, asigna un valor numérico a cada posible categoría de color, crea características adicionales para las variables de interacción entre los **colores** y **valor1/valor2**, y los coloca todos en un único vector. A continuación, llamamos a **Transform** en ese objeto para para transformar nuestros datos de entrada en los datos de salida esperados.

Ahora vamos a crear un conjunto de pruebas sencillo basado en una división aleatoria de los datos.

In [0]:
# Dividir los datos de entrenamiento y de prueba
train, test = preparedDF.randomSplit([0.7, 0.3])

In [0]:
print(f"Número total de filas de entrenamiento {train.count()}")
train.show(truncate=False)

Número total de filas de entrenamiento 84
+-----+------+------------------+-----+--------------------------------------------------------------------------+
|color|value1|value2            |label|features                                                                  |
+-----+------+------------------+-----+--------------------------------------------------------------------------+
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])           |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])           |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])           |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])           |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])           |
|blue |8     |14.386294994851129|0.0  

In [0]:
print(f"Número total de filas de prueba {test.count()}")
test.show(truncate=False)

Número total de filas de prueba 26
+-----+------+------------------+-----+----------------------------------------------------------------------------+
|color|value1|value2            |label|features                                                                    |
+-----+------+------------------+-----+----------------------------------------------------------------------------+
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])             |
|blue |8     |14.386294994851129|0.0  |(11,[2,3,7,10],[8.0,14.386294994851129,8.0,14.386294994851129])             |
|blue |12    |14.386294994851129|0.0  |(11,[2,3,7,10],[12.0,14.386294994851129,12.0,14.386294994851129])           |
|blue |12    |14.386294994851129|0.0  |(11,[2,3,7,10],[12.0,14.386294994851129,12.0,14.386294994851129])           |
|blue |12    |14.386294994851129|0.0  |(11,[2,3,7,10],[12.0,14.386294994851129,12.0,14.386294994851129])           |
|green|1     |14.386294994851

### Estimadores
Utilizaremos un algoritmo de clasificación llamado regresión logística. Para crear nuestro clasificador instanciamos una instancia de **LogisticRegression**, utilizando la configuración por *defecto o hiperparámetros*. A continuación, establecemos las columnas de etiquetas (labelCol) y las columnas de características (featuresCol), los nombres de las columnas que estamos estableciendo -etiquetas y características- son en realidad las etiquetas por defecto para todos los estimadores en Spark MLlib.

In [0]:
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(labelCol="label",featuresCol="features")

Ahora se puede utilizar el modelo para hacer predicciones. Podemos transformar nuestro conjunto de datos de entrenamiento para ver qué etiquetas asignó nuestro modelo a los datos de entrenamiento y cómo y cómo se comparan con los resultados reales. Esto, de nuevo, es otro DataFrame que podemos manipular.

Realicemos esa predicción con el siguiente fragmento de código.

In [0]:
fittedLR = lr.fit(train)

[0;31m---------------------------------------------------------------------------[0m
[0;31mIllegalArgumentException[0m                  Traceback (most recent call last)
[0;32m<command-4327437181386529>[0m in [0;36m<module>[0;34m[0m
[0;32m----> 1[0;31m [0mfittedLR[0m [0;34m=[0m [0mlr[0m[0;34m.[0m[0mfit[0m[0;34m([0m[0mtrain[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m
[0;32m/databricks/python_shell/dbruntime/MLWorkloadsInstrumentation/_pyspark.py[0m in [0;36mpatched_method[0;34m(self, *args, **kwargs)[0m
[1;32m     28[0m             [0mcall_succeeded[0m [0;34m=[0m [0;32mFalse[0m[0;34m[0m[0;34m[0m[0m
[1;32m     29[0m             [0;32mtry[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0;32m---> 30[0;31m                 [0mresult[0m [0;34m=[0m [0moriginal_method[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[1;32m     31[0m               

In [0]:
fittedLR = lr.fit(train)

In [0]:
fittedLR.transform(train).select("label", "prediction").show()

+-----+----------+
|label|prediction|
+-----+----------+
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  0.0|       0.0|
|  1.0|       1.0|
|  1.0|       1.0|
|  1.0|       1.0|
|  1.0|       1.0|
|  1.0|       1.0|
+-----+----------+
only showing top 20 rows



Nuestro siguiente paso sería evaluar manualmente este modelo y calcular las **métricas de rendimiento** como la *tasa de verdaderos positivos* y la *tasa de falsos negativos*, etc. A continuación, podríamos probar un conjunto diferente de parámetros para ver si esos rinden más. Sin embargo, aunque este es un proceso útil, también puede ser bastante tedioso. Spark le ayuda a evitar probar manualmente diferentes modelos y criterios de evaluación permitiéndole especificar su carga de trabajo como un pipeline declarativo de trabajo que incluye todas las transformaciones y el ajuste de los hiperparámetros. Es similar a **GridSearchCV** en scikit-learn.

## Pipelining Workflow

Tenga en cuenta que es esencial que las instancias de los transformadores o los modelos no se reutilicen en diferentes canalizaciones. **Cree siempre una nueva instancia de un modelo antes de crear otra canalización**.

Para asegurarnos de que no haga *overfit*, vamos a crear un *conjunto de pruebas* y a ajustar nuestros hiperparámetros basándonos en un *conjunto de validación*

**Nota:** Se creará el **conjunto de validación** basándonos en el **conjunto de datos original**, no el **preparadoDF**.

In [0]:
train, test = df.randomSplit([0.7, 0.3])

Ahora que tienes un conjunto de entrenamiento y prueba, vamos a crear las etapas base de nuestro pipeline. Una etapa simplemente representa un **transformador o un estimador**. En nuestro caso, tendremos dos estimadores. La **RFomula** analizará primero nuestros datos para entender los tipos de características de entrada y luego los transformará para crear nuevas características. Posteriormente, el objeto **LogisticRegression** es el algoritmo que vamos a entrenará para producir un modelo.

In [0]:
rForm = RFormula()
lr = LogisticRegression().setLabelCol("label").setFeaturesCol("features")

In [0]:
from pyspark.ml import Pipeline
stages = [rForm, lr]
pipeline = Pipeline().setStages(stages)

### Entrenamiento y evaluación

Ahora que se ha organizado el pipeline, el siguiente paso es el **entrenamiento**. En nuestro caso, no entrenaremos un solo modelo (como hicimos anteriormente), entrenaremos varias variaciones del modelo especificando diferentes **combinaciones de hiperparámetros** que queremos que Spark pruebe. A continuación seleccionaremos el mejor modelo utilizando un Evaluador(Evaluator) que compara sus predicciones en nuestros datos de validación. Podemos probar diferentes hiperparámetros en todo el pipeline, incluso en la RFormula que utilizamos para manipular los datos brutos. Este código muestra cómo lo hacemos:

In [0]:
from pyspark.ml.tuning import ParamGridBuilder
params = ParamGridBuilder()\
        .addGrid(rForm.formula, [
                                "lab ~ . + color:value1",
                                "lab ~ . + color:value1 + color:value2"])\
        .addGrid(lr.elasticNetParam, [0.0, 0.5, 1.0])\
        .addGrid(lr.regParam, [0.1, 2.0])\
        .build()

Podemos observar que tenemos varios parametros:

* Dos versiones diferentes de la **RFormula**
* Tres opciones diferentes para el parámetro **ElasticNet**
* Dos opciones diferentes para el parámetro de **regularización**


Esto nos da un total de **12 combinaciones** diferentes de estos parámetros, lo que significa que estaremos entrenar 12 versiones diferentes de la regresión logística. El parámetro ElasticNet se explica en capitulos posteriores.

Ahora bien, el evaluador nos permite comparar automática y objetivamente múltiples modelos con la misma métrica de evaluación. En este caso utilizaremos el **BinaryClassificationEvaluator**, que tiene una serie de métricas de evaluación potenciales, como como veremos en el capítulo 26. En este caso utilizaremos **areaUnderROC**, que es el área total bajo la característica operativa del receptor, una medida común del rendimiento de la clasificación.

In [0]:
from pyspark.ml.evaluation import BinaryClassificationEvaluator
evaluator = BinaryClassificationEvaluator()\
            .setMetricName("areaUnderROC")\
            .setRawPredictionCol("prediction")\
            .setLabelCol("label")

In [0]:
evaluator

Out[20]: BinaryClassificationEvaluator_ebd9809a93bb

Una de las mejores prácticas en el aprendizaje automático es **ajustar los hiperparámetros** en un *conjunto de validación* (en lugar del conjunto de pruebas) para evitar el sobreajuste. Por esta razón, no podemos utilizar nuestro conjunto de prueba (que creamos antes) para ajustar estos parámetros. Por suerte, Spark ofrece dos opciones para realizar el ajuste de los hiperparámetros automáticamente. Podemos utilizar **TrainValidationSplit**, que que simplemente realizará una división arbitraria de nuestros datos en dos grupos diferentes, o **CrossValidator**, que realiza una validación cruzada de K veces dividiendo el conjunto de datos en k grupos no que no se solapan y que se dividen aleatoriamente.

In [0]:
from pyspark.ml.tuning import TrainValidationSplit
tvs = TrainValidationSplit()\
      .setTrainRatio(0.75)\
      .setEstimatorParamMaps(params)\
      .setEstimator(pipeline)\
      .setEvaluator(evaluator)

In [0]:
tvs

Out[22]: TrainValidationSplit_a9b28ce457e8

In [0]:
tvsFitted = tvs.fit(train)

In [0]:
test.show(2)

+-----+------+------------------+-----+
|color|value1|            value2|label|
+-----+------+------------------+-----+
| blue|     8|14.386294994851129|  0.0|
| blue|     8|14.386294994851129|  0.0|
+-----+------+------------------+-----+
only showing top 2 rows



In [0]:
tvsFitted.transform(test).show(3, truncate=False)

+-----+------+------------------+-----+----------------------------------------+----------------------------------------+----------------------------------------+----------+
|color|value1|value2            |label|features                                |rawPrediction                           |probability                             |prediction|
+-----+------+------------------+-----+----------------------------------------+----------------------------------------+----------------------------------------+----------+
|blue |8     |14.386294994851129|0.0  |(8,[2,3,7],[8.0,14.386294994851129,8.0])|[2.7268532081037122,-2.7268532081037122]|[0.9385927174585804,0.06140728254141958]|0.0       |
|blue |8     |14.386294994851129|0.0  |(8,[2,3,7],[8.0,14.386294994851129,8.0])|[2.7268532081037122,-2.7268532081037122]|[0.9385927174585804,0.06140728254141958]|0.0       |
|blue |8     |14.386294994851129|0.0  |(8,[2,3,7],[8.0,14.386294994851129,8.0])|[2.7268532081037122,-2.7268532081037122]|[0.938592

In [0]:
evaluator.evaluate(tvsFitted.transform(test))

Out[26]: 1.0

In [0]:
# Nombre de las metricas
tvsFitted.getEvaluator().getMetricName()

Out[27]: 'areaUnderROC'

In [0]:
# Nombre de los estimadores
tvsFitted.getEstimator().getStages()

Out[28]: [RFormula_fb60a2ca8d0d, LogisticRegression_009c37675e25]

In [0]:
bestModel = tvsFitted.bestModel

In [0]:
# Extrayendo los valores de los mejores parametros.
metricas = ("elasticNetParam", "regParam", "formula")
modelname = "LogisticRegression"

for i in range(len(tvsFitted.getEstimator().getStages())):
  for key, value in bestModel.stages[i].extractParamMap().items():
    if str(key).endswith(metricas):
      print(f" Nombre Parametro: {key}")
      print(f" Valor: {value}")
      print("")

 Nombre Parametro: RFormula_fb60a2ca8d0d__formula
 Valor: lab ~ . + color:value1

 Nombre Parametro: LogisticRegression_009c37675e25__elasticNetParam
 Valor: 0.0

 Nombre Parametro: LogisticRegression_009c37675e25__regParam
 Valor: 0.1



In [0]:
for i in range (len(bestModel.stages)):
  if f"{modelname}Model" in str(bestModel.stages[i]):
    accuracy = bestModel.stages[i].summary.accuracy
    areaUnderROC = bestModel.stages[i].summary.areaUnderROC

print(f" Porcentaje de accurracy: {round(accuracy*100, 2)}%")
print(f" Porcentaje de area bajo de la curva: {round(areaUnderROC*100, 2)}%")

 Porcentaje de accurracy: 100.0%
 Porcentaje de area bajo de la curva: 100.0%


### Guardar el modelo y leerlo

In [0]:
PathGuardarModelo = "/FileStore/import-stage/PipelineLogistRegression/"
tvsFitted.write().overwrite().save(PathGuardarModelo)
print(f"Modelo guardado con éxito en {PathGuardarModelo}")

Modelo guardado con éxito en /FileStore/import-stage/PipelineLogistRegression/


In [0]:
# Se leera el modelo que se ha guardado previamente
from pyspark.ml.tuning import TrainValidationSplitModel

clf = TrainValidationSplitModel.load(PathGuardarModelo)
print("Modelo leído con éxito")
clf

Modelo leído con éxito
Out[33]: TrainValidationSplitModel_4bbe12cd5972

In [0]:
JsonPath = "/FileStore/tables/DatosNuevos.json" #Datos se anexaran a este notebook

DFPrueba = (spark
            .read
            .option("inferSchema", True)
            .json(JsonPath)
           )

DFPrueba.printSchema()

root
 |-- color: string (nullable = true)
 |-- lab: string (nullable = true)
 |-- value1: long (nullable = true)
 |-- value2: double (nullable = true)



In [0]:
DFPrueba.show(2)

+-----+----+------+-------+
|color| lab|value1| value2|
+-----+----+------+-------+
|green|good|     9| 10.433|
| blue| bad|     8|17.3423|
+-----+----+------+-------+
only showing top 2 rows



Recuerde que el label no puede ser de tipo string, por lo tanto, se aplicara OneHotEncoder para volverlo númerico tal y como se aplico anteriormente.

In [0]:
from pyspark.ml.feature import (StringIndexer, OneHotEncoder, VectorAssembler)
indexer = StringIndexer(inputCol="lab", outputCol="label")
DFPrueba = indexer.fit(DFPrueba).transform(DFPrueba)
DFPrueba.show(10, truncate=False)

+-----+----+------+-------+-----+
|color|lab |value1|value2 |label|
+-----+----+------+-------+-----+
|green|good|9     |10.433 |0.0  |
|blue |bad |8     |17.3423|1.0  |
|red  |good|40    |11.876 |0.0  |
|red  |bad |7     |7.6    |1.0  |
|blue |good|2     |8.213  |0.0  |
+-----+----+------+-------+-----+



In [0]:

clf.transform(DFPrueba).show()

+-----+----+------+-------+-----+--------------------+--------------------+--------------------+----------+
|color| lab|value1| value2|label|            features|       rawPrediction|         probability|prediction|
+-----+----+------+-------+-----+--------------------+--------------------+--------------------+----------+
|green|good|     9| 10.433|  0.0|(8,[1,2,3,6],[1.0...|[1.35187582279321...|[0.79443613306971...|       0.0|
| blue| bad|     8|17.3423|  1.0|(8,[2,3,4,7],[8.0...|[0.08511499891332...|[0.52126591275775...|       0.0|
|  red|good|    40| 11.876|  0.0|(8,[0,2,3,5],[1.0...|[0.64921712509502...|[0.65683402192383...|       0.0|
|  red| bad|     7|    7.6|  1.0|[1.0,0.0,7.0,7.6,...|[-0.2172292783073...|[0.44590523448194...|       1.0|
| blue|good|     2|  8.213|  0.0|(8,[2,3,7],[2.0,8...|[2.55185673637965...|[0.92769815285517...|       0.0|
+-----+----+------+-------+-----+--------------------+--------------------+--------------------+----------+



In [0]:
evaluator.evaluate(clf.transform(DFPrueba))

Out[51]: 0.75

#### Autor
[Carlos Barros](https://www.linkedin.com/in/carlosbarros7/)