<a href="https://colab.research.google.com/github/darthfelipe21/DataScientist2/blob/main/pySpark_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install pyspark



In [2]:
import pyspark
import pandas as pd
from pyspark.sql import SparkSession

In [3]:
# Iniciar una sesión en Spark para poder trabajar con el framework
spark = SparkSession.builder.appName('Practice').getOrCreate()

In [4]:
spark

In [5]:
# Leer el CSV desde pyspark
df_pyspark = spark.read.csv('customer_data.csv',)

In [6]:
df_pyspark.show()

+----------+----+--------------------+--------------------+--------------------+
|       _c0| _c1|                 _c2|                 _c3|                 _c4|
+----------+----+--------------------+--------------------+--------------------+
|ID Cliente|Edad|Ingresos Anuales ...|Puntuación de Gas...|Categoría de Prod...|
|         1|  56|                  89|                  47|              Libros|
|         2|  69|                  91|                  86|               Hogar|
|         3|  46|                  46|                  23|         Electrónica|
|         4|  32|                  28|                  66|              Libros|
|         5|  60|                  81|                  27|         Electrónica|
|         6|  25|                  56|                   2|           Alimentos|
|         7|  38|                 116|                  90|         Electrónica|
|         8|  56|                  70|                  17|         Electrónica|
|         9|  36|           

In [7]:
# Otra manera de cargar el DataFrame, para poder alterar los nombre de las columnas de manera correcta
df_pyspark = spark.read.option('header', 'True').csv('customer_data.csv', inferSchema=True) # InferSchema es para que la lectura pueda inferir el tipo de las columnas, ya que si no tomara todas como String

In [8]:
df_pyspark.show()

+----------+----+---------------------+---------------------------+------------------------------+
|ID Cliente|Edad|Ingresos Anuales (k$)|Puntuación de Gasto (1-100)|Categoría de Producto Favorito|
+----------+----+---------------------+---------------------------+------------------------------+
|         1|  56|                   89|                         47|                        Libros|
|         2|  69|                   91|                         86|                         Hogar|
|         3|  46|                   46|                         23|                   Electrónica|
|         4|  32|                   28|                         66|                        Libros|
|         5|  60|                   81|                         27|                   Electrónica|
|         6|  25|                   56|                          2|                     Alimentos|
|         7|  38|                  116|                         90|                   Electrónica|
|         

In [9]:
type(df_pyspark)

In [10]:
# Uso de metodos como head, pero en este caso se debe de indicar el numero de columnas a ver, ya que no muestra 5 predeterminado
df_pyspark.head(3)

[Row(ID Cliente=1, Edad=56, Ingresos Anuales (k$)=89, Puntuación de Gasto (1-100)=47, Categoría de Producto Favorito='Libros'),
 Row(ID Cliente=2, Edad=69, Ingresos Anuales (k$)=91, Puntuación de Gasto (1-100)=86, Categoría de Producto Favorito='Hogar'),
 Row(ID Cliente=3, Edad=46, Ingresos Anuales (k$)=46, Puntuación de Gasto (1-100)=23, Categoría de Producto Favorito='Electrónica')]

In [11]:
# Visualizar el esquema de la tabala o DataFrame
df_pyspark.printSchema()

root
 |-- ID Cliente: integer (nullable = true)
 |-- Edad: integer (nullable = true)
 |-- Ingresos Anuales (k$): integer (nullable = true)
 |-- Puntuación de Gasto (1-100): integer (nullable = true)
 |-- Categoría de Producto Favorito: string (nullable = true)



In [12]:
# Ver las columnas
df_pyspark.columns

['ID Cliente',
 'Edad',
 'Ingresos Anuales (k$)',
 'Puntuación de Gasto (1-100)',
 'Categoría de Producto Favorito']

In [13]:
# Seleccionar columnas
df_pyspark.select(['Edad', 'Categoría de Producto Favorito']).show()

+----+------------------------------+
|Edad|Categoría de Producto Favorito|
+----+------------------------------+
|  56|                        Libros|
|  69|                         Hogar|
|  46|                   Electrónica|
|  32|                        Libros|
|  60|                   Electrónica|
|  25|                     Alimentos|
|  38|                   Electrónica|
|  56|                   Electrónica|
|  36|                   Electrónica|
|  40|                         Hogar|
|  28|                   Electrónica|
|  28|                        Libros|
|  41|                     Alimentos|
|  53|                     Alimentos|
|  57|                   Electrónica|
|  41|                         Hogar|
|  20|                         Hogar|
|  39|                        Libros|
|  19|                   Electrónica|
|  41|                     Alimentos|
+----+------------------------------+
only showing top 20 rows



In [14]:
# Ver la descripcion del DataFrame
df_pyspark.describe().show()

+-------+------------------+-----------------+---------------------+---------------------------+------------------------------+
|summary|        ID Cliente|             Edad|Ingresos Anuales (k$)|Puntuación de Gasto (1-100)|Categoría de Producto Favorito|
+-------+------------------+-----------------+---------------------+---------------------------+------------------------------+
|  count|               200|              200|                  200|                        200|                           200|
|   mean|             100.5|           43.425|                69.58|                      49.91|                          NULL|
| stddev|57.879184513951124|14.94191013197308|   29.693807621375804|         29.409291595698186|                          NULL|
|    min|                 1|               18|                   20|                          1|                     Alimentos|
|    max|               200|               69|                  119|                         99|        

In [15]:
# Agregar columnas a un DataFrame de Pyspark y condicionales
from pyspark.sql.functions import when
df_pyspark = df_pyspark.withColumn('TerceraEdad', when(df_pyspark['Edad'] > 60, True).otherwise(False))
df_pyspark.show()

+----------+----+---------------------+---------------------------+------------------------------+-----------+
|ID Cliente|Edad|Ingresos Anuales (k$)|Puntuación de Gasto (1-100)|Categoría de Producto Favorito|TerceraEdad|
+----------+----+---------------------+---------------------------+------------------------------+-----------+
|         1|  56|                   89|                         47|                        Libros|      false|
|         2|  69|                   91|                         86|                         Hogar|       true|
|         3|  46|                   46|                         23|                   Electrónica|      false|
|         4|  32|                   28|                         66|                        Libros|      false|
|         5|  60|                   81|                         27|                   Electrónica|      false|
|         6|  25|                   56|                          2|                     Alimentos|      false|
|

In [16]:
# Eliminar columnas
df_pyspark = df_pyspark.drop('TerceraEdad')
df_pyspark.show()

+----------+----+---------------------+---------------------------+------------------------------+
|ID Cliente|Edad|Ingresos Anuales (k$)|Puntuación de Gasto (1-100)|Categoría de Producto Favorito|
+----------+----+---------------------+---------------------------+------------------------------+
|         1|  56|                   89|                         47|                        Libros|
|         2|  69|                   91|                         86|                         Hogar|
|         3|  46|                   46|                         23|                   Electrónica|
|         4|  32|                   28|                         66|                        Libros|
|         5|  60|                   81|                         27|                   Electrónica|
|         6|  25|                   56|                          2|                     Alimentos|
|         7|  38|                  116|                         90|                   Electrónica|
|         

In [17]:
# Renombrar nombre de columna
df_pyspark.withColumnRenamed('Edad', 'edad').show()

+----------+----+---------------------+---------------------------+------------------------------+
|ID Cliente|edad|Ingresos Anuales (k$)|Puntuación de Gasto (1-100)|Categoría de Producto Favorito|
+----------+----+---------------------+---------------------------+------------------------------+
|         1|  56|                   89|                         47|                        Libros|
|         2|  69|                   91|                         86|                         Hogar|
|         3|  46|                   46|                         23|                   Electrónica|
|         4|  32|                   28|                         66|                        Libros|
|         5|  60|                   81|                         27|                   Electrónica|
|         6|  25|                   56|                          2|                     Alimentos|
|         7|  38|                  116|                         90|                   Electrónica|
|         

In [18]:
# Renombrar el nombre de todas las columnas
df_pyspark = df_pyspark.toDF(*['id', 'edad', 'ingreso_anual', 'puntaje_gastos', 'categoria_producto'])
df_pyspark.show()

+---+----+-------------+--------------+------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto|
+---+----+-------------+--------------+------------------+
|  1|  56|           89|            47|            Libros|
|  2|  69|           91|            86|             Hogar|
|  3|  46|           46|            23|       Electrónica|
|  4|  32|           28|            66|            Libros|
|  5|  60|           81|            27|       Electrónica|
|  6|  25|           56|             2|         Alimentos|
|  7|  38|          116|            90|       Electrónica|
|  8|  56|           70|            17|       Electrónica|
|  9|  36|           63|            33|       Electrónica|
| 10|  40|           43|             9|             Hogar|
| 11|  28|           98|            43|       Electrónica|
| 12|  28|           78|            48|            Libros|
| 13|  41|           51|            39|         Alimentos|
| 14|  53|          115|            93|         Alimento

In [19]:
# Eliminar valores nulos
df_pyspark.na.drop()

DataFrame[id: int, edad: int, ingreso_anual: int, puntaje_gastos: int, categoria_producto: string]

Se puede especificar un argumneto dentro del .drop() llamado "how=" el cual puede aceptar un de los siguientes 2 valores:
- **'all'** que indica que eliminara la fila que tenga todos los valores nulos
- **'any'** que eliminara todas las filas que tenga al menos un valor nulo
  - al usar **'any'** se puede especificar un **'threshold'** para indicar el maximo de valores no nulos que puede haber para eliminar esa fila, por ejemplo, si ponemos **'threshold=2'** deben de haber al menos 2 valore no nulos dentro de la fila para ser borrada
- otro parametro que se puede usar es **'subset=[nombre_columna]'** para eliminar los valores nulos dentro de esa columna

In [20]:
# Rellenar valores nulos
df_pyspark.na.fill('Missing Value') # Rellena todos los valores nulos con el string indicado

# Indicar las columnas a las cuales se le quiere rellenar los valores nulos
df_pyspark.na.fill('Missing Value', ['edad', 'puntaje_gastos'])

DataFrame[id: int, edad: int, ingreso_anual: int, puntaje_gastos: int, categoria_producto: string]

In [21]:
# Rellenar valores nulos con la media
from pyspark.ml.feature import Imputer

imputer = Imputer(
    inputCols=['edad','puntaje_gastos'],
    outputCols=["{}_imputed".format(x) for x in ['edad','puntaje_gastos']]
).setStrategy('mean') # median, max, min, std


imputer.fit(df_pyspark).transform(df_pyspark).show()

+---+----+-------------+--------------+------------------+------------+----------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto|edad_imputed|puntaje_gastos_imputed|
+---+----+-------------+--------------+------------------+------------+----------------------+
|  1|  56|           89|            47|            Libros|          56|                    47|
|  2|  69|           91|            86|             Hogar|          69|                    86|
|  3|  46|           46|            23|       Electrónica|          46|                    23|
|  4|  32|           28|            66|            Libros|          32|                    66|
|  5|  60|           81|            27|       Electrónica|          60|                    27|
|  6|  25|           56|             2|         Alimentos|          25|                     2|
|  7|  38|          116|            90|       Electrónica|          38|                    90|
|  8|  56|           70|            17|       Elec

Esto crea un dataset con estas nuevas columnas, las cuales deberian de ser eliminadas luego de la transformacion

In [22]:
# Filtrado de datos
df_pyspark.filter('edad >= 60').show()

+---+----+-------------+--------------+------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto|
+---+----+-------------+--------------+------------------+
|  2|  69|           91|            86|             Hogar|
|  5|  60|           81|            27|       Electrónica|
| 21|  61|           58|            13|             Hogar|
| 29|  61|          111|             8|         Alimentos|
| 31|  66|          106|            14|       Electrónica|
| 37|  64|           72|            66|       Electrónica|
| 38|  68|           63|            32|            Libros|
| 39|  61|          109|            87|            Libros|
| 40|  69|           51|            63|              Ropa|
| 43|  68|           87|            25|            Libros|
| 52|  67|           89|            52|              Ropa|
| 58|  64|           78|            97|       Electrónica|
| 60|  61|           99|            53|         Alimentos|
| 62|  64|           22|             5|              Rop

In [23]:
# Filtro y selección de columnas especificas
df_pyspark.filter('edad >= 50').select(['puntaje_gastos', 'categoria_producto']).show()

+--------------+------------------+
|puntaje_gastos|categoria_producto|
+--------------+------------------+
|            47|            Libros|
|            86|             Hogar|
|            27|       Electrónica|
|            17|       Electrónica|
|            93|         Alimentos|
|            42|       Electrónica|
|            13|             Hogar|
|             7|             Hogar|
|            45|              Ropa|
|             8|         Alimentos|
|            14|       Electrónica|
|            87|         Alimentos|
|            66|       Electrónica|
|            32|            Libros|
|            87|            Libros|
|            63|              Ropa|
|            51|              Ropa|
|            25|            Libros|
|            22|         Alimentos|
|            52|              Ropa|
+--------------+------------------+
only showing top 20 rows



In [24]:
# Tambien se puede filtrar de la siguiente manera
df_pyspark.filter((df_pyspark['edad'] >= 60) & (df_pyspark['categoria_producto'] == 'Electrónica') | (df_pyspark['edad'] == 50)).show()

+---+----+-------------+--------------+------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto|
+---+----+-------------+--------------+------------------+
|  5|  60|           81|            27|       Electrónica|
| 26|  50|           78|            45|              Ropa|
| 31|  66|          106|            14|       Electrónica|
| 37|  64|           72|            66|       Electrónica|
| 58|  64|           78|            97|       Electrónica|
| 93|  64|           21|            48|       Electrónica|
| 97|  62|           88|            61|       Electrónica|
|101|  62|          118|            22|       Electrónica|
|117|  50|          108|            69|       Electrónica|
|128|  50|           60|            10|             Hogar|
|168|  62|           68|            95|       Electrónica|
|181|  62|           72|             7|       Electrónica|
|193|  50|           44|            64|              Ropa|
+---+----+-------------+--------------+-----------------

In [25]:
# Filtraod distinto de:
df_pyspark.filter(~(df_pyspark['edad'] == 50)).show()

+---+----+-------------+--------------+------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto|
+---+----+-------------+--------------+------------------+
|  1|  56|           89|            47|            Libros|
|  2|  69|           91|            86|             Hogar|
|  3|  46|           46|            23|       Electrónica|
|  4|  32|           28|            66|            Libros|
|  5|  60|           81|            27|       Electrónica|
|  6|  25|           56|             2|         Alimentos|
|  7|  38|          116|            90|       Electrónica|
|  8|  56|           70|            17|       Electrónica|
|  9|  36|           63|            33|       Electrónica|
| 10|  40|           43|             9|             Hogar|
| 11|  28|           98|            43|       Electrónica|
| 12|  28|           78|            48|            Libros|
| 13|  41|           51|            39|         Alimentos|
| 14|  53|          115|            93|         Alimento

In [26]:
# Funciones de agregado en este caso suma
df_pyspark.groupBy('edad').sum().show()

+----+-------+---------+------------------+-------------------+
|edad|sum(id)|sum(edad)|sum(ingreso_anual)|sum(puntaje_gastos)|
+----+-------+---------+------------------+-------------------+
|  31|    573|      186|               536|                145|
|  65|    212|      130|               188|                159|
|  53|    332|      212|               313|                332|
|  34|    178|       68|               110|                165|
|  28|    323|      112|               376|                205|
|  26|    479|      130|               302|                204|
|  27|     79|       27|                30|                 92|
|  44|    514|      176|               288|                176|
|  22|    264|       44|               159|                167|
|  47|    374|      141|               110|                125|
|  52|    705|      312|               355|                319|
|  40|    393|      160|               210|                 68|
|  20|    401|       80|               2

In [27]:
df_pyspark.groupBy('categoria_producto').sum().show()

+------------------+-------+---------+------------------+-------------------+
|categoria_producto|sum(id)|sum(edad)|sum(ingreso_anual)|sum(puntaje_gastos)|
+------------------+-------+---------+------------------+-------------------+
|            Libros|   5630|     2347|              3592|               2435|
|              Ropa|   3295|     1477|              2396|               1354|
|         Alimentos|   3294|     1316|              2338|               1931|
|       Electrónica|   4612|     2008|              3131|               2450|
|             Hogar|   3269|     1537|              2459|               1812|
+------------------+-------+---------+------------------+-------------------+



In [28]:
df_pyspark.groupBy('categoria_producto').mean().show()

+------------------+------------------+------------------+------------------+-------------------+
|categoria_producto|           avg(id)|         avg(edad)|avg(ingreso_anual)|avg(puntaje_gastos)|
+------------------+------------------+------------------+------------------+-------------------+
|            Libros|106.22641509433963|44.283018867924525| 67.77358490566037| 45.943396226415096|
|              Ropa|106.29032258064517|47.645161290322584| 77.29032258064517|  43.67741935483871|
|         Alimentos| 99.81818181818181|39.878787878787875| 70.84848484848484| 58.515151515151516|
|       Electrónica| 102.4888888888889| 44.62222222222222| 69.57777777777778|  54.44444444444444|
|             Hogar| 86.02631578947368| 40.44736842105263| 64.71052631578948|  47.68421052631579|
+------------------+------------------+------------------+------------------+-------------------+



In [29]:
df_pyspark.groupBy('categoria_producto').count().show()

+------------------+-----+
|categoria_producto|count|
+------------------+-----+
|            Libros|   53|
|              Ropa|   31|
|         Alimentos|   33|
|       Electrónica|   45|
|             Hogar|   38|
+------------------+-----+



In [30]:
# Total de una sola columna numerica
df_pyspark.agg({'Edad': 'mean'}).show()

+---------+
|avg(Edad)|
+---------+
|   43.425|
+---------+



## ML Pyspark

In [31]:
# One Hot Encoder
from pyspark.ml.feature import OneHotEncoder, StringIndexer
from pyspark.ml import Pipeline

# primero indexar la columnas string a numerica
indexer = StringIndexer(inputCol='categoria_producto', outputCol='categoria_producto_indexed')
encoder = OneHotEncoder(inputCol='categoria_producto_indexed', outputCol='categoria_producto_encoder')


pipeline = Pipeline(stages=[indexer, encoder])
modelo = pipeline.fit(df_pyspark)
df_transformado = modelo.transform(df_pyspark)

In [32]:
df_transformado.select(['categoria_producto_indexed','categoria_producto_encoder']).limit(5).show()

+--------------------------+--------------------------+
|categoria_producto_indexed|categoria_producto_encoder|
+--------------------------+--------------------------+
|                       0.0|             (4,[0],[1.0])|
|                       2.0|             (4,[2],[1.0])|
|                       1.0|             (4,[1],[1.0])|
|                       0.0|             (4,[0],[1.0])|
|                       1.0|             (4,[1],[1.0])|
+--------------------------+--------------------------+



La columna categorica se le realiza index para poder determinar la posicion donde se encuentra el valor de la columna, por ejemplo (4,[0],[1.0]), significa lo siguiente [1.0, 0.0, 0.0, 0.0] indicando que existen 4 valores categoricos y en el indice 0, es el valor que representa ese valor de la fila.

La columna _indexed, solo representa al indice, eso quiere decir que para problemas de machine learning, se debe de usar la columna encoder

In [33]:
df_transformado = df_transformado.drop('categoria_producto_indexed', 'categoria_producto')
df_transformado.show()

+---+----+-------------+--------------+--------------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto_encoder|
+---+----+-------------+--------------+--------------------------+
|  1|  56|           89|            47|             (4,[0],[1.0])|
|  2|  69|           91|            86|             (4,[2],[1.0])|
|  3|  46|           46|            23|             (4,[1],[1.0])|
|  4|  32|           28|            66|             (4,[0],[1.0])|
|  5|  60|           81|            27|             (4,[1],[1.0])|
|  6|  25|           56|             2|             (4,[3],[1.0])|
|  7|  38|          116|            90|             (4,[1],[1.0])|
|  8|  56|           70|            17|             (4,[1],[1.0])|
|  9|  36|           63|            33|             (4,[1],[1.0])|
| 10|  40|           43|             9|             (4,[2],[1.0])|
| 11|  28|           98|            43|             (4,[1],[1.0])|
| 12|  28|           78|            48|             (4,[0],[1.

In [34]:
# Aplicar ml con pyspark
from pyspark.ml.feature import VectorAssembler

featureAssembler = VectorAssembler(inputCols=['edad', 'puntaje_gastos', 'categoria_producto_encoder'], outputCol='featureIndependiente')

output = featureAssembler.transform(df_transformado)

output.show()

+---+----+-------------+--------------+--------------------------+--------------------+
| id|edad|ingreso_anual|puntaje_gastos|categoria_producto_encoder|featureIndependiente|
+---+----+-------------+--------------+--------------------------+--------------------+
|  1|  56|           89|            47|             (4,[0],[1.0])|[56.0,47.0,1.0,0....|
|  2|  69|           91|            86|             (4,[2],[1.0])|[69.0,86.0,0.0,0....|
|  3|  46|           46|            23|             (4,[1],[1.0])|[46.0,23.0,0.0,1....|
|  4|  32|           28|            66|             (4,[0],[1.0])|[32.0,66.0,1.0,0....|
|  5|  60|           81|            27|             (4,[1],[1.0])|[60.0,27.0,0.0,1....|
|  6|  25|           56|             2|             (4,[3],[1.0])|[25.0,2.0,0.0,0.0...|
|  7|  38|          116|            90|             (4,[1],[1.0])|[38.0,90.0,0.0,1....|
|  8|  56|           70|            17|             (4,[1],[1.0])|[56.0,17.0,0.0,1....|
|  9|  36|           63|        

Cuando se quiere realizar un modelo de machine learning, todos los features, menos el que se quiere predecir, se agrupan en un solo valor

In [35]:
finalized_data = output.select(['ingreso_anual', 'featureIndependiente'])
finalized_data.show()

+-------------+--------------------+
|ingreso_anual|featureIndependiente|
+-------------+--------------------+
|           89|[56.0,47.0,1.0,0....|
|           91|[69.0,86.0,0.0,0....|
|           46|[46.0,23.0,0.0,1....|
|           28|[32.0,66.0,1.0,0....|
|           81|[60.0,27.0,0.0,1....|
|           56|[25.0,2.0,0.0,0.0...|
|          116|[38.0,90.0,0.0,1....|
|           70|[56.0,17.0,0.0,1....|
|           63|[36.0,33.0,0.0,1....|
|           43|[40.0,9.0,0.0,0.0...|
|           98|[28.0,43.0,0.0,1....|
|           78|[28.0,48.0,1.0,0....|
|           51|[41.0,39.0,0.0,0....|
|          115|[53.0,93.0,0.0,0....|
|          107|[57.0,42.0,0.0,1....|
|           71|[41.0,26.0,0.0,0....|
|           81|[20.0,99.0,0.0,0....|
|           77|[39.0,50.0,1.0,0....|
|           71|[19.0,25.0,0.0,1....|
|           31|[41.0,24.0,0.0,0....|
+-------------+--------------------+
only showing top 20 rows



In [37]:
from pyspark.ml.regression import LinearRegression

# Separa la data de entrenamiento y la de prueba
train_data, test_data = finalized_data.randomSplit([0.75, 0.25])
regressor = LinearRegression(featuresCol='featureIndependiente', labelCol='ingreso_anual')
regressor = regressor.fit(train_data)

In [38]:
# Coeficientes
regressor.coefficients

DenseVector([0.1927, 0.1806, -6.6942, -10.6247, -17.3225, -9.9308])

In [39]:
# Intercept
regressor.intercept

62.144652485088535

In [40]:
# Prediccion del modelo
pred_result = regressor.evaluate(test_data)

In [41]:
pred_result.predictions.show()

+-------------+--------------------+-----------------+
|ingreso_anual|featureIndependiente|       prediction|
+-------------+--------------------+-----------------+
|           21|[32.0,98.0,1.0,0....|79.31779045032317|
|           22|[26.0,26.0,1.0,0....| 65.1570107544034|
|           27|[26.0,35.0,1.0,0....|66.78257361152161|
|           33|[52.0,10.0,0.0,0....|56.64936989137479|
|           36|[52.0,16.0,1.0,0....|68.36136277093752|
|           38|[21.0,55.0,0.0,0....|58.80308717559977|
|           38|[47.0,44.0,1.0,0....|72.45510540504911|
|           38|[53.0,94.0,0.0,0....|79.40576003122766|
|           39|[19.0,40.0,0.0,1....|62.40626885158545|
|           39|[41.0,16.0,1.0,0....|66.24152189948504|
|           40|(6,[0,1],[59.0,51...|82.72623092533686|
|           40|(6,[0,1],[61.0,19...| 77.3318774907968|
|           43|[18.0,51.0,1.0,0....|68.13076068332188|
|           44|(6,[0,1],[50.0,64...|83.33985090493537|
|           44|[59.0,16.0,0.0,1....|65.77994682576409|
|         

In [42]:
# Comportamiento del modelo MSE
pred_result.meanAbsoluteError, pred_result.meanSquaredError

(28.603988278384257, 997.1083709904918)