### ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Trabajar con valores nulos

In [0]:
from pyspark.sql.functions import *

estudiante = [("Alfonso","Science",86,"A",90),
              ("Maria","Math",56,"R",None),
              ("Javiera","English",77,"A",85),
              ("Andres","Science",None,"A",None),
              ("Tomas","Math",69,"A",70),
              ("Raul",None,45,"R",50),
              ("Pedro","English",None,None,55)
             ]
schema = ["nombre","ramo","puntaje","status","asistencia"]

df = spark.createDataFrame(data=estudiante, schema=schema)
df.show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      null|
|Javiera|English|     77|     A|        85|
| Andres|Science|   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
|  Pedro|English|   null|  null|        55|
+-------+-------+-------+------+----------+



#### isNull()

La función isNull() devuelve todas las filas en las que cierta columna sobre la que aplicamos esta función contiene valores Nulos

In [0]:
df.filter(df.puntaje.isNull()).show()

+------+-------+-------+------+----------+
|nombre|   ramo|puntaje|status|asistencia|
+------+-------+-------+------+----------+
|Andres|Science|   null|     A|      null|
| Pedro|English|   null|  null|        55|
+------+-------+-------+------+----------+



In [0]:
df.filter('puntaje IS NULL').show()

+------+-------+-------+------+----------+
|nombre|   ramo|puntaje|status|asistencia|
+------+-------+-------+------+----------+
|Andres|Science|   null|     A|      null|
| Pedro|English|   null|  null|        55|
+------+-------+-------+------+----------+



In [0]:
df.filter(col('puntaje').isNull()).show()

+------+-------+-------+------+----------+
|nombre|   ramo|puntaje|status|asistencia|
+------+-------+-------+------+----------+
|Andres|Science|   null|     A|      null|
| Pedro|English|   null|  null|        55|
+------+-------+-------+------+----------+



#### isNotNull()

La función isNotNull() crea un nuevo dataframe eliminando todas las filas en las que cierta columna sobre la que aplicamos esta función contiene valores nulos

In [0]:
df.filter(df.puntaje.isNotNull()).show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      null|
|Javiera|English|     77|     A|        85|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
+-------+-------+-------+------+----------+



In [0]:
df.filter('puntaje IS NOT NULL').show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      null|
|Javiera|English|     77|     A|        85|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
+-------+-------+-------+------+----------+



In [0]:
df.filter(col('puntaje').isNotNull()).show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      null|
|Javiera|English|     77|     A|        85|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
+-------+-------+-------+------+----------+



In [0]:
df.filter((df.puntaje.isNotNull()) & (df.asistencia.isNotNull())).show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|Javiera|English|     77|     A|        85|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
+-------+-------+-------+------+----------+



#### fillna() o na.fill()

Rellena con un valor dummy para todos los valores nulos dados como parámetro a esta función

In [0]:
# Reemplazara con 'hola' solo aquelloss nulls de columnas con tipo de dato STRING
df.fillna(value='hola').show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      null|
|Javiera|English|     77|     A|        85|
| Andres|Science|   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   hola|     45|     R|        50|
|  Pedro|English|   null|  hola|        55|
+-------+-------+-------+------+----------+



In [0]:
# Reemplazara con '0' solo aquellos nulls de columnas con tipo de dato numerico
df.na.fill(value=0).show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|         0|
|Javiera|English|     77|     A|        85|
| Andres|Science|      0|     A|         0|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
|  Pedro|English|      0|  null|        55|
+-------+-------+-------+------+----------+



#### Rellenar registros para columnas especificas si contienen Nulls

In [0]:
df.na.fill(value=9999, subset=['puntaje','asistencia']).show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|   Math|     56|     R|      9999|
|Javiera|English|     77|     A|        85|
| Andres|Science|   9999|     A|      9999|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|     45|     R|        50|
|  Pedro|English|   9999|  null|        55|
+-------+-------+-------+------+----------+



In [0]:
df.na.fill({'puntaje':9999,'status':'NA','nombre':'NN','ramo':'sin_ramo','asistencia':7777}).show()

+-------+--------+-------+------+----------+
| nombre|    ramo|puntaje|status|asistencia|
+-------+--------+-------+------+----------+
|Alfonso| Science|     86|     A|        90|
|  Maria|    Math|     56|     R|      7777|
|Javiera| English|     77|     A|        85|
| Andres| Science|   9999|     A|      7777|
|  Tomas|    Math|     69|     A|        70|
|   Raul|sin_ramo|     45|     R|        50|
|  Pedro| English|   9999|    NA|        55|
+-------+--------+-------+------+----------+



#### coalesce()

In [0]:
from pyspark.sql.functions import *

estudiante = [("Alfonso","Science",86,"A",90),
              ("Maria","",56,"R",None),
              ("Javiera","English",77,"",85),
              ("Andres","",None,"A",None),
              ("Tomas","Math",69,"A",70),
              ("Raul",None,'',"R",50),
              ("Pedro","English",None,None,78)
             ]
schema = ["nombre","ramo","puntaje","status","asistencia"]

df = spark.createDataFrame(estudiante, schema=''' nombre STRING, ramo STRING, puntaje STRING, status STRING, asistencia INT''')
df.show()

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|       |     56|     R|      null|
|Javiera|English|     77|      |        85|
| Andres|       |   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|       |     R|        50|
|  Pedro|English|   null|  null|        78|
+-------+-------+-------+------+----------+



In [0]:
df.withColumn('puntaje', coalesce('puntaje',0)).show()

[0;31m---------------------------------------------------------------------------[0m
[0;31mTypeError[0m                                 Traceback (most recent call last)
[0;32m<command-587253487955533>[0m in [0;36m<cell line: 1>[0;34m()[0m
[0;32m----> 1[0;31m [0mdf[0m[0;34m.[0m[0mwithColumn[0m[0;34m([0m[0;34m'puntaje'[0m[0;34m,[0m [0mcoalesce[0m[0;34m([0m[0;34m'puntaje'[0m[0;34m,[0m[0;36m0[0m[0;34m)[0m[0;34m)[0m[0;34m.[0m[0mshow[0m[0;34m([0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m
[0;32m/databricks/spark/python/pyspark/sql/functions.py[0m in [0;36mcoalesce[0;34m(*cols)[0m
[1;32m   1224[0m     [0;34m+[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m+[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m+[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m-[0m[0;34m+[0m[0;34m[0m

In [0]:
# Puedo modificar el valor del null en una nueva columna
df.withColumn('puntaje_fill', coalesce('puntaje',lit(0))).show()

+-------+-------+-------+------+----------+------------+
| nombre|   ramo|puntaje|status|asistencia|puntaje_fill|
+-------+-------+-------+------+----------+------------+
|Alfonso|Science|     86|     A|        90|          86|
|  Maria|       |     56|     R|      null|          56|
|Javiera|English|     77|      |        85|          77|
| Andres|       |   null|     A|      null|           0|
|  Tomas|   Math|     69|     A|        70|          69|
|   Raul|   null|       |     R|        50|            |
|  Pedro|English|   null|  null|        78|           0|
+-------+-------+-------+------+----------+------------+



#### cast() y coalesce()

In [0]:
# Cambiare el tipo de dato de la columna y luego rellenare
df_cast = df.withColumn('puntaje', col('puntaje').cast('int'))
df_cast.printSchema()
df_cast.show()

root
 |-- nombre: string (nullable = true)
 |-- ramo: string (nullable = true)
 |-- puntaje: integer (nullable = true)
 |-- status: string (nullable = true)
 |-- asistencia: integer (nullable = true)

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|       |     56|     R|      null|
|Javiera|English|     77|      |        85|
| Andres|       |   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|   null|     R|        50|
|  Pedro|English|   null|  null|        78|
+-------+-------+-------+------+----------+



In [0]:
df_coalesce = df.withColumn('puntaje', coalesce(col('puntaje').cast('int'), lit(0)))
df_coalesce.printSchema()
df_coalesce.show()

root
 |-- nombre: string (nullable = true)
 |-- ramo: string (nullable = true)
 |-- puntaje: integer (nullable = false)
 |-- status: string (nullable = true)
 |-- asistencia: integer (nullable = true)

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|       |     56|     R|      null|
|Javiera|English|     77|      |        85|
| Andres|       |      0|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|      0|     R|        50|
|  Pedro|English|      0|  null|        78|
+-------+-------+-------+------+----------+



#### Usando la función expr()

In [0]:
# Trabajamos sobre la columna 'status'
df_status = df.withColumn('status', expr(''' CASE WHEN status IS NULL or status = "" THEN 0
                                             ELSE status
                                             END'''))
df_status.printSchema()
df_status.show()

root
 |-- nombre: string (nullable = true)
 |-- ramo: string (nullable = true)
 |-- puntaje: string (nullable = true)
 |-- status: string (nullable = true)
 |-- asistencia: integer (nullable = true)

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|       |     56|     R|      null|
|Javiera|English|     77|     0|        85|
| Andres|       |   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|   null|       |     R|        50|
|  Pedro|English|   null|     0|        78|
+-------+-------+-------+------+----------+



#### Usando la función when y otherwise

In [0]:
# Trabajamos sobre la columna 'ramo'
df_ramo = df.withColumn('ramo',when((col('ramo').isNull()) | (col('ramo') == lit('')), 0).otherwise(col('ramo')))

df_ramo.printSchema()
df_ramo.show()

root
 |-- nombre: string (nullable = true)
 |-- ramo: string (nullable = true)
 |-- puntaje: string (nullable = true)
 |-- status: string (nullable = true)
 |-- asistencia: integer (nullable = true)

+-------+-------+-------+------+----------+
| nombre|   ramo|puntaje|status|asistencia|
+-------+-------+-------+------+----------+
|Alfonso|Science|     86|     A|        90|
|  Maria|      0|     56|     R|      null|
|Javiera|English|     77|      |        85|
| Andres|      0|   null|     A|      null|
|  Tomas|   Math|     69|     A|        70|
|   Raul|      0|       |     R|        50|
|  Pedro|English|   null|  null|        78|
+-------+-------+-------+------+----------+



#### isnan

Una expresión que devuelve true si la columna es NaN.

In [0]:
Buscar ejemplo