Al trabajar en Spark DataFrame a menudo necesitamos filtrar filas con valores NULL en las columnas del DataFrame, puedes hacerlo comprobando las condiciones IS NULL o IS NOT NULL.

En muchos casos los valores NULL en las columnas deben ser manejados antes de realizar cualquier operación en las columnas, ya que las operaciones en valores NULL resultan en valores inesperados. Por lo tanto, siempre es una buena práctica limpiar antes de procesar.

Nota: Spark no soporta la columna === null, cuando se utiliza devuelve un error.

Tenemos que manejar amablemente los valores nulos como el primer paso antes de procesar. Además, al escribir el DataFrame a los archivos, es una buena práctica para almacenar los archivos con valores NULL, ya sea por la caída de las filas con valores NULL en DataFrame o por la sustitución de los valores NULL con una cadena vacía.

Antes de empezar, vamos a crear un DataFrame con filas que contengan valores NULL.

In [1]:
val data = Seq(
("James",null,"M"),
("Anna","NY","F"),
("Julia",null,null)
)

import spark.implicits._

val columns = Seq("name","state","gender")
val df = data.toDF(columns:_*)

df.show()

Intitializing Scala interpreter ...

Spark Web UI available at http://ALC-1NJW5D3.usersad.everis.int:4045
SparkContext available as 'sc' (version = 3.3.0, master = local[*], app id = local-1656937853664)
SparkSession available as 'spark'


+-----+-----+------+
| name|state|gender|
+-----+-----+------+
|James| null|     M|
| Anna|   NY|     F|
|Julia| null|  null|
+-----+-----+------+



data: Seq[(String, String, String)] = List((James,null,M), (Anna,NY,F), (Julia,null,null))
import spark.implicits._
columns: Seq[String] = List(name, state, gender)
df: org.apache.spark.sql.DataFrame = [name: string, state: string ... 1 more field]


22/07/04 14:31:05 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped


Ahora, vamos a ver cómo filtrar las filas con valores nulos en DataFrame.

## Filtrar filas con valores ``NULL`` en DataFrame
En Spark, utilizando las funciones ``filter()`` o ``where()`` de DataFrame podemos filtrar filas con valores ``NULL`` comprobando ``IS NULL`` o ``isNULL``.

In [2]:
df.filter("state is NULL").show(false)
df.filter(df("state").isNull).show(false)
df.filter(col("state").isNull).show(false) //Required col function import

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|James|null |M     |
|Julia|null |null  |
+-----+-----+------+

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|James|null |M     |
|Julia|null |null  |
+-----+-----+------+

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|James|null |M     |
|Julia|null |null  |
+-----+-----+------+



Esto elimina todas las filas con valores nulos en la columna de estado y devuelve el nuevo DataFrame. Todos los ejemplos anteriores devuelven el mismo resultado.

También se puede escribir lo mismo utilizando

In [3]:
df.na.drop(Seq("state")).show(false)

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+



## Filtrar filas con NULL en múltiples columnas
Veamos cómo filtrar filas con valores NULL en múltiples columnas en DataFrame. Para ello puede utilizar los operadores AND o &&.

In [4]:
df.filter("state is NULL AND gender is NULL").show(false)
df.filter(df("state").isNull && df("gender").isNull).show(false)
df.filter(col("state").isNull && col("gender").isNull).show(false) //Required col function import

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|Julia|null |null  |
+-----+-----+------+

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|Julia|null |null  |
+-----+-----+------+

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|Julia|null |null  |
+-----+-----+------+



## Filtrar filas con ``IS NOT NULL`` o ``isNotNull``
``IS NOT NULL`` o ``isNotNull`` se utiliza para filtrar las filas que son ``NOT NULL`` en las columnas de Spark DataFrame.

In [5]:
df.filter("state is not NULL").show(false)
df.filter("NOT state is NULL").show(false)
df.filter(df("state").isNotNull).show(false)
df.filter(col("state").isNotNull).show(false) //Required col function import

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+



## Spark SQL Filtra filas con valores ``NULL``
Si estás familiarizado con Spark SQL, puedes comprobar ``IS NULL`` y ``IS NOT NULL`` para filtrar las filas del DataFrame.

In [6]:
df.createOrReplaceTempView("DATA")
spark.sql("SELECT * FROM DATA where STATE IS NULL").show(false)
spark.sql("SELECT * FROM DATA where STATE IS NULL AND GENDER IS NULL").show(false)
spark.sql("SELECT * FROM DATA where STATE IS NOT NULL").show(false)

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|James|null |M     |
|Julia|null |null  |
+-----+-----+------+

+-----+-----+------+
|name |state|gender|
+-----+-----+------+
|Julia|null |null  |
+-----+-----+------+

+----+-----+------+
|name|state|gender|
+----+-----+------+
|Anna|NY   |F     |
+----+-----+------+

