Spark SQL proporciona funciones de ordenación estándar incorporadas definidas en la API de DataFrame, que resultan útiles cuando necesitamos ordenar la columna de DataFrame. Todas ellas aceptan como entrada el nombre de la columna en forma de cadena y devuelven un tipo de columna.

Cuando sea posible, intente aprovechar la biblioteca estándar, ya que son un poco más seguras en tiempo de compilación, manejan los nulos y tienen un mejor rendimiento en comparación con las UDF. Si su aplicación es crítica en cuanto al rendimiento, intente evitar el uso de UDF personalizados a toda costa, ya que los UDF no garantizan el rendimiento.

Las funciones de ordenación de Spark SQL se agrupan como "sort_funcs" en Spark SQL, estas funciones de ordenación son útiles cuando queremos realizar cualquier operación ascendente y descendente en las columnas.

Se utilizan principalmente en la función de ordenación del Dataframe o Dataset.

In [1]:
import spark.implicits._

val simpleData = Seq(("James", "Sales", 3000),
("Michael", "Sales", 4600),
("Robert", "Sales", 4100),
("Maria", "Finance", 3000),
("James", "Sales", 3000),
("Scott", "Finance", 3300),
("Jen", "Finance", 3900),
("Jeff", "Marketing", 3000),
("Kumar", "Marketing", 2000),
("Saif", "Sales", 4100))
val df = simpleData.toDF("employee_name", "department", "salary")

df.show()

Intitializing Scala interpreter ...

Spark Web UI available at http://ALC-1NJW5D3.usersad.everis.int:4044
SparkContext available as 'sc' (version = 3.3.0, master = local[*], app id = local-1656934263400)
SparkSession available as 'spark'


+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        James|     Sales|  3000|
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
|         Saif|     Sales|  4100|
+-------------+----------+------+



import spark.implicits._
simpleData: Seq[(String, String, Int)] = List((James,Sales,3000), (Michael,Sales,4600), (Robert,Sales,4100), (Maria,Finance,3000), (James,Sales,3000), (Scott,Finance,3300), (Jen,Finance,3900), (Jeff,Marketing,3000), (Kumar,Marketing,2000), (Saif,Sales,4100))
df: org.apache.spark.sql.DataFrame = [employee_name: string, department: string ... 1 more field]


22/07/04 13:31:15 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped


## Función ascendente``asc()``
La función ``asc()`` se utiliza para especificar el orden ascendente de la columna de ordenación en DataFrame o DataSet.

In [2]:
df.orderBy(asc("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        Kumar| Marketing|  2000|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|      Michael|     Sales|  4600|
+-------------+----------+------+



## Función ascendendte con los nulos primero ``asc_nulls_first()``
Similar a la función ``asc()`` pero los valores nulos vuelven primero y luego los no nulos.

In [3]:
df.orderBy(asc_nulls_first("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        Kumar| Marketing|  2000|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|      Michael|     Sales|  4600|
+-------------+----------+------+



## Función ascendente con los nulos al final ``asc_nulls_last()`` 
Similar a la función ``asc()`` pero los valores no nulos vuelven primero y luego los nulos.

In [4]:
df.orderBy(asc_nulls_last("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        Kumar| Marketing|  2000|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|      Michael|     Sales|  4600|
+-------------+----------+------+



## Función descendente ``desc()``
La función ``desc()`` se utiliza para especificar el orden descendente de la columna de ordenación del DataFrame o DataSet.

In [5]:
df.orderBy(desc("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|          Jen|   Finance|  3900|
|        Scott|   Finance|  3300|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
+-------------+----------+------+



## Función descendente con los nulos primero ``desc_nulls_first()``
Similar a la función ``desc()``, pero los valores nulos regresan primero y luego los no nulos.

In [6]:
df.orderBy(desc_nulls_first("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|          Jen|   Finance|  3900|
|        Scott|   Finance|  3300|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
+-------------+----------+------+



## Función descendente con los nulos en último lugar ``desc_nulls_last()`` 
Similar a la función ``desc()`` pero los valores no nulos vuelven primero y luego los nulos.

In [7]:
df.orderBy(desc_nulls_last("Salary")).show()

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|         Saif|     Sales|  4100|
|          Jen|   Finance|  3900|
|        Scott|   Finance|  3300|
|        James|     Sales|  3000|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
+-------------+----------+------+

