En primer lugar, vamos a crear un DataFrame para trabajar con las funciones de agregación.

In [1]:
import spark.implicits._

val simpleData = Seq(("James", "Sales", 3000),
("Michael", "Sales", 4600),
("Robert", "Sales", 4100),
("Maria", "Finance", 3000),
("James", "Sales", 3000),
("Scott", "Finance", 3300),
("Jen", "Finance", 3900),
("Jeff", "Marketing", 3000),
("Kumar", "Marketing", 2000),
("Saif", "Sales", 4100))
val df = simpleData.toDF("employee_name", "department", "salary")

df.show()

Intitializing Scala interpreter ...

Spark Web UI available at http://ALC-1NJW5D3.usersad.everis.int:4043
SparkContext available as 'sc' (version = 3.3.0, master = local[*], app id = local-1656931783081)
SparkSession available as 'spark'


+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        James|     Sales|  3000|
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|        Maria|   Finance|  3000|
|        James|     Sales|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
|         Saif|     Sales|  4100|
+-------------+----------+------+



import spark.implicits._
simpleData: Seq[(String, String, Int)] = List((James,Sales,3000), (Michael,Sales,4600), (Robert,Sales,4100), (Maria,Finance,3000), (James,Sales,3000), (Scott,Finance,3300), (Jen,Finance,3900), (Jeff,Marketing,3000), (Kumar,Marketing,2000), (Saif,Sales,4100))
df: org.apache.spark.sql.DataFrame = [employee_name: string, department: string ... 1 more field]


22/07/04 12:50:02 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped


## Función agregada ```approx_count_distinct```
La función ```approx_count_distinct()``` devuelve el recuento de elementos distintos en un grupo.

In [2]:
//approx_count_distinct()
println("approx_count_distinct: "+ df.select(approx_count_distinct("salary")).collect()(0)(0))

22/07/04 12:50:10 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
approx_count_distinct: 6


## Función agregada ```collect_list()```
La función ```collect_list()``` devuelve todos los valores de una columna de entrada con duplicados.

In [3]:
//collect_list
df.select(collect_list("salary")).show(false)

+------------------------------------------------------------+
|collect_list(salary)                                        |
+------------------------------------------------------------+
|[3000, 4600, 4100, 3000, 3000, 3300, 3900, 3000, 2000, 4100]|
+------------------------------------------------------------+



## Función agregada ```collect_set()```
La función ```collect_set()``` devuelve todos los valores de una columna de entrada eliminando los valores duplicados.

In [4]:
//collect_set
df.select(collect_set("salary")).show(false)

+------------------------------------+
|collect_set(salary)                 |
+------------------------------------+
|[4600, 3000, 3900, 4100, 3300, 2000]|
+------------------------------------+



## Función agregada ```countDistinct()```
La función ```countDistinct()``` devuelve el número de elementos distintos en una columna.

In [5]:
//countDistinct
val df2 = df.select(countDistinct("department", "salary"))
df2.show(false)
println("Distinct Count of Department & Salary: "+ df2.collect()(0)(0))

+----------------------------------+
|count(DISTINCT department, salary)|
+----------------------------------+
|8                                 |
+----------------------------------+

Distinct Count of Department & Salary: 8


df2: org.apache.spark.sql.DataFrame = [count(DISTINCT department, salary): bigint]


## Función ```grouping()```
```grouping()``` Indica si una columna de entrada dada está agregada o no. Devuelve 1 si está agregada o 0 si no está agregada en el resultado. Si intenta agrupar directamente en la columna de salario obtendrá el siguiente error.

``Exception in thread "main" org.apache.spark.sql.AnalysisException:
  // grouping() can only be used with GroupingSets/Cube/Rollup``

## Función ``first()``
La función ``first()`` devuelve el primer elemento de una columna cuando ``ignoreNulls`` está establecido en true, devuelve el primer elemento no nulo.

In [6]:
//first
df.select(first("salary")).show(false)

+-------------+
|first(salary)|
+-------------+
|3000         |
+-------------+



## Función ``last()``
La función ``last()`` devuelve el último elemento de una columna. cuando ``ignoreNulls`` se establece en true, devuelve el último elemento no nulo.

In [7]:
//last
df.select(last("salary")).show(false)

+------------+
|last(salary)|
+------------+
|4100        |
+------------+



## Función ``kurtosis()``
La función ``kurtosis()`` devuelve la curtosis de los valores de un grupo.

**Curtosis:**
La curtosis de una variable estadística/aleatoria es una característica de forma de su distribución de frecuencias/probabilidad.

Según su concepción clásica, una curtosis grande implica una mayor concentración de valores de la variable tanto muy cerca de la media de la distribución (pico) como muy lejos de ella (colas), al tiempo que existe una relativamente menor frecuencia de valores intermedios. Esto explica una forma de la distribución de frecuencias/probabilidad con colas más gruesas, con un centro más apuntado y una menor proporción de valores intermedios entre el pico y colas.

Una mayor curtosis no implica una mayor varianza, ni viceversa.

In [8]:
df.select(kurtosis("salary")).show(false)

+-------------------+
|kurtosis(salary)   |
+-------------------+
|-0.6467803030303032|
+-------------------+



## Función``skewness()``
La función ``skewness()`` devuelve la asimetría de los valores de un grupo.

In [9]:
df.select(skewness("salary")).show(false)

+--------------------+
|skewness(salary)    |
+--------------------+
|-0.12041791181069571|
+--------------------+



## ``stddev()``, ``stddev_samp()`` y ``stddev_pop()``
``stddev()`` alias de ``stddev_samp``.

La función ``stddev_samp()`` devuelve la desviación estándar muestral de los valores de una columna.

La función ``stddev_pop()`` devuelve la desviación estándar poblacional de los valores de una columna.

In [10]:
df.select(stddev("salary"), stddev_samp("salary"), stddev_pop("salary")).show(false)

+-------------------+-------------------+------------------+
|stddev_samp(salary)|stddev_samp(salary)|stddev_pop(salary)|
+-------------------+-------------------+------------------+
|765.9416862050705  |765.9416862050705  |726.636084983398  |
+-------------------+-------------------+------------------+



## Función ``sumDistinct()``
La función ``sumDistinct()`` devuelve la suma de todos los valores distintos de una columna.

In [11]:
df.select(sumDistinct("salary")).show(false)

+--------------------+
|sum(DISTINCT salary)|
+--------------------+
|20900               |
+--------------------+



## ``variance()``, ``var_samp()``, ``var_pop()``
``varianza()`` alias de ``var_samp()``.

La función ``var_samp()`` devuelve la varianza insesgada de los valores de una columna.

La función ``var_pop()`` devuelve la varianza poblacional de los valores de una columna.

In [12]:
df.select(variance("salary"),var_samp("salary"),var_pop("salary")).show(false)

+-----------------+-----------------+---------------+
|var_samp(salary) |var_samp(salary) |var_pop(salary)|
+-----------------+-----------------+---------------+
|586666.6666666666|586666.6666666666|528000.0       |
+-----------------+-----------------+---------------+

