**Array en Spark SQL**

Un **array** en Spark SQL es una colección ordenada de elementos del mismo tipo.
Los arrays permiten almacenar múltiples valores dentro de una sola columna y manipularlos de forma eficiente,
por ejemplo: filtrar, ordenar, eliminar duplicados, unir o dividir valores.

**¿Para qué sirven?**

📦 Agrupar información similar (por ejemplo, una lista de nombres, precios o coordenadas).
🔁 Recorrer datos fácilmente con bucles como for.
🔄 Aplicar transformaciones usando funciones como map(), filter() o reduce().
⚙️ Almacenar resultados de cálculos, consultas o transformaciones intermedias.
🧠 Facilitar el análisis y la manipulación de datos en proyectos de programación, ciencia de datos o machine learning.

**1.array_distinct(array<T>): array<T>**
Elimina duplicados dentro de una matriz

In [None]:
SELECT array_distinct(array(1, 2, 3, null, 3));

"array_distinct(array(1,2,3,NULL,3))"
"List(1, 2, 3, null)"


**2.array_intersect(array<T>, array<T>): array<T>**
Devuelve la intersección de dos matrices sin duplicados

In [None]:
SELECT array_intersect(array(1, 2, 3), array(1, 3, 5));

"array_intersect(array(1,2,3),array(1,3,5))"
"List(1, 3)"


**3.array_union(array<T>, array<T>): array<T>**
Devuelve la unión de dos matrices sin duplicados

In [None]:
SELECT array_union(array(1, 2, 3), array(1, 3, 5));

"array_union(array(1,2,3),array(1,3,5))"
"List(1, 2, 3, 5)"


**4.array_except(array<T>, array<T>): array<T>**
Devuelve elementos en la matriz1 pero no en la matriz2, sin duplicados

In [None]:
SELECT array_except(array(1, 2, 3), array(1, 3, 5));

"array_except(array(1,2,3),array(1,3,5))"
List(2)


**5.array_join(array<String>, String): String**
Concatena los elementos de una matriz utilizando un delimitador

In [None]:
SELECT array_join(array('hello', 'world'), ' ');

"array_join(array('hello','world'),' ')"
hello world


**6.array_max(array<T>): T**
Devuelve el valor máximo dentro de la matriz; se omiten los elementos nulos

In [None]:
SELECT array_max(array(1, 20, null, 3));

"array_max(array(1,20,NULL,3))"
20


**7.array_min(array<T>): T**
Devuelve el valor mínimo dentro de la matriz; se omiten los elementos nulos.

In [None]:
SELECT array_min(array(1, 20, null, 3));

"array_min(array(1,20,NULL,3))"
1


**8.slice(array<T>, Int, Int): array<T>**
Devuelve un subconjunto de la matriz dada a partir del índice dado (contando desde el final si el índice es negativo), de la longitud especificada.

In [None]:
SELECT slice(array(1, 2, 3, 4), -2, 2);

"slice(array(1,2,3,4),-2,2)"
"List(3, 4)"


**9.array_zip(array<T>, array<U>, ...): array<struct<T,U,...>>**
Devuelve una matriz fusionada de estructuras

In [None]:
SELECT arrays_zip(array(1, 2), array(2, 3), array(3, 4));

"arrays_zip(array(1,2),array(2,3),array(3,4))"
"List(List(1, 2, 3), List(2, 3, 4))"


**10.element_at(array<T>, Int): T**
Devuelve el elemento de la matriz dada en el índice dado (basado en 1)

In [None]:
SELECT element_at(array(1, 2, 3), 2);

"element_at(array(1,2,3),2)"
2


**11.cardinality(array<T>): Int**
Un alias de tamaño; devuelve el tamaño de la matriz dada o un mapa

In [None]:
SELECT cardinality(array('b', 'd', 'c', 'a'));

"cardinality(array('b','d','c','a'))"
4


**12.array_position(array<T>, T): Long**
Posición basada en 1 del primer elemento igual al valor

In [None]:
SELECT array_position(array(1, 2, 3), 3);

"array_position(array(1,2,3),3)"
3


**13.array_remove(array<T>, T): array<T>**
Elimina todos los elementos que son iguales al valor dado

In [None]:
SELECT array_remove(array(1, 2, 3, null, 3), 3);

"array_remove(array(1,2,3,NULL,3),3)"
"List(1, 2, null)"


**14.arrays_overlap(array<T>, array<T>): Boolean**
Devuelve verdadero si las dos matrices contienen al menos un elemento común

In [None]:
SELECT arrays_overlap(array(1, 2, 3), array(3, 4, 5));

"arrays_overlap(array(1,2,3),array(3,4,5))"
True


**15.array_sort(array<T>): array<T>**
Ordena la matriz de entrada en orden ascendente, con los elementos nulos colocados al final

In [None]:
SELECT array_sort(array('b', 'd', null, 'c', 'a'));

"array_sort(array('b','d',NULL,'c','a'))"
"List(a, b, c, d, null)"


**16.concat(array<T>, ...): array<T>**
Concatena matrices

In [None]:
SELECT concat(array(1, 2, 3), array(4, 5), array(6));

"concat(array(1,2,3),array(4,5),array(6))"
"List(1, 2, 3, 4, 5, 6)"


**17.flatten(array<array<T>>): array<T>**
Matrices anidadas en una única matriz

In [None]:
SELECT flatten(array(array(1, 2), array(3, 4)));

"flatten(array(array(1,2),array(3,4)))"
"List(1, 2, 3, 4)"


**18.array_repeat(T, Int): array<T>**
Crea una matriz que contiene el elemento dado repetido la cantidad de veces especificada

In [None]:
SELECT array_repeat('123', 3);

"array_repeat('123',3)"
"List(123, 123, 123)"


**19.reverse(array<T>): array<T>**
Devuelve la matriz invertida

In [None]:
SELECT reverse(array(2, 1, 4, 3));

"reverse(array(2,1,4,3))"
"List(3, 4, 1, 2)"


**20.sequence(Int, Int): array<Int>**
Genera una matriz de elementos desde el inicio hasta el final (inclusive) mediante pasos incrementales

In [None]:
SELECT sequence(1, 5);

"sequence(1,5)"
"List(1, 2, 3, 4, 5)"


**21.sequence(Int, Int, Int): array<Int>**

In [None]:
SELECT sequence(5, 1, -1);

"sequence(5,1,-1)"
"List(5, 4, 3, 2, 1)"


**22.sequence(date, date, interval): array<date>**

In [None]:
SELECT sequence(to_date('2018-01-01'), to_date('2018-03-01'), interval 1 month);

"sequence(to_date('2018-01-01'),to_date('2018-03-01'),INTERVAL1MONTH)"
"List(2018-01-01, 2018-02-01, 2018-03-01)"


**23.shuffle(array<T>): array<T>**
Devuelve una permutación aleatoria de la matriz dada

In [None]:
SELECT shuffle(array(1, 20, null, 3));

"shuffle(array(1,20,NULL,3))"
"List(null, 1, 3, 20)"


### 🚀 ¡Nos vemos en @caro.data!

Hasta aquí llegamos con este notebook, pero hay mucho más por aprender.  
Sigamos explorando juntos el mundo de los datos.  
**Nos vemos en el próximo notebook 👩‍💻💫**