<h1 style="font-size:40px;"> Extendiendo Spark </h1>

![](img/spark-hub.jpg)


Cada vez la comunidad de Spark es más grande y podemos hacer más cosas, vamos a ver algunos ejemplos de qué más podemos hacer con Spark:

Empezamos iniciando la sesión:

In [1]:
import os
import pandas as pd
from functools import reduce

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import Row

import pyspark.sql.functions as F
import pyspark.sql.types as T
from pyspark.sql.window import Window

In [2]:
conf = (

    SparkConf()
    .setAppName(u"[ICAI] Extendiendo Spark")
    .set("spark.executor.memory","8g")
    .set("spark.executor.cores","5")
    .set("spark.jars.packages", "org.mongodb.spark:mongo-spark-connector_2.11:2.2.1") #para bajarse el jar y las dependecias 
                    #de mongodb

)

In [3]:
spark = (

    SparkSession.builder
    .config(conf=conf)
    .enableHiveSupport()
    .getOrCreate()

)

## UDF: *User Defined Functions*

Con las `UDF` podemos extender las funcionalidad de spark *DataFrame* igual que haciamos con los `RDD` y utilizar cualquier función de python. Veamos un ejemplo:
*Penalizan en tiempo. Si exsite el F.funcion hacerlo mejor asi!

In [4]:
audiencias = spark.read.load('/datos/ejercicio_audis/audiencias_large.parquet').cache()

In [5]:
cuantiles = (

    audiencias
    .select(F.expr(""" percentile_approx(segundos_visualizados,array(0,.25,.5,.75,1)) as cuantiles """))
    .first()[0]

)

In [6]:
cuantiles

[1, 183, 751, 2827, 83042]

In [7]:
import bisect

In [8]:
def findInterval(x):
    return bisect.bisect(cuantiles,x)

La función `findInterval` nos indica en qué intervalo se encuentra el valor de `x` respecto a los cuantiles.

In [9]:
findInterval(1000)

3

In [10]:
findInterval(4500)

4

Con `F.udf` convertimos la función `findInterval` para trabajar con spark, tenemos que definir el tipo que va a devolver (en este caso `integer`):

In [11]:
findInterval_udf = F.udf(findInterval,T.IntegerType()) #T.tipo que voy a devolver

In [12]:
audiencias_cuantiles = (
    
    audiencias
    .select(
        findInterval_udf('segundos_visualizados').alias('cuantil')
    )

)

In [13]:
audiencias_cuantiles.show(5)

+-------+
|cuantil|
+-------+
|      4|
|      3|
|      1|
|      1|
|      4|
+-------+
only showing top 5 rows



In [14]:
audiencias_cuantiles.describe().show()

+-------+-----------------+
|summary|          cuantil|
+-------+-----------------+
|  count|         51191302|
|   mean|2.499854877689964|
| stddev|1.118069930091352|
|    min|                1|
|    max|                5|
+-------+-----------------+



In [15]:
##MAS EFICIENTE QUE CON UNA UDF
prueba1 = (

    audiencias
    .select(
        F.lower(F.split('franja','_')[1]).alias('nuevo')
    )

)

In [16]:
prueba2 = (

    audiencias
    .select(
        ( F.udf(lambda x: (x.split('_')[1]).lower() )('franja') ).alias('nuevo')
    )

)

In [17]:
prueba1.show(5)

+---------+
|    nuevo|
+---------+
|   manana|
|primetime|
|madrugada|
|    tarde|
|    noche|
+---------+
only showing top 5 rows



In [18]:
prueba2.show(5)

+---------+
|    nuevo|
+---------+
|   manana|
|primetime|
|madrugada|
|    tarde|
|    noche|
+---------+
only showing top 5 rows



Las `UDF` son muy versátiles y nos abre un gran mundo de posibilidades pero son más lentas que usar las funciones de spark así que siempre que podamos usaremos estas últimas

## Pandas UDF

Las [Pandas UDF](https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html) fueron introducidas en Spark 2.3. Tienen la misma idea que las UDF pero con mayor *performance*:

![](./img/pandas_udf.png)

Estas funciones consiguen mayor velocidad gracias al proyecto [Apache Arrow](https://arrow.apache.org/):



![](img/apache_arrow.png)

*Manera de guardar datos de forma columnal. Escribe por bloques en tipo Arrow
*Recall: pandas por debajo es numpy

In [4]:
from pyspark.sql.functions import pandas_udf

In [20]:
x = audiencias.select('franja').limit(20).toPandas().franja

In [21]:
@pandas_udf(T.StringType()) #es lo mismo que pasar la x por el pandaUDF 
def pandas_tratar(x):
    return x.str.split('_',1).str[0].str.lower()

In [22]:
prueba5 = (

    audiencias
    .select(
        pandas_tratar('franja').alias('nuevo')
    )

)

In [23]:
prueba5.show(5)

+-----+
|nuevo|
+-----+
|finde|
|finde|
|finde|
|finde|
|entre|
+-----+
only showing top 5 rows



### Programación más compleja usando python

In [5]:
listas = spark.read.load('/datos/listas/listas.parquet')

In [6]:
items = spark.read.load('/datos/listas/item.parquet')

In [7]:
#para vemos cuantas cosas hay por categorias
(

    items
    .select(F.explode('categorias').alias('categorias'))
    .groupBy('categorias')
    .count()
    .orderBy(F.desc('count'))

).show()

+----------+-----+
|categorias|count|
+----------+-----+
|        16| 2141|
|       128|  721|
|        80|  286|
|         0|  274|
|       112|  239|
|        96|   39|
|        64|   30|
|        48|    1|
|      null|    1|
+----------+-----+



**Paso 1**: Queremos obtener los 20 primeros items para la categoría 16 para cada usuario y tipo.

In [8]:
listas_16 = (

    listas
    .join(
        items
        .filter(F.array_contains('categorias',16)), #filra las filas donde items tenga la categoria 16
        'id_item', #hacemos join por id_item
        'leftsemi' #tipo de join?
    )
    .withColumn(
        'rnk',
        F.row_number() #row_number no da repeticiones
        .over(
            Window
            .partitionBy('id_user','tipo')
            .orderBy(F.desc('rating'))
        )
    )
    .filter('rnk<=20') #cogemos los ranks<=20
    .drop('rating') #me cargo la variable rating porque ya no la necesita
    .withColumn('categoria',F.lit(16)) #F.lit es una columna que siempre vale 16

)

In [10]:
listas_16.show()

+-------+-------+----+---+---------+
|id_item|id_user|tipo|rnk|categoria|
+-------+-------+----+---+---------+
|   11.0|   36.0|azul|  1|       16|
|  101.0|   36.0|azul|  2|       16|
|  158.0|   36.0|azul|  3|       16|
|    7.0|   36.0|azul|  4|       16|
|   43.0|   36.0|azul|  5|       16|
|  344.0|   36.0|azul|  6|       16|
|  274.0|   36.0|azul|  7|       16|
|  115.0|   36.0|azul|  8|       16|
|   83.0|   36.0|azul|  9|       16|
|   14.0|   36.0|azul| 10|       16|
|   15.0|   36.0|azul| 11|       16|
|   30.0|   36.0|azul| 12|       16|
|  258.0|   36.0|azul| 13|       16|
|    1.0|   36.0|azul| 14|       16|
|  250.0|   36.0|azul| 15|       16|
|  123.0|   36.0|azul| 16|       16|
| 1789.0|   36.0|azul| 17|       16|
|  239.0|   36.0|azul| 18|       16|
|  110.0|   36.0|azul| 19|       16|
|  131.0|   36.0|azul| 20|       16|
+-------+-------+----+---+---------+
only showing top 20 rows



In [28]:
listas_16.groupBy('id_user','tipo').count().describe('count').show()

+-------+------------------+
|summary|             count|
+-------+------------------+
|  count|            161900|
|   mean| 19.98575046324892|
| stddev|0.3948110172107952|
|    min|                 1|
|    max|                20|
+-------+------------------+



**Paso 2**: Hacemos lo mismo para la categoría 112.

In [29]:
listas_112 = (

    listas
    .join(
        items
        .filter(F.array_contains('categorias',112)),
        'id_item',
        'leftsemi'
    )
    .withColumn(
        'rnk',
        F.row_number()
        .over(
            Window
            .partitionBy('id_user','tipo')
            .orderBy(F.desc('rating'))
        )
    )
    .filter('rnk<=20')
    .drop('rating')
    .withColumn('categoria',F.lit(112))

)

In [30]:
listas_112.groupBy('id_user','tipo').count().describe('count').show()

+-------+------------------+
|summary|             count|
+-------+------------------+
|  count|            160443|
|   mean|19.766272134028906|
| stddev| 1.887585046190908|
|    min|                 1|
|    max|                20|
+-------+------------------+



**Paso 3**: Unir las listas `.union` coge un dataframe y lo une con otro anadiendo las filas (tiene que tener el mismo numero de columnas y los mismos tipos

In [31]:
listas_unidas = (

    listas_16
    .union(listas_112)

)

In [32]:
listas_unidas.show()

+-------+-------+----+---+---------+
|id_item|id_user|tipo|rnk|categoria|
+-------+-------+----+---+---------+
|   11.0|   36.0|azul|  1|       16|
|  101.0|   36.0|azul|  2|       16|
|  158.0|   36.0|azul|  3|       16|
|    7.0|   36.0|azul|  4|       16|
|   43.0|   36.0|azul|  5|       16|
|  344.0|   36.0|azul|  6|       16|
|  274.0|   36.0|azul|  7|       16|
|  115.0|   36.0|azul|  8|       16|
|   83.0|   36.0|azul|  9|       16|
|   14.0|   36.0|azul| 10|       16|
|   15.0|   36.0|azul| 11|       16|
|   30.0|   36.0|azul| 12|       16|
|  258.0|   36.0|azul| 13|       16|
|    1.0|   36.0|azul| 14|       16|
|  250.0|   36.0|azul| 15|       16|
|  123.0|   36.0|azul| 16|       16|
| 1789.0|   36.0|azul| 17|       16|
|  239.0|   36.0|azul| 18|       16|
|  110.0|   36.0|azul| 19|       16|
|  131.0|   36.0|azul| 20|       16|
+-------+-------+----+---+---------+
only showing top 20 rows



**Paso 4**: Queremos construir un DF como `listas_unidas` para unas categorías dadas:

In [33]:
quiero = [16, 80, 112]

Creamos la funcion que hemos usado para la categoria 16 y la 112

In [34]:
def generar_lista(x):

    return (
        listas
        .join(
            items
            .filter(F.array_contains('categorias',x)),
            'id_item',
            'leftsemi'
        )
        .withColumn(
            'rnk',
            F.row_number()
            .over(
                Window
                .partitionBy('id_user','tipo')
                .orderBy(F.desc('rating'))
            )
        )
        .filter('rnk<=20')
        .drop('rating')
        .withColumn('categoria',F.lit(x))

    )

Usamos el `map` de python para gener una lista de `DF` de spark:

In [35]:
map(generar_lista,quiero) #hace lo mismo que lo de abajo

<map at 0x7f357206fb38>

In [None]:
[generar_lista(i) for i in quiero]
#generara una lista de 3 dataframes de pyspark

Con `reduce` unimos todos los `DFs`:

In [36]:
lista_final = reduce(lambda x,y: x.union(y), map(generar_lista,quiero)).cache()

In [37]:
lista_final

DataFrame[id_item: double, id_user: double, tipo: string, rnk: int, categoria: int]

In [38]:
lista_final.count()

9570210

In [39]:
lista_final.show()

+-------+-------+----+---+---------+
|id_item|id_user|tipo|rnk|categoria|
+-------+-------+----+---+---------+
|   11.0|   36.0|azul|  1|       16|
|  101.0|   36.0|azul|  2|       16|
|  158.0|   36.0|azul|  3|       16|
|    7.0|   36.0|azul|  4|       16|
|   43.0|   36.0|azul|  5|       16|
|  344.0|   36.0|azul|  6|       16|
|  274.0|   36.0|azul|  7|       16|
|  115.0|   36.0|azul|  8|       16|
|   83.0|   36.0|azul|  9|       16|
|   14.0|   36.0|azul| 10|       16|
|   15.0|   36.0|azul| 11|       16|
|   30.0|   36.0|azul| 12|       16|
|  258.0|   36.0|azul| 13|       16|
|    1.0|   36.0|azul| 14|       16|
|  250.0|   36.0|azul| 15|       16|
|  123.0|   36.0|azul| 16|       16|
| 1789.0|   36.0|azul| 17|       16|
|  239.0|   36.0|azul| 18|       16|
|  110.0|   36.0|azul| 19|       16|
|  131.0|   36.0|azul| 20|       16|
+-------+-------+----+---+---------+
only showing top 20 rows



In [40]:
lista_final.groupBy('id_user','tipo','categoria').count().describe('count').show()

+-------+------------------+
|summary|             count|
+-------+------------------+
|  count|            482918|
|   mean|19.817463834439803|
| stddev|1.6688515269853819|
|    min|                 1|
|    max|                20|
+-------+------------------+



## Spark Packages

En la web https://spark-packages.org/, podemos encontrar multitud de paquetes para ampliar el uso de spark. Veamos un ejemplo para conectar a [MongoDB](https://www.mongodb.com/) una base de datos de tipo NoSQL ampliamente utilizada.

![](img/mongo.png)

![](img/spark-connector.png)

En la configuración de spark hemos cargado este paquete de la siguiente manera:


```python
.set("spark.jars.packages", "org.mongodb.spark:mongo-spark-connector_2.11:2.2.1")
```



#### Leer
De este modo podemos leer un `DF` desde MongoDB:

In [41]:
pelis = (

    spark.read
    .format("com.mongodb.spark.sql.DefaultSource")
    .option("uri","mongodb://edge01.bigdata.alumnos.upcont.es/imdb.pelis")
    .load()

)

In [42]:
pelis.printSchema()

root
 |-- _id: struct (nullable = true)
 |    |-- oid: string (nullable = true)
 |-- ratingvalue: double (nullable = true)
 |-- titulo: string (nullable = true)



In [43]:
pelis.orderBy(F.desc('ratingvalue')).limit(10).toPandas()

Unnamed: 0,_id,ratingvalue,titulo
0,"(5dda6d63d572d75a3c424b0a,)",9.3,Cadena perpetua
1,"(5dda6d63d572d75a3c424b06,)",9.2,El padrino
2,"(5dda6d63d572d75a3c424b01,)",9.0,El padrino: Parte II
3,"(5dda6d63d572d75a3c424b05,)",9.0,El caballero oscuro
4,"(5dda6d63d572d75a3c424b02,)",8.9,Pulp Fiction
5,"(5dda6d63d572d75a3c424b03,)",8.9,12 hombres sin piedad
6,"(5dda6d63d572d75a3c424b08,)",8.9,"El bueno, el feo y el malo"
7,"(5dda6d63d572d75a3c424b07,)",8.9,El señor de los anillos: El retorno del rey
8,"(5dda6d63d572d75a3c424b04,)",8.9,La lista de Schindler
9,"(5dda6d63d572d75a3c424b09,)",8.8,El club de la lucha


#### Escribir
Del mismo modo podemos escribir en el mongodb:

In [44]:
catalogo = spark.read.json('/datos/catalogo.json')

In [45]:
catalogo.show()

+--------+------------+
|duracion|id_contenido|
+--------+------------+
|    7014|         171|
|    9177|        8599|
|     869|        7754|
|    7223|          14|
|    3600|        8418|
|    2324|        8004|
|    6671|        9852|
|    3848|        6577|
|    1245|       10412|
|     410|        9668|
|    4517|       10088|
|    7200|        2083|
|    1791|        8079|
|    5918|        6181|
|    5400|        3432|
|    7548|          28|
|    5457|        2794|
|    6902|        8903|
|    5360|        5436|
|    1852|        8104|
+--------+------------+
only showing top 20 rows



In [46]:
(
    catalogo
    .write.format("com.mongodb.spark.sql.DefaultSource")
    .mode("overwrite")
    .option("uri","mongodb://edge01.bigdata.alumnos.upcont.es")
    .option("database",os.environ.get('USER'))
    .option("collection", "catalogo")
    .save()
)

In [11]:
spark.stop()