<h1 style="font-size:40px;"> Dataframe API </h1>

![spark](img/esquema2.png)

&nbsp;  
&nbsp;  
&nbsp;  

Spark es un framework muy global y nos puede servir para tratar textos, tablas e incluso imágenes y vídeo. Pero la realidad es que mucha de la información a procesar suele ser información estructuradas (tablas, ya sean en csv, parquet, hive o MySQL) y también información semi-estructurada (JSON y XML).

Para trabajar con esta información en spark existe la librería `DataFrame`, inspirada en SQL y por su puesto en los `DataFrame` de pandas. Esta librería es muy intuitiva, muy utilizada y con ella conseguimos una *performance* mucho más alta que con spark core.

![](img/dataframe.png)
<center>
    https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html
</center>

## Primeros pasos con `DataFrame` de spark

In [5]:
from pyspark import SparkConf
from pyspark.sql import SparkSession
import pyspark.sql.functions as F  ##F SON FUNCIONES DENTRO DE SPARK PARA TRABAJAR CON DATAFRAMES

import re
import numpy as np
import pandas as pd

In [6]:
conf = (

    SparkConf()
    .setAppName(u"[ICAI] Intro Pyspark")

)

In [7]:
spark = (

    SparkSession.builder
    .config(conf=conf)
    .enableHiveSupport()
    .getOrCreate()

)

El punto de entrada para trabajar con la librería de `DataFrame` es directamente `spark`:

In [2]:
readme = spark.read.text('/datos/README.md') 
    #cuando pongo sparkcontext estoy usando la parte spark core con RDDS
    #Si no pongo sc usara la API de dataframes 

NameError: name 'spark' is not defined

In [3]:
readme#CREA UNA UNICA COLUMNA QUE SE LLAMA VALUE

NameError: name 'readme' is not defined

In [6]:
type(readme)

pyspark.sql.dataframe.DataFrame

**NOTA:** No hay que confundir estos `DataFrame` que viven en spark con los `Dataframe` de pandas

In [7]:
type(pd.DataFrame(list(range(10))))

pandas.core.frame.DataFrame

In [8]:
readme.take(1)

[Row(value='# Apache Spark')]

In [9]:
readme.count()

103

Aunque el uso es parecido y serán muy fáciles de usar si conocemos *pandas*:

In [10]:
(
    # Leemos el fichero como `Dataframe`
    spark.read.text('/datos/README.md')
    
    # Dividimos cada línea por espacios y llamamos a la columna word
    #SELECT ES PARA SELECCIONAR COLUMNAS Y AQUI SOLO TENEMOS UNA COLUMNA (VALUE)
    .select(
        F.split(F.col('value'), "\s+").alias("word")
    )
    
    # Desplegamos cada línea generando más filas (similar al flatMap) UNA FILA POR PALABRA
    .withColumn('word',F.explode('word'))
    
    # Agrupamos y contamos
    .groupBy("word")
    .count()
    
    # Ordenamos de mayor a menor
    .orderBy(F.desc('count'))
    
# Mostramos los 10 primeros resultados
).limit(10).show()

+-----+-----+
| word|count|
+-----+-----+
|     |   47|
|  the|   24|
|   to|   17|
|Spark|   16|
|  for|   12|
|  and|    9|
|   ##|    9|
|    a|    8|
|  can|    7|
|   on|    7|
+-----+-----+



Podemos generar nuevos DataFrame basados en transformaciones de otros DataFrame igual que haciamos con RDD

In [11]:
wordcount = (

    # Leemos el fichero como `Dataframe`
    spark.read.text('/datos/README.md')
    
    # Dividimos cada línea por espacios y llamamos a la columna word
    .select(
        F.split(F.col('value'), "\s+").alias("word")
    )
    
    # Desplegamos cada línea generando más filas (similar al flatMap)
    .withColumn('word',F.explode('word'))
    
    # Agrupamos y contamos
    .groupBy("word")
    .count()  
)

Incluso podemos explora el `DAG`:

In [12]:
type(wordcount)

pyspark.sql.dataframe.DataFrame

In [13]:
wordcount.explain()

== Physical Plan ==
*(3) HashAggregate(keys=[word#40], functions=[count(1)])
+- Exchange hashpartitioning(word#40, 200)
   +- *(2) HashAggregate(keys=[word#40], functions=[partial_count(1)])
      +- Generate explode(word#37), false, [word#40]
         +- *(1) Project [split(value#35, \s+) AS word#37]
            +- *(1) FileScan text [value#35] Batched: false, Format: Text, Location: InMemoryFileIndex[hdfs://nameservice1/datos/README.md], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<value:string>


In [14]:
wordcount.cache()

DataFrame[word: string, count: bigint]

In [15]:
wordcount.is_cached

True

In [16]:
wordcount.count()

287

Palabras que aparecen 4 veces:

In [17]:
wordcount.filter(F.col('count') == 4).show()

+---------+-----+
|     word|count|
+---------+-----+
|      you|    4|
|     with|    4|
|      You|    4|
|   Please|    4|
|    build|    4|
|       an|    4|
|including|    4|
|       if|    4|
|     also|    4|
+---------+-----+



### Pandas y Spark

![](img/pandas_logo.png)

Al ser estructuras muy parecidas podemos cambiar de una a otra, teniendo en cuenta que si los datos son grandes no podemos trabajar en *pandas* (solo una máquina).

In [18]:
df = pd.DataFrame(np.random.randn(6,4),columns=list('ABCD'))
df['date'] = pd.date_range('20130101',periods=6).astype('str')

In [19]:
df_spark = spark.createDataFrame(df) #pasa de ser un pd a un datafraame que vive en el cluster en memoria

In [20]:
df_spark.printSchema()

root
 |-- A: double (nullable = true)
 |-- B: double (nullable = true)
 |-- C: double (nullable = true)
 |-- D: double (nullable = true)
 |-- date: string (nullable = true)



In [21]:
df_spark.show()

+--------------------+--------------------+-------------------+--------------------+----------+
|                   A|                   B|                  C|                   D|      date|
+--------------------+--------------------+-------------------+--------------------+----------+
|  1.1980535635286897|-0.24437765146820498|-0.9495248500522142| -0.3855850717703094|2013-01-01|
|   0.548011303239816| -1.1876165112511843|-0.7185140095517636|  1.2556876883555412|2013-01-02|
|-0.16064988157166102|  1.2356066991045929|  1.481917218911236| -1.0037837950240482|2013-01-03|
|  0.7404059554224549|  1.7408646367938128| -0.571144834151883|-0.04033065546495...|2013-01-04|
|    0.91473455953381| -1.4485160371047239| 1.4637898904303752|  1.1174684931238552|2013-01-05|
|  0.1735179626327817|-0.18960524296196218|0.43384817979954554| -1.1317267639525321|2013-01-06|
+--------------------+--------------------+-------------------+--------------------+----------+



In [22]:
nuevo_df = (

    df_spark
    .withColumn('nuevo', F.abs(F.col('A') -  F.col('B')) / F.abs(F.col('D'))) #crea una columna nueva o si ya existe la cambia
    .select('date','nuevo')

).toPandas()  ##COMO HACER UN COLLECT PERO YA EN FORMATO PANDAS

In [23]:
type(nuevo_df)

pandas.core.frame.DataFrame

In [24]:
nuevo_df

Unnamed: 0,date,nuevo
0,2013-01-01,3.74089
1,2013-01-02,1.382213
2,2013-01-03,1.390993
3,2013-01-04,24.806408
4,2013-01-05,2.114825
5,2013-01-06,0.320858


### Lectura de CSV

![](img/csv.png)
&nbsp;   

Hemos visto como crear DataFrames leyendo texto con `spark.read` o como crearlos desde *pandas*. Pero la potencía de spark `DataFrames` es trabajar con datos estructurados. Es decir registros con columnas y cada columna de tipos diferentes. Veamos ahora como leer csv desde el hdfs:

In [25]:
diamonds = spark.read.text('/datos/diamonds.csv') #lo lee todo sin formato

In [26]:
diamonds.show(4)

+--------------------+
|               value|
+--------------------+
|"carat","cut","co...|
|0.23,"Ideal","E",...|
|0.21,"Premium","E...|
|0.23,"Good","E","...|
+--------------------+
only showing top 4 rows



In [27]:
diamonds.take(4)

[Row(value='"carat","cut","color","clarity","depth","table","price","x","y","z"'),
 Row(value='0.23,"Ideal","E","SI2",61.5,55,326,3.95,3.98,2.43'),
 Row(value='0.21,"Premium","E","SI1",59.8,61,326,3.89,3.84,2.31'),
 Row(value='0.23,"Good","E","VS1",56.9,65,327,4.05,4.07,2.31')]

Usaremos `spark.read.csv`

In [28]:
diamonds = spark.read.csv('/datos/diamonds.csv') #por defecto el separador es la coma

In [29]:
diamonds.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)
 |-- _c7: string (nullable = true)
 |-- _c8: string (nullable = true)
 |-- _c9: string (nullable = true)



In [30]:
diamonds.show(3) #no ha sabido interpretar que la primera fila es los nombres

+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|  _c0|    _c1|  _c2|    _c3|  _c4|  _c5|  _c6| _c7| _c8| _c9|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|carat|    cut|color|clarity|depth|table|price|   x|   y|   z|
| 0.23|  Ideal|    E|    SI2| 61.5|   55|  326|3.95|3.98|2.43|
| 0.21|Premium|    E|    SI1| 59.8|   61|  326|3.89|3.84|2.31|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
only showing top 3 rows



Parece que no ha utilizado la cabecera, pero es una opción:

In [4]:
spark.read.csv?
#saber header, separador e inferSchema

Object `spark.read.csv` not found.


In [8]:
diamonds = spark.read.options(header=True).csv('/datos/diamonds.csv')

In [32]:
diamonds.printSchema() #HACER SIEMPRE ESTO PARA VER QUE LOS TIPOS SON CORRECTOS

root
 |-- carat: string (nullable = true)
 |-- cut: string (nullable = true)
 |-- color: string (nullable = true)
 |-- clarity: string (nullable = true)
 |-- depth: string (nullable = true)
 |-- table: string (nullable = true)
 |-- price: string (nullable = true)
 |-- x: string (nullable = true)
 |-- y: string (nullable = true)
 |-- z: string (nullable = true)



In [33]:
diamonds.show(3)

+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|carat|    cut|color|clarity|depth|table|price|   x|   y|   z|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
| 0.23|  Ideal|    E|    SI2| 61.5|   55|  326|3.95|3.98|2.43|
| 0.21|Premium|    E|    SI1| 59.8|   61|  326|3.89|3.84|2.31|
| 0.23|   Good|    E|    VS1| 56.9|   65|  327|4.05|4.07|2.31|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
only showing top 3 rows



Ya hemos arreglado las cabeceras, pero todos los campos son de tipo `string`. Por defecto será así, podemos pedir que infiera los tipos (aunque esto hará que tarde más la lectura):

In [34]:
diamonds = (
    
    spark.read
    .options(header=True, inferSchema=True) ##INFERIR ESQEUMA!! MUY IMP PARA QUE COJA LOS TIPOS
    .csv('/datos/diamonds.csv')
)
#si ya sabemos cual es el esquema se lopodemos poener aqui y seria lo mas ideal

In [35]:
diamonds.printSchema()

root
 |-- carat: double (nullable = true)
 |-- cut: string (nullable = true)
 |-- color: string (nullable = true)
 |-- clarity: string (nullable = true)
 |-- depth: double (nullable = true)
 |-- table: double (nullable = true)
 |-- price: integer (nullable = true)
 |-- x: double (nullable = true)
 |-- y: double (nullable = true)
 |-- z: double (nullable = true)



In [36]:
diamonds.show(3)

+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|carat|    cut|color|clarity|depth|table|price|   x|   y|   z|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
| 0.23|  Ideal|    E|    SI2| 61.5| 55.0|  326|3.95|3.98|2.43|
| 0.21|Premium|    E|    SI1| 59.8| 61.0|  326|3.89|3.84|2.31|
| 0.23|   Good|    E|    VS1| 56.9| 65.0|  327|4.05|4.07|2.31|
+-----+-------+-----+-------+-----+-----+-----+----+----+----+
only showing top 3 rows



In [37]:
##DOS MANERAS DE HACER FLITRADO
filtrado = ( 

    diamonds
    .filter("cut = 'Fair' ")
    .filter( F.col('clarity') == 'SI2' ) #ALGO MAS CORRECTO

)

In [38]:
filtrado.count()

466

In [39]:
filtrado.show(5)

+-----+----+-----+-------+-----+-----+-----+----+----+----+
|carat| cut|color|clarity|depth|table|price|   x|   y|   z|
+-----+----+-----+-------+-----+-----+-----+----+----+----+
| 0.86|Fair|    E|    SI2| 55.1| 69.0| 2757|6.45|6.33|3.52|
| 0.96|Fair|    F|    SI2| 66.3| 62.0| 2759|6.27|5.95|4.07|
| 0.91|Fair|    H|    SI2| 64.4| 57.0| 2763|6.11|6.09|3.93|
| 0.91|Fair|    H|    SI2| 65.7| 60.0| 2763|6.03|5.99|3.95|
| 0.98|Fair|    H|    SI2| 67.9| 60.0| 2777|6.05|5.97|4.08|
+-----+----+-----+-------+-----+-----+-----+----+----+----+
only showing top 5 rows



In [40]:
##lo hace mucho y es muy util
filtrado.limit(5).toPandas()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.86,Fair,E,SI2,55.1,69.0,2757,6.45,6.33,3.52
1,0.96,Fair,F,SI2,66.3,62.0,2759,6.27,5.95,4.07
2,0.91,Fair,H,SI2,64.4,57.0,2763,6.11,6.09,3.93
3,0.91,Fair,H,SI2,65.7,60.0,2763,6.03,5.99,3.95
4,0.98,Fair,H,SI2,67.9,60.0,2777,6.05,5.97,4.08


### Lectura desde Hive (LO VAMOS A USAR COMO METASTORE)

![](img/hive.png)
&nbsp;  

Spark es comtaible con Hive, esto quiere decir que podemos leer cualquier tabla almacenada allí. Muchas empresas usan Hive como su *Data Warehouse* de big data. Y poder acceder desde spark a estos datos nos aisla de dónde están los datos, en qué formato están almacenados y cómo están comprimidos.

Con `spark.catalog` podemos acceder a la información del metastore y listar las bases de datos, tablas, ect.

In [41]:
spark.catalog.currentDatabase() #nos dice cuales son las bases de datos por defecto

'default'

In [42]:
tablas = spark.catalog.listTables('palcalde') #tablas en la base de datos palcalde

In [43]:
tablas

[Table(name='airport', database='palcalde', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='airport_data', database='palcalde', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='airport_spark', database='palcalde', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='contents', database='palcalde', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='dns', database='palcalde', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='flume', database='palcalde', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='googletrends', database='palcalde', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='mastercard', database='palcalde', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='products_solr', database='palcalde', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='ratings', database='palcalde', desc

In [44]:
pd.DataFrame(tablas)

Unnamed: 0,name,database,description,tableType,isTemporary
0,airport,palcalde,,EXTERNAL,False
1,airport_data,palcalde,,EXTERNAL,False
2,airport_spark,palcalde,,EXTERNAL,False
3,contents,palcalde,,MANAGED,False
4,dns,palcalde,,EXTERNAL,False
5,flume,palcalde,,MANAGED,False
6,googletrends,palcalde,,EXTERNAL,False
7,mastercard,palcalde,,MANAGED,False
8,products_solr,palcalde,,MANAGED,False
9,ratings,palcalde,Imported by sqoop on 2017/11/11 10:06:52,MANAGED,False


Usamos `spark.table` para accerder a estas tablas, podemos hacerlo con `base_de_datos.nombre_de_la_tabla` o mejor, cambinado primero de base de datos:

In [45]:
##LEEER TABLAS
spark.table('palcalde.restaurants_avro')

DataFrame[url: string, _id: map<string,string>, address: string, address_line: string, name: string, outcode: string, postcode: string, rating: float, type_of_food: string]

In [46]:
spark.catalog.setCurrentDatabase('palcalde')

In [47]:
restaurantes = spark.table('restaurants_avro')

In [48]:
restaurantes.printSchema()

root
 |-- url: string (nullable = true)
 |-- _id: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)
 |-- address: string (nullable = true)
 |-- address_line: string (nullable = true)
 |-- name: string (nullable = true)
 |-- outcode: string (nullable = true)
 |-- postcode: string (nullable = true)
 |-- rating: float (nullable = true)
 |-- type_of_food: string (nullable = true)



In [49]:
restaurantes.show(4)

+--------------------+--------------------+-------------------+--------------+--------------------+-------+--------+------+------------+
|                 url|                 _id|            address|  address_line|                name|outcode|postcode|rating|type_of_food|
+--------------------+--------------------+-------------------+--------------+--------------------+-------+--------+------+------------+
|http://www.just-e...|[$oid -> 55f14312...|    Stella Building|    Washington|        Albany Spice|   NE37|     1BH|   4.5|       Curry|
|http://www.just-e...|[$oid -> 55f14312...|279 Manchester Road|West Yorkshire|           Albarakah|    HD4|     5AA|   4.5|       Curry|
|http://www.just-e...|[$oid -> 55f14312...|  18 Sir Isaac Walk|    Colchester|             Albatta|    CO1|     1JJ|   5.0|    Lebanese|
|http://www.just-e...|[$oid -> 55f14312...|    112 Gannow Lane|       Burnley|Alberto's Pizza &...|   BB12|     6QD|   5.5|       Kebab|
+--------------------+-------------------

In [50]:
restaurantes.limit(4).toPandas()

Unnamed: 0,url,_id,address,address_line,name,outcode,postcode,rating,type_of_food
0,http://www.just-eat.co.uk/restaurants-albany-s...,{'$oid': '55f14312c7447c3da7051d42'},Stella Building,Washington,Albany Spice,NE37,1BH,4.5,Curry
1,http://www.just-eat.co.uk/restaurants-albaraka...,{'$oid': '55f14312c7447c3da7051d43'},279 Manchester Road,West Yorkshire,Albarakah,HD4,5AA,4.5,Curry
2,http://www.just-eat.co.uk/restaurants-albatta-...,{'$oid': '55f14312c7447c3da7051d44'},18 Sir Isaac Walk,Colchester,Albatta,CO1,1JJ,5.0,Lebanese
3,http://www.just-eat.co.uk/restaurants-albertos...,{'$oid': '55f14312c7447c3da7051d45'},112 Gannow Lane,Burnley,Alberto's Pizza & Kebab House,BB12,6QD,5.5,Kebab


Una vez definido el `DataFrame` podemos trabajar como hasta ahora. Por ejemplo contar el número de restaurantes por tipo de cómida:

In [51]:
tipos_comida = restaurantes.groupBy('type_of_food').count().orderBy(F.desc('count'))

In [52]:
tipos_comida.show()

+--------------+-----+
|  type_of_food|count|
+--------------+-----+
|         Curry|  712|
|         Pizza|  387|
|       Chinese|  138|
|         Kebab|  127|
|  Fish & Chips|   99|
|      American|   83|
|       Turkish|   61|
|      Lebanese|   45|
|     Caribbean|   42|
|          Thai|   37|
|       Chicken|   37|
|       English|   24|
|       Burgers|   21|
|   Bangladeshi|   15|
|Middle Eastern|   13|
|     Peri Peri|   13|
|      Japanese|   12|
|         Grill|   11|
| Mediterranean|   11|
|       Persian|   10|
+--------------+-----+
only showing top 20 rows



Igual que leemos también podemos escribir en hive:

In [53]:
tipos_comida.write.mode('overwrite').saveAsTable('jayuso.tipos_comida')

Otros ejemplos, buscar la hamburguesa con mayor puntuación:

In [54]:
mejor_burguer = (

    restaurantes
    .filter("type_of_food = 'Burgers' ")
    .orderBy(F.desc('rating'))
    
).limit(1).toPandas()

In [55]:
mejor_burguer

Unnamed: 0,url,_id,address,address_line,name,outcode,postcode,rating,type_of_food
0,http://www.just-eat.co.uk/restaurants-beastgou...,{'$oid': '55f14313c7447c3da7052293'},64 Torwood Street,Torquay,Beast Gourmet Burgers,TQ1,1DT,6.0,Burgers


Vamos ahora a buscar el mejor restaurante del tipo de comida con más restaurantes:

In [56]:
hay_mas = restaurantes.groupBy('type_of_food').count().orderBy(F.desc('count')).first()[0]

In [57]:
hay_mas

'Curry'

In [58]:
(

    restaurantes
    .filter(F.col("type_of_food") == hay_mas)
    .orderBy(F.desc('rating'))
    
).limit(1).toPandas()

Unnamed: 0,url,_id,address,address_line,name,outcode,postcode,rating,type_of_food
0,http://www.just-eat.co.uk/restaurants-baltihut...,{'$oid': '55f14313c7447c3da7052149'},12 Pilkington Buildings,Middlesborough,Balti Hut,TS5,6DY,6.0,Curry


O podemos hacerlo usando `join` con una sola acción:

In [59]:
(

    restaurantes
    .join(

        restaurantes
        .groupBy('type_of_food')
        .count()
        .orderBy(F.desc('count'))
        .limit(1),
        'type_of_food',
        'leftsemi'

    )
    .orderBy(F.desc('rating'))
    
).limit(1).toPandas()

Unnamed: 0,type_of_food,url,_id,address,address_line,name,outcode,postcode,rating
0,Curry,http://www.just-eat.co.uk/restaurants-amina-st...,{'$oid': '55f14312c7447c3da7051e94'},5 Sutton Oak Corner,Birmingham,Amina,B74,2DH,6.0


La librería `DataFrame` también es comptabile con el lenguaje SQL, aunque por debajo también será un `DataFrame`:

In [60]:
spark.sql("""

select x.* from restaurants_avro x
inner join (
    
    select type_of_food, count(*) as N from restaurants_avro
    group by type_of_food
    order by N DESC
    limit 1

) y 
on x.type_of_food = y.type_of_food
order by rating DESC
limit 1

""").toPandas()

Unnamed: 0,url,_id,address,address_line,name,outcode,postcode,rating,type_of_food
0,http://www.just-eat.co.uk/restaurants-baltihut...,{'$oid': '55f14313c7447c3da7052149'},12 Pilkington Buildings,Middlesborough,Balti Hut,TS5,6DY,6.0,Curry


In [61]:
restaurantes.unpersist()

DataFrame[url: string, _id: map<string,string>, address: string, address_line: string, name: string, outcode: string, postcode: string, rating: float, type_of_food: string]

####  Al finalizar, siempre hay que cerrar la conexión de spark:

In [63]:
spark.stop()