# Optimización de Consultas

creamos la sesión de Spark

In [None]:
import $ivy.`org.apache.spark::spark-sql:2.4.5` 
//import $ivy.`sh.almond::almond-spark:0.6.0`

import org.apache.spark.sql.{NotebookSparkSession, SparkSession}

val spark: SparkSession = 
    NotebookSparkSession
      .builder()
      .appName("Queries Optimization")
      .master("local[*]")
      .getOrCreate()


#### JM: la ejecución de la celda anterior te devolverá el enlace a la Spark UI (al final del todo)

Logging

In [5]:
import org.slf4j.LoggerFactory
import org.apache.log4j.{Level, Logger}
Logger.getRootLogger().setLevel(Level.ERROR)

[32mimport [39m[36morg.slf4j.LoggerFactory
[39m
[32mimport [39m[36morg.apache.log4j.{Level, Logger}
[39m

imports

In [4]:
import spark.implicits._
import spark.sqlContext.implicits._
import org.apache.spark.sql._
import org.apache.spark.sql.{functions => func, _}
import org.apache.spark.sql.types._
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.{IntegerType, StringType, StructType}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark._
import org.apache.spark.sql.{functions => func, _}
import org.apache.spark.sql.types._, func._

[32mimport [39m[36mspark.implicits._
[39m
[32mimport [39m[36mspark.sqlContext.implicits._
[39m
[32mimport [39m[36morg.apache.spark.sql._
[39m
[32mimport [39m[36morg.apache.spark.sql.{functions => func, _}
[39m
[32mimport [39m[36morg.apache.spark.sql.types._
[39m
[32mimport [39m[36morg.apache.spark.rdd.RDD
[39m
[32mimport [39m[36morg.apache.spark.sql.SparkSession
[39m
[32mimport [39m[36morg.apache.spark.sql.types.{IntegerType, StringType, StructType}
[39m
[32mimport [39m[36morg.apache.spark.{SparkConf, SparkContext}
[39m
[32mimport [39m[36morg.apache.spark._
[39m
[32mimport [39m[36morg.apache.spark.sql.{functions => func, _}
[39m
[32mimport [39m[36morg.apache.spark.sql.types._, func._[39m

# Los Datos

El dataset ha sido obtenido de:
https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographic-distribution-covid-19-cases-worldwide

En el se observan los casos diarios de Covid-19 por país hasta el 14-12-20

En la segunda parte se utilizan los datos de las medidas aplicadas a cada país por fecha de inicio y fin:

https://www.ecdc.europa.eu/en/publications-data/download-data-response-measures-covid-19

La última consulta para calcular las infecciones por km2:

https://www.kaggle.com/tanuprabhu/population-by-country-2020

## Creo una clase para trabajar con infecciones 

#### JM: Creo que el error al que te refieres cuando utilizas dataset se debe a que no tienes esta primera línea en la siguiente celda:

In [3]:
org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this)

case class Infection(day : Int, 
                     month : Int, 
                     year : Int, 
                     nCases: Int, 
                     nDeaths : Int, 
                     country : String,  
                     continent : String) 
extends Serializable

defined [32mclass[39m [36mInfection[39m

Y un método para medir tiempos de ejecución

####  JM: este método está ya implementado en SparkSession: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/SparkSession.scala#L676 de todas formas, el dato más preciso lo encontrarás en la Spark UI. Investiga si es posible acceder a ese dato desde alguna api de spark.

In [None]:
def run[A](code: => A): A = {
    val start = System.currentTimeMillis()
    val res = code
    println(s"Took ${System.currentTimeMillis() - start}")
    res
}

# Empiezo trabajando con RDDs

In [11]:
val readFromFile = spark.sparkContext.textFile("data.csv")

[36mreadFromFile[39m: [32mRDD[39m[[32mString[39m] = data.csv MapPartitionsRDD[5] at textFile at cmd10.sc:1

Creo una funcion para trabajar con un RDD de infecciones

In [12]:
def infections(lines : RDD[String]) : RDD[Infection] =
    lines.map(line => {
      val arr = line.split(",")
      Infection(
        day = arr(1).toInt,
        month = arr(2).toInt,
        year = arr(3).toInt,
        nCases = arr(4).toInt,
        nDeaths = arr(5).toInt,
        country = arr(6),
        continent = arr(10)
      )
    })

defined [32mfunction[39m [36minfections[39m

Calculo la media de infecciones diarias por país

In [13]:
  def infectionGrowthAverage(infections : RDD[Infection]) : RDD[(String, Int)]= {

    val countriesAndCases : RDD[(String, Iterable[Int])] = 
      infections.map(x => (x.country,x.nCases))
      .groupByKey()
      
    countriesAndCases.mapValues(x => (x.sum / x.size)).sortBy(_._2)
  }

defined [32mfunction[39m [36minfectionGrowthAverage[39m

Muestro el resultado y el tiempo de ejecución

In [9]:
val infectionRDD = infections(readFromFile)


[36minfectionRDD[39m: [32mRDD[39m[[32mInfection[39m] = MapPartitionsRDD[3] at map at cmd6.sc:2

In [None]:
infectionRDD.toDF.show


#### JM: el tiempo de creación del RDD no es interesante; lo que quieres saber es el tiempo que tarda en _ejecutarse_

In [14]:

val infGrAvRDD = spark.time(infectionGrowthAverage(infectionRDD))


Time taken: 3778 ms


[36minfGrAvRDD[39m: [32mRDD[39m[([32mString[39m, [32mInt[39m)] = MapPartitionsRDD[13] at sortBy at cmd12.sc:7

In [15]:
spark.time(infGrAvRDD.collect)

Time taken: 472 ms


[36mres14[39m: [32mArray[39m[([32mString[39m, [32mInt[39m)] = [33mArray[39m(
  ([32m"Greenland"[39m, [32m0[39m),
  ([32m"British_Virgin_Islands"[39m, [32m0[39m),
  ([32m"\"Bonaire"[39m, [32m0[39m),
  ([32m"Fiji"[39m, [32m0[39m),
  ([32m"Vanuatu"[39m, [32m0[39m),
  ([32m"Saint_Vincent_and_the_Grenadines"[39m, [32m0[39m),
  ([32m"Solomon_Islands"[39m, [32m0[39m),
  ([32m"Holy_See"[39m, [32m0[39m),
  ([32m"Dominica"[39m, [32m0[39m),
  ([32m"Wallis_and_Futuna"[39m, [32m0[39m),
  ([32m"Grenada"[39m, [32m0[39m),
  ([32m"Marshall_Islands"[39m, [32m0[39m),
  ([32m"Anguilla"[39m, [32m0[39m),
  ([32m"Timor_Leste"[39m, [32m0[39m),
  ([32m"Saint_Kitts_and_Nevis"[39m, [32m0[39m),
  ([32m"Falkland_Islands_(Malvinas)"[39m, [32m0[39m),
  ([32m"Montserrat"[39m, [32m0[39m),
  ([32m"Northern_Mariana_Islands"[39m, [32m0[39m),
  ([32m"Seychelles"[39m, [32m0[39m),
  ([32m"Antigua_and_Barbuda"[39m, [32m0[39m),
  ([32m"

# Hago los mismos calculos con un DataFrame

Convierto el RDD obtenido previamente en un DataFrame para inferir la clase infección

In [None]:
val infectionDF = spark.createDataFrame(infectionRDD)


Utilizo los métodos de la clase DF que incluye uno optimizado para calcular la media.

Ejecuto y comprabamos como el tiempo de ejecución es significativamente menor que en RDD

In [None]:
val infAvgOrDF = infectionDF.
    groupBy("country")
    .avg("nCases")
    .orderBy(desc("avg(nCases)"))

In [None]:
infAvgOrDF.showHTML()

In [None]:
spark.time(infAvgOrDF.count)

In [None]:
spark.time(infAvgOrDF.collect)

#### JM: Está muy bien para entender bien qué es lo que está haciendo spark, pero no tenemos mucho espacio en la memoria, por lo que deberíamos centrarnos en las queries y los resultados.

Otra opción es crear el DataFrame directamente importando los datos pero deja de ser un DF de infecciones

In [None]:
val dfCovid = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("covidworldwide.csv")

In [None]:
dfCovid.schema

In [None]:
dfCovid.explain

In [None]:
run(dfCovid.toDF.groupBy("countriesAndTerritories")
    .agg(mean("cases")).orderBy("avg(cases)")).show(2000)

puedo definir el esquema manualmente para crear el DataFrame

In [None]:
//Defino el esquema manualmente pero podría verlo importando el csv y viendo como lo hace de base spark

val schema = new StructType()
    .add("dateRep",StringType,true)
    .add("day",IntegerType,true)
    .add("month",IntegerType,true)
    .add("year",IntegerType,true)
    .add("cases",IntegerType,true)
    .add("deaths",IntegerType,true)
    .add("countriesAndTerritories",StringType,true)
    .add("geoId",StringType,true)
    .add("countryterritoryCode",StringType,true)
    .add("popData2018",IntegerType,true)
    .add("continentExp",StringType,true)

In [None]:
val df = spark.read
.format("csv")
.option("header","true")
.schema(schema)
.load("data.csv")

In [None]:
df.printSchema()

In [None]:
df.show()

# Y con un DataSet

In [None]:
val infectionDS = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.csv("covidworldwide.csv")
.as[(String,String,String,String,String,String,String,String,String,String,String,String)]

In [None]:
run(
    infectionDS.groupBy($"countriesAndTerritories")
    .agg(avg($"cases").as[Double])
    .orderBy("avg(cases)")
    .count
    )

### Otras opciones menos eficientes
(Work in progress)

#### JM: No compila

In [None]:
infectionDS.groupByKey(p => p._7) //hace shuffling de los datos
        .mapValues(p => p._5.toDouble)
        .mapGroups((k,vs) => (???))

#### JM: para comparativas de eficiencia https://db-blog.web.cern.ch/blog/luca-canali/2018-08-sparkmeasure-tool-performance-troubleshooting-apache-spark-workloads

In [None]:
infectionDS.groupByKey(p => p._7) //mas eficiente con el reduce
        .mapValues(p => p._5.toDouble)
        .reduceGroups((acc,str)=> ???)


In [None]:
val infGrowAvg = new Aggregator[]{ //utilizando un Aggregator
    
}.toColumn 

### Intento trabajar con DataSet de infecciones Dataset[Infection] pero falla 
(Work in progress)

Esto nos dará error pues no se pueden crear datasets sin tipo de datos y no entiende las infecciones

In [8]:
val infectionDS = spark.createDataset(infections(readFromFile)).as[Infection]

[36minfectionDS[39m: [32mDataset[39m[[32mInfection[39m] = [day: int, month: int ... 5 more fields]

In [10]:
val ds : Dataset[Infection] = spark.createDataset(infectionRDD).as[Infection]

[36mds[39m: [32mDataset[39m[[32mInfection[39m] = [day: int, month: int ... 5 more fields]

Necesito importar los Encoders y explicitar el tipo de datos

In [None]:
import org.apache.spark.sql.Encoders
Encoders.product[Infection]

In [None]:
import org.apache.spark.sql.{Encoder, Encoders}
import org.apache.spark.sql.Encoders

val dataset = spark.createDataset(infectionRDD)(Encoders.product[Infection])

(A partir de aquí intento crear un DataSet de infecciones pero siempre obtengo el mismo error)

In [None]:
val infectionDS = spark.createDataset(infectionRDD).as[Infection]

In [None]:
  def infections(lines : Dataset[(String,String,String,String,String,String,String,String,String,String,String,String)]) 
                       : Dataset[Infection] = 
    lines.map(line => {
      Infection(
        day = line._1.toInt,
        month = line._2.toInt,
        year = line._3.toInt,
        nCases = line._4.toInt,
        nDeaths = line._5.toInt,
        country = line._6,
        continent = line._10
      )
    })

In [None]:
infections(infectionDS).as[Infection]

# Utilizo una segunda tabla y cruzo datos con RDD, DS y DF
(De momento solo uso DataFrames)

In [None]:
val dfMeasures = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("response_graphs_data_2021-04-15.csv")
dfMeasures.show
dfMeasures.schema

In [None]:
val dfPopulation = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("population_by_country_2020.csv")
dfPopulation.show
dfPopulation.schema

Modifico los datos de entrada para que el formato fecha se adecue al TimeStamp de Spark

In [None]:
val dfCovidClean = dfCovid.select($"*",$"dateRep",translate($"dateRep","/","-").as("new-date")).drop("dateRep").show()

Hago una consulta de prueba para obtener la media solo de los casos en España

In [None]:
val spainCovid = dfCovid.select("dateRep","cases").where("countriesAndTerritories == 'Spain'").toDF

In [None]:
run(spainCovid.agg(avg("cases"))).show

Cruzo los datos con un Join y hago algunas consultas sencillas

In [None]:
val megaDF = dfCovid.join(dfMeasures, $"Country" === $"countriesAndTerritories")//.schema

In [None]:
megaDF.select("cases","deaths","dateRep","Response_measure")
    .where("countriesAndTerritories == 'Spain'").show

In [None]:
run(dfCovid.join(dfMeasures, $"Country" === $"countriesAndTerritories")
        .select("cases","deaths","dateRep","Response_measure")
        .where("countriesAndTerritories == 'Spain'"))

## Creo una consulta para calcular la media de infecciones por Km2

#### JM: renombra las columnas en origen para no tener que escribir "Country (or dependency)"

#### JM: Está bien esta consulta, compara resultados con los casos por número de habitantes también

In [None]:
run(
dfCovid.join(dfPopulation, $"Country (or dependency)" === $"countriesAndTerritories")
        .select($"Country (or dependency)" as "Country",
                $"dateRep" as "date",
                $"cases",
                $"Land Area (Km\u00b2)",
                $"cases" / $"Land Area (Km\u00b2)" as "infection Per Km\u00b2")
        .groupBy("Country")
        .avg("infection Per Km\u00b2")
        .orderBy(desc("avg(infection Per Km²)"))
        .show
    )

# Notas y observaciones personales interesantes 

In [None]:
dfCovid.select("dateRep","countriesAndTerritories","cases").show //aplico los métodos de DFs

In [None]:
dfCovid.createOrReplaceTempView("covid") //se pueden aplicar consultas SQL sobre DF

spark.sql("SELECT * FROM covid WHERE countriesAndTerritories == 'Spain'").show

In [None]:
//filtrados sobre dataframes
dfCovid.filter($"continentExp" === "Asia" || $"continentExp" === "Europe").sort($"continentExp".asc).show()