In [None]:
import $file.common
import spark._
import common._
import org.apache.spark.sql.functions._
import org.apache.spark.rdd._
import org.apache.spark.sql.types.{IntegerType, StringType, StructType}
import org.apache.spark.sql.functions.{col, to_date}
import spark.implicits._
import spark.sqlContext.implicits._

In [None]:
import plotly._
import plotly.element._
import plotly.layout._
import plotly.Almond._

# Query 2: Media de infecciones por Superficie

Esta query utiliza dos conjuntos de datos, por una parte los datos de casos reportados diariemente por país y por otro lado una tabla de datos demográficos por país en la que encontramos la superficie de cada país.

El objetivo de la query es:
    - Agrupar los datos por paises
    - Obtener la tasa de infectados diarios por superficie (en Km^{2})
        - Para ello dividimos los casos diarios entre la superficie
    - Calcular la media de infecciones por superficie
    
De esta forma obtendremos la media de contagios por Km^{2}

# 1. Utilizando RDDs

In [None]:
def infections(lines : RDD[String]) : RDD[Infection] =
    lines.map(line => {
      val arr = line.split(",")
      Infection(
        day = arr(1).toInt,
        month = arr(2).toInt,
        year = arr(3).toInt,
        nCases = arr(4).toInt,
        nDeaths = arr(5).toInt,
        country = arr(6),
        continent = arr(10)
      )
    })

In [None]:
val infectionRDD = infections(spark.sparkContext.textFile("../datasets/data.csv"))

In [None]:
org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this)
case class Population(
    country : String, 
    population : Int, 
    density : Int, 
    land_area: Int, 
    ) 
extends Serializable

In [None]:
def populationData = spark.sparkContext.textFile("../datasets/population_by_country_2020.csv")

In [None]:
def population(lines : RDD[String]) : RDD[Population] =
    lines.mapPartitionsWithIndex(
                   (index, it) => if (index == 0) it.drop(1) else it,
                    preservesPartitioning = true
                 )
    .map(line => {
      val arr = line.split(",")
      Population(
        country = arr(0),
        population = arr(1).toInt,
        density = arr(4).toInt,
        land_area = arr(5).toInt,
      )
    })

In [None]:
def populationRDD = population(populationData)

### 1.1 RDD Sin optimizar

Aquí vemos una de las grandes desventajas de los RDDs, que al ser utilizados como colecciones y creados "a mano" no se aplican todas las optimizaciones que se pueden aplicar como en DF o DS gracias a Catalyst

Por ejemplo:

Un join computacionalmente pesado desde el principio ya que cruza todos los datos sin 
quedarnos con los que nos interesen

Spark no me deja hacer un Join de RDD que no sean pair RDD así que tenemos que construirlo

In [None]:
// populationRDD.join(infectionRDD)

Construyo Pair RDDs conservando todos los datos

In [None]:
def populationByCountry = populationRDD.map(
    x => (x.country,x))

def infectionByCountry = 
      infectionRDD.map(x => (x.country,x))

Hago el Join y agrupo por paises

In [None]:
def joinedRDD = infectionByCountry.join(populationByCountry).groupByKey()

Finalmente calculo la media

In [None]:
def meanRDD = joinedRDD.mapValues(
    x => x.map( 
        line => line._1.nCases.toFloat / line._2.land_area.toFloat
    )).mapValues(
    x => x.sum / x.size
)

Lo hago todo en una única operación para calcular el tiempo de ejecución

In [None]:
def query_RDD_Not_Optimized =
    infectionByCountry.join(populationByCountry)
    .groupByKey()
    .mapValues(
    x => x.map( 
        line => line._1.nCases.toFloat / line._2.land_area.toFloat)
    ).mapValues(
        x => x.sum / x.size
    )

### 1.2 Para optimizar un poco este RDD:

Despejo solo los datos que me interesan para trabajar con Pair RDDs y optimizar la consulta

In [None]:
def countriesAndLandArea = populationRDD.map(
    x => (x.country,x.land_area))

In [None]:
def countriesAndCases = 
      infectionRDD.map(x => (x.country,x.nCases))
      .groupByKey()

Ejecuto un join y trabajo para calcular primero la media de infecciones por Km2 diaria, 
para luego calcular la media total

In [None]:
def average = countriesAndCases.join(countriesAndLandArea)

In [None]:
def avg = average.mapValues(
    x => x._1.map(
        y => (y.toFloat / x._2.toFloat)
    )).mapValues(
    x => x.sum/x.size
)

Lo hago todo en una única operación para calcular el tiempo de ejecución

In [None]:
def query_RDD =
countriesAndCases.join(countriesAndLandArea)   
.mapValues(
    x => x._1.map(
        y => (y.toDouble / x._2.toDouble)
    )).mapValues(
    x => x.sum / x.size
)

# 2. Consulta con DataSet

In [None]:
val infectionDS = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("../datasets/covidworldwide.csv")
.withColumnRenamed("countriesAndTerritories","Country")
.as[(String,String,String,String,Double,Double,String,String,String,String,String,String)]

In [None]:
val populationDS = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("../datasets/population_by_country_2020.csv")
.withColumnRenamed("Country (or dependency)","Country")
.withColumnRenamed("Population (2020)","Population")
.withColumnRenamed("Land Area (Km\u00b2)","Area")
.as[(String,Float,String,Float,Float,Float,Double,String,String,String,String)]

In [None]:
def query_DS = 
infectionDS.join(populationDS, "Country")
        .select($"Country",
                $"dateRep" as "date",
                $"cases",
                $"Area",
                $"cases" / $"Area" as "infection Per Km\u00b2")
        .groupBy("Country")
        .avg("infection Per Km\u00b2")
        .orderBy(desc("avg(infection Per Km²)"))
        .as[(String,Double)]

# 3. Consulta con DataFrame

In [None]:
def dfCovid = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("../datasets/covidworldwide.csv")

In [None]:
def dfPopulation = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.option("inferSchema", "true")
.csv("../datasets/population_by_country_2020.csv")
.withColumnRenamed("Country (or dependency)","Country")
.withColumnRenamed("Population (2020)","Population")

Modifico los datos de entrada para que el formato fecha se adecue al TimeStamp de Spark

In [None]:
def dfCovidClean = dfCovid
    .select($"*",$"dateRep",translate($"dateRep","/","-").as("date"))
    .drop("dateRep")

In [None]:
def dfCovidDate = dfCovidClean
    .select($"*",col("date"),to_date(col("date"),"dd-MM-yyyy").as("to_date"))

Hago una consulta de prueba para obtener la media solo de los casos en España

In [None]:
def spainCovid = dfCovid
    .select("dateRep","cases")
    .where("countriesAndTerritories == 'Spain'").toDF

### Finalmente ejecuto la consulta de nuestro caso de uso, infecciones por Km2

In [None]:
def query_DF = 
dfCovid.join(dfPopulation, $"country" === $"countriesAndTerritories")
        .select($"country",
                $"dateRep" as "date",
                $"cases",
                $"Land Area (Km\u00b2)",
                $"cases" / $"Land Area (Km\u00b2)" as "infection Per Km\u00b2")
        .groupBy("country")
        .avg("infection Per Km\u00b2")
        .orderBy(desc("avg(infection Per Km²)"))

# 4. Visualización de rendimiento

In [None]:
val (x, y) = Seq(
    "Not Optimized RDD" -> runWithOutput(query_RDD_Not_Optimized.collect()),
    "RDD" -> runWithOutput(query_RDD.collect()),
    "DataSet" -> runWithOutput(query_DS.collect),
    "DataFrame" -> runWithOutput(query_DF.collect)
).unzip

Bar(x, y).plot()

# 5. Comparativas de rendimiento

In [None]:
spark.time(query_RDD_Not_Optimized.collect())

In [None]:
spark.time(query_RDD.collect())

In [None]:
spark.time(query_DS.collect())

In [None]:
spark.time(query_DF.collect())

In [None]:
ch.cern.sparkmeasure.StageMetrics(spark).runAndMeasure(query_RDD_Not_Optimized.collect)

In [None]:
ch.cern.sparkmeasure.StageMetrics(spark).runAndMeasure(query_RDD.collect)

In [None]:
ch.cern.sparkmeasure.StageMetrics(spark).runAndMeasure(query_DS.collect)

In [None]:
ch.cern.sparkmeasure.StageMetrics(spark).runAndMeasure(
    query_DF.collect
    )

# 6. Visualización de datos con plotly

In [None]:
val (x,y) = query_DF.collect.map(r=>(r(0).toString, r(1).toString.toFloat)).toList.unzip
Bar(x, y).plot()