# Funciones SQL

In [None]:
import org.apache.spark.sql.SparkSession

In [None]:
val spark = SparkSession.builder.getOrCreate()

In [None]:
import spark.implicits._

In [None]:
import org.apache.spark.sql.types._

In [None]:
val MesaElectoralSchema = StructType(Seq(
    StructField("Distrito", IntegerType, false),
    StructField("Barrio", IntegerType, false),
    StructField("Seccion", IntegerType, false),
    StructField("Mesa", StringType, false),
    StructField("Censo", IntegerType, false),
    StructField("Abstencion", IntegerType, true),
    StructField("Nulos", IntegerType, true),
    StructField("Blanco", IntegerType, true),
    StructField("Emitidos", IntegerType, false))) 

In [None]:
object StringUtils {
    implicit class StringImprovements(val s:String) {
        import scala.util.control.Exception._
        def toIntSafe = catching(classOf[NumberFormatException]) opt s.toInt
    }
}

In [None]:
import StringUtils._

In [None]:
import org.apache.spark.sql.Row

In [None]:
def stringToRow(row:String):Row = {
    val x = row.split(";")
    Row(x(0).toInt, x(1).toInt, x(2).toInt, x(3).slice(0, 1), x(4).toInt, 
                    x(5).toIntSafe.getOrElse(null), x(7).toIntSafe.getOrElse(null), x(9).toIntSafe.getOrElse(null), 
                    (x(11).toInt + x(12).toInt + x(13).toInt + x(14).toInt +
                    x(15).toInt + x(16).toInt + x(17).toInt + x(18).toInt + x(19).toInt +
                    x(20).toInt + x(21).toInt + x(22).toInt + x(23).toInt + x(24).toInt +
                    x(25).toInt + x(26).toInt + x(27).toInt + x(28).toInt + x(29).toInt +
                    x(30).toInt + x(31).toInt + x(32).toInt))
}

In [None]:
val elecciones_2015_rdd = sc.textFile("hdfs:///eoi/s4/elecciones/Elecciones_2015_NH.csv")

In [None]:
val elecciones_2015 = elecciones_2015_rdd.map(r => stringToRow(r))

In [None]:
val elecciones_2015_DF = spark.createDataFrame(elecciones_2015, MesaElectoralSchema).cache

In [None]:
elecciones_2015_DF.show

In [None]:
elecciones_2015_DF.printSchema

In [None]:
elecciones_2015_DF.columns

In [None]:
elecciones_2015_DF.dtypes

In [None]:
import org.apache.spark.sql.functions._

# Ejemplo de funciones `Math`

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", 
                                    round(($"Emitidos" / $"Censo"),4) as "Participacion")

In [None]:
res.show

# Ejemplo de funciones `Sort`

In [None]:
val res_2 = res.sort(asc("Participacion"))

In [None]:
res_2.show

In [None]:
val res_2 = res.sort(asc("Participacion"))

In [None]:
res_2.show

# Ejemplo de funciones `String`

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", $"Mesa").head.getString(3)

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", lower($"Mesa")).head

# Ejemplo de funciones `Date-time`

In [None]:
val aux = elecciones_2015_DF.withColumn("Fecha", typedLit(1432418400))

In [None]:
aux.show()

In [None]:
val res = aux.withColumn("Fecha", from_unixtime($"Fecha"))

In [None]:
res.show

In [None]:
val res = aux.withColumn("Fecha", from_unixtime($"Fecha", "dd/MM/YYYY hh:mm:ss"))

In [None]:
res.show

# Ejemplo de funciones de agregación

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", 
                                    round(($"Emitidos" / $"Censo"),4) as "Participacion")

In [None]:
val res_2 = res.select(avg($"Participacion"), stddev($"Participacion"), min($"Participacion"), max($"Participacion"))

In [None]:
res_2.show

In [None]:
val res_3 = res.groupBy($"Barrio").agg(avg($"Participacion"), stddev($"Participacion"), min($"Participacion"), max($"Participacion"))


In [None]:
res_3.show

# Ejemplo de funciones `Window`

In [None]:
import org.apache.spark.sql.expressions.Window

In [None]:
val res = elecciones_2015_DF.filter($"Distrito" === 2).select($"Barrio", $"Seccion", $"Mesa", max($"Censo")
.over(Window.partitionBy($"Barrio", $"Seccion")) as "Max Censo Distrito")

In [None]:
res.show

In [None]:
val res = elecciones_2015_DF.filter($"Distrito" === 2).select($"Barrio", $"Seccion", $"Mesa", $"Censo", lag($"Censo", 1, -1)
.over(Window.partitionBy($"Barrio", $"Seccion").orderBy($"Barrio", $"Seccion", $"Mesa")) as "Anterior")
.sort($"Barrio", $"Seccion", $"Mesa")

In [None]:
res.show

# Ejemplo de funciones `UDF`

In [None]:
val bajaParticipacion = udf((participacion:Double) => if (participacion < 0.25) {true} else {false})

In [None]:
val altaParticipacion = spark.udf.register("Alta Participacion", 
                                           (participacion:Double) => if (participacion > 0.85) {true} else {false})

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", 
                                    round(($"Emitidos" / $"Censo"),4) as "Participacion",
                                    bajaParticipacion(($"Emitidos" / $"Censo")) as "Baja Participacion")

In [None]:
res.sort(desc("Participacion")).show

In [None]:
val res = elecciones_2015_DF.select($"Distrito", $"Barrio", $"Seccion", 
                                    round(($"Emitidos" / $"Censo"),4) as "Participacion",
                                    altaParticipacion(($"Emitidos" / $"Censo")) as "Alta Participacion")

In [None]:
res.sort(desc("Participacion")).show