# DataFrame API

In [None]:
import org.apache.spark.sql.SparkSession

In [None]:
val spark = SparkSession.builder.getOrCreate()

In [None]:
import spark.implicits._

In [None]:
import org.apache.spark.sql.types._

In [None]:
val MesaElectoralSchema = StructType(Seq(
    StructField("Distrito", IntegerType, false),
    StructField("Barrio", IntegerType, false),
    StructField("Seccion", IntegerType, false),
    StructField("Mesa", StringType, true),
    StructField("Censo", IntegerType, false),
    StructField("Abstencion", IntegerType, true),
    StructField("Nulos", IntegerType, true),
    StructField("Blanco", IntegerType, true),
    StructField("Emitidos", IntegerType, false))) 

In [None]:
object StringUtils {
    implicit class StringImprovements(val s:String) {
        import scala.util.control.Exception._
        def toIntSafe = catching(classOf[NumberFormatException]) opt s.toInt
        def toStringSafe = if (s.isEmpty) null else s
    }
}

In [None]:
import StringUtils._

In [None]:
import org.apache.spark.sql.Row

In [None]:
def stringToRow(row:String):Row = {
    val x = row.split(";")
    Row(x(0).toInt, x(1).toInt, x(2).toInt, x(3).toStringSafe, x(4).toInt, 
                    x(5).toIntSafe.getOrElse(null), x(7).toIntSafe.getOrElse(null), x(9).toIntSafe.getOrElse(null), 
                    (x(11).toInt + x(12).toInt + x(13).toInt + x(14).toInt +
                    x(15).toInt + x(16).toInt + x(17).toInt + x(18).toInt + x(19).toInt +
                    x(20).toInt + x(21).toInt + x(22).toInt + x(23).toInt + x(24).toInt +
                    x(25).toInt + x(26).toInt + x(27).toInt + x(28).toInt + x(29).toInt +
                    x(30).toInt + x(31).toInt + x(32).toInt))
}

In [None]:
val elecciones_2015_rdd = sc.textFile("hdfs:///eoi/s4/elecciones/Elecciones_2015_NH.csv")

In [None]:
val elecciones_2015 = elecciones_2015_rdd.map(r => stringToRow(r))

In [None]:
val elecciones_2015_DF = spark.createDataFrame(elecciones_2015, MesaElectoralSchema).cache

In [None]:
elecciones_2015_DF.show

In [None]:
elecciones_2015_DF.printSchema

In [None]:
elecciones_2015_DF.columns

In [None]:
elecciones_2015_DF.dtypes

# Ejemplo de `select`

In [None]:
val res = elecciones_2015_DF.select($"Distrito", 'Barrio)

In [None]:
res.show

In [None]:
val res = elecciones_2015_DF.select($"Distrito").distinct()

In [None]:
res.show(25)

In [None]:
val res = elecciones_2015_DF.select('Distrito + 100).distinct()

In [None]:
res.show(25)

# Ejemplo de `drop`

In [None]:
val res = elecciones_2015_DF.drop(Symbol("Distrito"))

In [None]:
res.show

# Ejemplo `filter`

In [None]:
val res = elecciones_2015_DF.filter($"Censo" < 473)

In [None]:
res.show()

# Ejemplo de `limit`

In [None]:
val res = elecciones_2015_DF.filter($"Censo" < 1000).limit(10)

In [None]:
res.show

# Ejemplo de `withColumnRenamed`

In [None]:
val res = elecciones_2015_DF.withColumnRenamed("Distrito", "Distrito-Num")

In [None]:
res.show

# Ejemplo de `withColumn`

In [None]:
val res = elecciones_2015_DF.withColumn("Participacion", $"Emitidos" / $"Censo")

In [None]:
res.show

# Ejemplo de `orderBy`

In [None]:
val res = elecciones_2015_DF.withColumn("Participacion", $"Emitidos" / $"Censo").orderBy($"Participacion".desc)

In [None]:
res.show

In [None]:
val res = elecciones_2015_DF.orderBy($"Censo".desc, $"Emitidos".desc)

In [None]:
res.show

In [None]:
val res = elecciones_2015_DF.orderBy(($"Emitidos" / $"Censo").desc)

In [None]:
res.show

# Ejemplo de `sort`

In [None]:
val res = elecciones_2015_DF.where($"Blanco" > 0).withColumn("Blancos (%)", $"Blanco" / $"Censo").sort($"Blancos (%)".desc)

In [None]:
res.show

# Ejemplo de funciones `Na`

In [None]:
val elecciones_2015_rdd_2 = sc.textFile("hdfs:///eoi/s4/elecciones/Elecciones_2015_NH_missing.csv")

In [None]:
val elecciones_2015_2 = elecciones_2015_rdd_2.map(r => stringToRow(r))

In [None]:
val elecciones_2015_DF_2 = spark.createDataFrame(elecciones_2015_2, MesaElectoralSchema).cache

In [None]:
elecciones_2015_DF_2.show

In [None]:
val elecciones_2015_DF_3 = elecciones_2015_DF_2.na.drop("any")

In [None]:
elecciones_2015_DF_3.show

In [None]:
val elecciones_2015_DF_3 = elecciones_2015_DF_2.na.drop(Array("Abstencion"))

In [None]:
elecciones_2015_DF_3.show

In [None]:
val elecciones_2015_DF_3 = elecciones_2015_DF_2.na.fill(Map("Abstencion" -> 0))

In [None]:
elecciones_2015_DF_3.show

In [None]:
val elecciones_2015_DF_3 = elecciones_2015_DF_2.na.fill(Map("Mesa" -> "U"))

In [None]:
elecciones_2015_DF_3.show

In [None]:
val elecciones_2015_DF_3 = elecciones_2015_DF_2.na.replace(Array("Distrito"), Map(1 -> 50))

In [None]:
elecciones_2015_DF_3.show