Comenzamos realizando la misma práctica que hicimos en Hive en Spark, importando el csv. Sería recomendable intentarlo con opciones que quiten las "" de los campos, que ignoren los espacios innecesarios en los campos, que sustituyan los valores vacíos por 0 y que infiera el esquema.

In [0]:
%scala
import sqlContext.implicits._
import org.apache.spark.sql.functions._

val padronDf = spark.read
    .format("csv")
    .option("header", true)
    .option("inferSchema", true)
    .option("samplingRatio", 0.1)
    .option("delimiter", ";")
    .load("dbfs:/FileStore/shared_uploads/giovanni.rodriguez@bosonit.com/Rango_Edades.csv")
    .withColumn("DESC_DISTRITO", trim($"DESC_DISTRITO"))
    .withColumn("DESC_BARRIO", trim($"DESC_BARRIO"))
    .withColumn("EspanolesHombres", when(col("EspanolesHombres").isNull, 0).otherwise($"EspanolesHombres"))
    .withColumn("EspanolesHombres", when(col("EspanolesHombres").isNull, 0).otherwise($"EspanolesHombres"))
    .withColumn("EspanolesMujeres", when(col("EspanolesMujeres").isNull, 0).otherwise($"EspanolesMujeres"))
    .withColumn("ExtranjerosHombres", when(col("ExtranjerosHombres").isNull, 0).otherwise($"ExtranjerosHombres"))
    .withColumn("ExtranjerosMujeres", when(col("ExtranjerosMujeres").isNull, 0).otherwise($"ExtranjerosMujeres"))

Enumera todos los barrios diferentes.

In [0]:
%scala
padronDf.select("DESC_BARRIO").distinct().show()

Crea una vista temporal de nombre "padron" y a través de ella cuenta el número de barrios diferentes que hay.

In [0]:
%scala
padronDf.createOrReplaceTempView("padron")
spark.sql("SELECT DISTINCT count(COD_BARRIO) as Barrios FROM padron").show()

Crea una nueva columna que muestre la longitud de los campos de la columna DESC_DISTRITO y que se llame "longitud".

In [0]:
%scala
val padronLengthDf = padronDf.withColumn("longitud", length(col("DESC_DISTRITO")))
padronLengthDf.show()

Crea una nueva columna que muestre el valor 5 para cada uno de los registros de la tabla.

In [0]:
%scala
val padronValueDf = padronLengthDf.withColumn("valor", lit(5))
padronValueDf.show()

Borra esta columna.

In [0]:
%scala
val padronValueDropDf = padronValueDf.drop("valor")
padronValueDropDf.show()

Particiona el DataFrame por las variables DESC_DISTRITO y DESC_BARRIO. Almacénalo en caché.

In [0]:
%scala
val padronParticionado = padronValueDropDf.repartition($"DESC_DISTRITO", $"DESC_BARRIO")
padronParticionado.cache()

Lanza una consulta contra el DF resultante en la que muestre el número total de "espanoleshombres", "espanolesmujeres", extranjeroshombres" y "extranjerosmujeres" para cada barrio de cada distrito. Las columnas distrito y barrio deben ser las primeras en aparecer en el show. Los resultados deben estar ordenados en orden de más a menos según la columna "extranjerosmujeres" y desempatarán por la columna "extranjeroshombres".

In [0]:
%scala
padronParticionado.groupBy("DESC_DISTRITO", "DESC_BARRIO").agg(count("EspanolesHombres") as "EspanolesHombres", count("EspanolesMujeres")  as "EspanolesMujeres", count("ExtranjerosHombres") as "ExtranjerosHombres", count("ExtranjerosMujeres") as "ExtranjerosMujeres").orderBy(desc("EspanolesMujeres")).show()

Elimina el registro en caché.

In [0]:
%scala
padronParticionado.unpersist()

Crea un nuevo DataFrame a partir del original que muestre únicamente una columna con DESC_BARRIO, otra con DESC_DISTRITO y otra con el número total de "espanoleshombres" residentes en cada distrito de cada barrio. Únelo (con un join) con el DataFrame original a través de las columnas en común.

In [0]:
%scala
val countDf = spark.sql("SELECT DESC_BARRIO, DESC_DISTRITO, count(espanolesHombres) as EspanolesHombres FROM padron GROUP BY DESC_BARRIO, DESC_DISTRITO")

padronDf.join(countDf, "DESC_DISTRITO")

Repite la función anterior utilizando funciones de ventana. (over(Window.partitionBy.....)).

In [0]:
%scala
import org.apache.spark.sql.expressions.Window

val window = Window.partitionBy("DESC_BARRIO", "DESC_DISTRITO")
padronParticionado.withColumn("EspanolesHombres", count("espanolesHombres").over(window)).show()

Mediante una función Pivot muestra una tabla (que va a ser una tabla de contingencia) que contenga los valores totales (la suma de valores) de espanolesmujeres para cada distrito y en cada rango de edad (COD_EDAD_INT). Los distritos incluidos deben ser únicamente CENTRO, BARAJAS y RETIRO y deben figurar como columnas.

In [0]:
%scala
val padronEdadesDistrito = padronParticionado.where($"DESC_DISTRITO".isin("CENTRO", "BARAJAS", "RETIRO"))
                           .groupBy("COD_EDAD_INT")
                           .pivot("DESC_DISTRITO")
                           .agg(sum($"espanolesMujeres"))
                           .orderBy("COD_EDAD_INT")
padronEdadesDistrito.show()

Utilizando este nuevo DF, crea 3 columnas nuevas que hagan referencia a qué porcentaje de la suma de "espanolesmujeres" en los tres distritos para cada rango de edad representa cada uno de los tres distritos. Debe estar redondeada a 2 decimales.

In [0]:
%scala
padronEdadesDistrito.withColumn("totalEdades", expr("CENTRO + BARAJAS + RETIRO"))
                    .withColumn("AvgBarajas", expr("CAST(BARAJAS * 100 / totalEdades AS DECIMAL(38, 2))"))
                    .withColumn("AvgCentro", expr("CAST(CENTRO * 100 / totalEdades AS DECIMAL(38, 2))"))
                    .withColumn("AvgRetiro", expr("CAST(RETIRO * 100 / totalEdades AS DECIMAL(38, 2))"))
.drop("totalEdades").show()

Guarda el archivo csv original particionado por distrito y por barrio (en ese orden) en un directorio local. Consulta el directorio para ver la estructura de los ficheros y comprueba que es la esperada.

In [0]:
%scala
padronDf.write.format("csv").partitionBy("DESC_DISTRITO", "DESC_BARRIO").save("/tmp/padron")

In [0]:
%fs ls /tmp/padron

path,name,size,modificationTime
dbfs:/tmp/padron/DESC_DISTRITO=ARGANZUELA/,DESC_DISTRITO=ARGANZUELA/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=BARAJAS/,DESC_DISTRITO=BARAJAS/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=CARABANCHEL/,DESC_DISTRITO=CARABANCHEL/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=CENTRO/,DESC_DISTRITO=CENTRO/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=CHAMARTIN/,DESC_DISTRITO=CHAMARTIN/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=CHAMBERI/,DESC_DISTRITO=CHAMBERI/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=CIUDAD LINEAL/,DESC_DISTRITO=CIUDAD LINEAL/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=FUENCARRAL-EL PARDO/,DESC_DISTRITO=FUENCARRAL-EL PARDO/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=HORTALEZA/,DESC_DISTRITO=HORTALEZA/,0,0
dbfs:/tmp/padron/DESC_DISTRITO=LATINA/,DESC_DISTRITO=LATINA/,0,0
