Lo primero que haremos será crear la base de datos

In [0]:
%scala
spark.sql("CREATE DATABASE datos_padron")
spark.sql("USE datos_padron")

Creamos la tabla padron_txt con los campos del fichero CSV y cargamos los datos

In [0]:
%scala
spark.sql("DROP TABLE IF EXISTS padron_txt")
spark.sql("""CREATE TABLE padron_txt(
  COD_DISTRITO INT,
  DESC_DISTRITO STRING,
  COD_DIST_BARRIO INT,
  DESC_BARRIO STRING,
  COD_BARRIO INT,
  COD_DIST_SECCION INT,
  COD_SECCION INT,
  COD_EDAD_INT INT,
  EspanolesHombres INT,
  EspanolesMujeres INT,
  ExtranjerosHombres INT,
  ExtranjerosMujeres INT)
  ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES (
  "input.regex" = '"(\\d*)"\;"\\s*([^\\s]*)\\s*"\;"(\\d*)"\;"\\s*([^\\s]*)\\s*"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"\;"(\\d*)"'
  ) STORED AS TEXTFILE TBLPROPERTIES (
  "skip.header.line.count" = "1"
  )""")
spark.sql("LOAD DATA INPATH '/FileStore/shared_uploads/giovanni.rodriguez@bosonit.com/Rango_Edades.csv' INTO TABLE datos_padron.padron_txt")

Modificamos los datos de valor null a 0

In [0]:
%scala
spark.sql("""CREATE TABLE padron_txt_2 AS
  SELECT
    COD_DISTRITO,
    DESC_DISTRITO,
    COD_DIST_BARRIO,
    DESC_BARRIO,
    COD_BARRIO,
    COD_DIST_SECCION,
    COD_SECCION,
    COD_EDAD_INT,
    NVL(EspanolesHombres, 0) AS EspanolesHombres,
    NVL(EspanolesMujeres, 0) AS EspanolesMujeres,
    NVL(ExtranjerosHombres, 0) AS ExtranjerosHombres,
    NVL(ExtranjerosMujeres, 0) AS ExtranjerosMujeres
FROM padron_txt""")

Almacenamos la tabla en formato Parquet

In [0]:
%scala
spark.sql("""CREATE TABLE padron_parquet_2
  STORED AS parquet AS
  SELECT * FROM padron_txt_2""")

Calculamos el total de EspanolesHombres, EspanolesMujeres, ExtranjerosHombres y ExtranjerosMujeres agrupado por DESC_DISTRITO y DESC_BARRIO

In [0]:
%scala
spark.sql("""SELECT DESC_DISTRITO, DESC_BARRIO,
   SUM(EspanolesHombres) AS EspanolesHombres,
   SUM(EspanolesMujeres) AS EspanolesMujeres,
   SUM(ExtranjerosHombres) AS ExtranjerosHombres,
   SUM(ExtranjerosMujeres) AS ExtranjerosMujeres
FROM padron_parquet_2
GROUP BY DESC_DISTRITO, DESC_BARRIO""").show()

Creamos la tabla padron_particionado

In [0]:
%scala
spark.sql("DROP TABLE IF EXISTS padron_particionado")
spark.sql("""CREATE TABLE padron_particionado(
  COD_DISTRITO INT,
  COD_DIST_BARRIO INT,
  COD_BARRIO INT,
  COD_DIST_SECCION INT,
  COD_SECCION INT,
  COD_EDAD_INT INT,
  EspanolesHombres INT,
  EspanolesMujeres INT,
  ExtranjerosHombres INT,
  ExtranjerosMujeres INT)
PARTITIONED BY (DESC_DISTRITO STRING, DESC_BARRIO STRING)
STORED AS PARQUET""")

Insertamos los datos en ella

In [0]:
%scala
spark.sql("""INSERT INTO TABLE padron_particionado PARTITION(DESC_DISTRITO, DESC_BARRIO)
  SELECT
    COD_DISTRITO,
    COD_DIST_BARRIO,
    COD_BARRIO,
    COD_DIST_SECCION,
    COD_SECCION,
    COD_EDAD_INT,
    EspanolesHombres,
    EspanolesMujeres,
    ExtranjerosHombres,
    ExtranjerosMujeres,
    DESC_DISTRITO,
    DESC_BARRIO
  FROM padron_parquet_2""")

Calculamos la el total de EspanolesHombres, EspanolesMujeres, ExtranjerosHombres y ExtranjerosMujeres agrupado por DESC_DISTRITO y DESC_BARRIO para los distritos CENTRO, LATINA, CHAMARTIN, TETUAN, VICALVARO y BARAJAS

In [0]:
%scala
spark.sql("""SELECT
  DESC_DISTRITO, 
  DESC_BARRIO, 
  SUM(EspanolesHombres) AS EspanolesHombres,
  SUM(EspanolesMujeres) AS EspanolesMujeres,
  SUM(ExtranjerosHombres) AS ExtranjerosHombres,
  SUM(ExtranjerosMujeres) AS ExtranjerosMujeres
FROM padron_particionado
WHERE DESC_DISTRITO IN ('CENTRO', 'LATINA', 'CHAMARTIN', 'TETUAN', 'VICALVARO', 'BARAJAS') 
GROUP BY DESC_DISTRITO, DESC_BARRIO
ORDER BY DESC_DISTRITO""").show()

Algunas consultas de agregación

In [0]:
%scala
spark.sql("""SELECT DISTINCT
  DESC_BARRIO,
  COUNT(DESC_BARRIO) AS numBarrios,
  AVG(EspanolesHombres) AS AvgEspanolesHombres,
  MAX(EspanolesMujeres) AS maxEspanolesMujeres,
  MIN(ExtranjerosHombres) AS minExtranjerosHombres
FROM padron_particionado
GROUP BY DESC_DISTRITO, DESC_BARRIO
""").show()