In [None]:
from pyspark.sql import SparkSession
#create a SparkSession
spark = (SparkSession
    .builder
    .appName("Un poquito de Spark")
    .getOrCreate())

## La siguiente sección de la práctica se abordará si ya se tienen suficientes conocimientos de Spark, en concreto de el manejo de DataFrames, y el manejo de tablas de Hive a través de Spark.sql.

#### • 6.1) Comenzamos realizando la misma práctica que hicimos en Hive en Spark, importando el csv. Sería recomendable intentarlo con opciones que quiten las "" de los campos, que ignoren los espacios innecesarios en los campos, que sustituyan los valores vacíos por 0 y que infiera el esquema.

#### •6.2) De manera alternativa también se puede importar el csv con menos tratamiento en la importación y hacer todas las modificaciones para alcanzar el mismo estado de limpieza de los datos con funciones de Spark.

In [None]:
from pyspark.sql.types import *
from pyspark.sql.functions import *

df = (spark.read.csv("Rango_Edades_Seccion_202110.csv",
                    inferSchema = True,
                    header = True, 
                    sep = ';',
                    nanValue = 0)
      .cache()
     )

In [None]:
df = (df.select("COD_DISTRITO",
                 trim("DESC_DISTRITO").alias("DESC_DISTRITO"),
                 "COD_DIST_BARRIO",
                 trim("DESC_BARRIO").alias("DESC_BARRIO"),
                 "COD_BARRIO",
                 "COD_DIST_SECCION",
                 "COD_SECCION",
                 "COD_EDAD_INT",
                 "EspanolesHombres",
                 "EspanolesMujeres",
                 "ExtranjerosHombres",
                 "ExtranjerosMujeres"                 
        )
       .withColumn("EspanolesHombres",when(col("EspanolesHombres").isNull(), 0 )
                   .otherwise(col("EspanolesHombres")                             )
                  )
       .withColumn("EspanolesMujeres",when(col("EspanolesMujeres").isNull(), 0)
                   .otherwise(col("EspanolesMujeres")                             )
                  )
       .withColumn("ExtranjerosHombres",when(col("ExtranjerosHombres").isNull(), 0)
                   .otherwise(col("ExtranjerosHombres")                             )
                  )
       .withColumn("ExtranjerosMujeres",when(col("ExtranjerosMujeres").isNull(), 0)
                   .otherwise(col("ExtranjerosMujeres")                             )
                  )
     )

In [None]:
df.toPandas()

#### • 6.3) Enumera todos los barrios diferentes.

In [None]:
df.select("DESC_BARRIO").distinct().show(10)

#### • 6.4) Crea una vista temporal de nombre "padron" y a través de ella cuenta el número de barrios
diferentes que hay.

In [None]:
df.createOrReplaceTempView("Padron");

In [None]:
spark.sql("""SELECT COUNT(DISTINCT DESC_BARRIO) FROM Padron""").show()

#### 6.5) Crea una nueva columna que muestre la longitud de los campos de la columna DESC_DISTRITO y que se llame "longitud".

In [None]:
df1 = (df  
       .withColumn("longitud", length(col("DESC_DISTRITO")))
     )

In [None]:
df1.toPandas()

#### • 6.6) Crea una nueva columna que muestre el valor 5 para cada uno de los registros de la tabla.

In [None]:
df2 = (df  
       .withColumn("cinco", lit(5))
     )

In [None]:
df2.toPandas().head(1)

#### • 6.7) Borra esta columna.

In [None]:
df2 = df2.drop("cinco")

In [None]:
df2.toPandas().head(1)

#### • 6.8) Particiona el DataFrame por las variables DESC_DISTRITO y DESC_BARRIO.

In [None]:
from pyspark.sql import Window
column_list = ["DESC_DISTRITO","DESC_BARRIO"]

win_spec = Window.partitionBy(*column_list)

#### • 6.9) Almacénalo en caché. Consulta en el puerto 4040 (UI de Spark) de tu usuario local el estado de los rdds almacenados.

#### • 6.10) Lanza una consulta contra el DF resultante en la que muestre el número total de "espanoleshombres", "espanolesmujeres", extranjeroshombres" y "extranjerosmujeres" para cada barrio de cada distrito. Las columnas distrito y barrio deben ser las primeras en aparecer en el show. Los resultados deben estar ordenados en orden de más a menos según la columna "extranjerosmujeres" y desempatarán por la columna "extranjeroshombres".

In [None]:
spark.sql("""select DESC_DISTRITO,
       DESC_BARRIO,
       sum(cast(EspanolesHombres as int)) as EspanolesHombres, 
       sum(cast(espanolesMujeres as int)) as espanolesMujeres,
       sum(cast(ExtranjerosHombres as int)) as ExtranjerosHombres,
       sum(cast(ExtranjerosMujeres as int)) as ExtranjerosMujeres
from Padron
group by DESC_DISTRITO,DESC_BARRIO
order by ExtranjerosMujeres DESC, ExtranjerosHombres DESC;""").toPandas()

In [None]:
(df
 .select("DESC_DISTRITO",
         "DESC_BARRIO",
         "EspanolesHombres",
         "EspanolesMujeres",
         "ExtranjerosHombres",
         "ExtranjerosMujeres"
        )
 .groupBy ("DESC_DISTRITO","DESC_BARRIO")
 .agg(sum("EspanolesHombres").alias("EspanolesHombres"),
      sum("EspanolesMujeres").alias("EspanolesMujeres"),
      sum("ExtranjerosHombres").alias("ExtranjerosHombres"),
      sum("ExtranjerosMujeres").alias("ExtranjerosMujeres"))
 .orderBy(col("ExtranjerosMujeres").desc(),col("ExtranjerosHombres").desc())
 ).toPandas()

#### • 6.11) Elimina el registro en caché.

#### • 6.12) Crea un nuevo DataFrame a partir del original que muestre únicamente una columna con DESC_BARRIO, otra con DESC_DISTRITO y otra con el número total de "espanoleshombres" residentes en cada distrito de cada barrio. Únelo (con un join) con el DataFrame original a través de las columnas en común.

In [None]:
df.toPandas()

#### • 6.13) Repite la función anterior utilizando funciones de ventana. (over(Window.partitionBy.....)).

#### • 6.14) Mediante una función Pivot muestra una tabla (que va a ser una tabla de contingencia) que contenga los valores totales ()la suma de valores) de espanolesmujeres para cada distrito y en cada rango de edad (COD_EDAD_INT). Los distritos incluidos deben ser únicamente CENTRO, BARAJAS y RETIRO y deben figurar como columnas . El aspecto debe ser similar a este:
![image.png](attachment:image.png)

#### • 6.15) Utilizando este nuevo DF, crea 3 columnas nuevas que hagan referencia a qué porcentaje de la suma de "espanolesmujeres" en los tres distritos para cada rango de edad representa cada uno de los tres distritos. Debe estar redondeada a 2 decimales. Puedes imponerte la condición extra de no apoyarte en ninguna columna auxiliar creada para el caso. 

#### •  6.16) Guarda el archivo csv original particionado por distrito y por barrio (en ese orden) en un directorio local. Consulta el directorio para ver la estructura de los ficheros y comprueba que es la esperada.

#### • 6.17) Haz el mismo guardado pero en formato parquet. Compara el peso del archivo con el resultado anterior.