In [0]:
val data = spark
    .read
    .option("inferSchema", "true")
    .option("header", "true")
    .option("delimiter", "\t")
    .csv("/Users/royerjmasache/Documents/course4/pAdvance/secondPeriod/project/Datos_ENEMDU_PEA_v2.csv")

In [1]:
// Definición del esquema de forma programable
import org.apache.spark.sql.types._
val dataSchema = StructType(
    Array(
        StructField("id", DecimalType(26, 0), true),
        StructField("year", IntegerType, true),
        StructField("month", IntegerType, true),
        StructField("province", IntegerType, true),
        StructField("canton", IntegerType, true),
        StructField("area", StringType, true),
        StructField("gender", StringType, true),
        StructField("age", IntegerType, true),
        StructField("status", StringType, true),
        StructField("instruction", StringType, true),
        StructField("ethnicity", StringType, true),
        StructField("salary", IntegerType, true),
        StructField("condition", StringType, true),
        StructField("sectorization", StringType, true),
        StructField("occupation", StringType, true),
        StructField("branch", StringType, true),
        StructField("factor", DoubleType, true)
    ));

In [2]:
// Envío de esquema
val data = spark
    .read
    .schema(dataSchema)
    .option("header", "true")
    .option("delimiter", "\t")
    .csv("/Users/royerjmasache/Documents/course4/pAdvance/secondPeriod/project/Datos_ENEMDU_PEA_v2.csv");

In [3]:
// Impresión del esquema
data.printSchema
// Impresión de la construcción del esquema
data.schema

**Pregunta 1**: ¿Cuántas personas de etnia "indigena" podemos encontrar en la rama: P enseñanza?

In [5]:
data.where($"branch" === "16 - P. Enseñanza" && $"ethnicity" === "1 - Indígena").groupBy("ethnicity").count().show()

**Pregunta 2**: ¿Cuántas mujeres pertenecen a la rama: F. construccion?

In [7]:
data.select("branch","gender").where($"gender" === "2 - Mujer" && $"branch" === "06 - F. Construcción").count
data.where($"branch".isNull).count()

**Pregunta 3**: ¿Cuál es la media de edad de trabajadores que estan en el area: No especificado?

In [9]:
val edadNoespecificado = data.select("age").where($"branch" === "22 - No especificado")
edadNoespecificado.select(mean("age")).show()

**Pregunta 4**: ¿Cuál es el sueldo maximo que se gana en la rama: A. Agricultura, ganadería caza y silvicultura y pesca?

In [11]:
val dataAgri = data.select("salary").where($"branch" === "01 - A. Agricultura, ganadería caza y silvicultura y pesca")
dataAgri.select(min("salary") as("Sueldo Minimo"), max("salary") as("Sueldo Maximo")).show()

**Pregunta 5**: ¿Cuántas personas poseen una instrucción Superior Universitario en la rama 13?

In [13]:
val higher = data.select("branch", "instruction").where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"instruction" === "09 - Superior Universitario")
higher.groupBy("branch").count().show(false)

**Pregunta 6**: ¿Qué cantidad y qué porcentaje con respecto al total ocupan las personas con ocupación 02 dentro de la rama 13?

In [15]:


val group = data.where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"occupation" === "02 - Profesionales científicos e intelectuales")
println(group.count())
val total = (group.count() / data.select("branch").count().toDouble) * 100
printf("El porcentaje respecto al total es de %.2f %%\n", total)

**Pregunta 7**: ¿Cuántas personas existen pertenecientes a la rama 13 con un Post-grado, solteros y con un sueldo >= 3000?

In [17]:
val success = data.filter($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"instruction" === "10 - Post-grado")
success.where($"salary" >=  3000 && $"status"=== "6 - Soltero(a)").groupBy("branch").count().show(false)


**Pregunta 8**: ¿En qué cantidad y estado civil se encuentran las personas que ocupan la rama 11?

In [19]:
val filter = data.filter($"branch" === "11 - K. Actividades financieras y de seguros")
filter.where($"status" === "1 - Casado(a)" || $"status" === "2 - Separado(a)" || $"status" === "3 - Divorciado(a)" || $"status" === "4 - Viudo(a)" || $"status" === "5 - Unión libre" || $"status" === "6 - Soltero(a)").groupBy("status").count().sort(desc("count")).show(false)

**Pregunta 9**: Número de personas que pertencen a loja y a la rama Agricultura, ganadería caza y silvicultura y pesca

In [21]:
data.where($"branch" === "01 - A. Agricultura, ganadería caza y silvicultura y pesca" && $"province" === 11).groupBy("province").count().show(false)

**Pregunta 10**: Edad mínima para trabajar en la rama información y comunicación


In [23]:
val minedad = data.select("age").where($"branch" === "10 - J. Información y comunicación")
minedad.select(min("age")).show()

**Pregunta 11**: ¿Cuántas mujeres están dentro de transporte y almacenamiento?

In [25]:
data.select("gender").where($"branch" === "08 - H. Transporte y almacenamiento" && $"gender" === "2 - Mujer" ).count()

**Pregunta 12**: ¿Cuántos trabajadores hubo en el año 2015, en el área Actividades financieras y de seguros?

In [27]:
data.select("year").where($"branch" === "11 - K. Actividades financieras y de seguros" && $"year" === "2015").count()

## Uso de crosstab, Pivot tables y z.show

### Análisis mejorado y visualización de Pregunta 1
¿Cuál es la frecuencia de hombres y mujeres existentes en las distintas categorías de nivel de estudio?

In [30]:
z.show(data.groupBy("branch").pivot("gender").count.orderBy("branch"))

### Análisis mejorado y visualización de Pregunta 2
¿Cuál es la actividad a la que se dedican las personas que son de etnia "Indigena"?

In [32]:
val etniaAct = data.where($"ethnicity" === "1 - Indígena").groupBy("branch").count.orderBy($"count".desc)
z.show(etniaAct.select($"branch" as ("Actividad"), $"count" as ("Total")));


###  Análisis mejorado y visualización de Pregunta 3
¿Cuál es la media de edad en cada área?

In [34]:
val meanEdad = data.groupBy("branch").agg(round(mean("age")).cast(IntegerType)).orderBy("CAST(round(avg(age), 0) AS INT)")
z.show(meanEdad.select($"branch" as ("Actividad"), $"CAST(round(avg(age), 0) AS INT)" as ("Edad Media")));


### Análisis mejorado y visualización de Pregunta 4
¿Cuál es el cambio de sueldo según los años en la rama A. Agricultura, ganadería caza y silvicultura y pesca?

In [36]:


z.show(data.where($"branch" === "01 - A. Agricultura, ganadería caza y silvicultura y pesca").groupBy("year").pivot("gender").agg(round(avg("salary")).cast(IntegerType)).orderBy("year"));

### Análisis mejorado y visualización de Pregunta 5
Ampliación de la columna *"instruction"* para una mejor obtención de información. Se compara crosstab y Pivot table

In [38]:
val academic = data.select("branch", "instruction").where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas")
academic.groupBy("branch")
// crosstab
val cross = academic.stat.crosstab("branch", "instruction").orderBy("branch_instruction")
cross.show()
// Pivot table
academic.groupBy("branch").pivot("instruction").count().orderBy("branch").show()

Mejor visualización mediante el uso de **z.show**

In [40]:
z.show(academic.groupBy("branch").pivot("instruction").count().orderBy("branch"))

### Análisis mejorado y visualización de pregunta 6
Ampliación y cálculo del porcentaje en función de la variable *"occupation"* y condición elegidas

In [42]:
val group2 = data.select("branch", "occupation").where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas")
group2.count()
val total = (group.count() / group2.count().toDouble) * 100
printf("El porcentaje respecto al total de la rama es de %.2f %%\n", total)

In [43]:
z.show(group2.groupBy("branch").pivot("occupation").count().orderBy("branch"))

### Análisis mejorado y visualización de Pregunta 7
Ampliación de variable elegida para un resumen de datos más comprensible

In [45]:


val success2 = data.select("branch", "instruction").where($"instruction" === "10 - Post-grado" && $"salary" >=  3000 && $"status"=== "6 - Soltero(a)").sort(desc("branch"))
z.show(success2.groupBy("branch").pivot("instruction").count().orderBy("branch"))

Visualización de **Pregunta 8**

In [47]:
z.show(filter.groupBy("branch").pivot("status").count().orderBy("branch"))

### Análisis