In [0]:
// Carga del DataFrame
val data = spark
    .read
    .option("inferSchema", "true")
    .option("header", "true")
    .option("delimiter", "\t")
    .csv("/Users/royerjmasache/Documents/fourthGrade/pAdvance/secondPeriod/project/Datos_ENEMDU_PEA_v2.csv")

In [1]:
// Definición del esquema de forma programable
import org.apache.spark.sql.types._
val dataSchema = StructType(
    Array(
        StructField("id", DecimalType(26, 0), true),
        StructField("year", IntegerType, true),
        StructField("month", IntegerType, true),
        StructField("province", IntegerType, true),
        StructField("canton", IntegerType, true),
        StructField("area", StringType, true),
        StructField("gender", StringType, true),
        StructField("age", IntegerType, true),
        StructField("status", StringType, true),
        StructField("instruction", StringType, true),
        StructField("ethnicity", StringType, true),
        StructField("salary", IntegerType, true),
        StructField("condition", StringType, true),
        StructField("sectorization", StringType, true),
        StructField("occupation", StringType, true),
        StructField("branch", StringType, true),
        StructField("factor", DoubleType, true)
    ));

In [2]:
// Envío de esquema
val data = spark
    .read
    .schema(dataSchema)
    .option("header", "true")
    .option("delimiter", "\t")
    .csv("/Users/royerjmasache/Documents/fourthGrade/pAdvance/secondPeriod/project/Datos_ENEMDU_PEA_v2.csv");

In [3]:
// Impresión del esquema
data.printSchema
// Impresión de la construcción del esquema
data.schema
// Visualización de columna elegida
data.select("branch").distinct().sort("branch").show(false)

In [4]:
// 1. ¿Cuántas personas de etnia "indigena" podemos encontrar en la rama: P enseñanza?
data.where($"branch" === "16 - P. Enseñanza" && $"ethnicity" === "1 - Indígena").groupBy("ethnicity").count.show

In [5]:
// 2. ¿Cuántas mujeres pertenecen a la rama: F. construccion?
data.select("branch","gender").where($"gender" === "2 - Mujer" && $"branch" === "06 - F. Construcción").count
data.where($"branch".isNull).count

In [6]:
// 3. ¿Cuál es la media de edad de trabajadores que estan en el area: No especificado?
val edadNoespecificado = data.select("age").where($"branch" === "22 - No especificado")
edadNoespecificado.select(mean("age")).show;

In [7]:
// 4. ¿Cuál es el sueldo maximo que se gana en la rama: A. Agricultura, ganadería caza y silvicultura y pesca?
val dataAgri = data.select("salary").where($"branch" === "01 - A. Agricultura, ganadería caza y silvicultura y pesca")
dataAgri.select(min("salary") as("Sueldo Minimo"), max("salary") as("Sueldo Maximo")).show

In [8]:
// 5. ¿Cuántas personas poseen una instrucción Superior Universitario en la rama 13?
data.select("branch", "instruction").where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"instruction" === "09 - Superior Universitario").groupBy("branch").count().show(false)

In [9]:
// 6. ¿Qué cantidad y qué porcentaje con respecto al total ocupan las personas con ocupación 02 dentro de la rama 13?
val group = data.where($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"occupation" === "02 - Profesionales científicos e intelectuales")
println(group.count)
println(f"${(group.count / data.select("branch").count.toDouble) * 100}%.2f%% Porcentaje de Profesionales científicos e intelectuales del total de datos")


In [10]:
// 7. ¿Cuántas personas existen pertenecientes a la rama 13 con un Post-grado, solteros y con un sueldo >= 3000?
val success = data.filter($"branch" === "13 - M. Actividades profesionales, científicas y técnicas" && $"instruction" === "10 - Post-grado")
success.where($"salary" >=  3000 && $"status"=== "6 - Soltero(a)").groupBy("branch").count().show(false)

In [11]:
// 8. ¿En qué cantidad y orden se encuentran las personas que ocupan la rama 11?
val filter = data.filter($"branch" === "11 - K. Actividades financieras y de seguros")
println(filter.count)
filter.where($"status" === "1 - Casado(a)" || $"status" === "2 - Separado(a)" || $"status" === "3 - Divorciado(a)" || $"status" === "4 - Viudo(a)" || $"status" === "5 - Unión libre" || $"status" === "6 - Soltero(a)").groupBy("status").count().sort(desc("count")).show(false)

In [12]:
// 9. Número de personas que pertencen a loja y a la rama Agricultura, ganadería caza y silvicultura y pesca
data.where($"branch" === "01 - A. Agricultura, ganadería caza y silvicultura y pesca" && $"province" === 11).groupBy("province").count().show(false)

In [13]:
// 10. Edad mínima para trabajar en la rama información y comunicación
val minedad = data.select("age").where($"branch" === "10 - J. Información y comunicación")
minedad.select(min("age")).show

In [14]:
// 11. ¿Cuántas mujeres están dentro de transporte y almacenamiento?
data.select("gender").where($"branch" === "08 - H. Transporte y almacenamiento" && $"gender" === "2 - Mujer" ).count


In [15]:
// 12. ¿Cuántos trabajadores hubo en el año 2015, en el área Actividades financieras y de seguros?
data.select("year").where($"branch" === "11 - K. Actividades financieras y de seguros" && $"year" === "2015").count 