In [0]:
//esquema para trabajar con el archivo csv

import org.apache.spark.sql.types._
val myDataSchema = StructType(
    Array(
        StructField("id_persona", DecimalType(26, 0), true), 
        StructField("anio", IntegerType, true), 
        StructField("mes", IntegerType, true), 
        StructField("provincia", IntegerType, true), 
        StructField("canton", IntegerType, true), 
        StructField("area", StringType, true), 
        StructField("genero", StringType, true), 
        StructField("edad", IntegerType, true), 
        StructField("estado_civil", StringType, true), 
        StructField("nivel_de_instruccion", StringType, true), 
        StructField("etnia", StringType, true), 
        StructField("ingreso_laboral", IntegerType, true), 
        StructField("condicion_actividad", StringType, true), 
        StructField("sectorizacion", StringType, true), 
        StructField("grupo_ocupacion", StringType, true), 
        StructField("rama_actividad", StringType, true), 
        StructField("factor_expansion", DoubleType, true)
    ));

In [1]:
//le damos al archivo el esquema establecido anteriormente
val data = spark
  .read
  .schema(myDataSchema)
//  .option("inferSchema", true)
  .option("header", "true")
  .option("delimiter", "\t")
  .csv("Datos_ENEMDU_PEA_v2.csv")

In [2]:
//¿Cuál es el porcentaje de indigenas (personas de población nativa u originaria del pais) con respecto al porcentaje total de personas 
//a las que se les tomo la encuesta?

val indg = data.where($"etnia" === "1 - Indígena");

	print(f"${(indg.count * 100)/data.count.toDouble}%.2f%% De Indígenas encuestados")

In [3]:

//¿Cuál es la clasificacion de indigenas con respecto a sus condicion laboral (condicion_actividad)?
print(f"${(indg.where($"condicion_actividad" === "1 - Empleo Adecuado/Pleno").count * 100)/indg.count.toDouble}%.2f%% Empleo Adecuado\n${(indg.where($"condicion_actividad" === "2 - Subempleo por insuficiencia de tiempo de trabajo").count * 100)/indg.count.toDouble}%.2f%% Subempleo por insuficiencia de trabajo\n${(indg.where($"condicion_actividad" === "4 - Otro empleo no pleno").count * 100)/indg.count.toDouble}%.2f%% Otro empleo no pleno\n${(indg.where($"condicion_actividad" === "5 - Empleo no remunerado").count * 100)/indg.count.toDouble}%.2f%% Empleo no remunerado\n${(indg.where($"condicion_actividad" === "6 - Empleo no clasificado").count * 100)/indg.count.toDouble}%.2f%% Empleo no clasificado\n${(indg.where($"condicion_actividad" === "7 - Desempleo abierto").count * 100)/indg.count.toDouble}%.2f%% Desempleo Abierto\n${(indg.where($"condicion_actividad" === "8 - Desempleo oculto").count * 100)/indg.count.toDouble}%.2f%% Desempleo Oculto")


In [4]:
//¿Cuál es la cantidad de Indígenas que estan con desempleo abierto(busqueda activamente de empleo durante el mes anterior a la encuesta sin exito)?

	indg.where($"condicion_actividad" === "7 - Desempleo abierto").count


In [5]:
//¿Cuál es el nivel de educación que tienen los Indígenas desempleados abiertamente?

	val indgEduc =  indg.where($"condicion_actividad" === "7 - Desempleo abierto") 

	indgEduc.groupBy("nivel_de_instruccion").count().as("cantidad").sort(desc("count")).show(false)

In [6]:
//¿Puede una persona Indigena con desempleo abierto, tener un ingreso laboral diferente de 0? ¿No es esto contradictorio? Compruebelo.
indgEduc.where($"ingreso_laboral" > 0)
indgEduc.where($"ingreso_laboral" > 0).count


In [7]:
/*
¿Cómo es posible que una persona con un "desempleo abierto" tenga un ingreso laboral que no sea 0?

	Se puede considerar varios posibles errores:
	
	Primero: La sentencia este mal escrita o con un error, lo cual es posible, pero se descarta al usar otra herramienta para comprobar 
	su veracidad (excel) en el cual demuestra usando filtros que existen encuestados indigenas, con desempleo oculto que tienen 
	un ingreso laboral mayor a 0.

	Segundo: El archivo de origen vino con defectos, otra opcion posible, pero tambien descartada cuando leemos los significados de cada
	columna.

	Posible Respuesta: La pagina web desde donde se proveyeron los datos, ofrece información acerca de que es el desempleo oculto y que 
	considera el mismo. Siendo asi el significado de esta variable "Personas sin empleo, que no estuvieron empleados en la semana pasada y que buscaron trabajo e
	hicieron gestiones concretas para conseguir empleo o para establecer algún negocio en las cuatro semanas anteriores a la entrevista."
	
	Se puede considerar como verdadera esta sentencia ya que, podemos deducir que el ingreso laboral que decretaron estas personas en la encuesta
	pertenece al ingreso laboral que recibian una semana antes de la encuesta, cuando aun estaban empleados.

In [8]:
//¿Cuál es el valor máximo y minimo que gana un indígena que tiene el nivel mas alto de estudios (Post-grado)?

	val indgEducPost = (indg.where($"nivel_de_instruccion" === "10 - Post-grado"))

	indgEducPost.select("ingreso_laboral").summary("max", "min").show()

In [9]:
//¿Existe una diferencia de salario que un indigena(post-grado) recibe de ingreso laboral máximo, con respecto al valor de ingreso laboral máximo de un ecuatoriano meztizo(post-grado)?
	
	indgEducPost.select(max("ingreso_laboral").as("Indigena(Post-grago), Máximo ingreso Laboral")).show()

In [10]:
//¿Qué porcentaje del salario maximo de un meztizo (Post-grado), recibe un indigina con las mismas características?

	print(f"Recibe el ${(5264 * 100)/30000.toDouble}%.2f%% del salario maximo de un meztizo con similares caracteristicas\n")

In [11]:
//se muestra el porcentaje de personas en condicion de actividad desempleo abrierto segun el area urbana o rural 
val des = (data.select("area","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("area").count)
des.select(des("area"),des("count")/622776 *100).show

In [12]:
//se muestra la media de ingresos por cada grupo de ocupacion
data.select("grupo_ocupacion","ingreso_laboral").groupBy("grupo_ocupacion").avg("ingreso_laboral").show

In [13]:
//se muestra la media de ingresos segun la zona  
data.select("area","ingreso_laboral").groupBy("area").avg("ingreso_laboral").show

In [14]:
//se muestra la media de ingresos segun el nivel de instruccion 
data.select("nivel_de_instruccion","ingreso_laboral").groupBy("nivel_de_instruccion").avg("ingreso_laboral").show

In [15]:
//se muestra el deseempleo abierto segun el nivel de educacion
data.select("nivel_de_instruccion","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("nivel_de_instruccion").count.sort(col("nivel_de_instruccion").desc).show

In [16]:
//se muestra el deseempleo abierto segun el estado civil

data.select($"estado_civil",$"condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("estado_civil").count.select($"estado_civil",
$"count"/622776 *100).show