In [0]:
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._
val myDataSchema = StructType(
  Array(
    StructField("id",DecimalType(26, 0),true),
    StructField("anio",IntegerType,true),
    StructField("mes",IntegerType,true),
    StructField("provincia",IntegerType,true),
    StructField("canton",IntegerType,true),
    StructField("area",StringType,true),
    StructField("genero",StringType,true),
    StructField("edad",IntegerType,true),
    StructField("estado_civil",StringType,true),
    StructField("nivel_de_instruccion",StringType,true),
    StructField("etnia",StringType,true),
    StructField("ingreso_laboral",IntegerType,true),
    StructField("condicion_actividad",StringType,true),
    StructField("sectorizacion",StringType,true),
    StructField("grupo_ocupacion",StringType,true),
    StructField("rama_actividad",StringType,true),
    StructField("factor_expansion",DoubleType,true)
  ));

In [1]:
val data = spark
	  .read
	  .option("inferSchema","true")
	  .option("header","true")
	  .option("delimiter","\t")
	  .csv("/home/davisalex22/Datos_ENEMDU_PEA_v2.csv")

In [2]:
// Separacion de etnias
val dataI = data.where($"etnia" === "1 - Indígena")
val dataA = data.where($"etnia" === "2 - Afroecuatoriano")
val dataN = data.where($"etnia" === "3 - Negro")
val dataMu = data.where($"etnia" === "4 - Mulato")
val dataMo = data.where($"etnia" === "5 - Montubio")
val dataMe = data.where($"etnia" === "6 - Mestizo")
val dataB = data.where($"etnia" === "7 - Blanco")
val dataO = data.where($"etnia" === "8 - Otro")

In [3]:
z.show(dataA.stat.crosstab("condicion_actividad", "anio").orderBy("condicion_actividad_anio"))

In [4]:
val empNopleno = dataA.where($"condicion_actividad" === "4 - Otro empleo no pleno")
val empNoremunerado = dataA.where($"condicion_actividad" === "5 - Empleo no remunerado")
val empNoclasificado = dataA.where($"condicion_actividad" === "6 - Empleo no clasificado")
val dempAbierto = dataA.where($"condicion_actividad" === "7 - Desempleo abierto")
val dempOculto = dataA.where($"condicion_actividad" === "8 - Desempleo oculto")

In [5]:
// Promedio de edad de afroecuatorianos con un empleo no pleno
empNopleno.groupBy("anio").pivot("genero").agg(round(avg("edad"))).orderBy("anio").show()

In [6]:
// Promedio de edad de afroecuatorianos con un empleo no remunerado
empNoremunerado.groupBy("anio").pivot("genero").agg(round(avg("edad")).cast(IntegerType)).orderBy("anio").show()

In [7]:
// Promedio de edad de afroecuatorianos con un empleo no clasificado
empNoclasificado.groupBy("anio").pivot("genero").agg(round(avg("edad")).cast(IntegerType)).orderBy("anio").show()

In [8]:
// Promedio de edad de afroecuatorianos con un desempleo abierto
dempAbierto.groupBy("anio").pivot("genero").agg(round(avg("edad")).cast(IntegerType)).orderBy("anio").show()

In [9]:
// Promedio de edad de afroecuatorianos con un desempleo oculto
dempOculto.groupBy("anio").pivot("genero").agg(round(avg("edad")).cast(IntegerType)).orderBy("anio").show()

In [10]:
// Estado civil de las afroecuatorianos con un empleo no pleno
z.show(empNopleno.groupBy("estado_civil").pivot("anio").count().orderBy("estado_civil"))

In [11]:
// Nivel de instruccion de las afroecuatorianos con un empleo no pleno
z.show(empNopleno.groupBy("nivel_de_instruccion").count().orderBy("nivel_de_instruccion"))

In [12]:
// Nivel de instruccion de las afroecuatorianos con un empleo no remunerado
z.show(empNoremunerado.groupBy("nivel_de_instruccion").count().orderBy("nivel_de_instruccion"))

In [13]:
// Nivel de instruccion de las afroecuatorianos con un empleo no clasificado
z.show(empNoclasificado.groupBy("nivel_de_instruccion").count().orderBy("nivel_de_instruccion"))

In [14]:
// Nivel de instruccion de las afroecuatorianos con un desempleo abierto
z.show(dempAbierto.groupBy("nivel_de_instruccion").count().orderBy("nivel_de_instruccion"))

In [15]:
// Nivel de instruccion de las afroecuatorianos con un desempleo oculto
z.show(dempOculto.groupBy("nivel_de_instruccion").count().orderBy("nivel_de_instruccion"))

In [16]:
// Sueldo promedio de  afroecuatorianos con empleo no pleno
z.show(empNopleno.groupBy("nivel_de_instruccion").pivot("genero").agg(round(avg("ingreso_laboral"))).orderBy("nivel_de_instruccion"))

In [17]:
// Sueldo promedio de afroecuatorianos con desempleo abierto
z.show(dempAbierto.groupBy("nivel_de_instruccion").pivot("genero").agg(round(avg("ingreso_laboral"))).orderBy("nivel_de_instruccion"))

In [18]:
// grupo ocupacion afroecuatorianos que tienen un empleo no pleno
z.show(empNopleno.groupBy("grupo_ocupacion").pivot("genero").count().orderBy("grupo_ocupacion"))

In [19]:
// grupo ocupacion afroecuatorianos que tienen un empleo no clasificado
z.show(empNoclasificado.groupBy("grupo_ocupacion").pivot("genero").count().orderBy("grupo_ocupacion"))

In [20]:
z.show(data.groupBy("etnia").pivot("genero").count.orderBy("etnia"))

In [21]:
z.show(data.groupBy("etnia").pivot("genero").agg(round(avg("edad")).cast(IntegerType)).orderBy("etnia"))

In [22]:
z.show(data.groupBy("sectorizacion").pivot("anio").count.orderBy("sectorizacion"))

In [23]:
z.show(data.groupBy("etnia").pivot("anio").avg("ingreso_laboral").where($"etnia".isNotNull)orderBy("etnia"))

In [24]:
z.show(data.groupBy("etnia").pivot("genero").agg(avg("ingreso_laboral")).orderBy("etnia"))

In [25]:
z.show(data.where($"rama_actividad" === "06 - F. Construcción").groupBy("etnia").pivot("anio").count.orderBy("etnia"))

In [26]:
val dataMe = data.where($"etnia" === "6 - Mestizo" || $"etnia" === "5 - Montubio")
z.show(dataMe.groupBy("etnia").pivot("genero").count.orderBy("etnia"))

In [27]:
z.show(data.where($"area" === "2 - Rural" && $"nivel_de_instruccion" === "09 - Superior Universitario").groupBy("etnia").count.orderBy("etnia"))