In [0]:
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._
val myDataSchema = StructType(
  Array(
    StructField("id",DecimalType(26, 0),true),
    StructField("anio",IntegerType,true),
    StructField("mes",IntegerType,true),
    StructField("provincia",IntegerType,true),
    StructField("canton",IntegerType,true),
    StructField("area",StringType,true),
    StructField("genero",StringType,true),
    StructField("edad",IntegerType,true),
    StructField("estado_civil",StringType,true),
    StructField("nivel_de_instruccion",StringType,true),
    StructField("etnia",StringType,true),
    StructField("ingreso_laboral",IntegerType,true),
    StructField("condicion_actividad",StringType,true),
    StructField("sectorizacion",StringType,true),
    StructField("grupo_ocupacion",StringType,true),
    StructField("rama_actividad",StringType,true),
    StructField("factor_expansion",DoubleType,true)
  ));

In [1]:
val data = spark
	  .read
	  .option("inferSchema","true")
	  .option("header","true")
	  .option("delimiter","\t")
	  .csv("/home/davisalex22/Programacion/Datos_ENEMDU_PEA_v2.csv")

<H1 align="center">Análisis Exploratorio de Datos ENEMDU</H1>
<H2>Documentación Técnica</H2>

En esta consulta procedemos a utilizar la función crosstab, función interesante en spark, ya que el método crosstab permite solo el conteo con los atributos que nosotros proporcionariamos ocacionando un nuevo dataFrame, también nos encontramos con un orderBy el cual nos ayuda a ordenar de mejor manera el método crosstab. Y al final lo mostramos con z.show el cual es un método de zeppelin para presentar nuestras consultas de una manera más dinámica un gráfico estadístico. 


In [5]:
z.show(data.stat.crosstab("condicion_actividad", "anio")
           .orderBy("condicion_actividad_anio"))

En esta consulta primero realizamos un where el cual delimito la dataframe, en este caso lo delimitamos con la etnia Afroecuatoriano, en el cual hacemos un groupBy el cual agrupa con la columna nivel_instruccion, el cual los cuenta todos los datos que son iguales dentro de la columna y al final ordenamos con un groupBy. Y al final lo mostramos con z.show el cual es un método de zeppelin para presentar nuestras consultas de una manera más dinámica un gráfico estadístico

In [7]:
z.show(data.where($"etnia" === "2 - Afroecuatoriano")
           .groupBy("nivel_de_instruccion")
           .count()
           .orderBy("nivel_de_instruccion"))

En esta consulta  usamos un where delimitanto las etnias a solo etnias afroecuatorianas,luego agrupamos la columna nivel_instruccion y realizamos un pivot, el métod pivot nos brinda gran cantidad de operaciones que necesitemos dentro de nuestra consulta (count, avg, round, min, max, etc). utlizamos un pivot con la columna genero que conjuntamente con la funcion avg permite sacar el promedio de sueldos de los generos afroecuatorianos y así ordenandolos con un orderBy. Y al final lo mostramos con z.show el cual es un método de zeppelin para presentar nuestras consultas de una manera más dinámica un gráfico estadístico

In [9]:
z.show(data.where($"etnia" === "2 - Afroecuatoriano")
           .groupBy("nivel_de_instruccion")
           .pivot("genero")
           .avg("ingreso_laboral")
           .orderBy("nivel_de_instruccion"))

 
Esta consulta sirve para sacar el sueldo promedio de generos de las etnias afroecuatorianas, la consulta es posible gracias a un where, el cual delimita a etnias afroecuatorianas, luego agrupa cada anio  con la función groupBy y conjuntamente con la funcion pivot permite sacar el sueldo promedio por medio del método avg que está dentro de las funciones del pivot, luego de ello se ordena por anio gracias a la funcion orderBy. Y al final lo mostramos con z.show el cual es un método de zeppelin para presentar nuestras consultas de una manera más dinámica un gráfico estadístico.

In [11]:
z.show(data.where($"etnia" === "2 - Afroecuatoriano")
           .groupBy("anio")
           .pivot("genero")
           .agg(round(avg("ingreso_laboral")))
           .orderBy("anio"))

Esta consulta permite visualizar las ocupaciones más destacadas de la etnia afroecuatoriana, esto es posible gracias a la delimitación de la data con una función where que limita que solo me muestre a etnias afroecuatorianas que no tengan un grupo ocupación nulo, luego de ello lo agrupamos con groupBy y hacemos un conteo por género, para finalmente ordenarlos por grupo_ocupacion, realizada con la función orderBy. Y al final lo mostramos con z.show el cual es un método de zeppelin para presentar nuestras consultas de una manera más dinámica un gráfico estadístico

In [13]:
z.show(data.where($"etnia" === "2 - Afroecuatoriano" && $"grupo_ocupacion".isNotNull)
           .groupBy("grupo_ocupacion")
           .pivot("genero")
           .count()
           .orderBy("grupo_ocupacion"))

Primeramente al querer efectuar está consulta utilizamos sentencias sql con consultas nativas (ANSI-SQL), el cual seleccionamos la etnia, a la vez contamos cuantos son de la misma etnia y el sueldo promedio de esas etnias, luego le decimos que la obtenga de la tabla personas, luego lo unimos con join con la tabla etnias que cod_canton de etnias sea igual al de cod_canton de la tabla personas. Donde le decimos que delimite a las personas con un ingreso mayor a 400 dólares, todo esto con un where. Y que los agrupe por las etnias con un groupBy y al final que los orderne con un orderBy con la tercera columna de nuestra consulta.

En la siguiente consulta se procedió primero a realizar la agrupación de las etnias con el groupBy, y seguido se crea un pivote de genero por la ventaja que nos permite realizar mas operaciones, el cual conjuntamente con el count el cual va contando y nos dará el número de personas clasificada por hombres y mujeres de cada una de las etnias. Finalmente para que se presenten ordenas se le aplica el orderBy y se le especifica en base que columna en este caso las etnias. Y para su visualización se implemente el z.show que en este caso se lo presenta con la gráfica de frecuencias.

In [17]:
z.show(data.groupBy("etnia")
           .pivot("genero")
           .count
           .orderBy("etnia"))

En la siguiente consulta se realizó nuevamente la agrupación de las etnias con el groupBy y de igual forma el pivote de género, en la cual se toma las edades con el .agg se le calcula el promedio con el avg, la cual nos da en decimales, pero al momento de aplicarle el round se lo redondea y se lo castea a Integer para que nos de la edad promedio exacta de cada personas (hombres y mujeres) de cada etnia.

In [19]:
z.show(data.groupBy("etnia")
           .pivot("genero")
           .agg(round(avg("edad")).cast(IntegerType))
           .orderBy("etnia"))

 
Para las siguientes representaciones se aplicó la misma consulta pero con diferente reprentación, la cual antes de su realización se excluyo los nulos con el isNotNull ya que se encontraban registros que no tenian en los datos de sectorización, seguido se agrupó la sectorización con el groupBy y presentar cada uno de los tipo de datos de esta columna, seguido con el empleo de un pivote de los años la cual nos permite realizar el conteo de los registros de cada año con el .count y se los ordena por el tipo de sectorizacion con el orderBy. Finalmente con el z.show se muestra el conteo de las personas que trabajan en cada uno de los años depende el tipo de trabajo, es decir de la sectorización, la cual en este caso se la presentó en tabla y en barras.

In [21]:
z.show(data.where($"sectorizacion".isNotNull)
           .groupBy("sectorizacion")
           .pivot("anio")
           .count
           .orderBy("sectorizacion"))

In [22]:
z.show(data.where($"sectorizacion".isNotNull)
            .groupBy("sectorizacion")
           .pivot("anio")
           .count
           .orderBy("sectorizacion"))

En la presente consulta se agrupo nuevamente con el groupBy de la sectorización pero excluyendo los nulos con el empleo del .isNotNull, se utilizó un pivote de los años y así poder realizar el .agg para agregar del promedio de los ingresos laborales con el uso del avg, en este caso se los ordenó con el orderBy de sectorización. De esta forma con el z.show se presenta la gráfica en tabla que nos refleja el promedio del ingreso laboraral.


In [24]:
z.show(data.where($"sectorizacion".isNotNull)
           .groupBy("sectorizacion")
           .pivot("anio")
           .agg(round(avg("ingreso_laboral")))
           .orderBy("sectorizacion"))

 
Para la siguiente consulta se filtró primeramente los registro correspondientes al empleo doméstico con el data.where y se crea la igualadad con la sectorización, luego se procede a agrupar por cada una de las etnias y se creo un pivote del género y reflejar la cantidad hombres y mujeres con la ayuda del .count que nos cuenta la cantidad de registro y se los ordena por etnia con el orderBy.

In [26]:
z.show(data.where($"sectorizacion" === "3 - Empleo Doméstico")
           .groupBy("etnia")
           .pivot("genero")
           .count
           .orderBy("etnia"))

Para la siguiente consulta sql la realizó de la siguiente forma: con el SELECT se colocó las provincias y el conteo la cual nos presentará con un alias de persoans con empleo doméstico. Con el FROM se apunta a provincias la cual vamos a ocupar. Para llegar a cada una de las tablas que se necesita se emplea el JOIN, primero de cantones en donde se usa el cod_provincia y relacionar las provincias y los cantones, luego de ello para personas se relaciona con el cod_canton de cantones y la tabla personas, con la sentencia WHERE se ubica a todas aquellas personas con empleo doméstico. Y finalmente se los agrupa por provincia ordenando por la cantidad de personas.
 

A continuación, se muestra gráficamente la cantidad de personas de cada etnia que se dedicaron durante los años 2015-2019 a la construcción, para obtener esta consulta se utilizó la data general, con una cláusula where en el cual se especifica la rama de construcción, seguido de un groupBy para agrupar por etnia, un pivot de anio para agrupar datos procedentes de otra tabla y finalmente un conteo (count) y ordenado por etnia (orderBy).

In [30]:
z.show(data.where($"rama_actividad" === "06 - F. Construcción")
           .groupBy("etnia")
           .pivot("anio")
           .count
           .orderBy("etnia"))

En la siguiente consulta primero se establece una cláusula where para especificar la etnia Mestizo y Montubio,seguidamente una agrupacion por etnia con un groupBy haciendo un pivote de genero para agrupar los datos procedentes de otra tabla y posteriormente se realiza un conteo (count) y un ordenamiento (orderBy) por etnia.

In [32]:
z.show(data.where($"etnia" === "6 - Mestizo" || $"etnia" === "5 - Montubio")
            .groupBy("etnia")
            .pivot("genero")
            .count.orderBy("etnia"))

En la siguiente consulta primero se establece una cláusula where para especificar la area rural y el nivel de instrucción superior universitario,seguidamente una agrupacion por etnia con un groupBy y posteriormente se realiza un conteo (count) y un ordenamiento (orderBy) por etnia. Además de usar z.show que es un contenedor de todo el sistema para funciones de utilidad comunes y datos específicos del usuario e implementa funciones para la entrada de datos, visualización de datos.

In [34]:
z.show(data.where($"area" === "2 - Rural" && $"nivel_de_instruccion" === "09 - Superior Universitario")
           .groupBy("etnia")
           .count
           .orderBy("etnia"))

Para la siguiente consulta sql utilizando mariadb se realizó de la siguiente forma: con el SELECT se selecciona la etnia y se reliza un conteo de personas que pertenecen al área urbana asignando un alias de "Total Área Urbana". Con el FROM se señala a la tabla personas y para llegar a cada una de las tablas que se necesita se emplear el JOIN, primero al cod_etnia de personas luego al cod_etnia de etnias. Finalmente se los agrupa por etnia y ordena por el el total área urbana.


In [37]:
val dataCantones = spark
	  .read
	  .option("inferSchema","true")
	  .option("header","true")
	  .option("delimiter",",")
	  .csv("/home/davisalex22/Programacion/cantonesEcuador.csv")

Para esta consulta previamente se realizo la lectura del csv denominado dataCantones que contiene una columna codCanton y nombreCanton, luego de ello se declaró una variable dataCanton, en el cual se aplica un join que sirve para la unión interna de tablas básicamente, luego dentro de un z.show usando la dataCanton se utiliza la cláusula where para especificar la provincia 24 (Santa Elena),luego se agrupa por etnia (groupBy), seguidamente un pivot de nombreCanton,un conte de las personas (count) y un ordenamiento por etnia (orderBy).

In [39]:
val dataCanton = data.join(dataCantones,data("canton") === dataCantones("codigoCanton"),"inner")
z.show(dataCanton.where($"provincia" === 24).groupBy($"etnia").pivot("nombreCanton").count.orderBy("etnia"))

Para la siguiente consulta sql utilizando mariadb se realizó de la siguiente forma: con el SELECT se selecciona la rama actividad y se calcula el promedio de ingresos realizando un redondeo y asignando un alias de "Sueldo Promedio". Con el FROM se señala a la tabla personas y para llegar a cada una de las tablas que se necesita se emplear el JOIN, primero al cod_rama de personas luego al cod_rama de Ramas_Actividad. Finalmente se los agrupa por rama y ordena por el sueldo promedio.