In [0]:
import org.apache.spark.sql.types._
val myDataSchema = StructType(
Array(
StructField("id_persona", DecimalType(26, 0), true), 
StructField("anio", IntegerType, true), 
StructField("mes", IntegerType, true), 
StructField("provincia", IntegerType, true), 
StructField("canton", IntegerType, true), 
StructField("area", StringType, true), 
StructField("genero", StringType, true), 
StructField("edad", IntegerType, true), 
StructField("estado_civil", StringType, true), 
StructField("nivel_de_instruccion", StringType, true), 
StructField("etnia", StringType, true), 
StructField("ingreso_laboral", IntegerType, true), 
StructField("condicion_actividad", StringType, true), 
StructField("sectorizacion", StringType, true), 
StructField("grupo_ocupacion", StringType, true), 
StructField("rama_actividad", StringType, true), 
StructField("factor_expansion", DoubleType, true)
));//le damos al archivo el esquema establecido anteriormente
val data = spark
.read
.schema(myDataSchema)
.option("header", "true")
.option("delimiter", "\t")
.csv("Datos_ENEMDU_PEA_v2.csv")

## Que porcentaje de indigenas fueron encuestados ?

In [3]:
val indg = data.where($"etnia" === "1 - Indígena")
print(f"${(indg.count * 100)/data.count.toDouble}%.2f%% De Indígenas encuestados")

## ¿Cuál es la clasificacion de indigenas con respecto a sus condicion laboral (condicion_actividad)?


In [5]:
//ojo
z.show(f"${(indg.where($"condicion_actividad" === "1 - Empleo Adecuado/Pleno").count * 100)/indg.count.toDouble}%.2f%% Empleo Adecuado\n${(indg.where($"condicion_actividad" === "2 - Subempleo por insuficiencia de tiempo de trabajo").count * 100)/indg.count.toDouble}%.2f%% Subempleo por insuficiencia de trabajo\n${(indg.where($"condicion_actividad" === "4 - Otro empleo no pleno").count * 100)/indg.count.toDouble}%.2f%% Otro empleo no pleno\n${(indg.where($"condicion_actividad" === "5 - Empleo no remunerado").count * 100)/indg.count.toDouble}%.2f%% Empleo no remunerado\n${(indg.where($"condicion_actividad" === "6 - Empleo no clasificado").count * 100)/indg.count.toDouble}%.2f%% Empleo no clasificado\n${(indg.where($"condicion_actividad" === "7 - Desempleo abierto").count * 100)/indg.count.toDouble}%.2f%% Desempleo Abierto\n${(indg.where($"condicion_actividad" === "8 - Desempleo oculto").count * 100)/indg.count.toDouble}%.2f%% Desempleo Oculto")


## ¿Cuál es la cantidad de Indígenas que estan con desempleo abierto(busqueda activamente de empleo durante el mes anterior a la encuesta sin exito)?


In [7]:
indg.where($"condicion_actividad" === "7 - Desempleo abierto").count

## ¿Cuál es el nivel de educación que tienen los Indígenas desempleados abiertamente?

In [9]:
val indgEduc =  indg.where($"condicion_actividad" === "7 - Desempleo abierto") 
z.show(	indgEduc.groupBy("nivel_de_instruccion").count().as("cantidad").sort(desc("count")))

## ¿Puede una persona Indigena con desempleo abierto, tener un ingreso laboral diferente de 0? ¿No es esto contradictorio? Compruebelo.

In [11]:
indgEduc.where($"ingreso_laboral" > 0)
indgEduc.where($"ingreso_laboral" > 0).count


### ¿Cómo es posible que una persona con un "desempleo abierto" tenga un ingreso laboral que no sea 0?
Se puede considerar varios posibles errores:
* Primero: La sentencia este mal escrita o con un error, lo cual es posible, pero se descarta al usar otra herramienta para comprobar 
su veracidad (excel) en el cual demuestra usando filtros que existen encuestados indigenas, con desempleo oculto que tienen 
un ingreso laboral mayor a 0.

* Segundo: El archivo de origen vino con defectos, otra opcion posible, pero tambien descartada cuando leemos los significados de cada
columna.

* Posible Respuesta: La pagina web desde donde se proveyeron los datos, ofrece información acerca de que es el desempleo oculto y que 
considera el mismo. Siendo asi el significado de esta variable "Personas sin empleo, que no estuvieron empleados en la semana pasada y que buscaron trabajo e
hicieron gestiones concretas para conseguir empleo o para establecer algún negocio en las cuatro semanas anteriores a la entrevista."

Se puede considerar como verdadera esta sentencia ya que, podemos deducir que el ingreso laboral que decretaron estas personas en la encuesta
pertenece al ingreso laboral que recibian una semana antes de la encuesta, cuando aun estaban empleados.

### ¿Cuál es el valor máximo y minimo que gana un indígena que tiene el nivel mas alto de estudios (Post-grado)?

In [13]:
val indgEducPost = (indg.where($"nivel_de_instruccion" === "10 - Post-grado"))
indgEducPost.select("ingreso_laboral").summary("max", "min").show()

## ¿Existe una diferencia de salario que un indigena(post-grado) recibe de ingreso laboral promedio, con respecto al valor de ingreso laboral promedio de un ecuatoriano meztizo(post-grado)?

In [15]:
indgEducPost.select("ingreso_laboral").summary().show()

#### ¿Existen valores nulos?


In [17]:
indgEducPost.select("ingreso_laboral").groupBy("ingreso_laboral").count().sort(desc("count")).show(5)

#### Limpieza de Nulos

In [19]:
val postIndg = indgEducPost.select("ingreso_laboral").where($"ingreso_laboral".isNotNull)

#### Busqueda de acotas

In [21]:
val cantValoresEnDifRangos =  scala.collection.mutable.ListBuffer[Long]()
		val minValue = 0.0
		val maxValue = 5264
		val bins = 5.0
		val range = (maxValue - minValue)/bins
		var minCounter = minValue
		var maxCounter = range
		while (minCounter < maxValue){
		  val valoresEnUnRango = postIndg.where($"ingreso_laboral".between(minCounter,maxCounter))
		  cantValoresEnDifRangos.+=(valoresEnUnRango.count())
		  minCounter = maxCounter
		  maxCounter = maxCounter + range
		}

#### Resultados de rangos

In [23]:
println("Valores en diferentes rangos: ")
cantValoresEnDifRangos.foreach(println)
		/* 77 rango 0 - 1053
		49 rango 1053 - 2106
		23 rango 2106 - 3158
		8  rango 3158 - 4211 
		2  rango 4211 - 5264*/

#### Promedio

In [25]:
val prom = postIndg.select(mean("ingreso_laboral")).first()(0).asInstanceOf[Double]

#### Desviacion estandar

In [27]:
val desviacion = postIndg.select(stddev("ingreso_laboral")).first()(0).asInstanceOf[Double]

#### Limite Inferior

#### Limite Superior

In [30]:
val limInf = prom - 3 * desviacion

In [31]:
val limSup = prom + 3 * desviacion

In [32]:
val indgPostSinAcotas = postIndg.where($"ingreso_laboral" > limInf && $"ingreso_laboral" < limSup)

#### sin acotas

#### con acotas

In [35]:
indgPostSinAcotas.select("ingreso_laboral").summary().show	

In [36]:
indgEducPost.select("ingreso_laboral").summary().show()

In [37]:
val mezt = data.where($"etnia" === "6 - Mestizo")
val meztEducPost = mezt.where($"nivel_de_instruccion" === "10 - Post-grado")

#### Summary de Meztizos con Postgrado (Con acotas)

In [39]:
meztEducPost.select("ingreso_laboral").summary().show()

#### ¿Existen valores nulos?

In [41]:
meztEducPost.select("ingreso_laboral").groupBy("ingreso_laboral").count().sort(desc("count")).show(5)

#### Limpieza de Nulos

In [43]:
val postMezt = meztEducPost.select("ingreso_laboral").where($"ingreso_laboral".isNotNull)

 
#### Busqueda de acotas

In [45]:
val cantValoresEnDifRangos =  scala.collection.mutable.ListBuffer[Long]()
val minValue = 0.0
val maxValue = 30000
val bins = 5.0
val range = (maxValue - minValue)/bins
var minCounter = minValue
var maxCounter = range
while (minCounter < maxValue){
val valoresEnUnRango = postMezt.where($"ingreso_laboral".between(minCounter,maxCounter))
cantValoresEnDifRangos.+=(valoresEnUnRango.count())
minCounter = maxCounter
maxCounter = maxCounter + range
}

#### Resultados de rangos

In [47]:
println("Valores en diferentes rangos: ")
cantValoresEnDifRangos.foreach(println)

#### Promedio

In [49]:
val prom = postMezt.select(mean("ingreso_laboral")).first()(0).asInstanceOf[Double]

#### Desviacion estandar

In [51]:
val desviacion = postMezt.select(stddev("ingreso_laboral")).first()(0).asInstanceOf[Double]

#### Limite Inferior

#### Limite Superior

In [54]:
val limInf = prom - 3 * desviacion

In [55]:
val limSup = prom + 3 * desviacion

#### Meztizos con Postgrado (Sin acotas)

In [57]:
val meztPostSinAcotas = postMezt.where($"ingreso_laboral" > limInf && $"ingreso_laboral" < limSup)

Sin acotas

Con acotas

In [60]:
meztPostSinAcotas.select("ingreso_laboral").summary().show		

In [61]:
meztEducPost.select("ingreso_laboral").summary().show()

 
## Boxplots

Indigenas

Mestizos

In [65]:
val cuartiles = postIndg.stat.approxQuantile("ingreso_laboral", Array (0.25, 0.75), 0.0)
val q1 = cuartiles(0)
val q3 = cuartiles(1)
val iQR = q3 -q1
val inferiorIQR = q1 -1.5 * iQR
val superiorIQR = q3 + 1.5 * iQR
val indgSinAcotasIQR = postIndg.where($"ingreso_laboral" > inferiorIQR && $"ingreso_laboral" < superiorIQR)
indgSinAcotasIQR.select("ingreso_laboral").summary().show

In [66]:
val cuartiles = postMezt.stat.approxQuantile("ingreso_laboral", Array (0.25, 0.75), 0.0)
val q1 = cuartiles(0)
val q3 = cuartiles(1)
val iQR = q3 -q1
val inferiorIQR = q1 -1.5 * iQR
val superiorIQR = q3 + 1.5 * iQR
val meztSinAcotasIQR = postMezt.where($"ingreso_laboral" > inferiorIQR && $"ingreso_laboral" < superiorIQR)
meztSinAcotasIQR.select("ingreso_laboral").summary().show

Considerando los resultados de los 2 algoritmos, se puede deducir que en efecto, existe una diferencia entre lo que gana un indigena (post-grado) en promedio,
con lo que gana un meztizo de similares caracteristicas, pero realmente no es una diferencia significativa, es un valor encontrado en un rango entre 130 -170.
Vease:

Algoritmo 1 (salario promedio):

indigena =  1387.386075949367		meztizo = 1553.2442199775533

diferencia = | 1387.39 - 1553.24 | = |- 165.85 |
diferencia = 165.85

Algoritmo 2 (salario promedio):

indigena =  1291.5526315789473		meztizo = 1425.7911637173327

diferencia = | 1291.55 - 1425.8 | = |- 134.25 |
diferencia = 134.25*/

#### ¿Es posible que con el tiempo los niveles de empleo adecuado y desempleo en los indigenas hayan aumentado con respecto a los demas grupos poblacionales? ¿Es posible demostrar como ha variado su condicion laboral con el paso de los años?

In [69]:
z.show(indg.stat.crosstab("condicion_actividad", "anio").orderBy("condicion_actividad_anio"))

¿Que hay con respecto a las personas que no son Indigenas? ¿Se puede observar una similaridad en cuanto a la estadistica?

In [71]:
val noIndg = data.where($"etnia" =!= "1 - Indígena")
z.show(noIndg.stat.crosstab("condicion_actividad", "anio").orderBy("condicion_actividad_anio"))

Los datos demuestran que no ha habido algun tipo de discriminacion, todos los grupos poblacionales han demostrado que han tendido a la baja con respecto al empleo adecuado en el ecuador	*/

#### Cual es el porcentaje de ingreso laboral que un indigena genera?


In [74]:
print(f"${(indg.count * 100)/data.count.toDouble}%.2f%% De Indígenas encuestados")

#### De las personas indigenas ¿Es posible que hayan sido las mujeres las mas que menor valor de ingreso han obtenido? ¿Existe alguna diferencia significativa entre el porcentaje de ingresos laborales que generaron las mujeres con respecto a los hombres?

In [76]:
	z.show(indg.groupBy("anio").pivot("genero").agg( round((sum("ingreso_laboral")*100)/13925210) ).orderBy("anio"))

## Variables a comparar
En el Ecuador historicamente los indigenas han sido el grupo mas vulnerable desde la conquista de los espanoles,desde entonces este grupo etnico ha sido discriminado por los demas grupos, relegandolos a una posicion desfavorable con respecto a otros grupos etnicos, al otro lado de la balanza tenemos a los mestizos quienes en la actualidad son el grupo etnico comun en el pais y muchos lo consideran como el privilegiado 

Actualmente existe la creencia de que estas diferencias ya quedaron en el pasado y que actualmente no existe gran diferencia entre estos grupos, por lo que buscaremos datos acerca del deseempleo y la evolucion de este en ambos grupos sociales para despues compararlos y llegar a una conclusion 

#### Porcentaje de desempleo indigena en el area urbana y rural 
Para estas consultas nos centraremos en las siguientes columnas:
* area: La columna describe el area donde se encuentra viviendo la persona (rural o urbana)
* condicion_activada: La columna describe como estasu condicion laboral actualmente es decir si se encuentra empleado o no

En las siguientes consultas hacemos uso de un grafico tipo pastel porque es la que se utiliza para mostrar la proporcion que le responde a cada categoria, ademas no existen mas de 5 categorias

Para realizar la consulta primero creamos la variable indgDes usamos la funcion select para seleccionar las columna condicion_actividad usamos la funcion where para darle la condicion de que solo use los datos que tengan en la columna condicion actividad deseempleo abierto y finalmente usamos la funcion count  para que nos de el numero de datos que cumplen esta condicion 
ahora creamos la variables des donde se almacenara el resultado aqui igualmente usamos la funcion select y usamos la columna area y condicin_actividad le damos la condicion de  desempleo abierto y usamos la funcion groupBy para agrupar los valores segun la columna (area) para que el resultado aparesca dividido en urbana y rural, usamos la funcion count para obtener el numero total de personas con desempleo en estas areas
finalmente usamos esta variable des y seleccionamos aqui al momento de seleccionar usaremos "des" que nos funciona para seleccionar las columnas y poder realizar operaciones con estas, a la columna count la dividiremos con la variable indgDes y multiplicaremos por 100 para obtener el porcentaje, finalmente usaremos la funcion .as para renombrar la columna, usamos la funcion z.show para mostrar la imagen

Para realizar la validacion de los datos realizaremos las mismas consultas pero en sql usando la funcion createOrReplaceTextView() para crear una tabla a la que podremos hacerle las consultas sql y almacenarlas en variables para despues graficarlas 

#### indigenas

#### meztizos

In [81]:
val indgDes = indg.select("area","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").count 
val des = (indg.select("area","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("area").count)
z.show(des.select(des("area"),(des("count")/indgDes *100).as("porcentaje deseempleo")))

In [82]:
val mezDes = mezt.select("area","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").count
val des = (mezt.select("area","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("area").count)
z.show(des.select(des("area"),(des("count")/mezDes *100).as("porcentaje deseempleo")))

Validacion

In [84]:
indg.createOrReplaceTempView("tabla")
val aux = spark.sql("""
    SELECT count(*)
    FROM tabla where condicion_actividad ="7 - Desempleo abierto"
""")

val aux2 = spark.sql("""
   select area,(count(condicion_actividad)/915 *100) FROM  tabla
   where condicion_actividad = "7 - Desempleo abierto"
   group By(area) 
   having count(*)
""")
z.show(aux2)

In [85]:
mezt.createOrReplaceTempView("tabla2")
val aux = spark.sql("""
    SELECT count(*)
    FROM tabla2 where condicion_actividad ="7 - Desempleo abierto"
""")

val aux2 = spark.sql("""
   select area,(count(condicion_actividad)/1823 *100) FROM  tabla2
   where condicion_actividad = "7 - Desempleo abierto"
   group By(area) 
   having count(*)
""")
z.show(aux2)

podemos obserar la diferencia que existe entre la poblacion deseempleada y su distribucion entre el area urbana y rural, vemos la variacion que existe sobre todo en el area rural viendo que en la poblacion meztiza el deseempleo en el area rural es mucho menor que en la poblacion indigena


%md
#### Media de ingresos de indigenas segun el grupo de ocupacion

Se cree que los indigenas no suelen ser tratados con equidad al momento de ser pagados con diferencia a otros grupos que suelen ser denominados privilegiados por lo que intentaremos averiguar si esto es verdad

Para estas consultas usaremos las siguientes columnas:
* grupo_ocupacion: Es la rama o sextor  de trabajo en la que se opera
* ingreso_laboral: es la cantidad de dinero que resive mensualmente por su trabajo

Tambien se ocupa el concepto de media(funcion avg) que es una medida de tendencia central que representa el punto medio en un conjunto de valores 
En esta consulta se deveria usar la grafica tipo pastel pero la columna grupo ocupacion tiene mas de 5 categorias, por lo que usaremos un grafico de barras que son los mas utiles para comparar categorias, que es lo que buscamos en esta consulta

Para realizar la consulta seleccionamos las columnas anterioremente senaladas con la funcion select y las agruparemos por el grupo de ocupacion usando la funcion groupBy de aqui sacaremos el promedio del ingreso laboral segun lo anteriormente agrupado, de los datos obtenidos hasta aqui seleccionaremos ambas columnas y renombraremos la media del ingreso laboral por media de ingresos

Realizaremos igualmente la validacion en sql para ver que los datos coincidan


#### Indigenas

#### Meztizos

In [90]:
z.show(indg.select("grupo_ocupacion","ingreso_laboral").groupBy("grupo_ocupacion").avg("ingreso_laboral")
.select($"grupo_ocupacion",$"avg(ingreso_laboral)".as("media de ingresos")))

In [91]:
z.show(mezt.select("grupo_ocupacion","ingreso_laboral").groupBy("grupo_ocupacion").avg("ingreso_laboral").select($"grupo_ocupacion",$"avg(ingreso_laboral)".as("media de ingresos")))

validacion

In [93]:
val aux2 = spark.sql("""
   select grupo_ocupacion, avg(ingreso_laboral) as media_de_ingresos from tabla 
   group By(grupo_ocupacion)
""")
z.show(aux2)

In [94]:
val aux2 = spark.sql("""
   select grupo_ocupacion, avg(ingreso_laboral) as media_de_ingresos from tabla2 
   group By(grupo_ocupacion)
""")
z.show(aux2)

podemos observar la media de ingresos por cada grupo de ocupacion, en general vemos que en los mismos campos los indigenas ganan menos que los meztizos esto no pude ser debido a que los meztizos pueden ocupar cagos mas altos en los mismos campos

#### Media de ingresos de indigenas segun la zona urbana o rural
Ahora sabemos que los meztizos ganan mas que los indigenas, historicamente la zona urbana tiene empleos mejor pagados que la rural por lo que queremos ver si esto podria explicar los datos anteriores
Para estas consultas nos centraremos en las siguientes columnas:
* area: La columna describe el area donde se encuentra viviendo la persona (rural o urbana)
* ingreso_laboral: es la cantidad de dinero que resive mensualmente por su trabajo
En las siguientes consultas hacemos uso de un grafico tipo pastel porque es la que se utiliza para mostrar la proporcion que le responde a cada categoria, ademas no existen mas de 5 categorias

Para realizar la consulta seleccionamos las columnas anterioremente senaladas con la funcion select y las agruparemos por el are usando la funcion groupBy de aqui sacaremos el promedio del ingreso laboral segun lo anteriormente agrupado, de los datos obtenidos hasta aqui seleccionaremos ambas columnas y renombraremos la media del ingreso laboral por media de ingresos

Validaremos la consulta usando sql para comparar si los datos y graficas son iguales


#### indigenas

#### meztizos

In [99]:
z.show(indg.select("area","ingreso_laboral").groupBy("area").avg("ingreso_laboral").select($"area",$"avg(ingreso_laboral)".as("media de ingresos")))

In [100]:
z.show(mezt.select("area","ingreso_laboral").groupBy("area").avg("ingreso_laboral").select($"area",$"avg(ingreso_laboral)".as("media de ingresos")))

Validacion 

In [102]:
val aux2 = spark.sql("""
   select area, avg(ingreso_laboral) as media_de_ingresos from tabla 
   group By(area)
""")
z.show(aux2)

In [103]:
val aux2 = spark.sql("""
   select area, avg(ingreso_laboral) as media_de_ingresos from tabla2 
   group By(area)
""")
z.show(aux2)

 
En esta consulta podemos confirmar que los indigenas ganan menos que los meztizos en el area urbana y rural, por lo que confirmamos que esta brecha salarial es real

#### Media de ingresos  de indigenas segun el nivel de instruccion
Ya confirmamos que los indigenas ganan menos independientemente del sector en el que viven, ahora podemos suponer que esto es debido a que ganan menos al no tener el mismo nivel de educacion, por lo que debemos verificar si esta hipotesis es valida
Para estas consultas nos centraremos en las siguientes columnas:
* nivel_de_instruccion: La columna describe el grado de estudios que tienen las personas encuestadas
* ingreso_laboral: es la cantidad de dinero que resive mensualmente por su trabajo

Para realizar la consulta seleccionamos las columnas anterioremente senaladas con la funcion select y las agruparemos por el grupo de ocupacion usando la funcion groupBy de aqui sacaremos el promedio del ingreso laboral segun lo anteriormente agrupado, usamos la funcion orderBy para ordenar los datos y colocamos la columna nivel_de_instruccion para que se ordenen segun los valores en esta , por defecto se ordenara de forma ascendente, de los datos obtenidos hasta aqui seleccionaremos ambas columnas y renombraremos la media del ingreso laboral por media de ingresos


indigenas

In [107]:
z.show(indg.select("nivel_de_instruccion","ingreso_laboral").groupBy("nivel_de_instruccion").avg("ingreso_laboral").orderBy("nivel_de_instruccion")
.select($"nivel_de_instruccion",$"avg(ingreso_laboral)".as("media de ingresos")))

meztizos

In [109]:
z.show(mezt.select("nivel_de_instruccion","ingreso_laboral").groupBy("nivel_de_instruccion").avg("ingreso_laboral").orderBy("nivel_de_instruccion").select($"nivel_de_instruccion",$"avg(ingreso_laboral)".as("media de ingresos")))

finalmente podemos comprobar que pese a tener el mismo grado de estudio en promedio los meztizos ganan mas dinero que los indigenas por lo que en efecto podemos esta hablando de que aun existe discriminacion a la hora de dar puestos 

#### Numero de desempleo indigena segun el nivel de instruccion
Ahora nos enfocaremos en la categoria  de deseempleo abierto es decir que no incluye otras formas de empleo inadecuado como trabajos transitorios 
Para estas consultas nos centraremos en las siguientes columnas:
* nivel_de_instruccion: La columna describe el grado de estudios que tienen las personas encuestadas
* condicion_activada: La columna describe como esta su condicion laboral actualmente es decir si se encuentra empleado o no

Ahora averiguaremos como es porcentualmente el desempleo en ambos grupos etnicos para averiguar si existe una diferencia considerable entre el porcentaje de deseemplo entre estos grupos
Para la grafica usaremos un grafico de barras que son los mas utiles para comparar categorias y su frecuencia , que es lo que buscamos en esta consulta

Para realizar la consulta seleccionamos las columnas anterioremente senaladas con la funcion select y colocaremos la condicion usando la funcion where para que solo se obtengan los datos que en la columna condicion_actividad sean iguales a deseempleo abierto , agrupamos estos datos segun la columna nivel_de_instruccion con la funcion groupBy() y contamos cuantos datos hay segun la agrupacion  con la funcion count, los ordenamos segun la columna nivel_de_instruccion con la funcion orderBy y adicionalmente tambien usamos la funcion .desc para que se ordenen de forma descendente, seleccionamos las columna  resultantes y dividimos la columna count para la variable indgDes(indigenas deseempleados) la multiplicamos por 100 para obtener el porcentaje, seleccionamos las columnas resultantes y cambiamos el nombre de la segunda columna por porcentaje deseempleo

indigenas

In [113]:
z.show(indg.select("nivel_de_instruccion","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto")
.groupBy("nivel_de_instruccion").count.orderBy(col("nivel_de_instruccion").desc).select($"nivel_de_instruccion", $"count"/indgDes *100)
.select($"nivel_de_instruccion",$"((count / 915) * 100)".as("porcentaje deseempleo")))


meztizos

In [115]:
z.show(mezt.select("nivel_de_instruccion","condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto")
.groupBy("nivel_de_instruccion").count.orderBy(col("nivel_de_instruccion").desc).select($"nivel_de_instruccion", $"count"/mezDes *100)
.select($"nivel_de_instruccion",$"((count / 18213) * 100)".as("porcentaje deseempleo")))

In [116]:
Podemos apreciar que el porcentaje de deseempleo sigue una tendencia similar en ambos grupos,  vemos que en la categoria de educacion superior universitaria el deseempleo es mucho mayor en los mestizos por lo que podrmmos concluir que los meztizos tienden a ir mas a la universidad a diferencia de los indigenas

#### Porcentaje de desempleo segun el estado civil
El estado civil influye en alguna manera en el indice de deseempleo?, existe alguna diferencia con los meztizos ?
Para estas consultas nos centraremos en las siguientes columnas:
* estado civil: La columna describe si la persona se encuentra soltera o tiene alguna relacion que establece ciertos derechos y deberes
* condicion_activada: La columna describe como estasu condicion laboral actualmente es decir si se encuentra empleado o no

En las siguientes consultas hacemos uso de un grafico tipo pastel porque es la que se utiliza para mostrar la proporcion que le responde a cada categoria, ademas no existen mas de 5 categorias

Para realizar la consulta seleccionamos las columnas anterioremente senaladas con la funcion select y colocaremos la condicion usando la funcion where para que solo se obtengan los datos que en la columna condicion_actividad sean iguales a deseempleo abierto , agrupamos estos datos segun la columna estado_civil con la funcion groupBy() y contamos cuantos datos hay segun la agrupacion  con la funcion count, seleccionamos las columna  resultantes y dividimos la columna count para la variable indgDes(indigenas deseempleados) la multiplicamos por 100 para obtener el porcentaje, seleccionamos las columnas resultantes y cambiamos el nombre de la segunda columna por porcentaje deseempleo


indigenas

meztizos

In [120]:
z.show(indg.select($"estado_civil",$"condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("estado_civil").count.select($"estado_civil",
$"count"/indgDes *100).select($"estado_civil",$"((count / 915) * 100)".as("porcentaje deseempleo")))

In [121]:
z.show(mezt.select($"estado_civil",$"condicion_actividad").where(column("condicion_actividad")==="7 - Desempleo abierto").groupBy("estado_civil").count.select($"estado_civil",
$"count"/mezDes *100).select($"estado_civil",$"((count / 18213) * 100)".as("porcentaje deseempleo")))

Los resultados son muy similares por lo que concluimos en que no hay gran diferencia 

#### Evolucion de deseempleo indigena segun el genero
como ha evolucionado el deseempleo en la poblacion indigena en este tiempo en el cual ha existido una crisis creciente?
Para estas consultas nos centraremos en las siguientes columnas:
* year: La columna describe el anio en el que la persona que realizo la encuesa 
* genero: La columna describe el sexo de la persona que realizo la encuesa 
* condicion_activad: La columna describe como esta su condicion laboral actualmente es decir si se encuentra empleado o no

Para la elaboracion de estas consultas implementamos el concepto de tablas dinamicas(una tabla que agrupa datos procedentes de otra table de distinto tamano), debido a que en este caso deseamos tambien ordenar los datos preferimos usar el metodo CrossTab para mayor facilidad
Tambien al momento de realizar los graficos optamos por aplicar un grafico de lineas ya que es el utilizado para comparar valores de una misma variable y tambien es la usaul para observar la evolucion de una variable atraves del tiempo, que es lo que precisamente buscamos comparar la evolucion del deseempleo segun el gnero atraves de los anios 
Otro apartado importante es que al momento de realizar la consulta por defecto solo nos mostrara la evolucion de un valor por lo que debemos ir a la pestana de configuracion y agregar el valor faltante a la seccion de values 

Para realizar la consulta primero creamos a variable indg2 donde almacenaremos a las personas indigenas que tegan condicion de desempleo abierto usando la funcion where, usamos la columna condicion_actividad y seleccionamos que sean iguales a deseempleo abierto
Usamos esta variable y la funcion stat.crosstab() para aplicar el concepto de tablas dinamicas aqui seleccionamos las columnas de  anio y genero, ya que queremos comparar la evolucin del genero durante tantos anios, finalmente lo ordenamos segun los anios 

indigenas

In [125]:
val indg2 = indg.where(column("condicion_actividad")==="7 - Desempleo abierto")
z.show(indg2.stat.crosstab("anio", "genero").orderBy("anio_genero"))

meztizos

In [127]:
val indg2 = mezt.where(column("condicion_actividad")==="7 - Desempleo abierto")
z.show(indg2.stat.crosstab("anio", "genero").orderBy("anio_genero"))

#### Evolucion del nivel de instruccion indigena en los años 
como ha evolucionado el nivel de instruccion en el pueblo indigena a traves del tiempo?, como se explican estos numeros?
Para estas consultas nos centraremos en las siguientes columnas:
* year: La columna describe el anio en el que la persona que realizo la encuesa 
* nivel_de_instruccion: La columna describe el grado de estudios que tienen las personas encuestadas

Aqui aplicaremos el mismo concepto de tablas dinamicas pero usaremos otro metodo (.pivot) ya que en este caso solo deseamos relacionar dos columnas sin importar el orden de los datos
Para la grafica usaremos un grafico de barras que son los mas utiles para comparar categorias y su frecuencia , que es lo que buscamos en esta consultar ademas tambien se comparara cada categoria segun los anios 

Otro apartado importante es que al momento de realizar la consulta por defecto solo nos mostrara la evolucion de un valor por lo que debemos ir a la pestana de configuracion y agregar el valor faltante a la seccion de values 

Para realizar la consulta  agrupamos los datos segun la columna nivel_de_instruccion, usamos la funcion .pivot para relacionar esta columna con la columna de anios aplicando de esta forma el concepto de tablas dinamicas, finalmente aplicamos la funcion .count para obtener el total 

indigenas

In [130]:
z.show(indg.groupBy("nivel_de_instruccion").pivot("anio").count)

meztizos

In [132]:
z.show(mezt.groupBy("nivel_de_instruccion").pivot("anio").count)

vemos que el numero de personas con educacion en los diferentes niveles varia mucho en los indigenas mientras que en los meztizos el numero casi no varia esta diferencia la apreciamos sobre todo en la primeraria 

## A considerar
* Todas las funciones utilizadas para la realizacion del presente EDA se encuentran detalladas en la siguiente direccion: https://github.com/ispa16/ProyectoProgramacionAvanzada/wiki/Funciones-a-utilizar
* Algunas graficas pueden  dar el error "No data to show", considere abrir la pestana "settings" y colocar la key y los values segun corresponda

