# Guia Spark

Spark SQL es una interfaz para el procesamiento de datos estructurados usando el lenguaje SQL. En adición, Spark SQL también puede ser usado para leer datos de Apache Hive. Spark SQL opera sobre DataFrames, los cuales son Datasets (RDD) organizado por columnas identificadas por nombres, los cuales equivalen a tablas en los sistemas de bases de datos relacionales.

Al finalizar este tutorial, el estudiante estará en capacidad de:

-Crear DataFrames a partir de archivos en distintos formatos.

-Aplicar operaciones de selección, filtrado y agregación a un DataFrame.

-Aplicar consultas en SQL sobre un DataFrame.

-Aplicar consultas en SQL directamente sobre archivos.

-Escribir los resultados de operaciones al disco.

# Preparación

In [1]:
##
#https://jdvelasq.github.io/courses/notebooks/pyspark/2-04-pyspark-SparkSQL.html
#https://guru99.es/pyspark-tutorial/
## findspark permite usar pyspark (interfaz de Python a Spark),
## desde cualquier programa escrito en Python.
##
import findspark
findspark.init()

##
## A continuación se inicializan las variables obligatorias
## requeridas para trabajar con Spark desde Python:
##
##  SparkContext representa la conexión al cluster de Spark.
##  SparkConf representa la configuración particular de una aplicación
##     escrita en Spark.
##  SparkSession representa la conexión para trabajar con SQL.
##
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

sparkConf = SparkConf().setAppName("Mi Api Spark")
sc = SparkContext(conf=sparkConf)
spark = SparkSession(sc)

In [2]:
spark

# Creación de DataFrames

A continuación se presenta la carga de DataFrames.

In [22]:
##
## Row representa una fila en un RDD
##
from pyspark.sql import Row
##
## Crea un DataFrame a partir del archivo con
## formato CSV
##
df = spark.read.load("D:\\CLASES\ELECTIVA 3 BigData\\Clase5_Ejercicos_Spark\\DATOS\\icfes.txt",
                     format="csv",
                     sep="|",
                     inferSchema= True,
                     #encoding='latin1',
                     #encoding='utf-8',
                     encoding="iso-8859-1",
                     decimal=",",
                     header="true")
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- Ã¯Â»Â¿estu_exam_nombreexamen: string (nullable = true)
 |-- estu_estudiante: integer (nullable = true)
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: doubl

In [23]:
##
## Selección de una columna en particular
##
df.select('punt_quimica').show()

+------------+
|punt_quimica|
+------------+
|        54,1|
|       46,19|
|       54,61|
|       61,96|
|       51,58|
|        54,1|
|       51,58|
|       51,58|
|       52,07|
|       49,44|
|          59|
|       51,58|
|        54,1|
|       69,14|
|       51,58|
|       52,07|
|       63,93|
|       46,66|
|       57,08|
|       40,31|
+------------+
only showing top 20 rows



In [24]:
from pyspark.sql.functions import regexp_replace
df = (
         df
         .withColumn('punt_quimica', regexp_replace('punt_quimica', ',', '.'))
         .withColumn('punt_lenguaje', regexp_replace('punt_lenguaje', ',', '.'))
         .withColumn('punt_matematicas', regexp_replace('punt_matematicas', ',', '.'))
         .withColumn('punt_c_sociales', regexp_replace('punt_c_sociales', ',', '.'))    
         .withColumn('punt_filosofia', regexp_replace('punt_filosofia', ',', '.'))  
         .withColumn('punt_biologia', regexp_replace('punt_biologia', ',', '.'))    
         .withColumn('punt_fisica', regexp_replace('punt_fisica', ',', '.'))    
         .withColumn('punt_ingles', regexp_replace('punt_ingles', ',', '.'))  
     )

# Castear una columna

In [25]:
from pyspark.sql.types import *
df = (df
      .withColumn("punt_quimica", df["punt_quimica"].cast(DoubleType()))
      .withColumn('punt_lenguaje', df["punt_lenguaje"].cast(DoubleType()))
      .withColumn('punt_matematicas', df["punt_matematicas"].cast(DoubleType()))
      .withColumn('punt_c_sociales', df["punt_c_sociales"].cast(DoubleType()))  
      .withColumn('punt_filosofia',df["punt_filosofia"].cast(DoubleType()))
      .withColumn('punt_biologia', df["punt_biologia"].cast(DoubleType())) 
      .withColumn('punt_fisica', df["punt_fisica"].cast(DoubleType())) 
      .withColumn('punt_ingles', df["punt_ingles"].cast(DoubleType()))
     )
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- Ã¯Â»Â¿estu_exam_nombreexamen: string (nullable = true)
 |-- estu_estudiante: integer (nullable = true)
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: doubl

In [26]:
##
## Selección de una columna en particular
##
df.select('punt_quimica','punt_lenguaje','punt_matematicas','punt_c_sociales','punt_filosofia',
         'punt_biologia','punt_fisica','punt_ingles').show(5)

+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+
|punt_quimica|punt_lenguaje|punt_matematicas|punt_c_sociales|punt_filosofia|punt_biologia|punt_fisica|punt_ingles|
+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+
|        54.1|         53.5|           42.46|          46.44|         53.93|        32.02|      54.26|      41.66|
|       46.19|        50.45|           53.16|          31.42|         47.74|        36.32|      54.26|      49.66|
|       54.61|        50.45|           60.51|          53.57|         40.54|         50.4|      54.13|      61.66|
|       61.96|        47.24|           48.09|          62.57|         53.93|         58.6|      54.13|      46.27|
|       51.58|        67.92|            63.5|          53.02|         48.66|        52.34|      69.98|      66.95|
+------------+-------------+----------------+---------------+--------------+----

### Describir los datos

Para obtener un resumen de estadísticas, de los datos, puede utilizar describe (). Se calculará el:

conteo

promedio

desviación estándar

mín

Máx

In [27]:
df.select('punt_quimica','punt_lenguaje','punt_matematicas').describe().show()

+-------+-----------------+-----------------+-----------------+
|summary|     punt_quimica|    punt_lenguaje| punt_matematicas|
+-------+-----------------+-----------------+-----------------+
|  count|           540450|           540450|           540450|
|   mean|50.00428957353922| 50.0115632343615| 50.0023574243469|
| stddev|10.00356432408966|9.968519858340951|10.00281073604555|
|    min|              0.0|              0.0|              0.0|
|    max|            118.8|           113.19|           114.88|
+-------+-----------------+-----------------+-----------------+



In [28]:
df1=df.selectExpr('cast(punt_quimica as double)','cast(punt_lenguaje as double )',
                  'cast(punt_matematicas as double)','cast(punt_c_sociales as double)','cast(punt_filosofia as double)',
         'cast(punt_biologia as double)','cast(punt_fisica as double)','cast(punt_ingles as double)')

df1.show(5)

+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+
|punt_quimica|punt_lenguaje|punt_matematicas|punt_c_sociales|punt_filosofia|punt_biologia|punt_fisica|punt_ingles|
+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+
|        54.1|         53.5|           42.46|          46.44|         53.93|        32.02|      54.26|      41.66|
|       46.19|        50.45|           53.16|          31.42|         47.74|        36.32|      54.26|      49.66|
|       54.61|        50.45|           60.51|          53.57|         40.54|         50.4|      54.13|      61.66|
|       61.96|        47.24|           48.09|          62.57|         53.93|         58.6|      54.13|      46.27|
|       51.58|        67.92|            63.5|          53.02|         48.66|        52.34|      69.98|      66.95|
+------------+-------------+----------------+---------------+--------------+----

# Filtrado de registros usando condicionales

In [29]:
df.select('estu_mpio_presentacion','punt_quimica').filter(df['estu_mpio_presentacion'] == 'TUQUERRES').show(5)

+----------------------+------------+
|estu_mpio_presentacion|punt_quimica|
+----------------------+------------+
|             TUQUERRES|       49.44|
|             TUQUERRES|       51.58|
|             TUQUERRES|       43.65|
|             TUQUERRES|       61.43|
|             TUQUERRES|       59.52|
+----------------------+------------+
only showing top 5 rows



# Funciones de agregación 

In [30]:
##
## La función agg recibe un diccionario que indica
## con que función (valor del diccionario) se agrega
## una determinada columna (clave del diccionario)
##
df1.agg({"punt_quimica": "max"}).show()

+-----------------+
|max(punt_quimica)|
+-----------------+
|            118.8|
+-----------------+



# Group by

In [31]:
##
## Cuenta cuandos registros hay por cada valor en
## la columna quantity
##
df.groupBy('estu_dept_presentacion').count().show()

+----------------------+-----+
|estu_dept_presentacion|count|
+----------------------+-----+
|             SANTANDER|27397|
|            BOYACÃï¿½|18816|
|            VAUPÃâ°S|  248|
|              CASANARE| 4821|
|                  META|10576|
|              AMAZONAS|  720|
|              GUAVIARE|  840|
|                 CAUCA|11663|
|               VICHADA|  464|
|       NORTE SANTANDER|16405|
|             ANTIOQUIA|76346|
|         ATLÃï¿½NTICO|28268|
|                CALDAS|12361|
|           QUINDÃï¿½O| 7039|
|          CUNDINAMARCA|34263|
|            NARIÃâO|15092|
|            LA GUAJIRA| 6364|
|             CHOCÃâ| 4015|
|                TOLIMA|16094|
|           GUAINÃï¿½A|  153|
+----------------------+-----+
only showing top 20 rows



In [32]:
df.groupBy('estu_dept_presentacion').count().sort("count",ascending=True).show(36)

+----------------------+-----+
|estu_dept_presentacion|count|
+----------------------+-----+
|           GUAINÃï¿½A|  153|
|            VAUPÃâ°S|  248|
|               VICHADA|  464|
|              AMAZONAS|  720|
|              GUAVIARE|  840|
|        SAN ANDRÃâ°S|  879|
|                ARAUCA| 3087|
|              PUTUMAYO| 3158|
|             CHOCÃâ| 4015|
|           CAQUETÃï¿½| 4176|
|              CASANARE| 4821|
|            LA GUAJIRA| 6364|
|           QUINDÃï¿½O| 7039|
|                  META|10576|
|                 SUCRE|10625|
|             RISARALDA|10907|
|                 CESAR|11650|
|                 CAUCA|11663|
|                CALDAS|12361|
|                 HUILA|13044|
|             MAGDALENA|13398|
|            NARIÃâO|15092|
|                TOLIMA|16094|
|       NORTE SANTANDER|16405|
|           CÃâRDOBA|17880|
|            BOYACÃï¿½|18816|
|           BOLÃï¿½VAR|24688|
|             SANTANDER|27397|
|         ATLÃï¿½NTICO|28268|
|       

### Colar columna

Hay dos API intuitivas para soltar columnas:
    
    drop (): soltar una columna
        
    dropna (): Dejar caer NA

In [33]:
df=df.drop('Ã¯Â»Â¿estu_exam_nombreexamen')
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- estu_estudiante: integer (nullable = true)
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: double (nullable = true)
 |-- estu_ies_deseada_nombre: string (nu

# Agregar nueva columna

In [34]:
from pyspark.sql.functions import *



df = df.withColumn(
            "prom_puntaje",  
                        (col('punt_quimica')+col('punt_lenguaje')+col('punt_matematicas')+col('punt_c_sociales')+
                        col('punt_filosofia')+col('punt_biologia')+col('punt_fisica')+col('punt_ingles')
                        )/8
)
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- estu_estudiante: integer (nullable = true)
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: double (nullable = true)
 |-- estu_ies_deseada_nombre: string (nu

In [35]:
df.select('punt_quimica','punt_lenguaje','punt_matematicas','punt_c_sociales','punt_filosofia',
         'punt_biologia','punt_fisica','punt_ingles','prom_puntaje').show(5)

+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+------------------+
|punt_quimica|punt_lenguaje|punt_matematicas|punt_c_sociales|punt_filosofia|punt_biologia|punt_fisica|punt_ingles|      prom_puntaje|
+------------+-------------+----------------+---------------+--------------+-------------+-----------+-----------+------------------+
|        54.1|         53.5|           42.46|          46.44|         53.93|        32.02|      54.26|      41.66|          47.29625|
|       46.19|        50.45|           53.16|          31.42|         47.74|        36.32|      54.26|      49.66|46.150000000000006|
|       54.61|        50.45|           60.51|          53.57|         40.54|         50.4|      54.13|      61.66|          53.23375|
|       61.96|        47.24|           48.09|          62.57|         53.93|         58.6|      54.13|      46.27|          54.09875|
|       51.58|        67.92|            63.5|          53.02| 

#   Consultas

In [40]:
# Se crea una vista temporal
# que desaparece cuando se cierra la
# sesión actual de Spark

df.createOrReplaceTempView('icfesview') ## este es el nombre de la tabla

## Se realiza la consulta usando directamente SQL
spark.sql('SELECT estu_dept_presentacion,avg(cast(prom_puntaje as double)) as prom FROM icfesview group by estu_dept_presentacion').show(36)

+----------------------+------------------+
|estu_dept_presentacion|              prom|
+----------------------+------------------+
|             SANTANDER| 51.39456642150607|
|               CÓRDOBA| 48.70530893456379|
|                NARIÑO|50.268969238669506|
|               CAQUET�|48.144629430076634|
|              CASANARE| 49.41455377515039|
|                  META|49.952078881429635|
|              AMAZONAS|46.779588541666676|
|              GUAVIARE| 49.00277529761902|
|                 CAUCA| 48.07004190602761|
|               VICHADA| 47.66108297413794|
|       NORTE SANTANDER|49.711838159097866|
|                BOYAC�|50.835334622130105|
|             ANTIOQUIA|49.688220273491616|
|               BOL�VAR| 48.28452157930983|
|                CALDAS| 50.32032208154682|
|          CUNDINAMARCA|50.170810568251504|
|             ATL�NTICO| 49.15129178753365|
|            LA GUAJIRA| 47.16666463702075|
|                TOLIMA| 49.58782349012058|
|                ARAUCA| 48.9830

# Ejecución de SQL directamente sobre archivos

Spark SQL permite ejecutar directamente SQL sobre archivos indicando el tipo de archivo.

In [71]:
##
## SQL sobre un archivo en formato CSV. Note que
## en lugar de la tabla se especifica el formato del
## archivo (CSV) y entre comillas `` el nombre del
## archivo.
##
spark.sql('SELECT (_c0) FROM csv.`D://CLASES//ELECTIVA 3 BigData//Clase5_Ejercicos_Spark/DATOS//icfes.txt`').show(10)

+--------------------+
|                 _c0|
+--------------------+
||ï»¿estu_exam_nom...|
|0|EXAMEN SABER 11...|
|1|EXAMEN SABER 11...|
|2|EXAMEN SABER 11...|
|3|EXAMEN SABER 11...|
|4|EXAMEN SABER 11...|
|5|EXAMEN SABER 11...|
|6|EXAMEN SABER 11...|
|7|EXAMEN SABER 11...|
|8|EXAMEN SABER 11...|
+--------------------+
only showing top 10 rows



# Persistir en disco

In [73]:
##
## Los resultados se escriben al disco con write.save().
## El parámetro es el nombre del directorio. La llamada a
## la función crea el archivo _SUCCESS que indica que la
## función se ejecutó correctamente, y los archivos
## con el resultado.
##
df.filter(df['estu_mpio_presentacion'] == 'TUQUERRES').write.save('D://CLASES//ELECTIVA 3 BigData//Clase5_Ejercicos_Spark/DATOS//icfes_t')

# Solucionar problemas de encoding

In [38]:
from pyspark.sql.functions import udf
from ftfy import fix_encoding,fix_text

def my_encoder(x):
    x= fix_encoding(str(x))
    x= fix_text(x)
    return x
my_encoder_udf = udf(my_encoder)

df.dtypes
for col_name in df.dtypes:
    if col_name[1]=='string':
        df=df.withColumn(col_name[0], my_encoder_udf(col_name[0]))



In [39]:
df.groupBy('estu_dept_presentacion').count().sort("count",ascending=True).show(36)

+----------------------+-----+
|estu_dept_presentacion|count|
+----------------------+-----+
|               GUAIN�A|  153|
|                VAUPÉS|  248|
|               VICHADA|  464|
|              AMAZONAS|  720|
|              GUAVIARE|  840|
|            SAN ANDRÉS|  879|
|                ARAUCA| 3087|
|              PUTUMAYO| 3158|
|                 CHOCÓ| 4015|
|               CAQUET�| 4176|
|              CASANARE| 4821|
|            LA GUAJIRA| 6364|
|               QUIND�O| 7039|
|                  META|10576|
|                 SUCRE|10625|
|             RISARALDA|10907|
|                 CESAR|11650|
|                 CAUCA|11663|
|                CALDAS|12361|
|                 HUILA|13044|
|             MAGDALENA|13398|
|                NARIÑO|15092|
|                TOLIMA|16094|
|       NORTE SANTANDER|16405|
|               CÓRDOBA|17880|
|                BOYAC�|18816|
|               BOL�VAR|24688|
|             SANTANDER|27397|
|             ATL�NTICO|28268|
|       

In [42]:
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- estu_estudiante: integer (nullable = true)
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: double (nullable = true)
 |-- estu_ies_deseada_nombre: string (nu

# Eliminar columnas de no interés 

In [45]:
col_delete=['_c0','estu_estudiante','desemp_ingles','nombre_comp_flexible'
                   ,'punt_comp_flexible','desemp_comp_flexible',
                   'punt_biologia_recal','punt_c_sociales_recal',
                   'punt_filosofia_recal','punt_filosofia_recal',
                   'punt_fisica_recal','punt_ingles_recal',
                   'punt_lenguaje_recal','punt_matematicas_recal',
                   'punt_quimica_recal']
for c in col_delete:
    df=df.drop(c)

In [46]:
df.printSchema()

root
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: double (nullable = true)
 |-- estu_ies_deseada_nombre: string (nullable = true)
 |-- estu_ies_cod_mpio_deseada: double (nullable = true)
 |-- estu_ie

# Cruces con ecaes 

In [47]:
df_cruces = spark.read.load("D:\\CLASES\ELECTIVA 3 BigData\\Clase5_Ejercicos_Spark\\DATOS\\cruces.txt",
                     format="csv",
                     sep=",",
                     inferSchema= True,
                     encoding="iso-8859-1",
                     decimal=",",
                     header="true")

In [48]:
df_cruces.printSchema()

root
 |-- estu_consecutivo_11: string (nullable = true)
 |-- estu_consecutivo_PRO: string (nullable = true)



# Crear Tablas Spark

In [49]:
df.createOrReplaceTempView('icfesview')
df_cruces.createOrReplaceTempView('cruces') 

# Join tablas

Cantidad de estudiantes que presentaron el icfes y presentaron el ecaes 

In [52]:
spark.sql("select count(1) from icfesview ic join cruces c"+
          " on c.estu_consecutivo_11=ic.estu_consecutivo").show()

+--------+
|count(1)|
+--------+
|  172623|
+--------+



Cantidad de estudiantes que presentaron el icfes y no presentaron el ecaes

In [53]:
#left  join 
spark.sql("select count(ic.estu_consecutivo) from icfesview ic left join cruces c"+
          " on c.estu_consecutivo_11=ic.estu_consecutivo"+
          " where c.estu_consecutivo_pro is null").show()


+-----------------------+
|count(estu_consecutivo)|
+-----------------------+
|                 374020|
+-----------------------+



In [62]:
df_icfes_ml=spark.sql("select ic.*,"+
" case when c.estu_consecutivo_pro is null then 0 else 1 end clase"+
" from icfesview ic left join cruces c"+ 
" on c.estu_consecutivo_11=ic.estu_consecutivo")

In [64]:
df_icfes_ml.select('estu_consecutivo','clase').show()

+------------------+-----+
|  estu_consecutivo|clase|
+------------------+-----+
|SABER1120102000203|    1|
|SABER1120102000279|    0|
|SABER1120102000364|    0|
|SABER1120102000534|    0|
|SABER1120102000802|    0|
|SABER1120102000996|    0|
|SABER1120102001119|    1|
|SABER1120102001187|    0|
|SABER1120102001507|    0|
|SABER1120102001584|    1|
|SABER1120102001736|    0|
|SABER1120102001771|    0|
|SABER1120102001962|    0|
|SABER1120102002904|    0|
|SABER1120102003326|    0|
|SABER1120102003555|    0|
|SABER1120102003687|    0|
|SABER1120102004187|    1|
|SABER1120102004466|    1|
|SABER1120102004522|    0|
+------------------+-----+
only showing top 20 rows



In [83]:
df_icfes_ml.repartition(1).write.csv('D:\\CLASES\ELECTIVA 3 BigData\\Clase5_Ejercicos_Spark\\DATOS\\icfes_ml.csv',sep='|',header="true") 

In [80]:
df_new = spark.read.load("D:\\CLASES\ELECTIVA 3 BigData\\Clase5_Ejercicos_Spark\\DATOS\\icfes_ml.csv",
                     format="csv",
                     sep="|",
                     inferSchema= True,
                     encoding="utf-8",
                     header="true")

In [81]:
df_new.printSchema()

root
 |-- periodo: integer (nullable = true)
 |-- estu_consecutivo: string (nullable = true)
 |-- estu_edad: double (nullable = true)
 |-- estu_tipo_documento: string (nullable = true)
 |-- estu_pais_reside: string (nullable = true)
 |-- estu_genero: string (nullable = true)
 |-- estu_nacimiento_dia: double (nullable = true)
 |-- estu_nacimiento_mes: double (nullable = true)
 |-- estu_nacimiento_anno: double (nullable = true)
 |-- estu_cod_reside_mcpio: double (nullable = true)
 |-- estu_reside_mcpio: string (nullable = true)
 |-- estu_reside_depto: string (nullable = true)
 |-- estu_zona_reside: double (nullable = true)
 |-- estu_area_reside: double (nullable = true)
 |-- cole_valor_pension: double (nullable = true)
 |-- estu_trabaja: double (nullable = true)
 |-- fami_estrato_vivienda: double (nullable = true)
 |-- estu_ies_cod_deseada: double (nullable = true)
 |-- estu_ies_deseada_nombre: string (nullable = true)
 |-- estu_ies_cod_mpio_deseada: double (nullable = true)
 |-- estu_ie