<p style = 'text-align:left;'>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/6c/Javeriana.svg/1200px-Javeriana.svg.png" height="200" width="300">
</p>

<h1>Parcail 2 - Procesamiento de datos a gran escala</h1>

<h2>Fecha: 14/05/2024</h2>


<h4>Programas</h4>
<h5>Ciencia de datos e Ingeniería de Sistemas</h5>

<h4>Integrantes</h4>
<p>Santiago Botero Pacheco</p>
<p>Santiago Avilés Tibocha</p>


## Contexto de Dataset (Entendimiento de los datos)

En Colombia uno de los exámenes estandarizados mas importantes es el SABER-PRO, esta es una prueba que todo estudiante que tenga educación superior debe presentar como requisito de grado. Principalmente “es un instrumento de evaluación estandarizada para la medición externa de la calidad de la educación superior que evalúa las competencias de los estudiantes que están próximos a culminar los distintos programas profesionales universitarios.” (Acerca del examen Saber Pro, s/f)

El examen como tal se presenta en un día especificado por el estado, este se divide en dos jornadas, en las cuales el estudiante debe presentar ciertos módulos.  El examen “está compuesto por un grupo de competencias genéricas y otro de específicas. El primer conjunto evalúa cinco módulos genéricos: Lectura Crítica, Razonamiento Cuantitativo, Competencias Ciudadanas, Comunicación Escrita e Inglés. El segundo grupo está compuesto por módulos asociados a temáticas y contenidos específicos que los estudiantes pueden presentar de acuerdo con su área de formación”. (Acerca del examen Saber Pro, s/f)

Los datos presentados a continuación son los resultados individuales de cada estudiante en la prueba ateriormente descrita para los años 2018 a 2022 (Con ultima actualización el 2024). 

URL del dataset: https://www.datos.gov.co/Educaci-n/Resultados-nicos-Saber-Pro/u37r-hjmu/about_data




### Referencias Usadas

*Acerca del examen Saber Pro. (s/f). Icfes. Recuperado el 13 de mayo de 2024, de https://www.icfes.gov.co/acerca-del-examen-saber-pro*



## Creación del entorno de trabajo (Pyspark y Python)

In [None]:
#Importar bibliotecas para la exploración
import pandas as pd
import pyspark
from pyspark import SparkContext
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *
import json
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
#Crear el contexto de Pyspark para utilización de sus funciones
spark = SparkContext.getOrCreate()
spark = SparkSession.builder.appName("Proyecto1").getOrCreate()

sc = SparkContext.getOrCreate()
sql_c = SQLContext(sc)
sc

## Descargar los datos


In [None]:
pandas_general = None
for i in range(1, 28):
    base_url = f"https://raw.githubusercontent.com/Aviles17/Tecnologia-SABERPRO/main/data/SABER-PRO/Resultados__nicos_Saber_Pro_20240513-{i}.csv"
    df_temp  = pd.read_csv(base_url)
    if pandas_general is None:
        pandas_general = df_temp
    else:
        pandas_general = pd.concat([pandas_general, df_temp], ignore_index=True)


pandas_general.head(5)


In [None]:
df_resultados_pro = sql_c.createDataFrame(pandas_general) #Convertir a PySpark
display(df_resultados_pro)

## Exploración de los datos entregados (EDA)

### Schema y Diccionario de datos

In [None]:
#Columnas existentes en el dataset
df_resultados_pro.printSchema()

In [None]:
#Tipo de datos existentes en el dataset
df_resultados_pro.dtypes

#### Diccionario de Datos

| Campo | Tipo | Nullable | Descripción |
| --- | --- | --- | --- |
| PERIODO | bigint | True | Periodo académico |
| ESTU_CONSECUTIVO | string | True | Consecutivo del estudiante |
| ESTU_TIPODOCUMENTO | string | True | Tipo de documento del estudiante |
| ESTU_PAIS_RESIDE | string | True | País de residencia del estudiante |
| ESTU_COD_RESIDE_DEPTO | double | True | Código del departamento de residencia del estudiante |
| ESTU_DEPTO_RESIDE | string | True | Departamento de residencia del estudiante |
| ESTU_COD_RESIDE_MCPIO | double | True | Código del municipio de residencia del estudiante |
| ESTU_MCPIO_RESIDE | string | True | Municipio de residencia del estudiante |
| ESTU_CODDANE_COLE_TERMINO | double | True | Código DANE del colegio de terminación del estudiante |
| ESTU_COD_COLE_MCPIO_TERMINO | double | True | Código del municipio del colegio de terminación del estudiante |
| ESTU_COD_DEPTO_PRESENTACION | double | True | Código del departamento de presentación del estudiante |
| INST_COD_INSTITUCION | bigint | True | Código de la institución |
| INST_NOMBRE_INSTITUCION | string | True | Nombre de la institución |
| INST_CARACTER_ACADEMICO | string | True | Carácter académico de la institución |
| ESTU_NUCLEO_PREGRADO | string | True | Núcleo de pregrado del estudiante |
| ESTU_INST_DEPARTAMENTO | string | True | Departamento de la institución del estudiante |
| ESTU_INST_CODMUNICIPIO | bigint | True | Código del municipio de la institución del estudiante |
| ESTU_INST_MUNICIPIO | string | True | Municipio de la institución del estudiante |
| ESTU_PRGM_ACADEMICO | string | True | Programa académico del estudiante |
| ESTU_PRGM_DEPARTAMENTO | string | True | Departamento del programa académico del estudiante |
| ESTU_PRGM_CODMUNICIPIO | bigint | True | Código del municipio del programa académico del estudiante |
| ESTU_PRGM_MUNICIPIO | string | True | Municipio del programa académico del estudiante |
| ESTU_NIVEL_PRGM_ACADEMICO | string | True | Nivel del programa académico del estudiante |
| ESTU_METODO_PRGM | string | True | Método del programa académico del estudiante |
| ESTU_VALORMATRICULAUNIVERSIDAD | string | True | Valor de la matrícula de la universidad del estudiante |
| ESTU_DEPTO_PRESENTACION | string | True | Departamento de presentación del estudiante |
| ESTU_COD_MCPIO_PRESENTACION | double | True | Código del municipio de presentación del estudiante |
| ESTU_MCPIO_PRESENTACION | string | True | Municipio de presentación del estudiante |
| ESTU_PAGOMATRICULABECA | string | True | Pago de matrícula con beca del estudiante |
| ESTU_PAGOMATRICULACREDITO | string | True | Pago de matrícula con crédito del estudiante |
| ESTU_HORASSEMANATRABAJA | string | True | Horas semanales que trabaja el estudiante |
| ESTU_SNIES_PRGMACADEMICO | double | True | Código SNIES del programa académico del estudiante |
| ESTU_PRIVADO_LIBERTAD | string | True | Indica si el estudiante está privado de la libertad |
| ESTU_NACIONALIDAD | string | True | Nacionalidad del estudiante |
| ESTU_ESTUDIANTE | string | True | Indica si el estudiante es estudiante |
| ESTU_GENERO | string | True | Género del estudiante |
| ESTU_COLE_TERMINO | string | True | Colegio de terminación del estudiante |
| ESTU_PAGOMATRICULAPADRES | string | True | Pago de matrícula con recursos de los padres del estudiante |
| ESTU_ESTADOINVESTIGACION | string | True | Estado de investigación del estudiante |
| ESTU_FECHANACIMIENTO | string | True | Fecha de nacimiento del estudiante |
| ESTU_PAGOMATRICULAPROPIO | string | True | Pago de matrícula con recursos propios del estudiante |
| ESTU_TIPODOCUMENTOSB11 | string | True | Tipo de documento del estudiante (SB11) |
| FAMI_EDUCACIONPADRE | string | True | Nivel de educación del padre del estudiante |
| FAMI_TIENEAUTOMOVIL | string | True | Indica si la familia del estudiante tiene automóvil |
| FAMI_TIENELAVADORA | string | True | Indica si la familia del estudiante tiene lavadora |
| FAMI_ESTRATOVIVIENDA | string | True | Estrato de la vivienda del estudiante |
| FAMI_TIENECOMPUTADOR | string | True | Indica si la familia del estudiante tiene computador |
| FAMI_TIENEINTERNET | string | True | Indica si la familia del estudiante tiene internet |
| FAMI_EDUCACIONMADRE | string | True | Nivel de educación de la madre del estudiante |
| INST_ORIGEN | string | True | Origen de la institución |
| MOD_RAZONA_CUANTITAT_PUNT | bigint | True | Puntaje de la módulo de razonamiento cuantitativo |
| MOD_COMUNI_ESCRITA_PUNT | double | True | Puntaje de la módulo de comunicación escrita |
| MOD_COMUNI_ESCRITA_DESEM | double | True | Desempeño de la módulo de comunicación escrita |
| MOD_INGLES_DESEM | string | True | Desempeño de la módulo de inglés |
| MOD_LECTURA_CRITICA_PUNT | bigint | True | Puntaje de la módulo de lectura crítica |
| MOD_INGLES_PUNT | double | True | Puntaje de la módulo de inglés |
| MOD_COMPETEN_CIUDADA_PUNT | bigint | True | Puntaje de la módulo de competencias ciudadanas |

Teniendo en consideración los datos adquiridos y el objetivo de este estudio, se decidio eliminar ciertas columnas que parecen ser inecesarias, ya que o no van al punto del estudio, o simplemente presentan información redundante. Tambien hay algunas columnas que pueden o no ser relevantes dependiendo de los datos que tengan como es el caso de la columna *ESTU_PRIVADO_LIBERTAD*

In [None]:
#Seleccionar columnas utiles
cols = ["PERIODO", "ESTU_PAIS_RESIDE", "ESTU_COD_RESIDE_DEPTO", "ESTU_COD_RESIDE_MCPIO","ESTU_NUCLEO_PREGRADO", "ESTU_PRGM_ACADEMICO", "ESTU_NIVEL_PRGM_ACADEMICO", "ESTU_METODO_PRGM", "ESTU_HORASSEMANATRABAJA","ESTU_PRIVADO_LIBERTAD", "ESTU_GENERO","FAMI_EDUCACIONPADRE", "FAMI_ESTRATOVIVIENDA", "FAMI_TIENECOMPUTADOR", "FAMI_TIENEINTERNET", "FAMI_EDUCACIONMADRE", "MOD_RAZONA_CUANTITAT_PUNT", "MOD_COMUNI_ESCRITA_PUNT", "MOD_COMUNI_ESCRITA_DESEM", "MOD_LECTURA_CRITICA_PUNT", "MOD_INGLES_PUNT", "MOD_COMPETEN_CIUDADA_PUNT"]
df_resultados = df_resultados_pro.select(cols)

### Estadisticos Basicos por columna

In [None]:
#Estadisticos importantes por cada columna del dataset
display(df_resultados.describe())

Se puede conlcuir que existen variables tanto numericas como de tipo string. Por parte de las numericas podemos observar los estadisticos mas generales (media, desviación estandar, maximos y minimos). Por otro lado, gracias a la cuenta de los datos podemos concluir que existen valores nulos o faltantes

### Graficos por columna

In [None]:
#Crear filtro por tipo de datos para correcta visualización

#Filtro por columna numerica
numeric_cols = [col for col, dtype in df_resultados.dtypes if dtype in ['int', 'long', 'float', 'double', 'bigint']]
df_numeric = df_resultados.select(numeric_cols)

# Filtro por columna tipo string
string_cols = [col for col, dtype in df_resultados.dtypes if dtype == 'string']
df_string = df_resultados.select(string_cols)

df_numeric.createOrReplaceTempView("data_num")
df_string.createOrReplaceTempView("data_string")

#### Histogramas Generales con Pandas 

In [None]:
#Visualizacion General con Pandas (Histogramas)
numeric_cols = [col for col, dtype in df_resultados.dtypes if dtype in ['int', 'long', 'float', 'double', 'bigint']]
df_numeric_pd = df_resultados.select(numeric_cols).toPandas()

num_cols = 2  # Number of columns for the continuous variables plots
num_rows = (len(numeric_cols) + num_cols - 1) // num_cols  # Calculate the number of rows needed

fig, axes = plt.subplots(num_rows, num_cols, figsize=(15, 5*num_rows))
axes = axes.ravel()

for i, col in enumerate(df_numeric_pd.columns):
    sns.histplot(data=df_numeric_pd, x=col, ax=axes[i])
    axes[i].set_title(col)

plt.tight_layout()
plt.show()

- Se puede observar que la columna *ESTU_COD_RESIDE_DEPTO* tiene muy pocos datos, por lo que se recomienda eliminarla

- Las columnas con la puntación tienen una disperción normal, aunque existen varios datos atipicos, en cuanto a distribución se habla, se recomienda hacer graficos de caja para revisar estos.
- La columna *MOD_COMUNI_ESCRITA_DESEM* es redundante


#### Diagramas de barras Generales

In [None]:
%sql
select * from data_string

-  Las columnas *ESTU_PRIVADO_LIBERTAD* (Esta tiene dos pero la otra es demasiado pequeña, con 66 registros) y *ESTU_NIVEL_PRGM_ACADEMICO* no tienen información relevante ya que solo tienen una categoria, se recomienda borrar registros que pueden generar ruido y subsecuentemente las columnas

- En las columnas *FAMI_EDUCACIONPADRE* y *FAMI_EDUCACIONMADRE* hay datos nulos que no estan marcados como nulos (No aplica, No sabe)

#### Graficas Relacionadas con Pyspark

In [None]:
%sql
--Graficas de dispersion en desempeño por modulo
select PERIODO, MOD_RAZONA_CUANTITAT_PUNT, MOD_COMUNI_ESCRITA_PUNT, MOD_LECTURA_CRITICA_PUNT, MOD_INGLES_PUNT, MOD_COMPETEN_CIUDADA_PUNT from data_num

- Se puede observar que el periodo 2019-6 no tiene datos, por ende es mejor eliminar todo registro de este.
- Los datos atipicos son siempre 0 o 300. Se sabe por contexto que es posible tener una nota perfecta de 300, sin embargo una nota de 0 es imposible (Si se presenta la prueba), por ende se debe buscar como tratar la nota 0
- Se recomienda convertir los periodos a años

In [None]:
%sql
select FAMI_TIENECOMPUTADOR, FAMI_TIENEINTERNET, FAMI_EDUCACIONMADRE, FAMI_EDUCACIONPADRE, ESTU_HORASSEMANATRABAJA from data_string

## Transformaciones Preliminares

In [None]:
#Eliminar columnas redundante o sin informacion (Con sus registros)
cols = ["PERIODO", "ESTU_PAIS_RESIDE", "ESTU_COD_RESIDE_MCPIO","ESTU_NUCLEO_PREGRADO", "ESTU_PRGM_ACADEMICO", "ESTU_METODO_PRGM", "ESTU_HORASSEMANATRABAJA","ESTU_PRIVADO_LIBERTAD", "ESTU_GENERO","FAMI_EDUCACIONPADRE", "FAMI_ESTRATOVIVIENDA", "FAMI_TIENECOMPUTADOR", "FAMI_TIENEINTERNET", "FAMI_EDUCACIONMADRE", "MOD_RAZONA_CUANTITAT_PUNT", "MOD_COMUNI_ESCRITA_PUNT", "MOD_LECTURA_CRITICA_PUNT", "MOD_INGLES_PUNT", "MOD_COMPETEN_CIUDADA_PUNT"]
df_resultados_limp_1 = df_resultados.select(cols)
display(df_resultados_limp_1)

In [None]:
#Eliminar registros de estudiantes privados de la libertad y la columna 
df_filtered = df_resultados_limp_1.filter(df_resultados_limp_1['ESTU_PRIVADO_LIBERTAD'] != 'S')
df_resultados_limp_2 = df_filtered.drop('ESTU_PRIVADO_LIBERTAD')
display(df_resultados_limp_2)

In [None]:
#Eliminar registros que tengan el periodo 20196
df_resultados_limp_3 = df_resultados_limp_2.filter(df_resultados_limp_2['PERIODO'] != 20196)
display(df_resultados_limp_3)

In [None]:
#Convertir periodo al año donde se tomo el examen
df_resultados_limp_4 = df_resultados_limp_3.withColumn('AÑO', substring('PERIODO', 1, 4).cast('int'))
df_resultados_limp_4 = df_resultados_limp_4.drop("PERIODO")
display(df_resultados_limp_4)

In [None]:
#Marcar como nulos aquellos valores que son nulos dentro de las variables categoricas
df_resultados_limp_5 = df_resultados_limp_4.withColumn('FAMI_EDUCACIONPADRE', when((df_resultados_limp_4['FAMI_EDUCACIONPADRE'] == 'No sabe') | (df_resultados_limp_4['FAMI_EDUCACIONPADRE'] == 'No aplica'), None).otherwise(df_resultados_limp_4['FAMI_EDUCACIONPADRE']))
df_resultados_limp_6 = df_resultados_limp_5.withColumn('FAMI_EDUCACIONMADRE', when((df_resultados_limp_5['FAMI_EDUCACIONMADRE'] == 'No sabe') | (df_resultados_limp_5['FAMI_EDUCACIONMADRE'] == 'No aplica'), None).otherwise(df_resultados_limp_5['FAMI_EDUCACIONMADRE']))

## Reporte de Nulos

In [None]:
#Cantidad de valores nulos
null_counts = []

for column in df_resultados_limp_6.columns:
    # Contar los valores nulos en la columna actual
    null_count = df_resultados_limp_6.filter(df_resultados_limp_6[column].isNull()).count()
    null_counts.append((column, null_count))

# Imprimir los recuentos de los valores por columna
for column, count in null_counts:
    print(f"Cantidad de valores nulos en la columna '{column}': {count}")

In [None]:
#Proporción de valores nulos
null_counts = []

for column in df_resultados_limp_6.columns:
    # Contar los valores nulos en la columna actual
    null_count = df_resultados_limp_6.filter(df_resultados_limp_6[column].isNull()).count()
    null_counts.append((column, null_count))

# Imprimir los recuentos de los valores por columna
for column, count in null_counts:
    print(f"Proporción de valores nulos en la columna '{column}': {count / df_resultados_limp_6.count()}")

## Tratamiento de Valores Nulos

Teniendo en consideración que los valores nulos no escalan a mas del 10%, para evitar ruido durante el analisis se recomienda eliminar todos los valores nulos

In [None]:
#Eliminar valores nulos
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["ESTU_COD_RESIDE_MCPIO"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["ESTU_HORASSEMANATRABAJA"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["ESTU_GENERO"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["FAMI_EDUCACIONPADRE"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["FAMI_ESTRATOVIVIENDA"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["FAMI_TIENECOMPUTADOR"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["FAMI_TIENEINTERNET"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["FAMI_EDUCACIONMADRE"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["MOD_COMUNI_ESCRITA_PUNT"])
df_resultados_limp_6 = df_resultados_limp_6.na.drop(subset=["MOD_INGLES_PUNT"])


In [None]:
#Cantidad de valores nulos
null_counts = []

for column in df_resultados_limp_6.columns:
    # Contar los valores nulos en la columna actual
    null_count = df_resultados_limp_6.filter(df_resultados_limp_6[column].isNull()).count()
    null_counts.append((column, null_count))

# Imprimir los recuentos de los valores por columna
for column, count in null_counts:
    print(f"Cantidad de valores nulos en la columna '{column}': {count}")

print(f"Cantidad de datos restantes: {df_resultados_limp_6.count()}")

## Transformaciónes de postprocesamiento

In [None]:
df_resultados_limp_6.dtypes

### One hot encoding

In [None]:
from pyspark.ml.feature import OneHotEncoder, StringIndexer
from pyspark.ml import Pipeline

string_cols = [col for col, dtype in df_resultados_limp_6.dtypes if dtype == 'string'] #Seleccionar columnas que no sean numericas

indexers = [StringIndexer(inputCol=c, outputCol=c+"_ENC").fit(df_resultados_limp_6) for c in string_cols]
encoder = OneHotEncoder(inputCols=[indexer.getOutputCol() for indexer in indexers],
                        outputCols=[f"{c}_onehot" for c in string_cols])

pipeline = Pipeline(stages=indexers + [encoder])
df_encoded = pipeline.fit(df_resultados_limp_6).transform(df_resultados_limp_6)
display(df_encoded)

In [None]:
df_encoded.dtypes

In [None]:
string_cols = ['ESTU_NUCLEO_PREGRADO','ESTU_PRGM_ACADEMICO','ESTU_METODO_PRGM','ESTU_HORASSEMANATRABAJA','ESTU_GENERO','FAMI_EDUCACIONPADRE','FAMI_ESTRATOVIVIENDA','FAMI_TIENECOMPUTADOR','FAMI_TIENEINTERNET','FAMI_EDUCACIONMADRE','ESTU_PAIS_RESIDE','ESTU_PAIS_RESIDE_onehot','ESTU_NUCLEO_PREGRADO_onehot','ESTU_PRGM_ACADEMICO_onehot','ESTU_METODO_PRGM_onehot','ESTU_HORASSEMANATRABAJA_onehot','ESTU_GENERO_onehot','FAMI_EDUCACIONPADRE_onehot','FAMI_ESTRATOVIVIENDA_onehot','FAMI_TIENECOMPUTADOR_onehot','FAMI_TIENEINTERNET_onehot','FAMI_EDUCACIONMADRE_onehot']
df_final = df_encoded.select(*[c for c in df_encoded.columns if c not in string_cols])
display(df_final)