# Titulo: Análisis de factores económicos, sociales y demográficos que influyen en el desempeño de estudiantes de La Guajira en las pruebas SABER-PRO

- **Fuente de datos**: [Datos resultados saber pro 2018-2022](https://www.datos.gov.co/Educaci-n/Resultados-nicos-Saber-Pro/u37r-hjmu/about_data)
- **Intro**:  La Prueba Saber Pro es un examen estandarizado aplicado en Colombia que tiene como objetivo evaluar las competencias y conocimientos de los estudiantes que están por graduarse de programas de educación superior. Este examen es organizado por el Instituto Colombiano para la Evaluación de la Educación (ICFES) y mide diversas competencias en áreas como razonamiento crítico, lectura crítica, matemáticas, ciencias naturales y sociales, así como competencias específicas relacionadas con el programa académico del estudiante. Esto permite evaluar el nivel de formación que los estudiantes han alcanzado al finalizar su carrera. Los resultados de la Prueba Saber Pro son utilizados por las instituciones de educación superior para mejorar la calidad de sus programas académicos. A través de estos resultados, las universidades pueden identificar áreas de fortaleza y debilidad en el desempeño de sus estudiantes, lo que les permite realizar ajustes curriculares y fortalecer las áreas donde los estudiantes presentan mayores dificultades. Así, la prueba no solo evalúa a los estudiantes, sino que también se convierte en una herramienta de retroalimentación para las instituciones.

- **Objetivo principal**: El objetivo de esta minería de datos educativos es analizar la relación entre las variables cuantitativas, demográficas, académicas y socioeconómicas de los estudiantes de La Guajira, para identificar patrones y tendencias que influyan en su rendimiento académico, específicamente en las pruebas SABER-PRO.

# 0. Librerias

In [1]:
import pandas as pd
import numpy as np
import os
import warnings
warnings.filterwarnings("ignore")
path= os.getcwd()
print(os.listdir())
file_name=[x for x in os.listdir() if 'Saber_' in x][0]
file_name

['Entrega_actividad_1.ipynb', 'Resultados__nicos_Saber_Pro_20240726.csv']


'Resultados__nicos_Saber_Pro_20240726.csv'

# 1. Data Extraction

In [3]:
df=pd.read_csv(path+ '\\' +file_name,sep=",",encoding='utf-8')
df

Unnamed: 0,PERIODO,ESTU_CONSECUTIVO,ESTU_TIPODOCUMENTO,ESTU_PAIS_RESIDE,ESTU_COD_RESIDE_DEPTO,ESTU_DEPTO_RESIDE,ESTU_COD_RESIDE_MCPIO,ESTU_MCPIO_RESIDE,ESTU_CODDANE_COLE_TERMINO,ESTU_COD_COLE_MCPIO_TERMINO,...,FAMI_TIENEINTERNET,FAMI_EDUCACIONMADRE,INST_ORIGEN,MOD_RAZONA_CUANTITAT_PUNT,MOD_COMUNI_ESCRITA_PUNT,MOD_COMUNI_ESCRITA_DESEM,MOD_INGLES_DESEM,MOD_LECTURA_CRITICA_PUNT,MOD_INGLES_PUNT,MOD_COMPETEN_CIUDADA_PUNT
0,20183,EK201830011083,CC,COLOMBIA,11.0,BOGOTÁ,11001.0,BOGOTÁ D.C.,,,...,Si,Secundaria (Bachillerato) incompleta,NO OFICIAL - CORPORACIÓN,161,174.0,3.0,A2,139,161.0,128
1,20183,EK201830053875,CC,COLOMBIA,76.0,VALLE,76736.0,SEVILLA,,,...,Si,Secundaria (Bachillerato) incompleta,OFICIAL DEPARTAMENTAL,147,170.0,3.0,B1,171,188.0,182
2,20183,EK201830167993,CC,COLOMBIA,73.0,TOLIMA,73001.0,IBAGUÉ,1.730010e+11,73001.0,...,Si,No sabe,NO OFICIAL - CORPORACIÓN,142,77.0,1.0,A1,124,130.0,153
3,20183,EK201830168158,CC,COLOMBIA,68.0,SANTANDER,68081.0,BARRANCABERMEJA,1.680810e+11,68081.0,...,Si,Técnica o tecnológica completa,OFICIAL DEPARTAMENTAL,185,157.0,3.0,-A1,178,106.0,169
4,20183,EK201830164354,CC,COLOMBIA,11.0,BOGOTÁ,11001.0,BOGOTÁ D.C.,1.110010e+11,11001.0,...,Si,Educación profesional completa,OFICIAL DEPARTAMENTAL,114,132.0,2.0,A1,139,135.0,126
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1217477,20222,EK202220148630,CC,COLOMBIA,41.0,HUILA,41396.0,LA PLATA,2.413960e+11,41396.0,...,Si,Primaria incompleta,OFICIAL NACIONAL,101,149.0,2.0,A2,153,134.0,140
1217478,20222,EK202220164335,CC,COLOMBIA,54.0,NORTE SANTANDER,54810.0,TIBÚ,1.548100e+11,54810.0,...,No,Primaria completa,NO OFICIAL - FUNDACIÓN,91,135.0,2.0,A2,100,132.0,93
1217479,20222,EK202220142587,CC,COLOMBIA,11.0,BOGOTÁ,11001.0,BOGOTÁ D.C.,3.230010e+11,23001.0,...,Si,Secundaria (Bachillerato) completa,NO OFICIAL - FUNDACIÓN,159,162.0,3.0,B1,190,178.0,163
1217480,20222,EK202220116355,CC,COLOMBIA,5.0,ANTIOQUIA,5001.0,MEDELLÍN,1.050010e+11,5001.0,...,Si,Secundaria (Bachillerato) incompleta,OFICIAL NACIONAL,179,156.0,3.0,A2,137,134.0,154


In [6]:
nombres_columnas = df.columns.tolist()
print(nombres_columnas)


['PERIODO', 'ESTU_CONSECUTIVO', 'ESTU_TIPODOCUMENTO', 'ESTU_PAIS_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_MCPIO', 'ESTU_MCPIO_RESIDE', 'ESTU_CODDANE_COLE_TERMINO', 'ESTU_COD_COLE_MCPIO_TERMINO', 'ESTU_COD_DEPTO_PRESENTACION', 'INST_COD_INSTITUCION', 'INST_NOMBRE_INSTITUCION', 'INST_CARACTER_ACADEMICO', 'ESTU_NUCLEO_PREGRADO', 'ESTU_INST_DEPARTAMENTO', 'ESTU_INST_CODMUNICIPIO', 'ESTU_INST_MUNICIPIO', 'ESTU_PRGM_ACADEMICO', 'ESTU_PRGM_DEPARTAMENTO', 'ESTU_PRGM_CODMUNICIPIO', 'ESTU_PRGM_MUNICIPIO', 'ESTU_NIVEL_PRGM_ACADEMICO', 'ESTU_METODO_PRGM', 'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_DEPTO_PRESENTACION', 'ESTU_COD_MCPIO_PRESENTACION', 'ESTU_MCPIO_PRESENTACION', 'ESTU_PAGOMATRICULABECA', 'ESTU_PAGOMATRICULACREDITO', 'ESTU_HORASSEMANATRABAJA', 'ESTU_SNIES_PRGMACADEMICO', 'ESTU_PRIVADO_LIBERTAD', 'ESTU_NACIONALIDAD', 'ESTU_ESTUDIANTE', 'ESTU_GENERO', 'ESTU_COLE_TERMINO', 'ESTU_PAGOMATRICULAPADRES', 'ESTU_ESTADOINVESTIGACION', 'ESTU_FECHANACIMIENTO', 'ESTU_PAG

**Columnas de interes**: 
De las 57 columnas del dataset, se han seleccionado 29 variables. A continuaciónn está el desglose de cada tipo de variables:

1. Variables Cuantitativas- Resultados pruebas (7):
MOD_RAZONA_CUANTITAT_PUNT, MOD_COMUNI_ESCRITA_PUNT, MOD_COMUNI_ESCRITA_DESEM, MOD_INGLES_DESEM, MOD_LECTURA_CRITICA_PUNT, MOD_INGLES_PUNT, MOD_COMPETEN_CIUDADA_PUNT

2. Datos Demográficos (5):
ESTU_PAIS_RESIDE, ESTU_DEPTO_RESIDE, ESTU_MCPIO_RESIDE, ESTU_NACIONALIDAD, ESTU_GENERO

3. Información Académica (6):
INST_CARACTER_ACADEMICO, ESTU_NUCLEO_PREGRADO, ESTU_INST_DEPARTAMENTO, ESTU_PRGM_ACADEMICO, ESTU_NIVEL_PRGM_ACADEMICO, ESTU_METODO_PRGM

4. Aspectos Económicos y Sociales (10):
ESTU_VALORMATRICULAUNIVERSIDAD, ESTU_PAGOMATRICULABECA, ESTU_PAGOMATRICULACREDITO, FAMI_EDUCACIONPADRE, FAMI_EDUCACIONMADRE, FAMI_TIENEAUTOMOVIL, FAMI_TIENELAVADORA, FAMI_ESTRATOVIVIENDA, FAMI_TIENECOMPUTADOR, FAMI_TIENEINTERNET

5. Trabajo y Gestión del Tiempo (1):
ESTU_HORASSEMANATRABAJA

Razones de la selección:

1. Variables Cuantitativas:

Las variables cuantitativas proporcionan datos medibles que permiten una evaluación precisa del rendimiento y habilidades del estudiante. Por ejemplo, MOD_RAZONA_CUANTITAT_PUNT mide las habilidades en razonamiento cuantitativo, lo cual es crucial para evaluar la capacidad del estudiante en resolución de problemas numéricos y análisis matemático. MOD_COMUNI_ESCRITA_PUNT evalúa la competencia en comunicación escrita, una habilidad indispensable para el éxito académico y profesional. MOD_INGLES_PUNT refleja el dominio del inglés, que es importante para el acceso a recursos globales y la adaptación en contextos internacionales. Finalmente, MOD_COMPETEN_CIUDADA_PUNT proporciona una medida de las habilidades en competencias ciudadanas, esenciales para una participación activa y efectiva en la sociedad.

2. Datos Demográficos:

Las variables demográficas ofrecen un contexto valioso sobre el entorno del estudiante y sus características personales. ESTU_TIPODOCUMENTO proporciona información sobre el tipo de documento de identidad del estudiante, relevante para cuestiones administrativas y legales. ESTU_PAIS_RESIDE muestra el país de residencia, lo que ayuda a entender el contexto cultural, social y económico que puede influir en el rendimiento académico. ESTU_DEPTO_RESIDE y ESTU_MCPIO_RESIDE ofrecen detalles adicionales sobre la región y municipio de residencia, lo que permite analizar cómo los factores locales pueden impactar el acceso a recursos y oportunidades educativas. ESTU_NACIONALIDAD brinda información sobre la nacionalidad del estudiante, lo que puede afectar su experiencia educativa. Por último, ESTU_GENERO es esencial para analizar la equidad de género en el acceso a la educación y el rendimiento académico.

3. Información Académica:

Las variables académicas son fundamentales para comprender las trayectorias educativas y el contexto académico del estudiante. INST_CARACTER_ACADEMICO indica el tipo de institución educativa (pública, privada, etc.), lo que permite comparar recursos y oportunidades entre diferentes instituciones. ESTU_NUCLEO_PREGRADO identifica el núcleo o programa de pregrado del estudiante, facilitando el análisis de las áreas de estudio. ESTU_INST_DEPARTAMENTO proporciona información sobre el departamento de la institución, lo que ayuda a evaluar los recursos y la calidad educativa. ESTU_PRGM_ACADEMICO especifica el programa académico del estudiante, útil para analizar las tendencias en el desempeño y la relación entre áreas de estudio. ESTU_NIVEL_PRGM_ACADEMICO categoriza el nivel del programa, permitiendo una comprensión más clara de las trayectorias educativas y sus efectos. Finalmente, ESTU_METODO_PRGM describe el método de enseñanza del programa, lo cual puede influir en el aprendizaje y el desempeño del estudiante.

4. Aspectos Económicos y Sociales:

Las variables económicas y sociales son cruciales para entender el impacto del entorno socioeconómico en el rendimiento académico. ESTU_VALORMATRICULAUNIVERSIDAD mide el costo de la matrícula universitaria, un factor importante que puede influir en la decisión de continuar los estudios y el rendimiento. ESTU_PAGOMATRICULABECA y ESTU_PAGOMATRICULACREDITO indican cómo se financia la matrícula, lo que puede afectar la estabilidad económica y el rendimiento del estudiante. FAMI_EDUCACIONPADRE y FAMI_EDUCACIONMADRE reflejan el nivel educativo de los padres, lo cual puede influir en el apoyo académico y los recursos disponibles para el estudiante. Además, FAMI_TIENEAUTOMOVIL, FAMI_TIENELAVADORA, FAMI_ESTRATOVIVIENDA, FAMI_TIENECOMPUTADOR, y FAMI_TIENEINTERNET proporcionan información sobre las condiciones de vida y el acceso a recursos tecnológicos, lo cual es relevante para evaluar el contexto económico y social del estudiante.

5. Trabajo y Gestión del Tiempo:

La variable ESTU_HORASSEMANATRABAJA ofrece información sobre la cantidad de horas que el estudiante trabaja semanalmente. Esta información es clave para analizar cómo el trabajo a tiempo parcial o completo puede afectar el rendimiento académico y la capacidad del estudiante para gestionar sus responsabilidades. 

