# Tabla de datos de registros de matricula en IES.

_Colombia 2022_

En el siguiente código se hace una limpieza de los datos y se organizan para dejarlos listos para operar y graficar.  

In [None]:
# -------- Importando pandas ----------
import pandas as pd
df = pd.read_excel("../data/raw/estudiantes_matriculados-2022_recurso.xlsx", sheet_name=["Matriculados E.S. 2022"], header=8)
print(df.keys()) # Crea un diccionario con solo una única llave - nombre de la pestaña
df_data = pd.DataFrame(df['Matriculados E.S. 2022']) # Creo un data frame con la información dentro del diccionario.
print(df_data.columns) # imprimo las columnas del data frame.

dict_keys(['Matriculados E.S. 2022'])
Index(['CÓDIGO DE LA INSTITUCIÓN', 'IES_PADRE',
       'INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)', 'PRINCIPAL O SECCIONAL',
       'ID SECTOR IES', 'SECTOR IES', 'IES ACREDITADA', 'ID CARACTER',
       'CARACTER IES', 'CÓDIGO DEL DEPARTAMENTO (IES)',
       'DEPARTAMENTO DE DOMICILIO DE LA IES', 'CÓDIGO DEL MUNICIPIO (IES)',
       'MUNICIPIO DE DOMICILIO DE LA IES', 'CÓDIGO SNIES DEL PROGRAMA',
       'PROGRAMA ACADÉMICO', 'PROGRAMA ACREDITADO', 'ID NIVEL ACADÉMICO',
       'NIVEL ACADÉMICO', 'ID NIVEL DE FORMACIÓN', 'NIVEL DE FORMACIÓN',
       'ID METODOLOGÍA', 'METODOLOGÍA', 'ID ÁREA DE CONOCIMIENTO',
       'ÁREA DE CONOCIMIENTO', 'ID NÚCLEO',
       'NÚCLEO BÁSICO DEL CONOCIMIENTO (NBC)', 'ID CINE CAMPO AMPLIO',
       'DESC CINE CAMPO AMPLIO', 'ID CINE CAMPO ESPECIFICO',
       'DESC CINE CAMPO ESPECIFICO', 'ID CINE CODIGO DETALLADO',
       'DESC CINE CODIGO DETALLADO', 'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
       'DEPARTAMENTO DE OFERTA DEL

## Limitando el data frame

El data frame tiene muchas columnas que no son necesarias (por ahora). Se crea un sub-dataframe que llamo _df_info_limitado_2022_ del dataframe original que se llama _df_data_.

In [None]:
df_info_limitado_2022 = df_data[['INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)',
                      'PROGRAMA ACADÉMICO',
                      'NIVEL ACADÉMICO',
                      'ÁREA DE CONOCIMIENTO',
                      'DEPARTAMENTO DE OFERTA DEL PROGRAMA',
                      'MUNICIPIO DE OFERTA DEL PROGRAMA',
                      'SEXO',
                      'SEMESTRE',
                      'MATRICULADOS']]
print(df_info_limitado_2022.head())

  INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)     PROGRAMA ACADÉMICO  \
0        UNIVERSIDAD NACIONAL DE COLOMBIA  INGENIERIA AGRONOMICA   
1        UNIVERSIDAD NACIONAL DE COLOMBIA  INGENIERIA AGRONOMICA   
2        UNIVERSIDAD NACIONAL DE COLOMBIA  INGENIERIA AGRONOMICA   
3        UNIVERSIDAD NACIONAL DE COLOMBIA  INGENIERIA AGRONOMICA   
4        UNIVERSIDAD NACIONAL DE COLOMBIA   MEDICINA VETERINARIA   

  NIVEL ACADÉMICO                          ÁREA DE CONOCIMIENTO  \
0        PREGRADO  Ingeniería, arquitectura, urbanismo y afines   
1        PREGRADO  Ingeniería, arquitectura, urbanismo y afines   
2        PREGRADO  Ingeniería, arquitectura, urbanismo y afines   
3        PREGRADO  Ingeniería, arquitectura, urbanismo y afines   
4        PREGRADO               Agronomía, veterinaria y afines   

  DEPARTAMENTO DE OFERTA DEL PROGRAMA MUNICIPIO DE OFERTA DEL PROGRAMA  \
0                         Bogotá D.C.                     Bogotá, D.C.   
1                         Bogotá D.C.   

## Limpiando los datos

Contando las lineas duplicadas y eliminandolas.

In [7]:
print(f'Número de líneas duplicadas en df_info: {df_info_limitado_2022.duplicated().sum()}')
print(f'Tamaño del dataframe df_info: {df_info_limitado_2022.size}')
df_info_limitado_2022_sin_duplicados = df_info_limitado_2022.drop_duplicates()
# print(f'Número de líneas duplicadas en df_sin_duplicados: {df_sin_duplicados.duplicated().sum()}')
print("\n---- Líneas ducplicadas eliminadas ----\n")
print(f'Tamaño del dataframe df_sin_duplicados: {df_info_limitado_2022_sin_duplicados.size}\n')
print("x -"*20)
print(f"\n Lista de columnas y tipos de datos: \n{df_info_limitado_2022_sin_duplicados.dtypes}")

Número de líneas duplicadas en df_info: 17
Tamaño del dataframe df_info: 627795

---- Líneas ducplicadas eliminadas ----

Tamaño del dataframe df_sin_duplicados: 627642

x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -x -

 Lista de columnas y tipos de datos: 
INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)    object
PROGRAMA ACADÉMICO                         object
NIVEL ACADÉMICO                            object
ÁREA DE CONOCIMIENTO                       object
DEPARTAMENTO DE OFERTA DEL PROGRAMA        object
MUNICIPIO DE OFERTA DEL PROGRAMA           object
SEXO                                       object
SEMESTRE                                    int64
MATRICULADOS                                int64
dtype: object


Generando lista de valores únicos por columnas para revisar nombres mal escritos. En este paso es mejor seleccionar las columnas que podemos intuir las respuestas.

In [8]:
print(df_info_limitado_2022_sin_duplicados['NIVEL ACADÉMICO'].unique()) # son pocos
print(df_info_limitado_2022_sin_duplicados['SEXO'].unique()) # son pocos

# Pero podemos explorar los valores unicos sumando valores unicos por columna
nombres_unicos = [] # lista temporal para los nombres
valores_unicos = [] # lista temporal para el conteo de los valores únicos
lista_unicos = {}
for col in df_info_limitado_2022_sin_duplicados.columns:
  nombres_unicos = df_info_limitado_2022_sin_duplicados[col].unique()
  valores_unicos = len(nombres_unicos)
  lista_unicos[col] = valores_unicos
# --------- Importando pprint para imprimir bonito ---------
from pprint import pprint # para imprimir bonito las listas
print("\nLista de conteo de valores únicos por columnas\n")
pprint(lista_unicos)
print(type(lista_unicos))

['PREGRADO' 'POSGRADO']
['Masculino' 'Femenino']

Lista de conteo de valores únicos por columnas

{'DEPARTAMENTO DE OFERTA DEL PROGRAMA': 33,
 'INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)': 280,
 'MATRICULADOS': 1149,
 'MUNICIPIO DE OFERTA DEL PROGRAMA': 393,
 'NIVEL ACADÉMICO': 2,
 'PROGRAMA ACADÉMICO': 6192,
 'SEMESTRE': 2,
 'SEXO': 2,
 'ÁREA DE CONOCIMIENTO': 9}
<class 'dict'>


Se deja hasta aquí para preparar archivo .csv para la siguiente fase del trabajo. Lo que se hizo hasta ahora es limpieza de datos y limitar la cantidad de atributos de la base de datos de las matriculas del 2022.