# Introducción

El dataset presentado es un listado de postulantes al Concurso de Admisión de la Universidad Nacional de Ingeniería desde 2021-1 al 2024-1.  
Este dataset está caracterizado por:

* Datos del postulante: Id anonimizado, colegio, lugar del colegio (departamento, provincia, distrito), año de egreso de colegio, año de nacimiento, sexo, lugar del domicilio (departamento, provincia, distrito), lugar de nacimiento (departamento, provincia, distrito)
* Datos de la postulación: Especialidad, año, ciclo, calificación, ingreso y modalidad de ingreso.



Funte: [Postulantes al Concurso de Admisión de la Universidad Nacional de Ingeniería - UNI (datosabiertos.gob.pe)
](https://www.datosabiertos.gob.pe/dataset/postulantes-al-concurso-de-admisión-de-la-universidad-nacional-de-ingeniería-uni)

La finalidad de este Notebook es preprocesar los datos para un posterior análisis

# Carga y exploración de datos

In [1]:
import pandas as pd
import numpy as np

In [7]:
%pwd

'c:\\Users\\Angel\\Desktop\\Proyectos Git\\uni-admission-analysis'

In [8]:
# Datos obtenidos de de datosabiertos.gob.pe
path = r'datasets/admission-data-raw.csv'
df = pd.read_csv(path)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42516 entries, 0 to 42515
Data columns (total 22 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   IDHASH               42516 non-null  object 
 1   COLEGIO              42516 non-null  object 
 2   COLEGIO_DEPA         42290 non-null  object 
 3   COLEGIO_PROV         42288 non-null  object 
 4   COLEGIO_DIST         42288 non-null  object 
 5   COLEGIO_PAIS         18942 non-null  object 
 6   COLEGIO_ANIO_EGRESO  42516 non-null  int64  
 7   ESPECIALIDAD         42461 non-null  object 
 8   ANIO_POSTULA         42516 non-null  int64  
 9   CICLO_POSTULA        42516 non-null  int64  
 10  DOMICILIO_DEPA       42516 non-null  object 
 11  DOMICILIO_PROV       42516 non-null  object 
 12  DOMICILIO_DIST       42516 non-null  object 
 13  ANIO_NACIMIENTO      42516 non-null  int64  
 14  NACIMIENTO_PAIS      42516 non-null  object 
 15  NACIMIENTO_DEPA      42314 non-null 

Los tipos de datos coinciden con lo que representa cada columna

In [9]:
df.sample(3)

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
11609,D92DDC242FE70C6C76D6B3757F3374FC3171AECF6C52C3...,MARIA INMACULADA CONCEPCION,LIMA,LIMA,VILLA EL SALVADOR,,2022,INGENIERÍA MECATRÓNICA,2023,2,...,LIMA,2006,PERÚ,LIMA,LIMA,VILLA EL SALVADOR,MASCULINO,4.41,NO,ORDINARIO
18910,63DC71B9E94A83C51DC18589558B65476C0F0ECAC26AFC...,CENTER,AYACUCHO,HUAMANGA,AYACUCHO,PERÚ,2020,INGENIERÍA CIVIL,2022,1,...,AYACUCHO,2004,PERÚ,AYACUCHO,VÍCTOR FAJARDO,SARHUA,MASCULINO,13.25,SI,ORDINARIO
1565,4BD17FCD74BEF894145F9B1D36343EB971E01D1134E7BC...,COLEGIO MAYOR SISTEMA SAN MARCOS,LIMA,LIMA,LOS OLIVOS,PERÚ,2020,INGENIERÍA MECÁNICA,2022,2,...,LOS OLIVOS,2004,PERÚ,LIMA,LIMA,SAN MARTÍN DE PORRES,MASCULINO,1.005,NO,ORDINARIO


In [10]:
# Valores numericos
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
COLEGIO_ANIO_EGRESO,42516.0,2020.043301,2.853733,1970.0,2019.0,2020.0,2022.0,2025.0
ANIO_POSTULA,42516.0,2022.564352,1.07873,2021.0,2022.0,2023.0,2023.0,2024.0
CICLO_POSTULA,42516.0,1.313082,0.463753,1.0,1.0,1.0,2.0,2.0
ANIO_NACIMIENTO,42516.0,2003.665138,2.858881,1948.0,2003.0,2004.0,2005.0,2008.0
CALIF_FINAL,42492.0,7.640941,3.561482,0.0,4.894,7.288,10.313,20.0


In [11]:
# Valores no numericos
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
IDHASH,42516,26177,8C9FB312AA48B4E42D5638C8A437E0FC26D7C470861905...,7
COLEGIO,42516,3970,TRILCE LOS OLIVOS,581
COLEGIO_DEPA,42290,38,LIMA,31968
COLEGIO_PROV,42288,230,LIMA,30441
COLEGIO_DIST,42288,818,SAN JUAN DE LURIGANCHO,3802
COLEGIO_PAIS,18942,8,PERÚ,18926
ESPECIALIDAD,42461,30,INGENIERÍA CIVIL,7608
DOMICILIO_DEPA,42516,30,LIMA,34086
DOMICILIO_PROV,42516,208,LIMA,32753
DOMICILIO_DIST,42516,769,LIMA,5245


Que el total de valores unicos para el IDHASH sea poco mas de la mitad del total, muestra que una gran parte a postulado dos o más veces

# Procesamiento y limpieza de datos

In [13]:
# Valores nulos
df.isnull().sum().sort_values(ascending=False)

COLEGIO_PAIS           23574
COLEGIO_PROV             228
COLEGIO_DIST             228
COLEGIO_DEPA             226
NACIMIENTO_DIST          203
NACIMIENTO_PROV          202
NACIMIENTO_DEPA          202
ESPECIALIDAD              55
CALIF_FINAL               24
IDHASH                     0
NACIMIENTO_PAIS            0
INGRESO                    0
SEXO                       0
DOMICILIO_PROV             0
ANIO_NACIMIENTO            0
DOMICILIO_DIST             0
COLEGIO                    0
DOMICILIO_DEPA             0
CICLO_POSTULA              0
ANIO_POSTULA               0
COLEGIO_ANIO_EGRESO        0
MODALIDAD                  0
dtype: int64

 COLEGIO_PAIS (país del colegio del postulante) es uno de los campos que contiene más valores nulos (más del 50%), tenemos que ver si podemos completar estos valores según otras columnas y evitar perder tantos datos.

In [14]:
# Mostrando algunos datos donde la columna COLEGIO_PAIS es nulo
df[df['COLEGIO_PAIS'].isnull()].sample(5)

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
17933,E4976AE1EAC6A4ED454D4583F8737DBCA32682C0E5E614...,CONSORCIO EDUCATIVO INGENIERIA,LIMA,LIMA,COMAS,,2023,INGENIERÍA INDUSTRIAL,2024,1,...,SAN MARTIN DE PORRES,2007,PERÚ,SAN MARTIN,PICOTA,PICOTA,FEMENINO,0.033,NO,INGRESO ESCOLAR NACIONAL
20383,8CCAB7C588A98C9408CEFC601F51FF6C6D40E28B9B39D4...,CARLOS WIESSE,LIMA,LIMA,COMAS,,2019,INGENIERÍA AMBIENTAL,2023,2,...,COMAS,2003,PERÚ,LIMA,LIMA,COMAS,MASCULINO,8.705,NO,ORDINARIO
8131,5A17DA95A4B8C2412AD10A5921A516FBE571A5A2E20219...,ESCUELA HOGAR COMUNITARIA REGIONAL SAGRADA FAM...,CALLAO,PROV CONST DEL CALLAO,VENTANILLA,,2023,ARQUITECTURA,2024,1,...,VENTANILLA,2007,PERÚ,LIMA,LIMA,PUENTE PIEDRA,FEMENINO,7.541,NO,INGRESO ESCOLAR NACIONAL
16094,4537BC5BB48D761CBACF063DC50B6FC070FD4BA5F98049...,SACO OLIVEROS APEIRON,CALLAO,PROV CONST DEL CALLAO,CALLAO,,2022,INGENIERÍA MECÁNICA,2024,1,...,CALLAO,2006,PERÚ,CALLAO,PROV CONST DEL CALLAO,CALLAO,FEMENINO,7.974,NO,EXTRAORDINARIO INGRESO DIRECTO CEPRE-UNI
15896,23B03C1EE744982396887C4450FE90D0A7996344BAD277...,MARIA MONTESSORI DE COPACABANA,LIMA,LIMA,PUENTE PIEDRA,,2020,INGENIERÍA MECÁNICA,2024,1,...,CARABAYLLO,2004,PERÚ,LIMA,LIMA,LIMA,MASCULINO,3.714,NO,ORDINARIO


Se puede inferir el Pais según el Departamento.

In [15]:
# En el caso de colegios, vemos si cuando es nulo en un departamento
# tambien es nulo en sus otros valores realcionados (pais, distr, prov)
df[df['COLEGIO_DEPA'].isnull()].isnull().sum()

IDHASH                   0
COLEGIO                  0
COLEGIO_DEPA           226
COLEGIO_PROV           226
COLEGIO_DIST           226
COLEGIO_PAIS           226
COLEGIO_ANIO_EGRESO      0
ESPECIALIDAD             0
ANIO_POSTULA             0
CICLO_POSTULA            0
DOMICILIO_DEPA           0
DOMICILIO_PROV           0
DOMICILIO_DIST           0
ANIO_NACIMIENTO          0
NACIMIENTO_PAIS          0
NACIMIENTO_DEPA          1
NACIMIENTO_PROV          1
NACIMIENTO_DIST          1
SEXO                     0
CALIF_FINAL             24
INGRESO                  0
MODALIDAD                0
dtype: int64

En la mayoría, si no hay valor en el departamento del colegio, tampoco lo hay en su provincia, distrito y país (con excepción de dos casos, donde al parecer hay valores para el departamento pero no para el distrito y la provincia)

In [16]:
# Valores únicos de COLEGIO_PAIS
l_paises = df['COLEGIO_PAIS'].dropna().unique()
l_paises

array(['PERÚ', 'VENEZUELA', 'ESPAÑA', 'ECUADOR', 'ARGENTINA', 'CHILE',
       'ITALIA', 'COLOMBIA'], dtype=object)

In [17]:
# Valores únicos de COLEGIO_DEPA
l_depas = df['COLEGIO_DEPA'].dropna().unique()
l_depas.sort()
l_depas

array(['AMAZONAS', 'ANCASH', 'APURIMAC', 'APURÍMAC', 'AREQUIPA',
       'ARGENTINA', 'AYACUCHO', 'CAJAMARCA', 'CALLAO', 'CANADA', 'CHILE',
       'COLOMBIA', 'CUSCO', 'ECUADOR', 'ESPAÑA', 'HUANCAVELICA',
       'HUANUCO', 'HUÁNUCO', 'ICA', 'ITALIA', 'JUNIN', 'JUNÍN',
       'LA LIBERTAD', 'LAMBAYEQUE', 'LIMA', 'LORETO', 'MADRE DE DIOS',
       'MOQUEGUA', 'PASCO', 'PIURA', 'PUNO', 'SAN MARTIN', 'SAN MARTÍN',
       'TACNA', 'TUMBES', 'UCAYALI', 'VENEZUELA', 'ÁNCASH'], dtype=object)

Parece ser que algunos departamentos se repiten debido a que uno lleva tilde y el otro no (ÁNCASH y ANCASH), los casos son: 'ANCASH', 'HUANUCO', 'JUNIN', 'APURIMAC' y 'SAN MARTIN'.  
Este tipo de error se repite en varias columnas que tiene que ver con la ubicación (colegio, domicilio y nacimiento), entonces para abordar este problema, eliminaremos las tildes de todos estos campos.

In [18]:
# Eliminado tildes
columnas_tildes = ['COLEGIO_DEPA', 'COLEGIO_PROV', 'COLEGIO_DIST',
                  'DOMICILIO_DEPA', 'DOMICILIO_PROV', 'DOMICILIO_DIST',
                  'NACIMIENTO_DEPA', 'NACIMIENTO_PROV', 'NACIMIENTO_DIST']
for col in columnas_tildes:
  df[col] = df[col].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

Tambien se observa que tenemos a CANADA, probablemente del pais CANADA, que presenta varios valores nulos, pero al ser una sola muestra no se tomará en cuenta (se eliminará al limpiar los valores nulos)

In [19]:
# CANADA
df[df['COLEGIO_DEPA'] == 'CANADA']

Unnamed: 0,IDHASH,COLEGIO,COLEGIO_DEPA,COLEGIO_PROV,COLEGIO_DIST,COLEGIO_PAIS,COLEGIO_ANIO_EGRESO,ESPECIALIDAD,ANIO_POSTULA,CICLO_POSTULA,...,DOMICILIO_DIST,ANIO_NACIMIENTO,NACIMIENTO_PAIS,NACIMIENTO_DEPA,NACIMIENTO_PROV,NACIMIENTO_DIST,SEXO,CALIF_FINAL,INGRESO,MODALIDAD
4027,45C6AA44C712F58DF8B84F3D401A0634C2A6050BF1A36D...,BISHOP O'BYRNE HIGH SCHOOL,CANADA,CALGARY,CALGARY,,2022,INGENIERÍA CIVIL,2023,2,...,LIMA,2004,EE.UU.,,,,MASCULINO,4.759,NO,ORDINARIO


In [20]:
# Guardamos los departamentos en un diccionario según el pais
d_paises = {}
for pais in l_paises:
  d_paises[pais] = df[df['COLEGIO_PAIS'] == pais]['COLEGIO_DEPA'].dropna().unique()
d_paises

{'PERÚ': array(['LIMA', 'ANCASH', 'AYACUCHO', 'ICA', 'CAJAMARCA', 'JUNIN',
        'HUANUCO', 'CALLAO', 'HUANCAVELICA', 'LAMBAYEQUE', 'PIURA',
        'AMAZONAS', 'APURIMAC', 'MADRE DE DIOS', 'SAN MARTIN', 'PUNO',
        'UCAYALI', 'LORETO', 'PASCO', 'LA LIBERTAD', 'TACNA', 'TUMBES',
        'AREQUIPA', 'CUSCO', 'MOQUEGUA'], dtype=object),
 'VENEZUELA': array(['VENEZUELA'], dtype=object),
 'ESPAÑA': array(['ESPANA'], dtype=object),
 'ECUADOR': array(['ECUADOR'], dtype=object),
 'ARGENTINA': array(['ARGENTINA'], dtype=object),
 'CHILE': array(['CHILE'], dtype=object),
 'ITALIA': array(['ITALIA'], dtype=object),
 'COLOMBIA': array(['COLOMBIA'], dtype=object)}

Solo en el caso de que los colegios sean de Perú, se especifica su departamento, etc.; para los otros paises solo se considera el mismo país para esos valores

In [21]:
len(d_paises['PERÚ']) # Tenemos los 24 departamentos + callao

25

In [22]:
# Rellenaremos los valores nulos de COLEGIO_PAIS segun los datos de COLEGIO_DEPA
for pais in d_paises.keys():
  df.loc[(df['COLEGIO_PAIS'].isnull()) & (df['COLEGIO_DEPA'].isin(d_paises[pais])), 'COLEGIO_PAIS'] = pais

In [23]:
# Visualizamos los valores nulos restantes
df.isnull().sum().sort_values(ascending=False)

COLEGIO_PROV           228
COLEGIO_DIST           228
COLEGIO_PAIS           227
COLEGIO_DEPA           226
NACIMIENTO_DIST        203
NACIMIENTO_PROV        202
NACIMIENTO_DEPA        202
ESPECIALIDAD            55
CALIF_FINAL             24
IDHASH                   0
NACIMIENTO_PAIS          0
INGRESO                  0
SEXO                     0
DOMICILIO_PROV           0
ANIO_NACIMIENTO          0
DOMICILIO_DIST           0
COLEGIO                  0
DOMICILIO_DEPA           0
CICLO_POSTULA            0
ANIO_POSTULA             0
COLEGIO_ANIO_EGRESO      0
MODALIDAD                0
dtype: int64

Para los demas casos de colegios, es difícil porder encontrar los valores nulos; de la misma forma para el lugar de nacimiento, donde se tiene el pais pero no el departamente, provincia y distrito. Por eso se considera eliminar las filas con valores nulos.

In [24]:
df.shape # Ahora

(42516, 22)

In [25]:
df.dropna().shape # Si elimináramos las filas con valores nulos

(42033, 22)

Eliminando las filas que presentan valores nulos, se perdería un total de 483 fila de datos, lo que seria menos del 1.2% de la data. Procedemos a eliminar estas filas.

In [26]:
df.dropna(inplace=True)

Exportamos los datos preprocesados

In [28]:
df.to_csv('datasets/admission-data-clean.csv', index=False)