# Limpieza de datos en el dataset base de matrícula estudiantes en educación superior

### 1) Cargamos el dataset

In [None]:
import pandas as pd

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# URL cruda del archivo CSV en GitHub
url = 'https://github.com/jcastilloc168/PythonUDD_ProyectoFinal/raw/main/data/BaseDefinitivaINDICES-2005-2024.csv'

# Leer el archivo CSV desde GitHub
df = pd.read_csv(url, delimiter=';')

### 2) Tratamiento de valores nulos

2.1 **Eliminación de columnas**. Segun la información proporcionada por el notebook exploratorio del dataset, al tener una porcentaje elevado de valores nulos. Por otra parte, se han eliminado columnas que no son significativas para el estudio que se esta realizando, tales como, nombre del campus, código del campus y codigo SIES. En resumen, las columnas no consideradas son las siguientes:

| Nombre del Campo                                      | Valores Nulos | Porcentaje de Valores Nulos (%) |
|-------------------------------------------------------|---------------|-----------------------------|
| Mínimo Puntaje Ranking                                | 211823        | 91.013109                   |
| Máximo Puntaje Ranking                                | 211810        | 91.007523                   |
| Promedio Puntaje Ranking                              | 211667        | 90.946081                   |
| Mínimo Puntaje NEM                                    | 210787        | 90.567975                   |
| Máximo Puntaje NEM                                    | 210774        | 90.562390                   |
| Promedio Puntaje NEM                                  | 210589        | 90.482901                   |
| Mención o Especialidad                                | 200534        | 86.162611                   |
| Puntaje de corte (promedio de la carrera)             | 196798        | 84.557380                   |
| Puntaje de corte (primer seleccionado)                | 196702        | 84.516132                   |
| Puntaje de corte (último seleccionado)                | 194667        | 83.641762                   |
| Mínimo Puntaje (promedio matemáticas y lenguaje)      | 191162        | 82.135783                   |
| Promedio Puntaje (promedio matemáticas y lenguaje)    | 191004        | 82.067896                   |
| Máximo Puntaje (promedio matemáticas y lenguaje)      | 190712        | 81.942433                   |
| Nº Alumnos Ingreso Via PSU o PDT                      | 189276        | 81.325433                   |
| Nº Alumnos Ingreso Otra Via                           | 155281        | 66.718943                   |
| Nombre del Campus                                     | 122362        | 52.574773                   |
| Cód. Campus                                           | 121914        | 52.382282                   |
| Códgo SIES                                            | 87047         | 37.401123                   |

In [5]:
# Definir el rango de columnas a eliminar
columns_to_delete_range = df.loc[:, 'Máximo Puntaje (promedio matemáticas y lenguaje)':'Nº Alumnos Ingreso Otra Via'].columns

# Columnas individuales adicionales a eliminar
additional_columns_to_delete = ['Mención o Especialidad', 'Nombre del Campus', 'Cód. Campus', 'Códgo SIES']

# Combinar ambas listas de columnas a eliminar
columns_to_delete = list(columns_to_delete_range) + additional_columns_to_delete

# Eliminar las columnas del DataFrame
df.drop(columns=columns_to_delete, inplace=True)

# Imprimir las columnas eliminadas
print("Columnas eliminadas:", columns_to_delete)


Columnas eliminadas: ['Máximo Puntaje (promedio matemáticas y lenguaje)', 'Promedio Puntaje (promedio matemáticas y lenguaje)', 'Mínimo Puntaje (promedio matemáticas y lenguaje)', 'Puntaje de corte (primer seleccionado)', 'Puntaje de corte (promedio de la carrera)', 'Puntaje de corte (último seleccionado)', 'Máximo Puntaje NEM', 'Promedio Puntaje NEM', 'Mínimo Puntaje NEM', 'Máximo Puntaje Ranking', 'Promedio Puntaje Ranking', 'Mínimo Puntaje Ranking', 'Nº Alumnos Ingreso Via PSU o PDT', 'Nº Alumnos Ingreso Otra Via', 'Mención o Especialidad', 'Nombre del Campus', 'Cód. Campus', 'Códgo SIES']


2.2) **Imputacion a valores vacios con la asignacion de ceros**. Para el caso del campo "Duracion (en semestres)" se ha rellenado el valor con la mediana de la columna.

Las siguientes columnas estan vacias y analizando el dataset, el correspondiente valor corresponde a cero:

| Nombre del Campo                                      | Valores Nulos | Porcentaje de Valores Nulos (%) |
|-------------------------------------------------------|---------------|-----------------------------|
| Matrícula primer año extranjeros                      | 64016         | 27.505489                   |
| Vacantes                                              | 61255         | 26.319182                   |
| Valor de arancel                                      | 59433         | 25.536330                   |
| Matrícula total extranjeros                           | 54405         | 23.375971                   |
| Valor de matrícula                                    | 53390         | 22.939860                   |
| Valor del Título                                      | 37857         | 16.265860                   |
| Matrícula primer año mujeres                          | 22340         | 9.598735                    |
| Matrícula primer año hombres                          | 22100         | 9.495615                    |
| Matrícula total mujeres                               | 3758          | 1.614684                    |
| Matrícula total hombres                               | 3347          | 1.438092                    |

In [None]:
columns_to_fill = [
    'Matrícula primer año hombres', 'Matrícula primer año mujeres', 'Matrícula primer año extranjeros', 
    'Matrícula total hombres', 'Matrícula total mujeres', 'Matrícula total extranjeros', 
    'Valor de matrícula', 'Valor de arancel', 'Valor del Título', 'Vacantes'
]

# Rellenar valores nulos en las columnas específicas con cero
df[columns_to_fill] = df[columns_to_fill].fillna(0)

# Calcular la mediana y rellenar valores nulos en la columna "Duración (en semestres)" en una sola línea
df['Duración (en semestres)'].fillna(df['Duración (en semestres)'].median(), inplace=True)