# Analisis exploratorio
## Base de datos de matricula en educación superior desde el año 2005 al 2024.

In [None]:
import pandas as pd

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# URL cruda del archivo CSV en GitHub
url = 'https://github.com/jcastilloc168/PythonUDD_ProyectoFinal/raw/main/data/BaseDefinitivaINDICES-2005-2024.csv'

# Leer el archivo CSV desde GitHub
df = pd.read_csv(url, delimiter=';')

# Verificar el resultado
print(df.head())

In [None]:
# Obtener información del dataset
print(df.info())

### Descripción de las Columnas (1-30)

| Nombre del Campo | Descripción del Campo |
|------------------|-----------------------|
| **Año (int64)** | Año de proceso |
| **Cód. Institución (int64)** | Código CNED de la institución |
| **Nombre Institución (object)** | Nombre de la institución de educación superior |
| **Tipo Institución (object)** | Clasificación de la institución según su tipo |
| **Clasificación1 (object)** | Primera clasificación de la institución |
| **Clasificación2 (object)** | Segunda clasificación de la institución |
| **Clasificación3 (object)** | Tercera clasificación de la institución |
| **Clasificación4 (object)** | Cuarta clasificación de la institución |
| **Clasificación5 (object)** | Quinta clasificación de la institución |
| **Clasificación6 (object)** | Sexta clasificación de la institución |
| **Nombre de la Sede (object)** | Ciudad donde se dicta el programa |
| **Comuna donde se imparte la carrera o programa (object)** | Nombre de la comuna donde la institución declara que dicta el programa |
| **Nombre Region (object)** | Nombre de la región donde se dicta el programa |
| **Orden Geográfico de la Región (Norte a Sur) (int64)** | Código que permite ordenar geográficamente las regiones de norte a sur |
| **Cód. Carrera (int64)** | Código de la carrera |
| **Carrera Genérica (object)** | Nombre genérico de la carrera |
| **Nombre Programa (object)** | Nombre del programa específico |
| **Mención o Especialidad (object)** | Mención o especialidad del programa |
| **Horario (object)** | Horario del programa. (Diurno, Vespertino u otro) |
| **Tipo Programa (object)** | Tipo de programa (e.g., Programa Regular o Especial) |
| **Area Conocimiento (object)** | Área de conocimiento del programa |
| **idgenerocarrera (int64)** | Código interno CNED de carrera genérica |
| **Tipo Carrera (object)** | Corresponde a una clasificación de la carrera o programa según su plan de estudios |
| **IngresoDirecto (object)** | Indica si el ingreso es directo (Sí o No) |
| **Año Inicio Actividades (int64)** | Año de inicio de las actividades del programa |
| **Nombre del Campus (object)** | Nombre del campus donde se imparte el programa |
| **Duración (en semestres) (int64)** | Duración del programa en semestres |
| **Cód. Campus (int64)** | Código del campus |
| **Cód. Sede (int64)** | Código de la sede |
| **Título (object)** | Título otorgado por el programa |

### Descripción de las Columnas (31-61)

| Nombre del Campo | Descripción del Campo |
|------------------|-----------------------|
| **Grado Académico (object)** | Grado académico otorgado por el programa |
| **Máximo Puntaje (promedio matemáticas y lenguaje) (float64)** | Máximo puntaje promedio en matemáticas y lenguaje |
| **Promedio Puntaje (promedio matemáticas y lenguaje) (float64)** | Puntaje promedio en matemáticas y lenguaje |
| **Mínimo Puntaje (promedio matemáticas y lenguaje) (float64)** | Mínimo puntaje promedio en matemáticas y lenguaje |
| **Puntaje de corte (primer seleccionado) (float64)** | Puntaje de corte del primer seleccionado |
| **Puntaje de corte (promedio de la carrera) (float64)** | Puntaje de corte promedio de la carrera |
| **Puntaje de corte (último seleccionado) (float64)** | Puntaje de corte del último seleccionado |
| **Máximo Puntaje NEM (float64)** | Máximo puntaje NEM |
| **Promedio Puntaje NEM (float64)** | Puntaje promedio NEM |
| **Mínimo Puntaje NEM (float64)** | Mínimo puntaje NEM |
| **Máximo Puntaje Ranking (float64)** | Máximo puntaje de ranking |
| **Promedio Puntaje Ranking (float64)** | Puntaje promedio de ranking |
| **Mínimo Puntaje Ranking (float64)** | Mínimo puntaje de ranking |
| **Nº Alumnos Ingreso Via PSU o PDT (int64)** | Número de alumnos ingresados vía PSU o PDT |
| **Nº Alumnos Ingreso Otra Via (int64)** | Número de alumnos ingresados por otras vías |
| **Valor de matrícula (float64)** | Valor de la matrícula en pesos o UF |
| **Valor de arancel (float64)** | Valor del arancel en pesos o UF |
| **Valor del Título (float64)** | Valor del título en pesos o UF |
| **Tipo Moneda (object)** | Tipo de moneda (Pesos o UF) |
| **Vacantes (int64)** | Número de vacantes disponibles |
| **Matrícula primer año hombres (int64)** | Número de matriculados hombres en el primer año |
| **Matrícula primer año mujeres (int64)** | Número de matriculadas mujeres en el primer año |
| **Matrícula primer año extranjeros (int64)** | Número de matriculados extranjeros en el primer año |
| **auxiliar (int64)** | Columna auxiliar (descripción no especificada) |
| **Matrícula Primer Año (int64)** | Número total de matriculados en el primer año |
| **Matrícula total hombres (int64)** | Número total de hombres matriculados |
| **Matrícula total mujeres (int64)** | Número total de mujeres matriculadas |
| **Matrícula total extranjeros (int64)** | Número total de extranjeros matriculados |
| **Matrícula Total (int64)** | Número total de matriculados |
| **Códgo SIES (object)** | Código SIES (Sistema de Información de la Educación Superior) |
| **Pregrado/Posgrado (object)** | Indica si el programa es de pregrado o posgrado |

### Analisis de valores nulos por columna

In [None]:
# Verificar valores nulos por cada columna y mostrar solo las columnas con valores nulos
valores_nulos = df.isnull().sum()

# Filtrar solo las columnas con valores nulos mayores a 0 y mostrar
valores_nulos = valores_nulos[valores_nulos > 0].sort_values(ascending=False)
print("\nValores nulos en cada columna del dataset:")
print(valores_nulos)

In [None]:
# Porcentaje de valores faltantes por columna
valores_nulos_porcentaje = (valores_nulos / len(df)) * 100

# Filtrar solo las columnas con porcentaje de valores nulos mayor a 0% y ordenar de mayor a menor
valores_nulos_porcentaje = valores_nulos_porcentaje[valores_nulos_porcentaje > 0].sort_values(ascending=False)
print("\nEl Porcentaje de Valores nulos en cada columna del dataset (mayor a 0%):")
print(valores_nulos_porcentaje)

#### Tabla resumen con los valores nulos por columna

| Nombre del Campo                                      | Valores Nulos | Porcentaje de Valores Nulos (%) |
|-------------------------------------------------------|---------------|-----------------------------|
| Mínimo Puntaje Ranking                                | 211823        | 91.013109                   |
| Máximo Puntaje Ranking                                | 211810        | 91.007523                   |
| Promedio Puntaje Ranking                              | 211667        | 90.946081                   |
| Mínimo Puntaje NEM                                    | 210787        | 90.567975                   |
| Máximo Puntaje NEM                                    | 210774        | 90.562390                   |
| Promedio Puntaje NEM                                  | 210589        | 90.482901                   |
| Mención o Especialidad                                | 200534        | 86.162611                   |
| Puntaje de corte (promedio de la carrera)             | 196798        | 84.557380                   |
| Puntaje de corte (primer seleccionado)                | 196702        | 84.516132                   |
| Puntaje de corte (último seleccionado)                | 194667        | 83.641762                   |
| Mínimo Puntaje (promedio matemáticas y lenguaje)      | 191162        | 82.135783                   |
| Promedio Puntaje (promedio matemáticas y lenguaje)    | 191004        | 82.067896                   |
| Máximo Puntaje (promedio matemáticas y lenguaje)      | 190712        | 81.942433                   |
| Nº Alumnos Ingreso Via PSU o PDT                      | 189276        | 81.325433                   |
| Nº Alumnos Ingreso Otra Via                           | 155281        | 66.718943                   |
| Grado Académico                                       | 145700        | 62.602314                   |
| Nombre del Campus                                     | 122362        | 52.574773                   |
| Cód. Campus                                           | 121914        | 52.382282                   |
| Códgo SIES                                            | 87047         | 37.401123                   |
| Matrícula primer año extranjeros                      | 64016         | 27.505489                   |
| Vacantes                                              | 61255         | 26.319182                   |
| Valor de arancel                                      | 59433         | 25.536330                   |
| Matrícula total extranjeros                           | 54405         | 23.375971                   |
| Valor de matrícula                                    | 53390         | 22.939860                   |
| Valor del Título                                      | 37857         | 16.265860                   |
| Título                                                | 31886         | 13.700325                   |
| Matrícula primer año mujeres                          | 22340         | 9.598735                    |
| Matrícula primer año hombres                          | 22100         | 9.495615                    |
| Matrícula total mujeres                               | 3758          | 1.614684                    |
| Matrícula total hombres                               | 3347          | 1.438092                    |
| Duración (en semestres)                               | 726           | 0.311937                    |


Segun tabla resumen de valores, se puede visualizar que el dataset en estudio contiene una gran cantidad de valores nulos, donde en algunos de los casos de tienen un porcentaje mayor a 50% de datos nulos o faltantes. En el notebook de "Limpieza de datos" revisaremos con detalle los valores nulos y adoptaremos diferentes tipos de estrategias con la finalidad de tener un dataset lo mas limpio posible y a la vez que sea confiable a la hora de realizar analisis estadisticos y visualizaciones.
