# Análisis Exploratorio de Datos (EDA) - PAES 2025 Admissions

## Introducción

Este análisis exploratorio de datos tiene como objetivo comprender las características y la estructura del dataset de admisiones para el proceso PAES 2025. Se realizarán inspecciones iniciales, verificaciones de calidad de los datos y análisis de correlaciones entre las variables. Este proceso es esencial para identificar patrones y preparar los datos para futuros análisis predictivos.

## Objetivos del EDA
1. Inspeccionar la calidad de los datos (valores nulos, distribuciones).
2. Imputar valores faltantes de manera adecuada.
3. Obtener estadísticas descriptivas de las variables.
4. Analizar las correlaciones entre variables numéricas.


In [3]:
# Importación de librerías
import pandas as pd
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar datos limpios
file_path = 'C:/Users/BS/Documents/PAES2025_Admissions_Analysis/data/processed/clean_admissions_data_2025.csv'
data = pd.read_csv(file_path)

# Mostrar las primeras filas del dataset
data.head()


Unnamed: 0,id_aux,anyo_proceso,fecha_nacimiento,rbd,cod_ens,regimen,rama_educacional,grupo_dependencia,anyo_egreso,codigo_region,codigo_provincia,codigo_comuna,codigo_region_d,codigo_comuna_d,situacion_egreso,bea,pace,pais_nacimiento,sexo,ingreso_percapita_grupo_fa
0,id_8509585970918,2025,2000-04-01,4.0,310.0,3.0,H1,4.0,2017.0,15.0,151.0,15101.0,15,15101,5,No,No,210,2,3
1,id_9058590075843,2025,2005-07-01,4.0,310.0,3.0,H1,4.0,2023.0,15.0,151.0,15101.0,15,15101,5,No,No,210,2,1
2,id_9667596676718,2025,2005-12-01,4.0,310.0,3.0,H1,4.0,2023.0,15.0,151.0,15101.0,15,15101,5,No,No,210,1,3
3,id_9003590770303,2025,2005-05-01,4.0,310.0,3.0,H1,4.0,2023.0,15.0,151.0,15101.0,15,15101,5,No,PACE,210,2,2
4,id_8697586579769,2025,2001-11-01,4.0,310.0,3.0,H1,4.0,2019.0,15.0,151.0,15101.0,15,15101,5,No,No,210,2,99


## Carga de Datos

En esta sección, cargamos los datos procesados y realizamos una inspección inicial de las primeras filas del dataset para familiarizarnos con su estructura.


### 3. Inspección General y Estadísticas Descriptivas


In [4]:
# Obtener estadísticas básicas
data.describe()


Unnamed: 0,anyo_proceso,rbd,cod_ens,regimen,grupo_dependencia,anyo_egreso,codigo_region,codigo_provincia,codigo_comuna,codigo_region_d,codigo_comuna_d,situacion_egreso,pais_nacimiento,sexo,ingreso_percapita_grupo_fa
count,23648.0,23165.0,23165.0,22041.0,23165.0,23618.0,23423.0,23423.0,23165.0,23648.0,23648.0,23648.0,23648.0,23648.0,23648.0
mean,2025.0,12114.086035,325.023052,2.836169,2.045543,2021.827462,9.784485,99.513939,9955.395467,9.84781,10022.268649,5.032434,210.063599,1.605421,23.839733
std,0.0,9098.586953,57.061573,0.479971,0.712367,2.561104,3.795348,37.749596,3776.038684,3.765684,3750.804166,0.269079,12.438378,0.48877,37.736289
min,2025.0,4.0,310.0,1.0,1.0,1996.0,1.0,11.0,1101.0,1.0,1101.0,5.0,0.0,1.0,1.0
25%,2025.0,4694.0,310.0,3.0,2.0,2022.0,7.0,71.0,7101.0,7.0,7105.0,5.0,210.0,1.0,3.0
50%,2025.0,9164.0,310.0,3.0,2.0,2023.0,10.0,102.0,10202.0,10.0,10301.0,5.0,210.0,2.0,6.0
75%,2025.0,17859.0,310.0,3.0,2.0,2023.0,13.0,131.0,13121.0,13.0,13122.0,5.0,210.0,2.0,10.0
max,2025.0,41899.0,910.0,3.0,4.0,2023.0,16.0,163.0,16305.0,16.0,16305.0,8.0,290.0,2.0,99.0


## Estadísticas Descriptivas

Aquí observamos las estadísticas descriptivas de las variables numéricas para entender la distribución, media, desviación estándar, valores mínimos y máximos. Esto nos da una idea general del comportamiento de los datos.


In [15]:
# Verificar valores nulos
data.isnull().sum()

# Convertir la columna 'regimen' a tipo 'object' para permitir la imputación de strings
data['regimen'] = data['regimen'].astype('object')

# Imputación de valores faltantes
data.loc[:, 'anyo_egreso'] = data['anyo_egreso'].fillna(data['anyo_egreso'].median())
data.loc[:, 'codigo_region'] = data['codigo_region'].fillna(data['codigo_region'].median())
data.loc[:, 'codigo_provincia'] = data['codigo_provincia'].fillna(data['codigo_provincia'].median())
data.loc[:, 'regimen'] = data['regimen'].fillna('Desconocido')
data.loc[:, 'rbd'] = data['rbd'].fillna(data['rbd'].mode()[0])
data.loc[:, 'cod_ens'] = data['cod_ens'].fillna(data['cod_ens'].mode()[0])
data.loc[:, 'rama_educacional'] = data['rama_educacional'].fillna(data['rama_educacional'].mode()[0])
data.loc[:, 'grupo_dependencia'] = data['grupo_dependencia'].fillna(data['grupo_dependencia'].mode()[0])
data.loc[:, 'codigo_comuna'] = data['codigo_comuna'].fillna(data['codigo_comuna'].mode()[0])

# Verificar valores nulos nuevamente
data.isnull().sum()

id_aux                        0
anyo_proceso                  0
fecha_nacimiento              0
rbd                           0
cod_ens                       0
regimen                       0
rama_educacional              0
grupo_dependencia             0
anyo_egreso                   0
codigo_region                 0
codigo_provincia              0
codigo_comuna                 0
codigo_region_d               0
codigo_comuna_d               0
situacion_egreso              0
bea                           0
pace                          0
pais_nacimiento               0
sexo                          0
ingreso_percapita_grupo_fa    0
dtype: int64

## Verificación de Valores Nulos e Imputación

En esta sección, verificamos la presencia de valores nulos en el dataset. Las columnas con valores nulos han sido imputadas utilizando la mediana para las variables numéricas y la moda para las variables categóricas. Después de la imputación, se verifica que no queden valores faltantes en el dataset.


#### 5. Análisis de Correlaciones entre Variables
Aquí realizamos un análisis de correlaciones entre las variables numéricas. Esto es esencial para identificar relaciones lineales que podrían ser útiles en el modelado predictivo.

In [13]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# Cargar datos limpios
file_path = 'C:/Users/BS/Documents/PAES2025_Admissions_Analysis/data/processed/clean_admissions_data_2025.csv'
data = pd.read_csv(file_path)

# Verificar valores nulos
null_counts = data.isnull().sum()
null_df = null_counts[null_counts > 0].reset_index()
null_df.columns = ['Column', 'MissingValues']

# Crear un gráfico de barras
fig = px.bar(null_df, x='Column', y='MissingValues', 
             title='Valores Nulos por Columna',
             labels={'MissingValues': 'Cantidad de Valores Nulos', 'Column': 'Columnas'},
             text='MissingValues')

fig.update_traces(textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.show()


### 6. Distribución de Variables Categóricas


In [9]:
# Visualización de la distribución por sexo y rama educacional
fig = px.histogram(data, x='sexo', color='rama_educacional', title='Distribución por Sexo y Rama Educacional')
fig.show()


## Distribución de Variables Categóricas

Aquí visualizamos la distribución de estudiantes según su **sexo** y **rama educacional**, para entender mejor la composición del dataset en estas dimensiones.


## Conclusiones del EDA

1. **Valores Nulos**: Hemos imputado con éxito los valores faltantes en varias columnas categóricas y numéricas.
2. **Correlaciones**: Identificamos relaciones lineales importantes entre algunas variables numéricas, que podrían ser útiles en futuros modelos predictivos.
3. **Distribución de Datos**: El dataset tiene una distribución balanceada en cuanto a sexo y ramas educacionales, lo que permitirá un análisis equitativo en futuras fases.

## Próximos Pasos

1. **Visualización Avanzada**: Generar gráficos más detallados que exploren las relaciones entre variables clave, como se hará en el notebook `visualizacion.ipynb`.
2. **Modelado Predictivo**: Utilizar estas relaciones para crear modelos que puedan predecir el comportamiento o las características de los estudiantes inscritos en PAES 2025.
3. **Mejoras en la Limpieza de Datos**: Verificar más a fondo otras anomalías posibles en los datos.
