<a href="https://colab.research.google.com/github/evegat/usm2025-1-dip-ia-edu-v2-evegat/blob/main/Proyecto/03analisis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HITO 1: Carga de Dataset y Lectura de columnas


Este notebook tiene como objetivo explorar el archivo `01database.csv.gz`, el cual contiene datos de matrícula en educación superior en Chile. Se utilizará para entender las variables disponibles y preparar su uso en un modelo predictivo relacionado con la elección de carreras de pedagogía.


In [12]:
#Importamos librerias a utilizar
import pandas as pd

In [13]:
# Cargar archivo comprimido desde GitHub
url = 'https://github.com/evegat/usm2025-1-dip-ia-edu-v2-evegat/raw/main/Proyecto/01database.csv.gz'
df = pd.read_csv(url, compression='gzip')

A continuación se visualizan las dimensiones del dataset (número de filas y columnas), así como los nombres de las variables, su tipo de dato, cantidad de valores únicos por variable y posibles valores representativos. Mencionar que el dataset original era con tres veces mas columnas, y la data anual es de aprox. 1.2 millones de registros incluyendo otras matriculas de educacion superior. El procesamiento para que la data pudiera ser subida a github fue procesada y tomada una muestra al 80% estratificada. No se incluye este procesamiento puesto que fue realizado para generar el sample que se considera cono database inicial para este proyecto.


In [17]:
# Dimensiones generales
print(f" Filas: {df.shape[0]:,} — Columnas: {df.shape[1]}")

# Tipos de datos
print("\n Tipos de datos por columna:")
print(df.dtypes)

# Valores únicos por variable
print("\n Cantidad de valores únicos por columna:")
print(df.nunique())

# Vista rápida de nombres de columnas
print("\n Columnas:")
print(df.columns.tolist())


 Filas: 1,521,923 — Columnas: 17

 Tipos de datos por columna:
cat_periodo            int64
gen_alu                int64
rango_edad            object
anio_ing_carr_act      int64
tipo_inst_1           object
modalidad             object
jornada               object
region_sede           object
nivel_carrera_1       object
requisito_ingreso     object
valor_matricula      float64
valor_arancel        float64
acreditada_carr       object
acreditada_inst       object
forma_ingreso         object
AGNO_ORIGEN            int64
nomb_carrera          object
dtype: object

 Cantidad de valores únicos por columna:
cat_periodo             2
gen_alu                 2
rango_edad              7
anio_ing_carr_act      38
tipo_inst_1             2
modalidad               3
jornada                 5
region_sede            16
nivel_carrera_1         4
requisito_ingreso       7
valor_matricula       598
valor_arancel        3553
acreditada_carr         2
acreditada_inst         2
forma_ingreso          1

Las siguientes variables fueron seleccionadas por su relevancia para el análisis de elección de carrera:

- **gen_alu**: Género del estudiante (1: Hombre, 2: Mujer). Tipo: numérico entero.
- **rango_edad**: Grupo etario del estudiante (ej. "20 a 24 años", "25 a 29 años"). Tipo: categórica.
- **region_sede**: Región donde se ubica la sede (ej. "Metropolitana", "Valparaíso"). Tipo: categórica.
- **tipo_inst_1**: Tipo principal de institución (ej. "Universidad", "Instituto Profesional"). Tipo: categórica.
- **modalidad**: Modalidad de estudio (ej. "Presencial", "Online"). Tipo: categórica.
- **jornada**: Jornada de estudio (ej. "Diurna", "Vespertina"). Tipo: categórica.
- **nivel_carrera_1**: Nivel del programa (ej. "Profesional", "Técnico"). Tipo: categórica.
- **requisito_ingreso**: Requisitos de ingreso (ej. "Licencia Media", "PSU", "PDT + NEM"). Tipo: categórica.
- **valor_matricula**: Valor anual de la matrícula en pesos chilenos. Tipo: numérico.
- **valor_arancel**: Arancel total anual de la carrera. Tipo: numérico.
- **acreditada_carr**: Indica si la carrera está acreditada ("Sí", "No"). Tipo: categórica.
- **forma_ingreso**: Mecanismo de ingreso (ej. "Ingreso Directo", "PACE"). Tipo: categórica.
- **nomb_carrera**: Nombre completo de la carrera. Tipo: texto libre.


A continuación, se muestran los valores más frecuentes o típicos de las variables categóricas seleccionadas. Esto permite entender mejor su distribución y relevancia para un modelo predictivo.


In [18]:
# Columnas categóricas a analizar
columnas_interes = [
    'gen_alu', 'rango_edad', 'region_sede', 'tipo_inst_1',
    'modalidad', 'jornada', 'nivel_carrera_1', 'requisito_ingreso',
    'acreditada_carr', 'forma_ingreso', 'nomb_carrera'
]

# Mostrar valores únicos más frecuentes por columna
for col in columnas_interes:
    print(f"\n {col} ({df[col].dtype}):")
    print(df[col].value_counts().head(5))



 gen_alu (int64):
gen_alu
2    794836
1    727087
Name: count, dtype: int64

 rango_edad (object):
rango_edad
20 a 24 años     778008
15 a 19 años     287789
25 a 29 años     215646
30 a 34 años      97793
40 y más años     79219
Name: count, dtype: int64

 region_sede (object):
region_sede
Metropolitana    784594
Biobío           155924
Valparaíso       153415
La Araucanía      70620
Maule             66189
Name: count, dtype: int64

 tipo_inst_1 (object):
tipo_inst_1
Universidades               1100403
Institutos Profesionales     421520
Name: count, dtype: int64

 modalidad (object):
modalidad
Presencial        1365963
No Presencial      141772
Semipresencial      14188
Name: count, dtype: int64

 jornada (object):
jornada
Diurno            1171715
Vespertino         192603
A Distancia        141772
Semipresencial      11783
Otro                 4050
Name: count, dtype: int64

 nivel_carrera_1 (object):
nivel_carrera_1
Profesional Con Licenciatura                1037129
Profesional