# Fase 0: Entendimiento del Problema y Datos

## Dataset: Titulados 2007-2024

### Objetivo
Cargar y comprender la estructura del dataset de titulaciones universitarias en Chile (2007-2024)

In [1]:
# Configurar autoreload para detectar cambios en módulos
%load_ext autoreload
%autoreload 2

# Configurar path para importar desde raíz del proyecto
import sys
from pathlib import Path

# Agregar directorio raíz al path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

print(f"Proyecto raíz: {project_root}")
print(f"Python path actualizado")
print(f"✓ Autoreload activado: los cambios en .py se cargarán automáticamente")

Proyecto raíz: /home/anaguirv/ia_diplomado/EDA
Python path actualizado
✓ Autoreload activado: los cambios en .py se cargarán automáticamente


In [2]:
# Importar módulos del proyecto
from src.data.loader import load_titulados_data, DataLoader
import pandas as pd
import numpy as np

print("Módulos importados correctamente ✓")

Módulos importados correctamente ✓


## 1. Carga de Datos

In [3]:
# Cargar datos con ruta absoluta
csv_path = project_root / "data" / "raw" / "TITULADO_2007-2024_web_19_05_2025_E.csv"
print(f"Cargando desde: {csv_path}")
print(f"Archivo existe: {csv_path.exists()}\n")

df, metadata = load_titulados_data(str(csv_path))

print("\n=== METADATA ===")
for key, value in metadata.items():
    if key != 'tipos_columnas':
        print(f"{key}: {value}")

Cargando desde: /home/anaguirv/ia_diplomado/EDA/data/raw/TITULADO_2007-2024_web_19_05_2025_E.csv
Archivo existe: True

[WARN] Falló con encoding='utf-8': 'utf-8' codec can't decode byte 0xd1 in position 1: invalid continuation byte
[OK] Cargado con encoding='latin-1', filas=218566, columnas=42

[INFO] Dataset de titulados cargado correctamente
Período: TIT_2007 - TIT_2024
Regiones: 16
Instituciones: 208

=== METADATA ===
nombre_archivo: TITULADO_2007-2024_web_19_05_2025_E.csv
ruta_absoluta: /home/anaguirv/ia_diplomado/EDA/data/raw/TITULADO_2007-2024_web_19_05_2025_E.csv
separador: ;
encoding_usado: latin-1
filas: 218566
columnas: 42
memoria_mb: 401.4138374328613


## 2. Información General del Dataset

In [4]:
# Información del DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218566 entries, 0 to 218565
Data columns (total 42 columns):
 #   Column                                     Non-Null Count   Dtype  
---  ------                                     --------------   -----  
 0   AÑO                                        218566 non-null  object 
 1   TOTAL TITULACIONES                         218566 non-null  int64  
 2   TITULACIONES MUJERES POR PROGRAMA          177916 non-null  float64
 3   TITULACIONES HOMBRES POR PROGRAMA          182970 non-null  float64
 4   TITULACIONES NB E INDEFINIDO POR PROGRAMA  5 non-null       float64
 5   CLASIFICACIÓN INSTITUCIÓN NIVEL 1          218566 non-null  object 
 6   CLASIFICACIÓN INSTITUCIÓN NIVEL 2          218566 non-null  object 
 7   CLASIFICACIÓN INSTITUCIÓN NIVEL 3          218566 non-null  object 
 8   CÓDIGO INSTITUCIÓN                         218566 non-null  int64  
 9   NOMBRE INSTITUCIÓN                         218566 non-null  object 
 10  COMUNA  

In [5]:
# Primeras filas
df.head()

Unnamed: 0,AÑO,TOTAL TITULACIONES,TITULACIONES MUJERES POR PROGRAMA,TITULACIONES HOMBRES POR PROGRAMA,TITULACIONES NB E INDEFINIDO POR PROGRAMA,CLASIFICACIÓN INSTITUCIÓN NIVEL 1,CLASIFICACIÓN INSTITUCIÓN NIVEL 2,CLASIFICACIÓN INSTITUCIÓN NIVEL 3,CÓDIGO INSTITUCIÓN,NOMBRE INSTITUCIÓN,...,RANGO DE EDAD 20 A 24 AÑOS,RANGO DE EDAD 25 A 29 AÑOS,RANGO DE EDAD 30 A 34 AÑOS,RANGO DE EDAD 35 A 39 AÑOS,RANGO DE EDAD 40 Y MÁS AÑOS,RANGO DE EDAD SIN INFORMACIÓN,PROMEDIO EDAD PROGRAMA,PROMEDIO EDAD MUJER,PROMEDIO EDAD HOMBRE,PROMEDIO EDAD NB
0,TIT_2024,10,4.0,6.0,,Universidades,Universidades Privadas,Universidades Privadas,1,UNIVERSIDAD GABRIELA MISTRAL,...,1.0,,1.0,4.0,4.0,,387,385,3883333333,
1,TIT_2024,13,10.0,3.0,,Universidades,Universidades Privadas,Universidades Privadas,1,UNIVERSIDAD GABRIELA MISTRAL,...,1.0,7.0,3.0,2.0,,,29,289,2933333333,
2,TIT_2024,15,13.0,2.0,,Universidades,Universidades Privadas,Universidades Privadas,1,UNIVERSIDAD GABRIELA MISTRAL,...,,,2.0,1.0,12.0,,452,4569230769,42,
3,TIT_2024,19,15.0,4.0,,Universidades,Universidades Privadas,Universidades Privadas,1,UNIVERSIDAD GABRIELA MISTRAL,...,1.0,9.0,7.0,1.0,1.0,,3015789474,3013333333,3025,
4,TIT_2024,9,5.0,4.0,,Universidades,Universidades Privadas,Universidades Privadas,1,UNIVERSIDAD GABRIELA MISTRAL,...,7.0,2.0,,,,,2355555556,232,24,


In [6]:
# Dimensiones
print(f"Filas: {df.shape[0]:,}")
print(f"Columnas: {df.shape[1]}")
print(f"\nNombres de columnas:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

Filas: 218,566
Columnas: 42

Nombres de columnas:
 1. AÑO
 2. TOTAL TITULACIONES
 3. TITULACIONES MUJERES POR PROGRAMA
 4. TITULACIONES HOMBRES POR PROGRAMA
 5. TITULACIONES NB E INDEFINIDO POR PROGRAMA
 6. CLASIFICACIÓN INSTITUCIÓN NIVEL 1
 7. CLASIFICACIÓN INSTITUCIÓN NIVEL 2
 8. CLASIFICACIÓN INSTITUCIÓN NIVEL 3
 9. CÓDIGO INSTITUCIÓN
10. NOMBRE INSTITUCIÓN
11. COMUNA
12. PROVINCIA
13. REGIÓN
14. NOMBRE SEDE
15. NOMBRE CARRERA
16. ÁREA DEL CONOCIMIENTO
17. CINE-F_97 ÁREA
18. CINE-F_97 SUBAREA
19. ÁREA CARRERA GENÉRICA
20. CINE-F_13 ÁREA
21. CINE-F_13 SUBAREA
22. NIVEL GLOBAL
23. CARRERA CLASIFICACIÓN NIVEL 1
24. CARRERA CLASIFICACIÓN NIVEL 2
25. MODALIDAD
26. JORNADA
27. TIPO DE PLAN DE LA CARRERA
28. DURACIÓN ESTUDIO CARRERA
29. DURACIÓN TOTAL DE LA CARRERA
30. CÓDIGO PROGRAMA
31. TOTAL RANGO EDAD
32. RANGO DE EDAD 15 A 19 AÑOS
33. RANGO DE EDAD 20 A 24 AÑOS
34. RANGO DE EDAD 25 A 29 AÑOS
35. RANGO DE EDAD 30 A 34 AÑOS
36. RANGO DE EDAD 35 A 39 AÑOS
37. RANGO DE EDAD 40 Y MÁS AÑOS


## 3. Resumen de Calidad de Datos

In [7]:
# Resumen de calidad
loader = DataLoader()
summary = loader.get_summary(df)
summary.head(15)

Unnamed: 0,dtype,n_missing,pct_missing,n_unique,memory_kb,sample_values
TITULACIONES NB E INDEFINIDO POR PROGRAMA,float64,218561,100.0,2,1707.55,"[1.0, 1.0, 1.0]"
PROMEDIO EDAD NB,float64,218561,100.0,5,1707.55,"[25.0, 30.0, 26.0]"
RANGO DE EDAD SIN INFORMACIÓN,float64,217966,99.73,30,1707.55,"[1.0, 1.0, 1.0]"
RANGO DE EDAD 15 A 19 AÑOS,float64,215146,98.44,29,1707.55,"[1.0, 1.0, 2.0]"
RANGO DE EDAD 40 Y MÁS AÑOS,float64,127186,58.19,185,1707.55,"[4.0, 12.0, 1.0]"
RANGO DE EDAD 35 A 39 AÑOS,float64,122061,55.85,122,1707.55,"[4.0, 2.0, 1.0]"
RANGO DE EDAD 20 A 24 AÑOS,float64,85314,39.03,232,1707.55,"[1.0, 1.0, 1.0]"
RANGO DE EDAD 30 A 34 AÑOS,float64,81493,37.29,139,1707.55,"[1.0, 3.0, 2.0]"
RANGO DE EDAD 25 A 29 AÑOS,float64,50854,23.27,198,1707.55,"[7.0, 9.0, 2.0]"
PROMEDIO EDAD MUJER,object,40792,18.66,13160,10851.64,"['38,5', '28,9', '45,69230769']"


In [8]:
# Variables con más del 10% de valores faltantes
missing_vars = summary[summary['pct_missing'] > 10].sort_values('pct_missing', ascending=False)
print("=== VARIABLES CON >10% VALORES FALTANTES ===")
print(missing_vars[['pct_missing', 'n_missing', 'dtype']])

=== VARIABLES CON >10% VALORES FALTANTES ===
                                           pct_missing  n_missing    dtype
TITULACIONES NB E INDEFINIDO POR PROGRAMA       100.00     218561  float64
PROMEDIO EDAD NB                                100.00     218561  float64
RANGO DE EDAD SIN INFORMACIÓN                    99.73     217966  float64
RANGO DE EDAD 15 A 19 AÑOS                       98.44     215146  float64
RANGO DE EDAD 40 Y MÁS AÑOS                      58.19     127186  float64
RANGO DE EDAD 35 A 39 AÑOS                       55.85     122061  float64
RANGO DE EDAD 20 A 24 AÑOS                       39.03      85314  float64
RANGO DE EDAD 30 A 34 AÑOS                       37.29      81493  float64
RANGO DE EDAD 25 A 29 AÑOS                       23.27      50854  float64
PROMEDIO EDAD MUJER                              18.66      40792   object
TITULACIONES MUJERES POR PROGRAMA                18.60      40650  float64
PROMEDIO EDAD HOMBRE                             16.35 

## 4. Estadísticas Descriptivas

In [9]:
# Estadísticas numéricas
df.describe()

Unnamed: 0,TOTAL TITULACIONES,TITULACIONES MUJERES POR PROGRAMA,TITULACIONES HOMBRES POR PROGRAMA,TITULACIONES NB E INDEFINIDO POR PROGRAMA,CÓDIGO INSTITUCIÓN,DURACIÓN ESTUDIO CARRERA,DURACIÓN TOTAL DE LA CARRERA,TOTAL RANGO EDAD,RANGO DE EDAD 15 A 19 AÑOS,RANGO DE EDAD 20 A 24 AÑOS,RANGO DE EDAD 25 A 29 AÑOS,RANGO DE EDAD 30 A 34 AÑOS,RANGO DE EDAD 35 A 39 AÑOS,RANGO DE EDAD 40 Y MÁS AÑOS,RANGO DE EDAD SIN INFORMACIÓN,PROMEDIO EDAD NB
count,218566.0,177916.0,182970.0,5.0,218566.0,218173.0,218173.0,218566.0,3420.0,133252.0,167712.0,137073.0,96505.0,91380.0,600.0,5.0
mean,16.892417,11.679832,8.821523,1.0,128.413852,6.073836,6.263291,16.892417,2.347076,9.929232,6.811755,3.780832,3.157225,4.311808,2.711667,32.2
std,25.854091,18.937527,13.9557,0.0,132.609509,2.722959,2.771266,25.854091,2.851549,14.953128,10.479336,5.907839,5.30182,9.284233,5.873616,10.20784
min,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,25.0
25%,3.0,2.0,2.0,1.0,50.0,4.0,4.0,3.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,26.0
50%,9.0,5.0,5.0,1.0,88.0,5.0,5.0,9.0,1.0,5.0,4.0,2.0,2.0,2.0,1.0,30.0
75%,21.0,14.0,10.0,1.0,143.0,8.0,8.0,21.0,2.0,12.0,8.0,4.0,3.0,4.0,2.0,30.0
max,968.0,904.0,508.0,1.0,920.0,24.0,24.0,968.0,28.0,407.0,413.0,293.0,190.0,507.0,55.0,50.0


In [10]:
# Distribución temporal
print("=== DISTRIBUCIÓN POR AÑO ===")
year_dist = df['AÑO'].value_counts().sort_index()
print(year_dist)
print(f"\nTotal años: {len(year_dist)}")

=== DISTRIBUCIÓN POR AÑO ===
AÑO
TIT_2007     8591
TIT_2008     9419
TIT_2009     9681
TIT_2010     9190
TIT_2011     9669
TIT_2012    10868
TIT_2013    11522
TIT_2014    12496
TIT_2015    13713
TIT_2016    12810
TIT_2017    13715
TIT_2018    13847
TIT_2019    12943
TIT_2020    12436
TIT_2021    13571
TIT_2022    14554
TIT_2023    14675
TIT_2024    14866
Name: count, dtype: int64

Total años: 18


In [11]:
# Top regiones
print("=== TOP 10 REGIONES ===")
region_counts = df['REGIÓN'].value_counts().head(10)
print(region_counts)
print(f"\nTotal regiones: {df['REGIÓN'].nunique()}")

=== TOP 10 REGIONES ===
REGIÓN
Metropolitana              92726
Biobío                     24423
Valparaíso                 23991
La Araucanía               10811
Maule                       9839
Antofagasta                 9396
Los Lagos                   9139
Coquimbo                    8403
Lib. Gral. B. O'Higgins     5997
Ñuble                       4963
Name: count, dtype: int64

Total regiones: 16


In [12]:
# Top instituciones
print("=== TOP 10 INSTITUCIONES ===")
inst_counts = df['NOMBRE INSTITUCIÓN'].value_counts().head(10)
print(inst_counts)
print(f"\nTotal instituciones: {df['NOMBRE INSTITUCIÓN'].nunique()}")

=== TOP 10 INSTITUCIONES ===
NOMBRE INSTITUCIÓN
CFT INACAP                                  14032
IP AIEP                                     13871
IP DUOC UC                                  10239
IP INACAP                                    7221
UNIVERSIDAD TECNOLOGICA DE CHILE INACAP      6672
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE     6295
CFT SANTO TOMAS                              5925
UNIVERSIDAD DE CHILE                         5712
IP SANTO TOMAS                               5322
UNIVERSIDAD DE LAS AMERICAS                  4748
Name: count, dtype: int64

Total instituciones: 208


In [13]:
# Áreas del conocimiento
print("=== ÁREAS DEL CONOCIMIENTO ===")
area_counts = df['ÁREA DEL CONOCIMIENTO'].value_counts()
print(area_counts)
print(f"\nTotal áreas: {df['ÁREA DEL CONOCIMIENTO'].nunique()}")

=== ÁREAS DEL CONOCIMIENTO ===
ÁREA DEL CONOCIMIENTO
Tecnología                   60254
Administración y Comercio    48050
Educación                    30251
Salud                        28425
Ciencias Sociales            20739
Arte y Arquitectura           9569
Derecho                       6764
Ciencias Básicas              5672
Agropecuaria                  5450
Humanidades                   3392
Name: count, dtype: int64

Total áreas: 10


In [14]:
# Nivel global (pregrado, postgrado, etc.)
print("=== NIVEL GLOBAL ===")
nivel_counts = df['NIVEL GLOBAL'].value_counts()
print(nivel_counts)

=== NIVEL GLOBAL ===
NIVEL GLOBAL
Pregrado     172204
Postítulo     23405
Posgrado      22957
Name: count, dtype: int64


## 5. Análisis de Titulaciones

In [15]:
# Resumen de titulaciones
print("=== RESUMEN TITULACIONES ===")
print(f"Total registros: {len(df):,}")
print(f"Total titulaciones: {df['TOTAL TITULACIONES'].sum():,}")
print(f"Promedio por registro: {df['TOTAL TITULACIONES'].mean():.2f}")
print(f"Mediana: {df['TOTAL TITULACIONES'].median():.2f}")
print(f"\nTitulaciones mujeres: {df['TITULACIONES MUJERES POR PROGRAMA'].sum():,.0f}")
print(f"Titulaciones hombres: {df['TITULACIONES HOMBRES POR PROGRAMA'].sum():,.0f}")

=== RESUMEN TITULACIONES ===
Total registros: 218,566
Total titulaciones: 3,692,108
Promedio por registro: 16.89
Mediana: 9.00

Titulaciones mujeres: 2,078,029
Titulaciones hombres: 1,614,074


## 6. Conclusiones Iniciales

**Calidad de datos:**
- Dataset con 218,566 registros y 42 variables
- Encoding: Latin-1 (detectado automáticamente)
- Período: 2007-2024 (18 años)

**Variables con valores faltantes significativos:**
- Ver análisis de calidad arriba

**Cobertura:**
- 16 regiones
- 208 instituciones
- Múltiples áreas del conocimiento

**Próximos pasos (Fase 1):**
1. Crear particiones temporales (2007-2022: train, 2023: val, 2024: test)
2. Preprocesar datos sin data leakage
3. Ingeniería de características (Fase 2)