# Fase 0: Entendimiento del Problema y Datos

## Dataset: Titulados 2007-2024

### Objetivo
Cargar y comprender la estructura del dataset de titulaciones universitarias en Chile (2007-2024)

In [None]:
# Configurar autoreload para detectar cambios en módulos
%load_ext autoreload
%autoreload 2

# Configurar path para importar desde raíz del proyecto
import sys
from pathlib import Path

# Agregar directorio raíz al path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

print(f"Proyecto raíz: {project_root}")
print(f"Python path actualizado")
print(f"✓ Autoreload activado: los cambios en .py se cargarán automáticamente")

In [None]:
# Importar módulos del proyecto
from src.data.loader import load_titulados_data, DataLoader
import pandas as pd
import numpy as np

print("Módulos importados correctamente ✓")

## 1. Carga de Datos

In [None]:
# Cargar datos con ruta absoluta
csv_path = project_root / "data" / "raw" / "TITULADO_2007-2024_web_19_05_2025_E.csv"
print(f"Cargando desde: {csv_path}")
print(f"Archivo existe: {csv_path.exists()}\n")

df, metadata = load_titulados_data(str(csv_path))

print("\n=== METADATA ===")
for key, value in metadata.items():
    if key != 'tipos_columnas':
        print(f"{key}: {value}")

## 2. Información General del Dataset

In [None]:
# Información del DataFrame
print(df.info())

In [None]:
# Primeras filas
df.head()

In [None]:
# Dimensiones
print(f"Filas: {df.shape[0]:,}")
print(f"Columnas: {df.shape[1]}")
print(f"\nNombres de columnas:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

## 3. Resumen de Calidad de Datos

In [None]:
# Resumen de calidad
loader = DataLoader()
summary = loader.get_summary(df)
summary.head(15)

In [None]:
# Variables con más del 10% de valores faltantes
missing_vars = summary[summary['pct_missing'] > 10].sort_values('pct_missing', ascending=False)
print("=== VARIABLES CON >10% VALORES FALTANTES ===")
print(missing_vars[['pct_missing', 'n_missing', 'dtype']])

## 4. Estadísticas Descriptivas

In [None]:
# Estadísticas numéricas
df.describe()

In [None]:
# Distribución temporal
print("=== DISTRIBUCIÓN POR AÑO ===")
year_dist = df['AÑO'].value_counts().sort_index()
print(year_dist)
print(f"\nTotal años: {len(year_dist)}")

In [None]:
# Top regiones
print("=== TOP 10 REGIONES ===")
region_counts = df['REGIÓN'].value_counts().head(10)
print(region_counts)
print(f"\nTotal regiones: {df['REGIÓN'].nunique()}")

In [None]:
# Top instituciones
print("=== TOP 10 INSTITUCIONES ===")
inst_counts = df['NOMBRE INSTITUCIÓN'].value_counts().head(10)
print(inst_counts)
print(f"\nTotal instituciones: {df['NOMBRE INSTITUCIÓN'].nunique()}")

In [None]:
# Áreas del conocimiento
print("=== ÁREAS DEL CONOCIMIENTO ===")
area_counts = df['ÁREA DEL CONOCIMIENTO'].value_counts()
print(area_counts)
print(f"\nTotal áreas: {df['ÁREA DEL CONOCIMIENTO'].nunique()}")

In [None]:
# Nivel global (pregrado, postgrado, etc.)
print("=== NIVEL GLOBAL ===")
nivel_counts = df['NIVEL GLOBAL'].value_counts()
print(nivel_counts)

## 5. Análisis de Titulaciones

In [None]:
# Resumen de titulaciones
print("=== RESUMEN TITULACIONES ===")
print(f"Total registros: {len(df):,}")
print(f"Total titulaciones: {df['TOTAL TITULACIONES'].sum():,}")
print(f"Promedio por registro: {df['TOTAL TITULACIONES'].mean():.2f}")
print(f"Mediana: {df['TOTAL TITULACIONES'].median():.2f}")
print(f"\nTitulaciones mujeres: {df['TITULACIONES MUJERES POR PROGRAMA'].sum():,.0f}")
print(f"Titulaciones hombres: {df['TITULACIONES HOMBRES POR PROGRAMA'].sum():,.0f}")

## 6. Conclusiones Iniciales

**Calidad de datos:**
- Dataset con 218,566 registros y 42 variables
- Encoding: Latin-1 (detectado automáticamente)
- Período: 2007-2024 (18 años)

**Variables con valores faltantes significativos:**
- Ver análisis de calidad arriba

**Cobertura:**
- 16 regiones
- 208 instituciones
- Múltiples áreas del conocimiento

**Próximos pasos (Fase 1):**
1. Crear particiones temporales (2007-2022: train, 2023: val, 2024: test)
2. Preprocesar datos sin data leakage
3. Ingeniería de características (Fase 2)