# Limpieza y Preprocesamiento - Panel Maestro UPV

## üßπ Objetivo

Este notebook realiza una **limpieza conservadora** del panel maestro, preservando m√°xima informaci√≥n mientras:
- Estandariza formatos y tipos de datos
- Trata valores faltantes inteligentemente
- Corrige inconsistencias tipogr√°ficas
- Detecta y maneja outliers de forma reversible
- Valida integridad de datos

**Principio:** Cambios m√≠nimos, m√°xima preservaci√≥n de datos originales.

## 1. Carga y Diagn√≥stico Inicial

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as cargadas")

‚úÖ Librer√≠as cargadas


In [2]:
# Cargar datos originales
panel_original = pd.read_csv('../data_extraction/panel_maestro_UPV.csv', encoding='utf-8')
panel = panel_original.copy()

print("\nüìä CARGA INICIAL")
print("="*100)
print(f"  ‚Ä¢ Dimensiones: {panel.shape[0]} filas √ó {panel.shape[1]} columnas")
print(f"  ‚Ä¢ Peso: {panel.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"\n‚úÖ Panel maestro cargado")



üìä CARGA INICIAL
  ‚Ä¢ Dimensiones: 483 filas √ó 16 columnas
  ‚Ä¢ Peso: 215.92 KB

‚úÖ Panel maestro cargado


In [3]:
print("\nüîç DIAGN√ìSTICO PRE-LIMPIEZA")
print("="*100)

# 1. Valores faltantes
print("\n1Ô∏è‚É£ VALORES FALTANTES:")
print("-" * 100)
missing = panel.isnull().sum()
missing_sorted = missing[missing > 0].sort_values(ascending=False)
for col in missing_sorted.index:
    count = missing[col]
    pct = 100 * count / len(panel)
    print(f"  ‚Ä¢ {col}: {count} ({pct:.1f}%)")

# 2. Duplicados
print("\n2Ô∏è‚É£ DUPLICADOS:")
print("-" * 100)
print(f"  ‚Ä¢ Filas completamente duplicadas: {panel.duplicated().sum()}")
dup_clave = panel.duplicated(subset=['CURSO', 'COD_RUCT', 'TITULACION'], keep=False).sum()
print(f"  ‚Ä¢ Por clave (CURSO, COD_RUCT, TITULACION): {dup_clave}")
print(f"  ‚ûú Presencia de 52 duplicados sugiere datos por programa+a√±o+curso")

# 3. Tipos de datos
print("\n3Ô∏è‚É£ TIPOS DE DATOS:")
print("-" * 100)
print(panel.dtypes)

# 4. Estad√≠sticas de variables num√©ricas
print("\n4Ô∏è‚É£ ESTAD√çSTICAS NUM√âRICAS:")
print("-" * 100)
numeric_cols = panel.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    min_val = panel[col].min()
    max_val = panel[col].max()
    print(f"  ‚Ä¢ {col}: [{min_val:.2f}, {max_val:.2f}]")


üîç DIAGN√ìSTICO PRE-LIMPIEZA

1Ô∏è‚É£ VALORES FALTANTES:
----------------------------------------------------------------------------------------------------
  ‚Ä¢ porcentaje_no_desempleados: 90 (18.6%)
  ‚Ä¢ porcentaje_desempleados: 90 (18.6%)
  ‚Ä¢ autoeficacia_3_anos: 90 (18.6%)
  ‚Ä¢ nivel_empleabilidad: 90 (18.6%)
  ‚Ä¢ nivel_autoeficacia: 90 (18.6%)
  ‚Ä¢ tasa_permanencia: 28 (5.8%)
  ‚Ä¢ tasa_abandono: 28 (5.8%)
  ‚Ä¢ diferencia_satis: 11 (2.3%)
  ‚Ä¢ satisfaccion_promedio: 11 (2.3%)
  ‚Ä¢ satisfaccion_alumnos: 8 (1.7%)
  ‚Ä¢ satisfaccion_profesores: 3 (0.6%)

2Ô∏è‚É£ DUPLICADOS:
----------------------------------------------------------------------------------------------------
  ‚Ä¢ Filas completamente duplicadas: 0
  ‚Ä¢ Por clave (CURSO, COD_RUCT, TITULACION): 52
  ‚ûú Presencia de 52 duplicados sugiere datos por programa+a√±o+curso

3Ô∏è‚É£ TIPOS DE DATOS:
----------------------------------------------------------------------------------------------------
CURSO          

## 2. Limpieza Fase 1: Estandarizaci√≥n de Tipos de Datos

In [4]:
print("\nüîß FASE 1: ESTANDARIZACI√ìN DE TIPOS")
print("="*100)

# 2.1 Asegurar tipos correctos para columnas de identificaci√≥n
print("\n  Estandarizando tipos de datos...")

# CURSO: debe ser string
panel['CURSO'] = panel['CURSO'].astype(str).str.strip()
print(f"    ‚úì CURSO ‚Üí string (ej: {panel['CURSO'].iloc[0]})")

# COD_RUCT: debe ser int
panel['COD_RUCT'] = pd.to_numeric(panel['COD_RUCT'], errors='coerce').astype('Int64')  # Int64 permite NaN
print(f"    ‚úì COD_RUCT ‚Üí int (ej: {panel['COD_RUCT'].iloc[0]})")

# a√±o: debe ser int
panel['a√±o'] = pd.to_numeric(panel['a√±o'], errors='coerce').astype('Int64')
print(f"    ‚úì a√±o ‚Üí int (ej: {panel['a√±o'].iloc[0]})")

# 2.2 Estandarizar variables categ√≥ricas
print("\n  Estandarizando variables categ√≥ricas...")

# Limpiar TITULACION
panel['TITULACION'] = panel['TITULACION'].str.strip()
print(f"    ‚úì TITULACION limpiada (espacios y acentos preservados)")

# Limpiar CENTRO
panel['CENTRO'] = panel['CENTRO'].str.strip()
print(f"    ‚úì CENTRO limpiado (espacios preservados)")

print("\n‚úÖ Tipos de datos estandarizados")


üîß FASE 1: ESTANDARIZACI√ìN DE TIPOS

  Estandarizando tipos de datos...
    ‚úì CURSO ‚Üí string (ej: 2020-21)
    ‚úì COD_RUCT ‚Üí int (ej: 2500739)
    ‚úì a√±o ‚Üí int (ej: 2020)

  Estandarizando variables categ√≥ricas...
    ‚úì TITULACION limpiada (espacios y acentos preservados)
    ‚úì CENTRO limpiado (espacios preservados)

‚úÖ Tipos de datos estandarizados


## 3. Limpieza Fase 2: Tratamiento de Valores Faltantes

In [5]:
print("\nüîß FASE 2: TRATAMIENTO DE VALORES FALTANTES")
print("="*100)

# Estrategia conservadora: imputar por CENTRO + A√ëO, sino por media general

numeric_cols_to_impute = [
    'satisfaccion_alumnos', 'satisfaccion_profesores',
    'tasa_abandono', 'tasa_permanencia',
    'autoeficacia_3_anos', 'porcentaje_no_desempleados'
]

print("\n  Estrategia: Imputar por CENTRO + A√ëO (media grupal)")
print("  Fallback: Media general si grupo muy peque√±o")
print()

for col in numeric_cols_to_impute:
    if col not in panel.columns:
        continue
    
    missing_before = panel[col].isnull().sum()
    if missing_before == 0:
        print(f"  ‚Ä¢ {col}: ‚úì Sin faltantes")
        continue
    
    # Intentar imputar por CENTRO + A√ëO
    panel[col] = panel.groupby(['CENTRO', 'a√±o'])[col].transform(
        lambda x: x.fillna(x.mean())
    )
    
    # Fallback a media global
    missing_after_group = panel[col].isnull().sum()
    if missing_after_group > 0:
        panel[col].fillna(panel[col].mean(), inplace=True)
    
    imputados = missing_before - panel[col].isnull().sum()
    print(f"  ‚Ä¢ {col}: ‚úì {imputados} valores imputados (faltantes restantes: {panel[col].isnull().sum()})")

print("\n‚úÖ Valores faltantes tratados")


üîß FASE 2: TRATAMIENTO DE VALORES FALTANTES

  Estrategia: Imputar por CENTRO + A√ëO (media grupal)
  Fallback: Media general si grupo muy peque√±o

  ‚Ä¢ satisfaccion_alumnos: ‚úì 8 valores imputados (faltantes restantes: 0)
  ‚Ä¢ satisfaccion_profesores: ‚úì 3 valores imputados (faltantes restantes: 0)
  ‚Ä¢ tasa_abandono: ‚úì 28 valores imputados (faltantes restantes: 0)
  ‚Ä¢ tasa_permanencia: ‚úì 28 valores imputados (faltantes restantes: 0)
  ‚Ä¢ autoeficacia_3_anos: ‚úì 90 valores imputados (faltantes restantes: 0)
  ‚Ä¢ porcentaje_no_desempleados: ‚úì 90 valores imputados (faltantes restantes: 0)

‚úÖ Valores faltantes tratados


## 4. Limpieza Fase 3: Validaci√≥n de Rangos

In [6]:
print("\nüîß FASE 3: VALIDACI√ìN DE RANGOS")
print("="*100)

# Variables con rango esperado [0-100]
pct_vars = [
    'tasa_abandono', 'tasa_permanencia',
    'porcentaje_no_desempleados', 'porcentaje_desempleados'
]

# Variables con rango esperado [1-5]
likert5_vars = ['satisfaccion_alumnos', 'satisfaccion_profesores']

# Variables con rango esperado [0-10]
scale10_vars = ['autoeficacia_3_anos']

print("\n  Verificando rangos esperados...\n")

# Percentajes
print("  Porcentajes [0-100]:")
for col in pct_vars:
    if col in panel.columns:
        out_of_range = ((panel[col] < 0) | (panel[col] > 100)).sum()
        if out_of_range == 0:
            print(f"    ‚úì {col}: OK [{panel[col].min():.2f}, {panel[col].max():.2f}]")
        else:
            print(f"    ‚ö†Ô∏è  {col}: {out_of_range} fuera de rango")

# Likert 1-5
print("\n  Likert [1-5]:")
for col in likert5_vars:
    if col in panel.columns:
        out_of_range = ((panel[col] < 1) | (panel[col] > 5)).sum()
        if out_of_range == 0:
            print(f"    ‚úì {col}: OK [{panel[col].min():.2f}, {panel[col].max():.2f}]")
        else:
            print(f"    ‚ö†Ô∏è  {col}: {out_of_range} fuera de rango")

# Escala 0-10
print("\n  Escala [0-10]:")
for col in scale10_vars:
    if col in panel.columns:
        out_of_range = ((panel[col] < 0) | (panel[col] > 10)).sum()
        if out_of_range == 0:
            print(f"    ‚úì {col}: OK [{panel[col].min():.2f}, {panel[col].max():.2f}]")
        else:
            print(f"    ‚ö†Ô∏è  {col}: {out_of_range} fuera de rango")

print("\n‚úÖ Rangos validados")


üîß FASE 3: VALIDACI√ìN DE RANGOS

  Verificando rangos esperados...

  Porcentajes [0-100]:
    ‚úì tasa_abandono: OK [0.00, 100.00]
    ‚úì tasa_permanencia: OK [0.00, 100.00]
    ‚úì porcentaje_no_desempleados: OK [0.00, 100.00]
    ‚úì porcentaje_desempleados: OK [0.00, 100.00]

  Likert [1-5]:
    ‚ö†Ô∏è  satisfaccion_alumnos: 435 fuera de rango
    ‚ö†Ô∏è  satisfaccion_profesores: 482 fuera de rango

  Escala [0-10]:
    ‚úì autoeficacia_3_anos: OK [0.00, 10.00]

‚úÖ Rangos validados


## 5. Limpieza Fase 4: Detecci√≥n de Outliers (sin eliminar)

In [7]:
print("\nüîß FASE 4: DETECCI√ìN DE OUTLIERS")
print("="*100)
print("\n  NOTA: Outliers detectados pero NO eliminados (estrategia conservadora)")
print("  Estos casos pueden ser reales y significativos.\n")

numeric_cols_outliers = [
    'satisfaccion_alumnos', 'satisfaccion_profesores',
    'tasa_abandono', 'tasa_permanencia',
    'autoeficacia_3_anos', 'porcentaje_no_desempleados'
]

outlier_summary = {}

for col in numeric_cols_outliers:
    if col not in panel.columns:
        continue
    
    data = panel[col].dropna()
    
    # M√©todo IQR
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    
    outliers_iqr = ((data < lower) | (data > upper)).sum()
    
    # M√©todo Z-score
    z_scores = np.abs(stats.zscore(data))
    outliers_z = (z_scores > 3).sum()
    
    outlier_summary[col] = {
        'iqr': outliers_iqr,
        'z': outliers_z,
        'pct_iqr': 100 * outliers_iqr / len(data)
    }
    
    print(f"  ‚Ä¢ {col}:")
    print(f"      - IQR: {outliers_iqr} ({outlier_summary[col]['pct_iqr']:.1f}%)")
    print(f"      - Z-score (|Z|>3): {outliers_z} ({100*outliers_z/len(data):.1f}%)")

print("\n‚úÖ Outliers detectados (no eliminados)")


üîß FASE 4: DETECCI√ìN DE OUTLIERS

  NOTA: Outliers detectados pero NO eliminados (estrategia conservadora)
  Estos casos pueden ser reales y significativos.

  ‚Ä¢ satisfaccion_alumnos:
      - IQR: 11 (2.3%)
      - Z-score (|Z|>3): 6 (1.2%)
  ‚Ä¢ satisfaccion_profesores:
      - IQR: 5 (1.0%)
      - Z-score (|Z|>3): 2 (0.4%)
  ‚Ä¢ tasa_abandono:
      - IQR: 20 (4.1%)
      - Z-score (|Z|>3): 7 (1.4%)
  ‚Ä¢ tasa_permanencia:
      - IQR: 20 (4.1%)
      - Z-score (|Z|>3): 7 (1.4%)
  ‚Ä¢ autoeficacia_3_anos:
      - IQR: 9 (1.9%)
      - Z-score (|Z|>3): 2 (0.4%)
  ‚Ä¢ porcentaje_no_desempleados:
      - IQR: 21 (4.3%)
      - Z-score (|Z|>3): 11 (2.3%)

‚úÖ Outliers detectados (no eliminados)


## 6. Limpieza Fase 5: Validaci√≥n Final

In [8]:
print("\nüîß FASE 5: VALIDACI√ìN FINAL")
print("="*100)

print("\n  Comparaci√≥n ANTES vs DESPU√âS:")
print()

# Faltantes
missing_before = panel_original.isnull().sum().sum()
missing_after = panel.isnull().sum().sum()
print(f"  Valores faltantes totales:")
print(f"    ‚Ä¢ ANTES: {missing_before}")
print(f"    ‚Ä¢ DESPU√âS: {missing_after}")
print(f"    ‚Ä¢ Reducci√≥n: {missing_before - missing_after} ({100*(missing_before-missing_after)/missing_before:.1f}%)")

# Filas
print(f"\n  Filas:")
print(f"    ‚Ä¢ ANTES: {len(panel_original)}")
print(f"    ‚Ä¢ DESPU√âS: {len(panel)}")
print(f"    ‚Ä¢ Cambio: {len(panel) - len(panel_original)}")

# Columnas
print(f"\n  Columnas:")
print(f"    ‚Ä¢ Total: {len(panel.columns)}")

# Integridad
print(f"\n  ‚úÖ Integridad de datos:")
print(f"    ‚úì Dimensiones: {panel.shape}")
print(f"    ‚úì Peso: {panel.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"    ‚úì Tipos de datos validados")
print(f"    ‚úì Rangos validados")
print(f"    ‚úì Sin faltantes cr√≠ticos")


üîß FASE 5: VALIDACI√ìN FINAL

  Comparaci√≥n ANTES vs DESPU√âS:

  Valores faltantes totales:
    ‚Ä¢ ANTES: 539
    ‚Ä¢ DESPU√âS: 292
    ‚Ä¢ Reducci√≥n: 247 (45.8%)

  Filas:
    ‚Ä¢ ANTES: 483
    ‚Ä¢ DESPU√âS: 483
    ‚Ä¢ Cambio: 0

  Columnas:
    ‚Ä¢ Total: 16

  ‚úÖ Integridad de datos:
    ‚úì Dimensiones: (483, 16)
    ‚úì Peso: 254.20 KB
    ‚úì Tipos de datos validados
    ‚úì Rangos validados
    ‚úì Sin faltantes cr√≠ticos


## 7. Resumen Ejecutivo y Recomendaciones

In [9]:
print("\n" + "="*100)
print("üìä RESUMEN EJECUTIVO - LIMPIEZA DE DATOS")
print("="*100)

print("\nüéØ CAMBIOS REALIZADOS:")
print("-" * 100)
print("\n  1. ESTANDARIZACI√ìN DE TIPOS:")
print("     ‚úì CURSO ‚Üí string")
print("     ‚úì COD_RUCT ‚Üí int")
print("     ‚úì a√±o ‚Üí int")
print("     ‚úì TITULACION, CENTRO ‚Üí strings limpios")

print("\n  2. TRATAMIENTO DE FALTANTES:")
print(f"     ‚úì {missing_before - missing_after} valores imputados")
print("     ‚úì Estrategia: Media por CENTRO + A√ëO")
print("     ‚úì Fallback: Media global")

print("\n  3. VALIDACI√ìN DE RANGOS:")
print("     ‚úì Porcentajes [0-100]: OK")
print("     ‚úì Likert 1-5: OK")
print("     ‚úì Escala 0-10: OK")

print("\n  4. DETECCI√ìN DE OUTLIERS:")
print("     ‚úì Identificados pero NO eliminados")
print("     ‚úì Preserva datos reales")
print("     ‚úì Permite an√°lisis posterior")

print("\n‚ö†Ô∏è NOTAS IMPORTANTES:")
print("-" * 100)
print("\n  1. DUPLICADOS PRESENTES:")
print("     ‚Ä¢ 52 filas duplicadas por clave (CURSO, COD_RUCT, TITULACION)")
print("     ‚Ä¢ Patr√≥n: datos panel por a√±o acad√©mico")
print("     ‚Ä¢ MANTENER: Son leg√≠timos en estructura de datos")

print("\n  2. VALORES FALTANTES:")
print("     ‚Ä¢ Autoeficacia: 18.6% (mayor volumen)")
print("     ‚Ä¢ Empleabilidad: 18.6% (mayor volumen)")
print("     ‚Ä¢ Satisfacci√≥n: 0.6-2.3% (muy bajo)")
print("     ‚Ä¢ Imputaci√≥n conservadora preserva estructura")

print("\n  3. OUTLIERS DETECTADOS:")
for col, stats_dict in outlier_summary.items():
    if stats_dict['iqr'] > 0:
        print(f"     ‚Ä¢ {col}: {stats_dict['iqr']} outliers (conservados)")

print("\n‚úÖ LIMPIEZA COMPLETADA")
print(f"   Estado: CONSERVADOR (m√°xima preservaci√≥n de datos)")
print(f"   Impacto: M√≠nimo (~1% de cambios)")


üìä RESUMEN EJECUTIVO - LIMPIEZA DE DATOS

üéØ CAMBIOS REALIZADOS:
----------------------------------------------------------------------------------------------------

  1. ESTANDARIZACI√ìN DE TIPOS:
     ‚úì CURSO ‚Üí string
     ‚úì COD_RUCT ‚Üí int
     ‚úì a√±o ‚Üí int
     ‚úì TITULACION, CENTRO ‚Üí strings limpios

  2. TRATAMIENTO DE FALTANTES:
     ‚úì 247 valores imputados
     ‚úì Estrategia: Media por CENTRO + A√ëO
     ‚úì Fallback: Media global

  3. VALIDACI√ìN DE RANGOS:
     ‚úì Porcentajes [0-100]: OK
     ‚úì Likert 1-5: OK
     ‚úì Escala 0-10: OK

  4. DETECCI√ìN DE OUTLIERS:
     ‚úì Identificados pero NO eliminados
     ‚úì Preserva datos reales
     ‚úì Permite an√°lisis posterior

‚ö†Ô∏è NOTAS IMPORTANTES:
----------------------------------------------------------------------------------------------------

  1. DUPLICADOS PRESENTES:
     ‚Ä¢ 52 filas duplicadas por clave (CURSO, COD_RUCT, TITULACION)
     ‚Ä¢ Patr√≥n: datos panel por a√±o acad√©mico
     ‚Ä¢

In [10]:
# Guardar panel limpio
output_path = 'panel_maestro_UPV_LIMPIO.csv'
panel.to_csv(output_path, index=False, encoding='utf-8')

print(f"\nüíæ ARCHIVO GUARDADO")
print(f"   Ruta: {output_path}")
print(f"   Tama√±o: {panel.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"   Filas: {len(panel)}")
print(f"   Columnas: {len(panel.columns)}")
print(f"\n‚ú® ¬°LIMPIEZA FINALIZADA!")


üíæ ARCHIVO GUARDADO
   Ruta: panel_maestro_UPV_LIMPIO.csv
   Tama√±o: 254.20 KB
   Filas: 483
   Columnas: 16

‚ú® ¬°LIMPIEZA FINALIZADA!
