# ÔøΩÔøΩ An√°lisis de Calidad de Datos (DQA)

## Justificaci√≥n Acad√©mica

> **Justificaci√≥n:** Seg√∫n Garc√≠a et al. (2016) en *"Big Data Preprocessing"*, la auditor√≠a de valores at√≠picos y nulos es cr√≠tica antes de cualquier modelado. En Tracer Studies, validar la consistencia l√≥gica (Edad vs A√±o Graduaci√≥n) es vital para evitar sesgos (Lawless, 2003).

**Objetivo**: Realizar un an√°lisis exploratorio de calidad de datos (EDA/DQA) para identificar:
1. Valores nulos cr√≠ticos
2. Edades imposibles
3. Inconsistencias l√≥gicas
4. Registros a eliminar

**Datos de Entrada**: `../Encuesta recien graduados - pregrado(1).xlsx`  
**Salida**: `./data/processed/clean_survey_data.csv`

---

In [1]:
# ==============================================================================
# CONFIGURACI√ìN
# ==============================================================================
import pandas as pd
import numpy as np
import warnings
from pathlib import Path

warnings.filterwarnings('ignore')

# Paths (datos crudos en ra√≠z, procesados en v2)
DATA_RAW = Path("../Encuesta recien graduados - pregrado(1).xlsx")
DATA_OUTPUT = Path("data/processed/clean_survey_data.csv")

# Crear directorio si no existe
DATA_OUTPUT.parent.mkdir(parents=True, exist_ok=True)

print("‚úÖ Configuraci√≥n cargada")
print(f"   Archivo entrada: {DATA_RAW}")
print(f"   Archivo salida: {DATA_OUTPUT}")

‚úÖ Configuraci√≥n cargada
   Archivo entrada: ../Encuesta recien graduados - pregrado(1).xlsx
   Archivo salida: data/processed/clean_survey_data.csv


---
## 1. Carga de Datos Crudos

In [2]:
# Cargar Excel
df = pd.read_excel(DATA_RAW)

print(f"üìä DATOS CARGADOS")
print(f"   Registros: {len(df)}")
print(f"   Columnas: {len(df.columns)}")
print(f"\nüîç Vista previa de columnas:")
for i, col in enumerate(df.columns[:15]):
    print(f"   [{i}] {col[:60]}...")

üìä DATOS CARGADOS
   Registros: 380
   Columnas: 42

üîç Vista previa de columnas:
   [0] 1.1 Edad:...
   [1] 1.2 G√©nero:...
   [2] 3. Evaluaci√≥n de Habilidades Blandas...
   [3] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [4] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [5] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [6] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [7] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [8] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [9] A continuaci√≥n, por favor eval√∫a qu√© tan bien consideras que...
   [10] 4. Inserci√≥n Laboral...
   [11] 4.1 ¬øActualmente est√°s trabajando?...
   [12] 4.1.2 Pa√≠s:...
   [13] 4.1.3 ¬øA qu√© tipo pertenece la instituci√≥n en la que laboras...
   [14] 4.1.4 Modalidad de trabajo:...


---
## 2. An√°lisis de Valores Nulos

In [3]:
# Columnas cr√≠ticas para el an√°lisis
CRITICAL_COLS = {
    11: "trabaja_actualmente",
    16: "correspondencia_formacion",
    35: "asignaturas_relevantes",  # VITAL para vectores t√©cnicos
    40: "carrera"
}

print("=" * 60)
print("üîç AN√ÅLISIS DE NULOS EN COLUMNAS CR√çTICAS")
print("=" * 60)

for idx, name in CRITICAL_COLS.items():
    col = df.iloc[:, idx]
    n_null = col.isna().sum()
    pct_null = 100 * n_null / len(df)
    status = "üî¥ CR√çTICO" if pct_null > 10 else "üü° MODERADO" if pct_null > 5 else "üü¢ OK"
    print(f"\n[{idx}] {name}:")
    print(f"    Nulos: {n_null} ({pct_null:.1f}%) {status}")

# An√°lisis especial de Asignaturas (columna 35)
print("\n" + "=" * 60)
print("üìù AN√ÅLISIS DETALLADO: Asignaturas Relevantes (col 35)")
print("=" * 60)
asig_col = df.iloc[:, 35]
print(f"Nulos: {asig_col.isna().sum()}")
print(f"Vac√≠os/Blancos: {(asig_col.astype(str).str.strip() == '').sum()}")
print(f"Registros v√°lidos: {(~asig_col.isna() & (asig_col.astype(str).str.strip() != '')).sum()}")

üîç AN√ÅLISIS DE NULOS EN COLUMNAS CR√çTICAS

[11] trabaja_actualmente:
    Nulos: 0 (0.0%) üü¢ OK

[16] correspondencia_formacion:
    Nulos: 171 (45.0%) üî¥ CR√çTICO

[35] asignaturas_relevantes:
    Nulos: 1 (0.3%) üü¢ OK

[40] carrera:
    Nulos: 0 (0.0%) üü¢ OK

üìù AN√ÅLISIS DETALLADO: Asignaturas Relevantes (col 35)
Nulos: 1
Vac√≠os/Blancos: 0
Registros v√°lidos: 379


---
## 3. Detecci√≥n de Edades Imposibles

In [4]:
# Columna de edad (√≠ndice 0)
edad_col = pd.to_numeric(df.iloc[:, 0], errors='coerce')

print("=" * 60)
print("üë§ AN√ÅLISIS DE EDADES")
print("=" * 60)

print(f"\nEstad√≠sticas b√°sicas:")
print(edad_col.describe().round(1))

# Detecci√≥n de anomal√≠as
edad_baja = edad_col < 20
edad_alta = edad_col > 60
edad_nula = edad_col.isna()

print(f"\nüö® ANOMAL√çAS DETECTADAS:")
print(f"   Edad < 20: {edad_baja.sum()} registros")
print(f"   Edad > 60: {edad_alta.sum()} registros")
print(f"   Edad nula: {edad_nula.sum()} registros")

# Marcar filas problem√°ticas
df['_flag_edad_invalida'] = edad_baja | edad_alta

if (edad_baja | edad_alta).sum() > 0:
    print(f"\nüìã Registros con edad problem√°tica:")
    problemas_edad = df[edad_baja | edad_alta].iloc[:, [0, 40]]
    print(problemas_edad.head(10))

üë§ AN√ÅLISIS DE EDADES

Estad√≠sticas b√°sicas:
count    380.0
mean      25.1
std        2.8
min       21.0
25%       23.0
50%       24.0
75%       26.0
max       40.0
Name: 1.1 Edad:, dtype: float64

üö® ANOMAL√çAS DETECTADAS:
   Edad < 20: 0 registros
   Edad > 60: 0 registros
   Edad nula: 0 registros


---
## 4. Validaci√≥n de Consistencia L√≥gica

In [5]:
# Verificar consistencia: trabaja + correspondencia
trabaja = df.iloc[:, 11] == 'Si'
correspondencia = pd.to_numeric(df.iloc[:, 16], errors='coerce')

# Inconsistencia: Dice que NO trabaja pero tiene correspondencia laboral
inconsistente = (~trabaja) & (correspondencia > 0)

print("=" * 60)
print("‚ö†Ô∏è AN√ÅLISIS DE CONSISTENCIA L√ìGICA")
print("=" * 60)

print(f"\n1. ¬øNo trabaja pero tiene correspondencia laboral?")
print(f"   Registros inconsistentes: {inconsistente.sum()}")

# Verificar a√±o de graduaci√≥n vs encuesta
anio_grad = pd.to_numeric(df.iloc[:, 41], errors='coerce')
print(f"\n2. A√±os de graduaci√≥n:")
print(anio_grad.value_counts().sort_index())

df['_flag_inconsistente'] = inconsistente

‚ö†Ô∏è AN√ÅLISIS DE CONSISTENCIA L√ìGICA

1. ¬øNo trabaja pero tiene correspondencia laboral?
   Registros inconsistentes: 0

2. A√±os de graduaci√≥n:
anioGraduacion
2024     11
2025    369
Name: count, dtype: int64


---
## 5. Reporte de Filas a Eliminar

In [6]:
# Consolidar flags
df['_eliminar'] = df['_flag_edad_invalida'] | df['_flag_inconsistente']

# Tambi√©n marcar si no tiene asignaturas (para vectorizaci√≥n)
asig_vacia = df.iloc[:, 35].isna() | (df.iloc[:, 35].astype(str).str.strip() == '')

print("=" * 60)
print("üìã REPORTE FINAL DE CALIDAD DE DATOS")
print("=" * 60)

print(f"\nTotal registros: {len(df)}")
print(f"\nüö® FILAS PROBLEM√ÅTICAS:")
print(f"   ‚Ä¢ Edad inv√°lida (<20 o >60): {df['_flag_edad_invalida'].sum()}")
print(f"   ‚Ä¢ Inconsistencia l√≥gica: {df['_flag_inconsistente'].sum()}")
print(f"   ‚Ä¢ Sin asignaturas (impacta vectores): {asig_vacia.sum()}")
print(f"\n   üìå TOTAL A REVISAR: {df['_eliminar'].sum()}")

# Tasa de calidad
calidad = 100 * (1 - df['_eliminar'].mean())
print(f"\n‚úÖ TASA DE CALIDAD: {calidad:.1f}%")

üìã REPORTE FINAL DE CALIDAD DE DATOS

Total registros: 380

üö® FILAS PROBLEM√ÅTICAS:
   ‚Ä¢ Edad inv√°lida (<20 o >60): 0
   ‚Ä¢ Inconsistencia l√≥gica: 0
   ‚Ä¢ Sin asignaturas (impacta vectores): 1

   üìå TOTAL A REVISAR: 0

‚úÖ TASA DE CALIDAD: 100.0%


---
## 6. Exportar Datos Limpios

In [7]:
# Eliminar filas problem√°ticas
df_clean = df[~df['_eliminar']].copy()

# Eliminar columnas auxiliares
cols_aux = [c for c in df_clean.columns if c.startswith('_')]
df_clean = df_clean.drop(columns=cols_aux)

# Guardar
df_clean.to_csv(DATA_OUTPUT, index=False)

print("=" * 60)
print("üöÄ EXPORTACI√ìN COMPLETADA")
print("=" * 60)
print(f"\nüìä Registros originales: {len(df)}")
print(f"üìä Registros limpios: {len(df_clean)}")
print(f"üìä Eliminados: {len(df) - len(df_clean)}")
print(f"\nüìÅ Archivo guardado: {DATA_OUTPUT}")
print(f"   Tama√±o: {DATA_OUTPUT.stat().st_size / 1024:.1f} KB")

üöÄ EXPORTACI√ìN COMPLETADA

üìä Registros originales: 380
üìä Registros limpios: 380
üìä Eliminados: 0

üìÅ Archivo guardado: data/processed/clean_survey_data.csv
   Tama√±o: 226.2 KB


In [8]:
# Resumen ejecutivo
print("\n" + "=" * 60)
print("üìã RESUMEN EJECUTIVO - DQA")
print("=" * 60)
print(f"""
Dataset: Encuesta Graduados EPN
Registros Analizados: {len(df)}
Tasa de Calidad: {calidad:.1f}%

Problemas Detectados:
‚Ä¢ Edades fuera de rango: {df['_flag_edad_invalida'].sum()}
‚Ä¢ Inconsistencias l√≥gicas: {df['_flag_inconsistente'].sum()}

Acci√≥n Tomada:
‚Ä¢ Registros eliminados: {len(df) - len(df_clean)}
‚Ä¢ Dataset limpio exportado a: {DATA_OUTPUT}

Pr√≥ximo paso: 02_Preprocessing_Master.ipynb
""")


üìã RESUMEN EJECUTIVO - DQA

Dataset: Encuesta Graduados EPN
Registros Analizados: 380
Tasa de Calidad: 100.0%

Problemas Detectados:
‚Ä¢ Edades fuera de rango: 0
‚Ä¢ Inconsistencias l√≥gicas: 0

Acci√≥n Tomada:
‚Ä¢ Registros eliminados: 0
‚Ä¢ Dataset limpio exportado a: data/processed/clean_survey_data.csv

Pr√≥ximo paso: 02_Preprocessing_Master.ipynb

