# Exploración del Dataset: POSTULANTE

Importación de Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

# Configuración
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

print("✅ Librerías importadas correctamente")

Carga del Dataset

In [None]:
# Definir rutas de forma robusta
import os
from pathlib import Path

# Obtener la ubicación del notebook
notebook_dir = Path.cwd()
print(f"Directorio actual: {notebook_dir}")

# Construir ruta al directorio data/raw
# Si estamos en notebooks, subimos 2 niveles y entramos a data/raw
if 'notebooks' in str(notebook_dir):
    DATA_RAW_PATH = Path('../../data/raw')
    DICT_PATH = Path('../../data/diccionarios')
else:
    # Si estamos en otro directorio, usar ruta absoluta
    DATA_RAW_PATH = Path(r'E:\MTPE\data\raw')
    DICT_PATH = Path(r'E:\MTPE\data\diccionarios')

print(f"Ruta DATA_RAW_PATH: {DATA_RAW_PATH.resolve()}")
print(f"Directorio existe: {DATA_RAW_PATH.exists()}")

# Cargar dataset
archivo_csv = DATA_RAW_PATH / 'Dataset_POSTULANTE.csv'
print(f"Archivo CSV: {archivo_csv.name}")
print(f"Archivo existe: {archivo_csv.exists()}")

if archivo_csv.exists():
    df_postulante = pd.read_csv(archivo_csv, encoding='utf-8-sig')
    print(f"\nDataset cargado exitosamente")
    print(f"Dimensiones: {df_postulante.shape[0]:,} filas x {df_postulante.shape[1]} columnas")
else:
    print(f"\n ERROR: No se encuentra el archivo en: {archivo_csv.resolve()}")
    print(f"   Por favor, verifica la ruta del archivo.")

Vista Previa - Primeras Filas

In [None]:
print("Primeras 10 filas del dataset:")
display(df_postulante.head(10))

Vista Previa - Últimas Filas

In [None]:
print(" Últimas 5 filas del dataset:")
display(df_postulante.tail())

Vista Previa - Muestra Aleatoria

In [None]:
print("Muestra aleatoria de 10 registros:")
display(df_postulante.sample(10, random_state=42))

Información General del Dataset

In [None]:
print("Información del Dataset:")
print("=" * 80)
df_postulante.info()

print("\n Columnas del Dataset:")
print("=" * 80)
for idx, col in enumerate(df_postulante.columns, 1):
    print(f"{idx:2d}. {col} ({df_postulante[col].dtype})")

Análisis de Valores Nulos

In [None]:
print("Análisis de Valores Nulos:")
print("=" * 80)

null_data = pd.DataFrame({
    'Columna': df_postulante.columns,
    'Nulos': df_postulante.isnull().sum(),
    '% Nulos': (df_postulante.isnull().sum() / len(df_postulante) * 100).round(2)
}).sort_values(by='Nulos', ascending=False)

display(null_data)

if null_data['Nulos'].sum() > 0:
    plt.figure(figsize=(12, 6))
    null_cols = null_data[null_data['Nulos'] > 0]
    plt.barh(null_cols['Columna'], null_cols['% Nulos'])
    plt.xlabel('Porcentaje de Valores Nulos (%)')
    plt.title('Valores Nulos por Columna')
    plt.tight_layout()
    plt.show()
else:
    print("No hay valores nulos en el dataset")

Análisis de Duplicados

In [None]:
print(" Análisis de Duplicados:")
print("=" * 80)

duplicados_totales = df_postulante.duplicated().sum()
print(f"Registros duplicados (completos): {duplicados_totales:,} ({duplicados_totales/len(df_postulante)*100:.2f}%)")

if 'ID_POSTULANTE' in df_postulante.columns:
    duplicados_id = df_postulante['ID_POSTULANTE'].duplicated().sum()
    print(f"Duplicados en ID_POSTULANTE: {duplicados_id:,} ({duplicados_id/len(df_postulante)*100:.2f}%)")
    
    if duplicados_id > 0:
        print("\nEjemplos de IDs duplicados:")
        ids_duplicados = df_postulante[df_postulante['ID_POSTULANTE'].duplicated(keep=False)]['ID_POSTULANTE'].value_counts().head()
        display(ids_duplicados)

Estadísticas Descriptivas - Variables Numéricas

In [None]:
print("Estadísticas Descriptivas - Variables Numéricas:")
print("=" * 80)
display(df_postulante.describe())

Estadísticas Descriptivas - Variables Categóricas

In [None]:
print(" Estadísticas Descriptivas - Variables Categóricas:")
print("=" * 80)
display(df_postulante.describe(include=['object']))

Análisis de Cardinalidad

In [None]:
print("Análisis de Cardinalidad:")
print("=" * 80)

# Calcular valores únicos para cada columna
valores_unicos = [df_postulante[col].nunique() for col in df_postulante.columns]
tipos_dato = [str(df_postulante[col].dtype) for col in df_postulante.columns]
porcentaje_cardinalidad = [(df_postulante[col].nunique() / len(df_postulante) * 100) for col in df_postulante.columns]

cardinalidad = pd.DataFrame({
    'Columna': df_postulante.columns,
    'Valores_Únicos': valores_unicos,
    'Tipo_Dato': tipos_dato,
    '% Cardinalidad': [round(p, 2) for p in porcentaje_cardinalidad]
}).sort_values(by='Valores_Únicos', ascending=False)

display(cardinalidad)

Distribución de Variables Categóricas

In [None]:
print("Distribución de Variables Categóricas:")
print("=" * 80)

categorical_cols = df_postulante.select_dtypes(include=['object']).columns

for col in categorical_cols:
    print(f"\n{'='*80}")
    print(f"Columna: {col}")
    print(f"{'='*80}")
    value_counts = df_postulante[col].value_counts()
    print(f"Valores únicos: {df_postulante[col].nunique()}")
    print(f"\nTop 10 valores más frecuentes:")
    display(pd.DataFrame({
        'Valor': value_counts.head(10).index,
        'Frecuencia': value_counts.head(10).values,
        'Porcentaje': (value_counts.head(10).values / len(df_postulante) * 100).round(2)
    }))

Análisis de EDAD

In [None]:
if 'EDAD' in df_postulante.columns:
    print(" Análisis de la variable EDAD:")
    print("=" * 80)
    print(f"Edad mínima: {df_postulante['EDAD'].min()}")
    print(f"Edad máxima: {df_postulante['EDAD'].max()}")
    print(f"Edad promedio: {df_postulante['EDAD'].mean():.2f}")
    print(f"Edad mediana: {df_postulante['EDAD'].median()}")
    print(f"Desviación estándar: {df_postulante['EDAD'].std():.2f}")
    
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    axes[0].hist(df_postulante['EDAD'].dropna(), bins=50, edgecolor='black')
    axes[0].set_xlabel('Edad')
    axes[0].set_ylabel('Frecuencia')
    axes[0].set_title('Distribución de Edad')
    axes[0].axvline(df_postulante['EDAD'].mean(), color='red', linestyle='--', label=f'Media: {df_postulante["EDAD"].mean():.1f}')
    axes[0].legend()
    
    axes[1].boxplot(df_postulante['EDAD'].dropna())
    axes[1].set_ylabel('Edad')
    axes[1].set_title('Boxplot de Edad')
    
    plt.tight_layout()
    plt.show()

Análisis de SEXO

In [None]:
if 'SEXO' in df_postulante.columns:
    print("Análisis de la variable SEXO:")
    print("=" * 80)
    sexo_counts = df_postulante['SEXO'].value_counts()
    display(pd.DataFrame({
        'Sexo': sexo_counts.index,
        'Cantidad': sexo_counts.values,
        'Porcentaje': (sexo_counts.values / len(df_postulante) * 100).round(2)
    }))
    
    plt.figure(figsize=(8, 6))
    plt.pie(sexo_counts.values, labels=sexo_counts.index, autopct='%1.1f%%', startangle=90)
    plt.title('Distribución por Sexo')
    plt.axis('equal')
    plt.show()

Análisis Geográfico

In [None]:
if all(col in df_postulante.columns for col in ['DEPARTAMENTO', 'PROVINCIA', 'DISTRITO']):
    print("Análisis Geográfico:")
    print("=" * 80)
    
    print(f"\nDepartamentos únicos: {df_postulante['DEPARTAMENTO'].nunique()}")
    print(f"Provincias únicas: {df_postulante['PROVINCIA'].nunique()}")
    print(f"Distritos únicos: {df_postulante['DISTRITO'].nunique()}")
    
    print("\nTop 10 Departamentos:")
    dept_counts = df_postulante['DEPARTAMENTO'].value_counts().head(10)
    display(pd.DataFrame({
        'Departamento': dept_counts.index,
        'Cantidad': dept_counts.values,
        'Porcentaje': (dept_counts.values / len(df_postulante) * 100).round(2)
    }))
    
    plt.figure(figsize=(12, 6))
    plt.barh(range(len(dept_counts)), dept_counts.values)
    plt.yticks(range(len(dept_counts)), dept_counts.index)
    plt.xlabel('Cantidad de Postulantes')
    plt.title('Top 10 Departamentos con más Postulantes')
    plt.tight_layout()
    plt.show()

Análisis de ESTADO_CONADIS

In [None]:
if 'ESTADO_CONADIS' in df_postulante.columns:
    print("Análisis de ESTADO_CONADIS:")
    print("=" * 80)
    conadis_counts = df_postulante['ESTADO_CONADIS'].value_counts()
    display(pd.DataFrame({
        'Estado': conadis_counts.index,
        'Cantidad': conadis_counts.values,
        'Porcentaje': (conadis_counts.values / len(df_postulante) * 100).round(2)
    }))
    
    plt.figure(figsize=(8, 6))
    plt.bar(conadis_counts.index.astype(str), conadis_counts.values)
    plt.xlabel('Estado CONADIS')
    plt.ylabel('Cantidad')
    plt.title('Distribución de Estado CONADIS')
    plt.tight_layout()
    plt.show()