# Unificación de Datos de Porcentaje No Desempleados UPV

En este notebook vamos a unificar todos los datos de porcentaje de egresados no desempleados de los años 2018-2023, creando un panel de datos con una sola estructura final.

Este indicador mide la proporción de egresados que no están desempleados (empleados o inactivos) en el mercado laboral.

## 1. Cargar y Explorar Datos de No Desempleados

In [1]:
import pandas as pd

# Cargar todos los archivos de no desempleados
no_desempleados_2018 = pd.read_csv('no_desempleados_2018.csv', sep=';', encoding='latin-1')
no_desempleados_2019 = pd.read_csv('no_desempleados_2019.csv', sep=';', encoding='latin-1')
no_desempleados_2020 = pd.read_csv('no_desempleados_2020.csv', sep=';', encoding='latin-1')
no_desempleados_2021 = pd.read_csv('no_desempleados_2021.csv', sep=';', encoding='latin-1')
no_desempleados_2022 = pd.read_csv('no_desempleados_2022.csv', sep=';', encoding='latin-1')
no_desempleados_2023 = pd.read_csv('no_desempleados_2023.csv', sep=';', encoding='latin-1')

print("✅ Datos de no desempleados cargados correctamente")
print(f"\n2018: {no_desempleados_2018.shape}")
print(f"2019: {no_desempleados_2019.shape}")
print(f"2020: {no_desempleados_2020.shape}")
print(f"2021: {no_desempleados_2021.shape}")
print(f"2022: {no_desempleados_2022.shape}")
print(f"2023: {no_desempleados_2023.shape}")

✅ Datos de no desempleados cargados correctamente

2018: (88, 5)
2019: (102, 5)
2020: (97, 5)
2021: (98, 5)
2022: (100, 5)
2023: (98, 5)


In [3]:
# Explorar la estructura de todos los datasets
print("=== ESTRUCTURA DE DATOS DE NO DESEMPLEADOS ===")
datasets_no_desempleados = [
    ("2018", no_desempleados_2018),
    ("2019", no_desempleados_2019), 
    ("2020", no_desempleados_2020),
    ("2021", no_desempleados_2021),
    ("2022", no_desempleados_2022),
    ("2023", no_desempleados_2023)
]

for year, df in datasets_no_desempleados:
    print(f"\n--- No desempleados {year} ---")
    print(f"Shape: {df.shape}")
    print(f"Columnas: {list(df.columns)}")
    print(f"Tipos de datos: {dict(df.dtypes)}")
    print(f"Sample:")
    print(df.head(3))

=== ESTRUCTURA DE DATOS DE NO DESEMPLEADOS ===

--- No desempleados 2018 ---
Shape: (88, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'P_NO_DESEMPLEADOS']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT': dtype('int64'), 'TITULACION': dtype('O'), 'CENTRO': dtype('O'), 'P_NO_DESEMPLEADOS': dtype('O')}
Sample:
     CURSO  COD_RUCT                         TITULACION  \
0  2018-19   2500739      GRADO EN ARQUITECTURA TÉCNICA   
1  2018-19   2500801      GRADO EN CIENCIAS AMBIENTALES   
2  2018-19   2501354  GRADO EN COMUNICACIÓN AUDIOVISUAL   

                                   CENTRO P_NO_DESEMPLEADOS  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN         91,580000  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA         62,500000  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA         88,000000  

--- No desempleados 2019 ---
Shape: (102, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'P_NO_DESEMPLEADOS']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT': dtype('int64'), 'T

## 2. Analizar Estructura y Columnas

In [4]:
# Análisis específico de columnas
print("=== ANÁLISIS DE COLUMNAS ===")

# Verificar si todas las tablas tienen las mismas columnas
no_desempleados_columns = [set(df.columns) for _, df in datasets_no_desempleados]
all_same = len(set(frozenset(s) for s in no_desempleados_columns)) == 1
print(f"¿Todas las tablas de no desempleados tienen las mismas columnas? {all_same}")

if all_same:
    print(f"\nColumnas comunes: {list(no_desempleados_2018.columns)}")
else:
    print("\nColumnas por año:")
    for year, cols in zip(["2018", "2019", "2020", "2021", "2022", "2023"], no_desempleados_columns):
        print(f"  {year}: {list(cols)}")

# Verificar valores faltantes
print("\n=== VALORES FALTANTES ===")
for year, df in datasets_no_desempleados:
    missing = df.isnull().sum().sum()
    print(f"No desempleados {year}: {missing} valores faltantes")

=== ANÁLISIS DE COLUMNAS ===
¿Todas las tablas de no desempleados tienen las mismas columnas? True

Columnas comunes: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'P_NO_DESEMPLEADOS']

=== VALORES FALTANTES ===
No desempleados 2018: 0 valores faltantes
No desempleados 2019: 0 valores faltantes
No desempleados 2020: 0 valores faltantes
No desempleados 2021: 0 valores faltantes
No desempleados 2022: 0 valores faltantes
No desempleados 2023: 0 valores faltantes


## 3. Concatenar Datasets Anuales

In [5]:
# Concatenar todos los datos de no desempleados
no_desempleados_all = pd.concat([
    no_desempleados_2018, no_desempleados_2019, no_desempleados_2020,
    no_desempleados_2021, no_desempleados_2022, no_desempleados_2023
], ignore_index=True)

print("Dataset de no desempleados unificado:")
print(f"Shape: {no_desempleados_all.shape}")
print(f"Años únicos: {sorted(no_desempleados_all['CURSO'].unique())}")
print(f"\nPrimeras filas:")
print(no_desempleados_all.head())

Dataset de no desempleados unificado:
Shape: (583, 5)
Años únicos: ['2018-19', '2019-20', '2020-21', '2021-22', '2022-23', '2023-24']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2018-19   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2018-19   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2018-19   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2018-19   2501355                                   GRADO EN TURISMO   
4  2018-19   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO P_NO_DESEMPLEADOS  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN         91,580000  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA         62,500000  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA         88,000000  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA         78,570000  
4        E. POLITÉCNICA SUPERIOR DE ALCOY         94,120000  


## 4. Fusionar y Unificar Datos Panel

In [6]:
# Copiar y renombrar columnas para mayor claridad
panel_no_desempleados = no_desempleados_all.copy()

# Renombrar columna de no desempleados para mayor claridad
panel_no_desempleados = panel_no_desempleados.rename(columns={
    'P_NO_DESEMPLEADOS': 'porcentaje_no_desempleados'
})

print("Panel de datos de no desempleados:")
print(f"Shape: {panel_no_desempleados.shape}")
print(f"Columnas: {list(panel_no_desempleados.columns)}")
print(f"\nPrimeras filas:")
print(panel_no_desempleados.head())

Panel de datos de no desempleados:
Shape: (583, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'porcentaje_no_desempleados']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2018-19   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2018-19   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2018-19   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2018-19   2501355                                   GRADO EN TURISMO   
4  2018-19   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO porcentaje_no_desempleados  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN                  91,580000  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  62,500000  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  88,000000  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  78,570000  
4        E. POLITÉCNICA SUPERIOR DE ALCO

## 5. Corrección de Tipos de Datos y Limpieza

In [7]:
# Investigar los tipos de datos
print("Tipos de datos actuales:")
print(panel_no_desempleados.dtypes)

print("\nPrimeros valores de porcentaje_no_desempleados:")
print(panel_no_desempleados['porcentaje_no_desempleados'].head(10))

print("\nValores únicos (primeros 20):")
print(panel_no_desempleados['porcentaje_no_desempleados'].value_counts().head(20))

Tipos de datos actuales:
CURSO                         object
COD_RUCT                       int64
TITULACION                    object
CENTRO                        object
porcentaje_no_desempleados    object
dtype: object

Primeros valores de porcentaje_no_desempleados:
0     91,580000
1     62,500000
2     88,000000
3     78,570000
4     94,120000
5     91,670000
6     72,040000
7     73,080000
8     97,060000
9    100,000000
Name: porcentaje_no_desempleados, dtype: object

Valores únicos (primeros 20):
porcentaje_no_desempleados
100,000000    280
75,000000      19
80,000000      14
88,890000      13
50,000000      13
87,500000      13
92,310000      10
85,710000      10
66,670000      10
83,330000       9
90,910000       6
90,000000       6
91,670000       6
71,430000       5
94,440000       5
94,120000       4
77,780000       4
96,430000       4
86,670000       3
93,750000       3
Name: count, dtype: int64


In [8]:
# Función para corregir formato de números (coma -> punto)
def fix_decimal_format(column):
    """Convierte columnas con comas decimales a float"""
    return pd.to_numeric(
        column.astype(str).str.replace(',', '.').replace('nan', None), 
        errors='coerce'
    )

# Aplicar la corrección a la columna de porcentaje
panel_no_desempleados['porcentaje_no_desempleados'] = fix_decimal_format(panel_no_desempleados['porcentaje_no_desempleados'])

print("Después de la corrección:")
print(panel_no_desempleados.dtypes)

print(f"\nPrimeras filas de no desempleados:")
print(panel_no_desempleados[['TITULACION', 'porcentaje_no_desempleados']].head())

print(f"\nEstadísticas de porcentaje_no_desempleados:")
print(panel_no_desempleados['porcentaje_no_desempleados'].describe())

print(f"\nValores faltantes:")
print(panel_no_desempleados.isnull().sum())

Después de la corrección:
CURSO                          object
COD_RUCT                        int64
TITULACION                     object
CENTRO                         object
porcentaje_no_desempleados    float64
dtype: object

Primeras filas de no desempleados:
                                          TITULACION  \
0                      GRADO EN ARQUITECTURA TÉCNICA   
1                      GRADO EN CIENCIAS AMBIENTALES   
2                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3                                   GRADO EN TURISMO   
4  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

   porcentaje_no_desempleados  
0                       91.58  
1                       62.50  
2                       88.00  
3                       78.57  
4                       94.12  

Estadísticas de porcentaje_no_desempleados:
count    583.000000
mean      91.382144
std       13.712035
min        0.000000
25%       87.500000
50%       97.830000
75%      100.000000
max      100.000000


## 6. Crear Columnas Calculadas

In [9]:
# Agregar año numérico para facilitar análisis
panel_no_desempleados['año'] = panel_no_desempleados['CURSO'].str[:4].astype(int)

# Calcular porcentaje de desempleados (complementario)
panel_no_desempleados['porcentaje_desempleados'] = 100 - panel_no_desempleados['porcentaje_no_desempleados']

# Categorizar nivel de empleabilidad
def categorizar_empleabilidad(valor):
    """Categoriza el nivel de empleabilidad"""
    if pd.isna(valor):
        return 'No especificado'
    elif valor >= 90:
        return 'Excelente'
    elif valor >= 80:
        return 'Muy buena'
    elif valor >= 70:
        return 'Buena'
    elif valor >= 60:
        return 'Media'
    else:
        return 'Baja'

panel_no_desempleados['nivel_empleabilidad'] = panel_no_desempleados['porcentaje_no_desempleados'].apply(categorizar_empleabilidad)

print("Dataset con columnas calculadas:")
print(f"Shape: {panel_no_desempleados.shape}")
print(f"Columnas: {list(panel_no_desempleados.columns)}")

print(f"\nPrimeras filas del panel final:")
print(panel_no_desempleados[['CURSO', 'TITULACION', 'porcentaje_no_desempleados', 'nivel_empleabilidad', 'año']].head(10))

print(f"\nDistribución de niveles:")
print(panel_no_desempleados['nivel_empleabilidad'].value_counts())

Dataset con columnas calculadas:
Shape: (583, 8)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'porcentaje_no_desempleados', 'año', 'porcentaje_desempleados', 'nivel_empleabilidad']

Primeras filas del panel final:
     CURSO                                         TITULACION  \
0  2018-19                      GRADO EN ARQUITECTURA TÉCNICA   
1  2018-19                      GRADO EN CIENCIAS AMBIENTALES   
2  2018-19                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2018-19                                   GRADO EN TURISMO   
4  2018-19  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   
5  2018-19  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   
6  2018-19                              GRADO EN BELLAS ARTES   
7  2018-19  GRADO EN CONSERVACIÓN Y RESTAURACIÓN DE BIENES...   
8  2018-19          GRADO EN GESTIÓN Y ADMINISTRACIÓN PÚBLICA   
9  2018-19                             GRADO EN BIOTECNOLOGÍA   

   porcentaje_no_desempleados nivel_empleabilidad   año  
0

## 7. Resumen Final y Exportación

In [10]:
# Análisis final del panel de datos
print("=== RESUMEN DEL PANEL DE DATOS ===")
print(f"Total de observaciones: {len(panel_no_desempleados)}")
print(f"Total de titulaciones únicas: {panel_no_desempleados['TITULACION'].nunique()}")
print(f"Total de centros únicos: {panel_no_desempleados['CENTRO'].nunique()}")
print(f"Años cubiertos: {sorted(panel_no_desempleados['año'].unique())}")

print(f"\n=== ESTADÍSTICAS DE EMPLEABILIDAD ===")
print(f"Porcentaje promedio no desempleados: {panel_no_desempleados['porcentaje_no_desempleados'].mean():.2f}%")
print(f"Mediana: {panel_no_desempleados['porcentaje_no_desempleados'].median():.2f}%")
print(f"Mínima: {panel_no_desempleados['porcentaje_no_desempleados'].min():.2f}%")
print(f"Máxima: {panel_no_desempleados['porcentaje_no_desempleados'].max():.2f}%")
print(f"Desviación estándar: {panel_no_desempleados['porcentaje_no_desempleados'].std():.2f}%")

print(f"\n=== COBERTURA DE DATOS ===")
coverage = panel_no_desempleados.groupby('año').agg({
    'porcentaje_no_desempleados': ['count', 'mean', 'min', 'max']
}).round(2)
print(coverage)

print(f"\n=== DISTRIBUCIÓN POR CENTRO ===")
center_stats = panel_no_desempleados.groupby('CENTRO')['porcentaje_no_desempleados'].agg(['count', 'mean']).round(2).sort_values('mean', ascending=False)
print(center_stats)

=== RESUMEN DEL PANEL DE DATOS ===
Total de observaciones: 583
Total de titulaciones únicas: 103
Total de centros únicos: 15
Años cubiertos: [np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)]

=== ESTADÍSTICAS DE EMPLEABILIDAD ===
Porcentaje promedio no desempleados: 91.38%
Mediana: 97.83%
Mínima: 0.00%
Máxima: 100.00%
Desviación estándar: 13.71%

=== COBERTURA DE DATOS ===
     porcentaje_no_desempleados                    
                          count   mean   min    max
año                                                
2018                         88  91.29  50.0  100.0
2019                        102  88.35   0.0  100.0
2020                         97  89.58   0.0  100.0
2021                         98  94.45  50.0  100.0
2022                        100  92.60  50.0  100.0
2023                         98  92.10  50.0  100.0

=== DISTRIBUCIÓN POR CENTRO ===
                                                    count   mean
CENTRO     

In [11]:
# Guardar el dataset final
panel_no_desempleados.to_csv('../panel_no_desempleados_UPV.csv', index=False, encoding='utf-8')
print(f"✅ Dataset guardado como 'panel_no_desempleados_UPV.csv'")
print(f"Ubicación: ../panel_no_desempleados_UPV.csv")
print(f"\nDimensiones: {panel_no_desempleados.shape}")
print(f"Columnas: {list(panel_no_desempleados.columns)}")

✅ Dataset guardado como 'panel_no_desempleados_UPV.csv'
Ubicación: ../panel_no_desempleados_UPV.csv

Dimensiones: (583, 8)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'porcentaje_no_desempleados', 'año', 'porcentaje_desempleados', 'nivel_empleabilidad']


## ✅ Conclusiones del Merge

### Dataset Final Creado
- **Panel unificado de empleabilidad** de todas las titulaciones de la UPV (2018-2023)
- **Indicador de calidad laboral** que mide el porcentaje de egresados no desempleados
- **Múltiples observaciones** con información sobre:
  - Código RUCT y nombre de titulación
  - Centro donde se imparte
  - Porcentaje de no desempleados (0-100)
  - Porcentaje complementario de desempleados
  - Categorización del nivel de empleabilidad

### Estructura del Dataset Final
El archivo `panel_no_desempleados_UPV.csv` contiene:
- **CURSO**: Curso académico (2018-19, 2019-20, etc.)
- **COD_RUCT**: Código RUCT de la titulación
- **TITULACION**: Nombre de la titulación
- **CENTRO**: Centro donde se imparte
- **porcentaje_no_desempleados**: Porcentaje de egresados no desempleados (0-100)
- **año**: Año numérico para análisis
- **porcentaje_desempleados**: Complementario (100 - no desempleados)
- **nivel_empleabilidad**: Categorización (Baja, Media, Buena, Muy buena, Excelente)

### Hallazgos Principales
- **Empleabilidad promedio**: Alrededor de X% de egresados no desempleados
- **Variabilidad por centro**: Diferentes centros tienen diferentes tasas de empleabilidad
- **Tendencias temporales**: Análisis año a año de la empleabilidad
- **Indicador estratégico**: Importante para evaluar la calidad y pertinencia de las titulaciones

### Posibles Análisis Futuros
- Evolución temporal de la empleabilidad
- Comparación entre centros y titulaciones
- Relación entre empleabilidad y autoeficacia
- Relación entre empleabilidad y tasa de abandono
- Identificación de titulaciones con mejor/peor empleabilidad
- Análisis de factores que influyen en la empleabilidad