# Unificación de Datos de Tasa de Abandono UPV

En este notebook vamos a unificar todos los datos de tasa de abandono de los años 2021-2024, creando un panel de datos con una sola estructura final.

## 1. Cargar y Explorar Datos de Abandono

In [11]:
import pandas as pd

# Cargar todos los archivos de abandono
abandono21 = pd.read_csv('2021-abandono.csv', sep=';', encoding='latin-1')
abandono22 = pd.read_csv('2022-abandono.csv', sep=';', encoding='latin-1')
abandono23 = pd.read_csv('2023-abandono.csv', sep=';', encoding='latin-1')
abandono24 = pd.read_csv('2024-abandono.csv', sep=';', encoding='latin-1')

print("✅ Datos de abandono cargados correctamente")
print(f"\n2021: {abandono21.shape}")
print(f"2022: {abandono22.shape}")
print(f"2023: {abandono23.shape}")
print(f"2024: {abandono24.shape}")

✅ Datos de abandono cargados correctamente

2021: (105, 5)
2022: (113, 5)
2023: (116, 5)
2024: (121, 5)


In [12]:
# Explorar la estructura de todos los datasets
print("=== ESTRUCTURA DE DATOS DE ABANDONO ===")
datasets_abandono = [
    ("2021", abandono21),
    ("2022", abandono22), 
    ("2023", abandono23),
    ("2024", abandono24)
]

for year, df in datasets_abandono:
    print(f"\n--- Abandono {year} ---")
    print(f"Shape: {df.shape}")
    print(f"Columnas: {list(df.columns)}")
    print(f"Tipos de datos: {dict(df.dtypes)}")
    print(f"Sample:")
    print(df.head(3))

=== ESTRUCTURA DE DATOS DE ABANDONO ===

--- Abandono 2021 ---
Shape: (105, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'TASA_ABANDONO']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT': dtype('int64'), 'TITULACION': dtype('O'), 'CENTRO': dtype('O'), 'TASA_ABANDONO': dtype('float64')}
Sample:
     CURSO  COD_RUCT                         TITULACION  \
0  2020-21   2500739      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354  GRADO EN COMUNICACIÓN AUDIOVISUAL   

                                   CENTRO  TASA_ABANDONO  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN          36.36  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA          12.50  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA           4.12  

--- Abandono 2022 ---
Shape: (113, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'TASA_ABANDONO']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT': dtype('int64'), 'TITULACION': dtype('O'), 'CENTRO': dtyp

## 2. Analizar Estructura y Columnas

In [13]:
# Análisis específico de columnas
print("=== ANÁLISIS DE COLUMNAS ===")

# Verificar si todas las tablas tienen las mismas columnas
abandono_columns = [set(df.columns) for _, df in datasets_abandono]
all_same = len(set(frozenset(s) for s in abandono_columns)) == 1
print(f"¿Todas las tablas de abandono tienen las mismas columnas? {all_same}")

if all_same:
    print(f"\nColumnas comunes: {list(abandono21.columns)}")
else:
    print("\nColumnas por año:")
    for year, cols in zip(["2021", "2022", "2023", "2024"], abandono_columns):
        print(f"  {year}: {list(cols)}")

# Verificar valores faltantes
print("\n=== VALORES FALTANTES ===")
for year, df in datasets_abandono:
    missing = df.isnull().sum().sum()
    print(f"Abandono {year}: {missing} valores faltantes")

=== ANÁLISIS DE COLUMNAS ===
¿Todas las tablas de abandono tienen las mismas columnas? True

Columnas comunes: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'TASA_ABANDONO']

=== VALORES FALTANTES ===
Abandono 2021: 0 valores faltantes
Abandono 2022: 0 valores faltantes
Abandono 2023: 0 valores faltantes
Abandono 2024: 0 valores faltantes


## 3. Concatenar Datasets Anuales

In [14]:
# Concatenar todos los datos de abandono
abandono_all = pd.concat([
    abandono21, abandono22, abandono23, abandono24
], ignore_index=True)

print("Dataset de abandono unificado:")
print(f"Shape: {abandono_all.shape}")
print(f"Años únicos: {sorted(abandono_all['CURSO'].unique())}")
print(f"\nPrimeras filas:")
print(abandono_all.head())

Dataset de abandono unificado:
Shape: (455, 5)
Años únicos: ['2020-21', '2021-22', '2022-23', '2023-24']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2020-21   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2020-21   2501355                                   GRADO EN TURISMO   
4  2020-21   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO TASA_ABANDONO  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN         36.36  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA          12.5  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA          4.12  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA         12.94  
4        E. POLITÉCNICA SUPERIOR DE ALCOY         10.71  


## 4. Fusionar y Unificar Datos Panel

In [15]:
# No hay múltiples fuentes para abandonoones, pero renombramos columnas para claridad
panel_abandono = abandono_all.copy()

# Renombrar columna de tasa de abandono para mayor claridad
panel_abandono = panel_abandono.rename(columns={
    'TASA_ABANDONO': 'tasa_abandono'
})

print("Panel de datos de abandono:")
print(f"Shape: {panel_abandono.shape}")
print(f"Columnas: {list(panel_abandono.columns)}")
print(f"\nPrimeras filas:")
print(panel_abandono.head())

Panel de datos de abandono:
Shape: (455, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'tasa_abandono']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2020-21   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2020-21   2501355                                   GRADO EN TURISMO   
4  2020-21   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO tasa_abandono  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN         36.36  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA          12.5  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA          4.12  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA         12.94  
4        E. POLITÉCNICA SUPERIOR DE ALCOY         10.71  


## 5. Corrección de Tipos de Datos y Limpieza

In [16]:
# Investigar los tipos de datos
print("Tipos de datos actuales:")
print(panel_abandono.dtypes)

print("\nPrimeros valores de tasa_abandono:")
print(panel_abandono['tasa_abandono'].head(10))

print("\nValores únicos (primeros 20):")
print(panel_abandono['tasa_abandono'].value_counts().head(20))

Tipos de datos actuales:
CURSO            object
COD_RUCT          int64
TITULACION       object
CENTRO           object
tasa_abandono    object
dtype: object

Primeros valores de tasa_abandono:
0    36.36
1     12.5
2     4.12
3    12.94
4    10.71
5     1.42
6     7.55
7     8.33
8    23.68
9      8.7
Name: tasa_abandono, dtype: object

Valores únicos (primeros 20):
tasa_abandono
0,000000     23
11,110000     7
14,290000     7
16,670000     7
0.0           7
8,330000      5
20,000000     5
10,000000     4
15,000000     4
7,690000      4
18,180000     4
12,500000     4
12.5          4
19,230000     4
15,380000     4
25.0          4
13,640000     3
25,000000     3
16,000000     3
9,520000      3
Name: count, dtype: int64


In [17]:
# Función para corregir formato de números (coma -> punto)
def fix_decimal_format(column):
    """Convierte columnas con comas decimales a float"""
    return pd.to_numeric(
        column.astype(str).str.replace(',', '.').replace('nan', None), 
        errors='coerce'
    )

# Aplicar la corrección a la columna de tasa de abandono
panel_abandono['tasa_abandono'] = fix_decimal_format(panel_abandono['tasa_abandono'])

print("Después de la corrección:")
print(panel_abandono.dtypes)

print(f"\nPrimeras filas de tasa de abandono:")
print(panel_abandono[['TITULACION', 'tasa_abandono']].head())

print(f"\nEstadísticas de tasa_abandono:")
print(panel_abandono['tasa_abandono'].describe())

print(f"\nValores faltantes:")
print(panel_abandono.isnull().sum())

Después de la corrección:
CURSO             object
COD_RUCT           int64
TITULACION        object
CENTRO            object
tasa_abandono    float64
dtype: object

Primeras filas de tasa de abandono:
                                          TITULACION  tasa_abandono
0                      GRADO EN ARQUITECTURA TÉCNICA          36.36
1                      GRADO EN CIENCIAS AMBIENTALES          12.50
2                  GRADO EN COMUNICACIÓN AUDIOVISUAL           4.12
3                                   GRADO EN TURISMO          12.94
4  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...          10.71

Estadísticas de tasa_abandono:
count    455.000000
mean      14.710703
std       11.841438
min        0.000000
25%        6.670000
50%       11.760000
75%       19.290000
max      100.000000
Name: tasa_abandono, dtype: float64

Valores faltantes:
CURSO            0
COD_RUCT         0
TITULACION       0
CENTRO           0
tasa_abandono    0
dtype: int64


## 6. Crear Columnas Calculadas

In [18]:
# Agregar año numérico para facilitar análisis
panel_abandono['año'] = panel_abandono['CURSO'].str[:4].astype(int)

# Calcular tasa de permanencia (retención)
panel_abandono['tasa_permanencia'] = 100 - panel_abandono['tasa_abandono']

print("Dataset con columnas calculadas:")
print(f"Shape: {panel_abandono.shape}")
print(f"Columnas: {list(panel_abandono.columns)}")

print(f"\nPrimeras filas del panel final:")
print(panel_abandono[['CURSO', 'TITULACION', 'tasa_abandono', 'tasa_permanencia', 'año']].head(10))

Dataset con columnas calculadas:
Shape: (455, 7)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'tasa_abandono', 'año', 'tasa_permanencia']

Primeras filas del panel final:
     CURSO                                         TITULACION  tasa_abandono  \
0  2020-21                      GRADO EN ARQUITECTURA TÉCNICA          36.36   
1  2020-21                      GRADO EN CIENCIAS AMBIENTALES          12.50   
2  2020-21                  GRADO EN COMUNICACIÓN AUDIOVISUAL           4.12   
3  2020-21                                   GRADO EN TURISMO          12.94   
4  2020-21  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...          10.71   
5  2020-21  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...           1.42   
6  2020-21                              GRADO EN BELLAS ARTES           7.55   
7  2020-21  GRADO EN CONSERVACIÓN Y RESTAURACIÓN DE BIENES...           8.33   
8  2020-21          GRADO EN GESTIÓN Y ADMINISTRACIÓN PÚBLICA          23.68   
9  2020-21        

## 7. Resumen Final y Exportación

In [19]:
# Análisis final del panel de datos
print("=== RESUMEN DEL PANEL DE DATOS ===")
print(f"Total de observaciones: {len(panel_abandono)}")
print(f"Total de titulaciones únicas: {panel_abandono['TITULACION'].nunique()}")
print(f"Total de centros únicos: {panel_abandono['CENTRO'].nunique()}")
print(f"Años cubiertos: {sorted(panel_abandono['año'].unique())}")

print(f"\n=== ESTADÍSTICAS DE TASA DE ABANDONO ===")
print(f"Tasa promedio de abandono: {panel_abandono['tasa_abandono'].mean():.2f}%")
print(f"Mediana de tasa de abandono: {panel_abandono['tasa_abandono'].median():.2f}%")
print(f"Mínima: {panel_abandono['tasa_abandono'].min():.2f}%")
print(f"Máxima: {panel_abandono['tasa_abandono'].max():.2f}%")
print(f"Desviación estándar: {panel_abandono['tasa_abandono'].std():.2f}%")

print(f"\n=== COBERTURA DE DATOS ===")
coverage = panel_abandono.groupby('año').agg({
    'tasa_abandono': ['count', 'mean', 'min', 'max']
}).round(2)
print(coverage)

print(f"\n=== DISTRIBUCIÓN POR CENTRO ===")
center_stats = panel_abandono.groupby('CENTRO')['tasa_abandono'].agg(['count', 'mean']).round(2).sort_values('mean', ascending=False)
print(center_stats)

=== RESUMEN DEL PANEL DE DATOS ===
Total de observaciones: 455
Total de titulaciones únicas: 119
Total de centros únicos: 15
Años cubiertos: [np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)]

=== ESTADÍSTICAS DE TASA DE ABANDONO ===
Tasa promedio de abandono: 14.71%
Mediana de tasa de abandono: 11.76%
Mínima: 0.00%
Máxima: 100.00%
Desviación estándar: 11.84%

=== COBERTURA DE DATOS ===
     tasa_abandono                    
             count   mean  min     max
año                                   
2020           105  12.79  0.0   42.11
2021           113  15.69  0.0   47.50
2022           116  14.52  0.0   58.82
2023           121  15.65  0.0  100.00

=== DISTRIBUCIÓN POR CENTRO ===
                                                    count   mean
CENTRO                                                          
E.T.S.I. GEODESICA, CARTOGRAFICA Y TOP.                 8  27.66
E.T.S. DE INGENIERÍA DE EDIFICACIÓN                     8  26.41
E. POLITÉCNICA SUPERIOR DE ALC

In [20]:
# Guardar el dataset final
panel_abandono.to_csv('../panel_abandono_UPV.csv', index=False, encoding='utf-8')
print(f"✅ Dataset guardado como 'panel_abandono_UPV.csv'")
print(f"Ubicación: ../panel_abandono_UPV.csv")
print(f"\nDimensiones: {panel_abandono.shape}")
print(f"Columnas: {list(panel_abandono.columns)}")

✅ Dataset guardado como 'panel_abandono_UPV.csv'
Ubicación: ../panel_abandono_UPV.csv

Dimensiones: (455, 7)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'tasa_abandono', 'año', 'tasa_permanencia']


## ✅ Conclusiones del Merge

### Dataset Final Creado
- **Panel unificado de tasa de abandono** de todas las titulaciones de la UPV (2021-2024)
- **Múltiples observaciones** con información sobre:
  - Código RUCT y nombre de titulación
  - Centro donde se imparte
  - Tasa de abandono anual (en porcentaje)
  - Tasa de permanencia calculada

### Estructura del Dataset Final
El archivo `panel_abandono_UPV.csv` contiene:
- **CURSO**: Curso académico (2020-21, 2021-22, etc.)
- **COD_RUCT**: Código RUCT de la titulación
- **TITULACION**: Nombre de la titulación
- **CENTRO**: Centro donde se imparte
- **tasa_abandono**: Porcentaje de estudiantes que abandonan (0-100)
- **año**: Año numérico para análisis
- **tasa_permanencia**: Porcentaje de estudiantes que permanecen (100 - abandono)

### Hallazgos Principales
- **Tasa promedio de abandono**: Aproximadamente X%
- **Rango de tasas**: Desde X% a Y%
- **Variabilidad por centro**: Diferentes centros tienen diferentes patrones de abandono
- **Tendencias temporales**: Análisis año a año del comportamiento del abandono

### Posibles Análisis Futuros
- Evolución temporal de la tasa de abandono
- Comparación entre centros y titulaciones
- Identificación de carreras/centros con mayor/menor abandono
- Relación entre tasa de abandono y satisfacción de estudiantes
- Análisis de tendencias y cambios significativos