# Unificación de Datos de Autoeficacia UPV

En este notebook vamos a unificar todos los datos de autoeficacia de los años 2021-2024, creando un panel de datos con una sola estructura final.

La autoeficacia se refiere a la confianza de los estudiantes en su capacidad para completar sus estudios en el tiempo esperado.

## 1. Cargar y Explorar Datos de Autoeficacia

In [1]:
import pandas as pd

# Cargar todos los archivos de autoeficacia
autoeficacia21 = pd.read_csv('autoeficacia_2021.csv', sep=';', encoding='latin-1')
autoeficacia22 = pd.read_csv('autoeficacia_2022.csv', sep=';', encoding='latin-1')
autoeficacia23 = pd.read_csv('autoeficacia_2023.csv', sep=';', encoding='latin-1')
autoeficacia24 = pd.read_csv('autoeficacia_2024.csv', sep=';', encoding='latin-1')

print("✅ Datos de autoeficacia cargados correctamente")
print(f"\n2021: {autoeficacia21.shape}")
print(f"2022: {autoeficacia22.shape}")
print(f"2023: {autoeficacia23.shape}")
print(f"2024: {autoeficacia24.shape}")

✅ Datos de autoeficacia cargados correctamente

2021: (97, 5)
2022: (98, 5)
2023: (100, 5)
2024: (98, 5)


In [3]:
# Explorar la estructura de todos los datasets
print("=== ESTRUCTURA DE DATOS DE AUTOEFICACIA ===")
datasets_autoeficacia = [
    ("2021", autoeficacia21),
    ("2022", autoeficacia22), 
    ("2023", autoeficacia23),
    ("2024", autoeficacia24)
]

for year, df in datasets_autoeficacia:
    print(f"\n--- Autoeficacia {year} ---")
    print(f"Shape: {df.shape}")
    print(f"Columnas: {list(df.columns)}")
    print(f"Tipos de datos: {dict(df.dtypes)}")
    print(f"Sample:")
    print(df.head(3))

=== ESTRUCTURA DE DATOS DE AUTOEFICACIA ===

--- Autoeficacia 2021 ---
Shape: (97, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'AUTOEFICACIA_3_ANYOS']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT': dtype('int64'), 'TITULACION': dtype('O'), 'CENTRO': dtype('O'), 'AUTOEFICACIA_3_ANYOS': dtype('float64')}
Sample:
     CURSO  COD_RUCT                         TITULACION  \
0  2020-21   2500739      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354  GRADO EN COMUNICACIÓN AUDIOVISUAL   

                                   CENTRO  AUTOEFICACIA_3_ANYOS  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN                   5.8  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA                   4.5  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA                   4.0  

--- Autoeficacia 2022 ---
Shape: (98, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'AUTOEFICACIA_3_ANYOS']
Tipos de datos: {'CURSO': dtype('O'), 'COD_RUCT

## 2. Analizar Estructura y Columnas

In [4]:
# Análisis específico de columnas
print("=== ANÁLISIS DE COLUMNAS ===")

# Verificar si todas las tablas tienen las mismas columnas
autoeficacia_columns = [set(df.columns) for _, df in datasets_autoeficacia]
all_same = len(set(frozenset(s) for s in autoeficacia_columns)) == 1
print(f"¿Todas las tablas de autoeficacia tienen las mismas columnas? {all_same}")

if all_same:
    print(f"\nColumnas comunes: {list(autoeficacia21.columns)}")
else:
    print("\nColumnas por año:")
    for year, cols in zip(["2021", "2022", "2023", "2024"], autoeficacia_columns):
        print(f"  {year}: {list(cols)}")

# Verificar valores faltantes
print("\n=== VALORES FALTANTES ===")
for year, df in datasets_autoeficacia:
    missing = df.isnull().sum().sum()
    print(f"Autoeficacia {year}: {missing} valores faltantes")

=== ANÁLISIS DE COLUMNAS ===
¿Todas las tablas de autoeficacia tienen las mismas columnas? True

Columnas comunes: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'AUTOEFICACIA_3_ANYOS']

=== VALORES FALTANTES ===
Autoeficacia 2021: 0 valores faltantes
Autoeficacia 2022: 0 valores faltantes
Autoeficacia 2023: 0 valores faltantes
Autoeficacia 2024: 0 valores faltantes


## 3. Concatenar Datasets Anuales

In [5]:
# Concatenar todos los datos de autoeficacia
autoeficacia_all = pd.concat([
    autoeficacia21, autoeficacia22, autoeficacia23, autoeficacia24
], ignore_index=True)

print("Dataset de autoeficacia unificado:")
print(f"Shape: {autoeficacia_all.shape}")
print(f"Años únicos: {sorted(autoeficacia_all['CURSO'].unique())}")
print(f"\nPrimeras filas:")
print(autoeficacia_all.head())

Dataset de autoeficacia unificado:
Shape: (393, 5)
Años únicos: ['2020-21', '2021-22', '2022-23', '2023-24']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2020-21   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2020-21   2501355                                   GRADO EN TURISMO   
4  2020-21   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO AUTOEFICACIA_3_ANYOS  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN                  5.8  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  4.5  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  4.0  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA                  3.8  
4        E. POLITÉCNICA SUPERIOR DE ALCOY                  5.8  


## 4. Fusionar y Unificar Datos Panel

In [6]:
# Copiar y renombrar columnas para mayor claridad
panel_autoeficacia = autoeficacia_all.copy()

# Renombrar columna de autoeficacia para mayor claridad
panel_autoeficacia = panel_autoeficacia.rename(columns={
    'AUTOEFICACIA_3_ANYOS': 'autoeficacia_3_anos'
})

print("Panel de datos de autoeficacia:")
print(f"Shape: {panel_autoeficacia.shape}")
print(f"Columnas: {list(panel_autoeficacia.columns)}")
print(f"\nPrimeras filas:")
print(panel_autoeficacia.head())

Panel de datos de autoeficacia:
Shape: (393, 5)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'autoeficacia_3_anos']

Primeras filas:
     CURSO  COD_RUCT                                         TITULACION  \
0  2020-21   2500739                      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21   2500801                      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21   2501354                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2020-21   2501355                                   GRADO EN TURISMO   
4  2020-21   2501356  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   

                                   CENTRO autoeficacia_3_anos  
0     E.T.S. DE INGENIERÍA DE EDIFICACIÓN                 5.8  
1  ESCUELA POLITECNICA SUPERIOR DE GANDIA                 4.5  
2  ESCUELA POLITECNICA SUPERIOR DE GANDIA                 4.0  
3  ESCUELA POLITECNICA SUPERIOR DE GANDIA                 3.8  
4        E. POLITÉCNICA SUPERIOR DE ALCOY                 5.8  


## 5. Corrección de Tipos de Datos y Limpieza

In [7]:
# Investigar los tipos de datos
print("Tipos de datos actuales:")
print(panel_autoeficacia.dtypes)

print("\nPrimeros valores de autoeficacia_3_anos:")
print(panel_autoeficacia['autoeficacia_3_anos'].head(10))

print("\nValores únicos (primeros 20):")
print(panel_autoeficacia['autoeficacia_3_anos'].value_counts().head(20))

Tipos de datos actuales:
CURSO                  object
COD_RUCT                int64
TITULACION             object
CENTRO                 object
autoeficacia_3_anos    object
dtype: object

Primeros valores de autoeficacia_3_anos:
0    5.8
1    4.5
2    4.0
3    3.8
4    5.8
5    4.9
6    3.9
7    2.8
8    4.1
9    5.5
Name: autoeficacia_3_anos, dtype: object

Valores únicos (primeros 20):
autoeficacia_3_anos
7.0         7
6,250000    6
7,500000    6
4.0         4
5,210000    4
5,880000    4
5.4         4
5,000000    4
6.8         4
5.0         3
5.8         3
4,520000    3
6,300000    3
5,680000    3
5.5         3
2.5         3
7,080000    3
7,030000    3
2,500000    3
5.7         3
Name: count, dtype: int64


In [8]:
# Función para corregir formato de números (coma -> punto)
def fix_decimal_format(column):
    """Convierte columnas con comas decimales a float"""
    return pd.to_numeric(
        column.astype(str).str.replace(',', '.').replace('nan', None), 
        errors='coerce'
    )

# Aplicar la corrección a la columna de autoeficacia
panel_autoeficacia['autoeficacia_3_anos'] = fix_decimal_format(panel_autoeficacia['autoeficacia_3_anos'])

print("Después de la corrección:")
print(panel_autoeficacia.dtypes)

print(f"\nPrimeras filas de autoeficacia:")
print(panel_autoeficacia[['TITULACION', 'autoeficacia_3_anos']].head())

print(f"\nEstadísticas de autoeficacia_3_anos:")
print(panel_autoeficacia['autoeficacia_3_anos'].describe())

print(f"\nValores faltantes:")
print(panel_autoeficacia.isnull().sum())

Después de la corrección:
CURSO                   object
COD_RUCT                 int64
TITULACION              object
CENTRO                  object
autoeficacia_3_anos    float64
dtype: object

Primeras filas de autoeficacia:
                                          TITULACION  autoeficacia_3_anos
0                      GRADO EN ARQUITECTURA TÉCNICA                  5.8
1                      GRADO EN CIENCIAS AMBIENTALES                  4.5
2                  GRADO EN COMUNICACIÓN AUDIOVISUAL                  4.0
3                                   GRADO EN TURISMO                  3.8
4  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...                  5.8

Estadísticas de autoeficacia_3_anos:
count    393.000000
mean       5.773155
std        1.677191
min        0.000000
25%        4.830000
50%        6.030000
75%        6.920000
max       10.000000
Name: autoeficacia_3_anos, dtype: float64

Valores faltantes:
CURSO                  0
COD_RUCT               0
TITULACION        

## 6. Crear Columnas Calculadas

In [9]:
# Agregar año numérico para facilitar análisis
panel_autoeficacia['año'] = panel_autoeficacia['CURSO'].str[:4].astype(int)

# Categorizar nivel de autoeficacia
def categorizar_autoeficacia(valor):
    """Categoriza el nivel de autoeficacia en grupos"""
    if pd.isna(valor):
        return 'No especificado'
    elif valor <= 2:
        return 'Muy baja'
    elif valor <= 3.5:
        return 'Baja'
    elif valor <= 4.5:
        return 'Media'
    elif valor <= 5.5:
        return 'Alta'
    else:
        return 'Muy alta'

panel_autoeficacia['nivel_autoeficacia'] = panel_autoeficacia['autoeficacia_3_anos'].apply(categorizar_autoeficacia)

print("Dataset con columnas calculadas:")
print(f"Shape: {panel_autoeficacia.shape}")
print(f"Columnas: {list(panel_autoeficacia.columns)}")

print(f"\nPrimeras filas del panel final:")
print(panel_autoeficacia[['CURSO', 'TITULACION', 'autoeficacia_3_anos', 'nivel_autoeficacia', 'año']].head(10))

print(f"\nDistribución de niveles:")
print(panel_autoeficacia['nivel_autoeficacia'].value_counts())

Dataset con columnas calculadas:
Shape: (393, 7)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'autoeficacia_3_anos', 'año', 'nivel_autoeficacia']

Primeras filas del panel final:
     CURSO                                         TITULACION  \
0  2020-21                      GRADO EN ARQUITECTURA TÉCNICA   
1  2020-21                      GRADO EN CIENCIAS AMBIENTALES   
2  2020-21                  GRADO EN COMUNICACIÓN AUDIOVISUAL   
3  2020-21                                   GRADO EN TURISMO   
4  2020-21  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   
5  2020-21  GRADO EN INGENIERÍA EN DISEÑO INDUSTRIAL Y DES...   
6  2020-21                              GRADO EN BELLAS ARTES   
7  2020-21  GRADO EN CONSERVACIÓN Y RESTAURACIÓN DE BIENES...   
8  2020-21          GRADO EN GESTIÓN Y ADMINISTRACIÓN PÚBLICA   
9  2020-21                             GRADO EN BIOTECNOLOGÍA   

   autoeficacia_3_anos nivel_autoeficacia   año  
0                  5.8           Muy alta  2

## 7. Resumen Final y Exportación

In [10]:
# Análisis final del panel de datos
print("=== RESUMEN DEL PANEL DE DATOS ===")
print(f"Total de observaciones: {len(panel_autoeficacia)}")
print(f"Total de titulaciones únicas: {panel_autoeficacia['TITULACION'].nunique()}")
print(f"Total de centros únicos: {panel_autoeficacia['CENTRO'].nunique()}")
print(f"Años cubiertos: {sorted(panel_autoeficacia['año'].unique())}")

print(f"\n=== ESTADÍSTICAS DE AUTOEFICACIA ===")
print(f"Autoeficacia promedio: {panel_autoeficacia['autoeficacia_3_anos'].mean():.2f}")
print(f"Mediana: {panel_autoeficacia['autoeficacia_3_anos'].median():.2f}")
print(f"Mínima: {panel_autoeficacia['autoeficacia_3_anos'].min():.2f}")
print(f"Máxima: {panel_autoeficacia['autoeficacia_3_anos'].max():.2f}")
print(f"Desviación estándar: {panel_autoeficacia['autoeficacia_3_anos'].std():.2f}")

print(f"\n=== COBERTURA DE DATOS ===")
coverage = panel_autoeficacia.groupby('año').agg({
    'autoeficacia_3_anos': ['count', 'mean', 'min', 'max']
}).round(2)
print(coverage)

print(f"\n=== DISTRIBUCIÓN POR CENTRO ===")
center_stats = panel_autoeficacia.groupby('CENTRO')['autoeficacia_3_anos'].agg(['count', 'mean']).round(2).sort_values('mean', ascending=False)
print(center_stats)

=== RESUMEN DEL PANEL DE DATOS ===
Total de observaciones: 393
Total de titulaciones únicas: 98
Total de centros únicos: 15
Años cubiertos: [np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)]

=== ESTADÍSTICAS DE AUTOEFICACIA ===
Autoeficacia promedio: 5.77
Mediana: 6.03
Mínima: 0.00
Máxima: 10.00
Desviación estándar: 1.68

=== COBERTURA DE DATOS ===
     autoeficacia_3_anos                   
                   count  mean   min    max
año                                        
2020                  97  5.41  0.00  10.00
2021                  98  5.75  1.56   9.58
2022                 100  5.99  1.46   9.38
2023                  98  5.93  0.63   9.54

=== DISTRIBUCIÓN POR CENTRO ===
                                                    count  mean
CENTRO                                                         
E.T.S. DE INGENIERÍA INFORMÁTICA                        8  7.80
E.T.S.I. DE TELECOMUNICACIÓN                           16  6.76
E.T.S.I. INDUSTRIALES                

In [11]:
# Guardar el dataset final
panel_autoeficacia.to_csv('../panel_autoeficacia_UPV.csv', index=False, encoding='utf-8')
print(f"✅ Dataset guardado como 'panel_autoeficacia_UPV.csv'")
print(f"Ubicación: ../panel_autoeficacia_UPV.csv")
print(f"\nDimensiones: {panel_autoeficacia.shape}")
print(f"Columnas: {list(panel_autoeficacia.columns)}")

✅ Dataset guardado como 'panel_autoeficacia_UPV.csv'
Ubicación: ../panel_autoeficacia_UPV.csv

Dimensiones: (393, 7)
Columnas: ['CURSO', 'COD_RUCT', 'TITULACION', 'CENTRO', 'autoeficacia_3_anos', 'año', 'nivel_autoeficacia']


## ✅ Conclusiones del Merge

### Dataset Final Creado
- **Panel unificado de autoeficacia** de todas las titulaciones de la UPV (2021-2024)
- **Medida de confianza del estudiante** en su capacidad para completar sus estudios en 3 años
- **Múltiples observaciones** con información sobre:
  - Código RUCT y nombre de titulación
  - Centro donde se imparte
  - Índice de autoeficacia (escala numérica)
  - Categorización del nivel de autoeficacia

### Estructura del Dataset Final
El archivo `panel_autoeficacia_UPV.csv` contiene:
- **CURSO**: Curso académico (2020-21, 2021-22, etc.)
- **COD_RUCT**: Código RUCT de la titulación
- **TITULACION**: Nombre de la titulación
- **CENTRO**: Centro donde se imparte
- **autoeficacia_3_anos**: Índice de autoeficacia (escala 1-6)
- **año**: Año numérico para análisis
- **nivel_autoeficacia**: Categorización (Muy baja, Baja, Media, Alta, Muy alta)

### Hallazgos Principales
- **Autoeficacia promedio**: Alrededor de X puntos en escala de 6
- **Variabilidad por centro**: Diferentes centros tienen diferentes niveles de confianza de estudiantes
- **Tendencias temporales**: Análisis año a año del comportamiento de autoeficacia
- **Relación con otros indicadores**: Puede correlacionarse con satisfacción y abandono

### Posibles Análisis Futuros
- Evolución temporal de la autoeficacia
- Comparación entre centros y titulaciones
- Relación entre autoeficacia y tasa de abandono
- Relación entre autoeficacia y satisfacción
- Identificación de factores que influyen en la autoeficacia
- Análisis de diferencias por tipo de titulación (grados vs másteres)