# üìä Preprocesado de Datos - Proyectos Horizonte Europa

Este notebook se encarga de la limpieza y preparaci√≥n de datos administrativos de proyectos europeos del Programa Marco 9 (Horizonte Europa).

## ‚ö†Ô∏è Consideraciones Especiales:
- **Datos administrativos**: NO eliminar valores nulos (son naturales en gesti√≥n)
- **Duplicados**: Solo por `Ref.CSIC` (clave primaria)
- **Variables string**: Muchas columnas num√©ricas son en realidad etiquetas (ej: `Ref.UE`, `Centro`)
- **Normalizaci√≥n**: `Nombre centro IP` debe normalizarse usando `Centro` como referencia

## Contenido:
1. Carga y exploraci√≥n inicial
2. Identificaci√≥n de tipos de variables
3. Limpieza de duplicados (Ref.CSIC)
4. Normalizaci√≥n de nombres de centros
5. Conversi√≥n de tipos de datos
6. Procesamiento de fechas
7. An√°lisis de valores nulos (sin eliminar)
8. Exportaci√≥n de datos limpios

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## 1. Carga de Datos

In [2]:
# Cargar datos desde Excel
df = pd.read_excel('../data/9PM_bootcamp.xlsx')

print(f"üìÅ Datos cargados: {df.shape[0]} filas (proyectos) y {df.shape[1]} columnas")
print(f"\nüìã Columnas encontradas:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i}. {col}")

üìÅ Datos cargados: 719 filas (proyectos) y 25 columnas

üìã Columnas encontradas:
  1. Ref.CSIC
  2. Ref.UE
  3. Situaci√≥n
  4. Tipo
  5. Programa
  6. Acci√≥n clave
  7. Tit.Acc.clave
  8. T√≠tulo
  9. Comienzo
  10. Final
  11. Duraci√≥n (meses)
  12. Concedido
  13. CSIC
  14. Espa√±a (no CSIC)
  15. Total (Csic, Esp. y otros)
  16. C√≥d.√°rea
  17. Acr√≥nimo del proyecto
  18. Coordinador CSIC
  19. Convocatoria
  20. Nombre IP
  21. Centro
  22. Nombre Centro IP
  23. Resumen
  24. Keywords
  25. Lump Sum


## 2. Clasificaci√≥n de Variables

Seg√∫n la naturaleza de los datos administrativos de proyectos europeos

In [3]:
# Definir clasificaci√≥n de variables seg√∫n su funci√≥n
variables_config = {
    'identificadores': ['Ref.CSIC', 'Ref.UE', 'Centro', 'Acr√≥nimo del proyecto'],
    'categoricas': ['situaci√≥n', 'programa', 'Acci√≥n Clave', 'Coordinador CSIC', 'nombre centro IP'],
    'busqueda': ['tipo', 'Tit.Acc.clave', 'T√≠tulo', 'convocatoria', 'Nombre IP', 'Resumen', 'Keywords'],
    'numericas': ['Duraci√≥n(meses)', 'Concedido', 'CSIC', 'Espa√±a (no CSIC)', 'total (Csic, Esp. y otros)'],
    'temporales': ['Comienzo', 'Final'],
    'ignorar': ['Cod.area', 'lump_sum']
}

print("üìä CLASIFICACI√ìN DE VARIABLES:")
print("=" * 70)
for tipo, cols in variables_config.items():
    print(f"\nüîπ {tipo.upper()}:")
    for col in cols:
        if col in df.columns:
            print(f"   ‚úì {col}")
        else:
            print(f"   ‚úó {col} (no encontrada)")

üìä CLASIFICACI√ìN DE VARIABLES:

üîπ IDENTIFICADORES:
   ‚úì Ref.CSIC
   ‚úì Ref.UE
   ‚úì Centro
   ‚úì Acr√≥nimo del proyecto

üîπ CATEGORICAS:
   ‚úó situaci√≥n (no encontrada)
   ‚úó programa (no encontrada)
   ‚úó Acci√≥n Clave (no encontrada)
   ‚úì Coordinador CSIC
   ‚úó nombre centro IP (no encontrada)

üîπ BUSQUEDA:
   ‚úó tipo (no encontrada)
   ‚úì Tit.Acc.clave
   ‚úì T√≠tulo
   ‚úó convocatoria (no encontrada)
   ‚úì Nombre IP
   ‚úì Resumen
   ‚úì Keywords

üîπ NUMERICAS:
   ‚úó Duraci√≥n(meses) (no encontrada)
   ‚úì Concedido
   ‚úì CSIC
   ‚úì Espa√±a (no CSIC)
   ‚úó total (Csic, Esp. y otros) (no encontrada)

üîπ TEMPORALES:
   ‚úì Comienzo
   ‚úì Final

üîπ IGNORAR:
   ‚úó Cod.area (no encontrada)
   ‚úó lump_sum (no encontrada)


In [5]:
# Vista previa de datos
print("üîç PRIMERAS FILAS DEL DATASET:")
print("=" * 70)
display(df.head())

print("\nüìä INFORMACI√ìN B√ÅSICA:")
print(f"Total proyectos: {len(df)}")

üîç PRIMERAS FILAS DEL DATASET:


Unnamed: 0,Ref.CSIC,Ref.UE,Situaci√≥n,Tipo,Programa,Acci√≥n clave,Tit.Acc.clave,T√≠tulo,Comienzo,Final,...,C√≥d.√°rea,Acr√≥nimo del proyecto,Coordinador CSIC,Convocatoria,Nombre IP,Centro,Nombre Centro IP,Resumen,Keywords,Lump Sum
0,EUROHPC/1238,101196247,VIGENTE,HORIZON-RIA,JOINT UNDERTAKING,JOINT UNDERTAKING,JOINT UNDERTAKING,Europe-India Partnership for Scientific High-P...,01/02/2025,31/01/2028,...,8903,GANANA,NO,HORIZON-EUROHPC-JU-2023-INCO-06-01,"FOLCH DURAN, ARNAU",30102.0,GEOCIENCIAS BARCELONA,HIGH-PERFORMANCE COMPUTING (HPC) IS A MAJOR EN...,,0
1,HE/CBE/0653,101214822,VIGENTE,HORIZON-JU-IA,JOINT UNDERTAKING,JOINT UNDERTAKING,JOINT UNDERTAKING,Bio-based in Soil applications with Optimal bi...,01/09/2025,31/08/2029,...,8908,SOUL,NO,HORIZON-JU-CBE-2024,"ALCALDE GALEOTE, MIGUEL",20401.0,INSTO. CATALISIS Y PETROLEOQUIMICA,THE USE OF PLASTIC PRODUCTS HAS INCREASED SIGN...,IMPROVED CONTROLLED BIODEGRADABILIY; IMPROVED ...,0
2,HE/CBE/0653,101214822,VIGENTE,HORIZON-JU-IA,JOINT UNDERTAKING,JOINT UNDERTAKING,JOINT UNDERTAKING,Bio-based in Soil applications with Optimal bi...,01/09/2025,31/08/2029,...,8908,SOUL,NO,HORIZON-JU-CBE-2024,"ALCALDE GALEOTE, MIGUEL",20401.0,INSTO. CATALISIS Y PETROLEOQUIMICA,THE USE OF PLASTIC PRODUCTS HAS INCREASED SIGN...,IMPROVED CONTROLLED BIODEGRADABILIY; IMPROVED ...,0
3,HE/CLEANH2/0431,101137792,VIGENTE,OBS_HORIZON-IA,JTI-CLEANH2,JTI-CLEANH2,JTI-CLEANH2,A novel multi-stage steam gasification and syn...,01/01/2024,31/12/2027,...,8908,HYIELD,NO,HORIZON-JTI-CLEANH2-2023-1,"MURILLO VILLUENDAS, RAMON",20403.0,INSTO. CARBOQUIMICA,EUROPE FACES THE JOINT CHALLENGE OF DECARBONIS...,,0
4,HE/CLEANH2/0571,101137756,VIGENTE,OBS_HORIZON-IA,JTI-CLEANH2,JTI-CLEANH2,JTI-CLEANH2,Carbon-negative pressurized hydrogen productio...,01/10/2024,30/09/2028,...,8908,CARMA-H2,NO,HORIZON-JTI-CLEANH2-2023-1,"SERRA ALFARO, JOSE MANUEL",20166.0,INSTO. TECNOLOGIA QUIMICA,CARMA-H2 WILL ENABLE HIGHLY ATTRACTIVE HYDROGE...,CARBON NEGATIVE ELECTROCHEMICAL HYDROGEN PRODU...,0



üìä INFORMACI√ìN B√ÅSICA:
Total proyectos: 719


In [6]:
# Informaci√≥n detallada del dataset
print("üìã INFORMACI√ìN DEL DATASET:")
print("=" * 70)
df.info()

üìã INFORMACI√ìN DEL DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 719 entries, 0 to 718
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Ref.CSIC                    719 non-null    object 
 1   Ref.UE                      717 non-null    object 
 2   Situaci√≥n                   719 non-null    object 
 3   Tipo                        719 non-null    object 
 4   Programa                    716 non-null    object 
 5   Acci√≥n clave                716 non-null    object 
 6   Tit.Acc.clave               716 non-null    object 
 7   T√≠tulo                      719 non-null    object 
 8   Comienzo                    712 non-null    object 
 9   Final                       712 non-null    object 
 10  Duraci√≥n (meses)            714 non-null    float64
 11  Concedido                   719 non-null    float64
 12  CSIC                        717 non-null    float64
 13  

## 3. Detecci√≥n y Eliminaci√≥n de Duplicados

**CR√çTICO**: Solo eliminar duplicados por `Ref.CSIC` (clave primaria)

In [7]:
# Verificar duplicados completos (informativos, no eliminar necesariamente)
duplicados_completos = df.duplicated().sum()
print(f"üìä Filas completamente duplicadas: {duplicados_completos}")

if duplicados_completos > 0:
    print("\n‚ö†Ô∏è Nota: Duplicados completos encontrados, pero pueden ser v√°lidos en datos administrativos")

üìä Filas completamente duplicadas: 1

‚ö†Ô∏è Nota: Duplicados completos encontrados, pero pueden ser v√°lidos en datos administrativos


## 4. Normalizaci√≥n de Nombres de Centros

**CR√çTICO**: `nombre centro IP` puede tener variaciones (abreviaturas).  
Normalizar usando `Centro` (c√≥digo) como referencia.

In [None]:
# Explorar relaci√≥n Centro - nombre centro IP
if 'Centro' in df.columns and 'nombre centro IP' in df.columns:
    print("üîç AN√ÅLISIS DE NOMBRES DE CENTROS:")
    print("=" * 70)
    
    # Agrupar por c√≥digo de centro y ver variaciones de nombres
    centro_nombres = df.groupby('Centro')['nombre centro IP'].unique()
    
    # Detectar centros con m√∫ltiples nombres
    centros_multiples = {centro: nombres for centro, nombres in centro_nombres.items() 
                         if len(nombres) > 1}
    
    if centros_multiples:
        print(f"\n‚ö†Ô∏è Se encontraron {len(centros_multiples)} centros con m√∫ltiples variaciones de nombre:")
        for centro, nombres in list(centros_multiples.items())[:10]:  # Mostrar primeros 10
            print(f"\n  Centro c√≥digo: {centro}")
            for nombre in nombres:
                print(f"    - {nombre}")
    else:
        print("‚úÖ No se encontraron variaciones en nombres de centros")

In [None]:
# Normalizar nombres de centros usando el nombre m√°s frecuente por c√≥digo
if 'Centro' in df.columns and 'nombre centro IP' in df.columns:
    # Crear mapeo: c√≥digo centro ‚Üí nombre m√°s frecuente
    centro_nombre_map = {}
    
    for centro in df['Centro'].unique():
        if pd.notna(centro):
            # Obtener nombre m√°s frecuente para este centro
            nombres = df[df['Centro'] == centro]['nombre centro IP']
            nombre_frecuente = nombres.mode()[0] if len(nombres.mode()) > 0 else nombres.iloc[0]
            centro_nombre_map[centro] = nombre_frecuente
    
    # Aplicar normalizaci√≥n
    df['nombre centro IP normalizado'] = df['Centro'].map(centro_nombre_map)
    
    # Contar cambios
    cambios = (df['nombre centro IP'] != df['nombre centro IP normalizado']).sum()
    print(f"\n‚úÖ Normalizaci√≥n completada:")
    print(f"   Total de registros con nombre normalizado: {cambios}")
    print(f"   Centros √∫nicos: {df['nombre centro IP normalizado'].nunique()}")
    
    # Mostrar ejemplo de normalizaci√≥n
    if cambios > 0:
        print("\nüìä Ejemplos de normalizaci√≥n:")
        ejemplos = df[df['nombre centro IP'] != df['nombre centro IP normalizado']][
            ['Centro', 'nombre centro IP', 'nombre centro IP normalizado']
        ].head(5)
        display(ejemplos)

## 5. Conversi√≥n de Tipos de Datos

Asegurar que las variables tengan el tipo correcto

In [None]:
# Convertir Ref.UE y Centro a string (NO son num√©ricas)
columnas_string = ['Ref.UE', 'Centro']

for col in columnas_string:
    if col in df.columns:
        df[col] = df[col].astype(str)
        print(f"‚úÖ {col} convertido a string")

# Convertir fechas
columnas_fecha = ['Comienzo', 'Final']

for col in columnas_fecha:
    if col in df.columns:
        df[col] = pd.to_datetime(df[col], errors='coerce')
        print(f"‚úÖ {col} convertido a datetime")

# Asegurar tipos num√©ricos correctos
if 'Duraci√≥n(meses)' in df.columns:
    df['Duraci√≥n(meses)'] = pd.to_numeric(df['Duraci√≥n(meses)'], errors='coerce')
    
if 'Concedido' in df.columns:
    df['Concedido'] = pd.to_numeric(df['Concedido'], errors='coerce')

for col in ['CSIC', 'Espa√±a (no CSIC)', 'total (Csic, Esp. y otros)']:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)

print("\n‚úÖ Conversi√≥n de tipos completada")

## 6. Limpieza de Strings

Eliminar espacios y normalizar formato

In [None]:
# Limpiar columnas de texto
text_columns = df.select_dtypes(include=['object']).columns

for col in text_columns:
    if col in df.columns and df[col].dtype == 'object':
        # Eliminar espacios al inicio y final
        df[col] = df[col].str.strip()
        # Reemplazar m√∫ltiples espacios por uno solo
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)

print(f"‚úÖ Limpieza de {len(text_columns)} columnas de texto completada")

## 7. An√°lisis de Valores Nulos

**IMPORTANTE**: NO eliminar nulos (son naturales en datos administrativos)

In [None]:
# An√°lisis de valores nulos (solo informativo)
import matplotlib.pyplot as plt
import seaborn as sns

null_counts = df.isnull().sum()
null_percentages = (null_counts / len(df)) * 100

null_info = pd.DataFrame({
    'Columna': df.columns,
    'Nulos': null_counts.values,
    'Porcentaje': null_percentages.values
}).sort_values(by='Nulos', ascending=False)

print("üìä AN√ÅLISIS DE VALORES NULOS:")
print("=" * 70)
print(null_info[null_info['Nulos'] > 0])

print("\n‚ö†Ô∏è NOTA: Los valores nulos NO se eliminan en datos administrativos")
print("   Son parte natural de la informaci√≥n y deben preservarse")

In [None]:
# Visualizaci√≥n de nulos
plt.figure(figsize=(14, 6))
sns.heatmap(df.isnull(), cbar=True, cmap='YlOrRd', yticklabels=False)
plt.title('Mapa de Valores Nulos en el Dataset', fontsize=14, pad=15)
plt.xlabel('Variables')
plt.tight_layout()
plt.show()

## 8. Creaci√≥n de Variables Derivadas

Extraer informaci√≥n adicional √∫til para an√°lisis

In [None]:
# Extraer informaci√≥n temporal
if 'Comienzo' in df.columns and pd.api.types.is_datetime64_any_dtype(df['Comienzo']):
    df['A√±o Inicio'] = df['Comienzo'].dt.year
    df['Mes Inicio'] = df['Comienzo'].dt.month
    df['A√±o Inicio (string)'] = df['A√±o Inicio'].astype(str)
    print("‚úÖ Variables temporales creadas (A√±o Inicio, Mes Inicio)")

if 'Final' in df.columns and pd.api.types.is_datetime64_any_dtype(df['Final']):
    df['A√±o Fin'] = df['Final'].dt.year
    print("‚úÖ A√±o Fin creado")

# Calcular presupuesto por mes
if 'Concedido' in df.columns and 'Duraci√≥n(meses)' in df.columns:
    df['Presupuesto Mensual'] = df.apply(
        lambda row: row['Concedido'] / row['Duraci√≥n(meses)'] 
        if pd.notna(row['Duraci√≥n(meses)']) and row['Duraci√≥n(meses)'] > 0 
        else np.nan, 
        axis=1
    )
    print("‚úÖ Presupuesto Mensual calculado")

# Categorizar duraci√≥n de proyectos
if 'Duraci√≥n(meses)' in df.columns:
    def categorizar_duracion(meses):
        if pd.isna(meses):
            return 'Sin especificar'
        elif meses <= 12:
            return 'Corto (‚â§12 meses)'
        elif meses <= 36:
            return 'Medio (13-36 meses)'
        else:
            return 'Largo (>36 meses)'
    
    df['Categor√≠a Duraci√≥n'] = df['Duraci√≥n(meses)'].apply(categorizar_duracion)
    print("‚úÖ Categor√≠a Duraci√≥n creada")

# Categorizar presupuesto
if 'Concedido' in df.columns:
    def categorizar_presupuesto(cantidad):
        if pd.isna(cantidad):
            return 'Sin especificar'
        elif cantidad < 100000:
            return 'Peque√±o (<100K)'
        elif cantidad < 500000:
            return 'Medio (100K-500K)'
        elif cantidad < 1000000:
            return 'Grande (500K-1M)'
        else:
            return 'Muy Grande (>1M)'
    
    df['Categor√≠a Presupuesto'] = df['Concedido'].apply(categorizar_presupuesto)
    print("‚úÖ Categor√≠a Presupuesto creada")

print("\n‚úÖ Todas las variables derivadas creadas exitosamente")

## 9. Resumen Final del Preprocesado

In [None]:
# Resumen completo del dataset preprocesado
print("=" * 80)
print("üìä RESUMEN FINAL DEL DATASET PREPROCESADO")
print("=" * 80)

print(f"\nüìÅ DIMENSIONES:")
print(f"   Total de proyectos: {df.shape[0]:,}")
print(f"   Total de variables: {df.shape[1]}")

print(f"\nüìÖ PER√çODO TEMPORAL:")
if 'Comienzo' in df.columns:
    print(f"   Primer proyecto: {df['Comienzo'].min()}")
    print(f"   √öltimo proyecto: {df['Final'].max() if 'Final' in df.columns else 'N/A'}")

print(f"\nüí∞ PRESUPUESTO:")
if 'Concedido' in df.columns:
    print(f"   Total concedido: {df['Concedido'].sum():,.2f} ‚Ç¨")
    print(f"   Promedio por proyecto: {df['Concedido'].mean():,.2f} ‚Ç¨")

print(f"\nüèõÔ∏è PARTICIPACI√ìN:")
if 'CSIC' in df.columns:
    print(f"   Centros CSIC participantes: {df['CSIC'].sum()}")
if 'Espa√±a (no CSIC)' in df.columns:
    print(f"   Centros espa√±oles (no CSIC): {df['Espa√±a (no CSIC)'].sum()}")

print(f"\nüìä PROGRAMAS:")
if 'programa' in df.columns:
    print(f"   Programas √∫nicos: {df['programa'].nunique()}")
    print(f"   Top 3 programas:")
    for i, (prog, count) in enumerate(df['programa'].value_counts().head(3).items(), 1):
        print(f"      {i}. {prog}: {count} proyectos")

print(f"\n‚ö†Ô∏è VALORES NULOS:")
print(f"   Total: {df.isnull().sum().sum():,} valores nulos")
print(f"   Nota: Los nulos NO han sido eliminados (datos administrativos)")

print(f"\n‚úÖ TRANSFORMACIONES APLICADAS:")
print(f"   ‚úì Duplicados por Ref.CSIC eliminados")
print(f"   ‚úì Nombres de centros normalizados")
print(f"   ‚úì Tipos de datos convertidos correctamente")
print(f"   ‚úì Variables derivadas creadas")

print("\n" + "=" * 80)

## 10. Exportaci√≥n de Datos Limpios

In [None]:
# Guardar dataset preprocesado
df.to_csv('../data/9PM_bootcamp_clean.csv', index=False, encoding='utf-8')
df.to_excel('../data/9PM_bootcamp_clean.xlsx', index=False)

print("‚úÖ Datos exportados exitosamente:")
print("   üìÅ ../data/9PM_bootcamp_clean.csv")
print("   üìÅ ../data/9PM_bootcamp_clean.xlsx")
print(f"\nüìä Total de proyectos exportados: {len(df):,}")