# üìä Preprocesado de Datos - Proyectos Horizonte Europa

Este notebook tiene como funci√≥n la limpieza y preparaci√≥n de datos administrativos de proyectos europeos del Programa Marco, 9¬™ Edici√≥n (Horizonte Europa).

## Consideraciones Especiales:
- **Datos administrativos**: El dataset no contiene datos experimentales; no se eliminar√°n los nulos salvo casos muy incompletos.
- **Duplicados**: La variable `Ref.CSIC` se usar√° como clave primaria. Cualquier duplicado para esta variable ser√° eliminado.
- **Variables string**: Muchas columnas num√©ricas son en realidad etiquetas (ej: `Ref.UE`, `Centro`). NO deben usarse para an√°lisis estadisticos multivariable.
- **Normalizaci√≥n**: `Nombre centro IP` contiene etiquetas distintas para el mismo centro; debe normalizarse usando `Centro` como referencia.

## Contenido:
1. Carga y exploraci√≥n inicial
2. Identificaci√≥n de tipos de variables
3. Limpieza de duplicados (Ref.CSIC)
4. Normalizaci√≥n de nombres de centros
5. Conversi√≥n de tipos de datos
6. Procesamiento de fechas
7. An√°lisis de valores nulos (sin eliminar)
8. Exportaci√≥n de datos limpios

In [28]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## 1. Carga de Datos

In [29]:
#carga de datos desde hoja excel
df = pd.read_excel(
    '../data/9PM_bootcamp1.xlsx',
    dtype={'Centro': str, 'Ref.UE': str}
)

print(f"üìÅ Datos cargados: {df.shape[0]} filas (proyectos) y {df.shape[1]} columnas")
print(f"\nüìã Columnas encontradas:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2d}. {col}")



üìÅ Datos cargados: 719 filas (proyectos) y 20 columnas

üìã Columnas encontradas:
   1. Ref.CSIC
   2. Ref.UE
   3. Situaci√≥n
   4. Programa
   5. Acci√≥n clave
   6. T√≠tulo
   7. Comienzo
   8. Final
   9. Duraci√≥n (meses)
  10. Concedido
  11. CSIC
  12. Espa√±a (no CSIC)
  13. Total (Csic, Esp. y otros)
  14. C√≥d.√°rea
  15. Acr√≥nimo del proyecto
  16. Convocatoria
  17. Centro
  18. Nombre Centro IP
  19. Resumen
  20. Keywords


# 2. Renombrar variables ambiguas

Se renombrar√°n las siguientes variables, actualmente con nombres ambiguos, para mayor claridad:

| **Variable Original** | **Nuevo Nombre** |
|----------------------|------------------|
| `Concedido` | `Importe Concedido` |
| `CSIC` | `Participantes CSIC` |
| `Espa√±a (no CSIC)` | `Participantes Espa√±a (no CSIC)` |
| `Total (Csic, Esp. y otros)` | `Total Participantes` |





In [30]:

renombres = {
    'Concedido': 'Importe Concedido',
    'CSIC': 'Participantes CSIC',
    'Espa√±a (no CSIC)': 'Participantes Espa√±a (no CSIC)',
    'Total (Csic, Esp. y otros)': 'Total Participantes'
}

# Aplicar renombres
df = df.rename(columns=renombres)

print ("Nombres de variables actualizadas:")
# Mostrar confirmaci√≥n de cambios
for original, nuevo in renombres.items():
    if original in df.columns or nuevo in df.columns:
        print(f"   ‚úÖ '{original}' ‚Üí '{nuevo}'")


# Verificar nuevos nombres
print("\nüìã VARIABLES RENOMBRADAS DISPONIBLES:")
for nuevo_nombre in renombres.values():
    if nuevo_nombre in df.columns:
        print(f"   ‚úì {nuevo_nombre}")

Nombres de variables actualizadas:
   ‚úÖ 'Concedido' ‚Üí 'Importe Concedido'
   ‚úÖ 'CSIC' ‚Üí 'Participantes CSIC'
   ‚úÖ 'Espa√±a (no CSIC)' ‚Üí 'Participantes Espa√±a (no CSIC)'
   ‚úÖ 'Total (Csic, Esp. y otros)' ‚Üí 'Total Participantes'

üìã VARIABLES RENOMBRADAS DISPONIBLES:
   ‚úì Importe Concedido
   ‚úì Participantes CSIC
   ‚úì Participantes Espa√±a (no CSIC)
   ‚úì Total Participantes


## 3. Clasificaci√≥n de Variables

El dataset contiene variables de distinto tipo: identificadores, variables categ√≥ricas, descriptivas... y solo algunas num√©ricas. Es necesario clasificarlas correctamente y tener en cuenta esta clasificaci√≥n para su an√°lisis.


In [31]:
# Definir clasificaci√≥n de variables seg√∫n su funci√≥n REAL en datos administrativos
variables_config = {
    'identificadores': ['Ref.CSIC', 'Ref.UE', 'Acr√≥nimo del proyecto'],  # C√≥digos √∫nicos
    'categoricas': ['Situaci√≥n', 'Programa', 'Acci√≥n clave', 'Convocatoria', 'C√≥d.√°rea','Centro', 'Nombre Centro IP'],  # Variables categ√≥ricas
    'descriptivas': ['T√≠tulo', 'Resumen', 'Keywords'],  # Texto libre para b√∫squeda
    'numericas': ['Importe Concedido','Duraci√≥n (meses)',  'Participantes CSIC', 'Participantes Espa√±a (no CSIC)', 'Total Participantes'], 
    'temporales': ['Comienzo', 'Final'],  # Fechas
}

print("üìä CLASIFICACI√ìN DE VARIABLES SEG√öN TIPO:")
print("=" * 80)
for tipo, cols in variables_config.items():
    print(f"\nüîπ {tipo.upper()}:")
    for col in cols:
        if col in df.columns:
            print(f"   ‚úì {col}")
        else:
            print(f"   ‚úó {col} (no encontrada)")

# Verificar si hay columnas no clasificadas
columnas_no_clasificadas = set(df.columns) - {col for cols in variables_config.values() for col in cols}
if columnas_no_clasificadas:
    print(f"\n‚ö†Ô∏è COLUMNAS NO CLASIFICADAS:")
    for col in columnas_no_clasificadas:
        print(f"   ? {col}")

üìä CLASIFICACI√ìN DE VARIABLES SEG√öN TIPO:

üîπ IDENTIFICADORES:
   ‚úì Ref.CSIC
   ‚úì Ref.UE
   ‚úì Acr√≥nimo del proyecto

üîπ CATEGORICAS:
   ‚úì Situaci√≥n
   ‚úì Programa
   ‚úì Acci√≥n clave
   ‚úì Convocatoria
   ‚úì C√≥d.√°rea
   ‚úì Centro
   ‚úì Nombre Centro IP

üîπ DESCRIPTIVAS:
   ‚úì T√≠tulo
   ‚úì Resumen
   ‚úì Keywords

üîπ NUMERICAS:
   ‚úì Importe Concedido
   ‚úì Duraci√≥n (meses)
   ‚úì Participantes CSIC
   ‚úì Participantes Espa√±a (no CSIC)
   ‚úì Total Participantes

üîπ TEMPORALES:
   ‚úì Comienzo
   ‚úì Final


Veamos el Data type de cada variable:

In [32]:
# Informaci√≥n detallada del dataset
print("üìã INFORMACI√ìN DEL DATASET:")
print("=" * 70)
df.info()

üìã INFORMACI√ìN DEL DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 719 entries, 0 to 718
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Ref.CSIC                        695 non-null    object 
 1   Ref.UE                          694 non-null    object 
 2   Situaci√≥n                       695 non-null    object 
 3   Programa                        692 non-null    object 
 4   Acci√≥n clave                    692 non-null    object 
 5   T√≠tulo                          695 non-null    object 
 6   Comienzo                        691 non-null    object 
 7   Final                           691 non-null    object 
 8   Duraci√≥n (meses)                690 non-null    float64
 9   Importe Concedido               695 non-null    float64
 10  Participantes CSIC              693 non-null    float64
 11  Participantes Espa√±a (no CSIC)  693 non-null    float64
 12  


Para evitar errores, es preferible modificar el tipo de dato para las variables num√©ricas.

| **Variable** | **Tipo Actual** | **Tipo Objetivo** |
|-------------|----------------|-------------------|
| `Duraci√≥n (meses)` | `float64` | `int64` |
| `Importe Concedido` | `float64` | `float64` (Se mantiene igual)|
| `Participantes CSIC` | `float64` | `int64` |
| `Participantes Espa√±a (no CSIC)` | `float64` | `int64` |
| `Total Participantes` | `float64` | `int64` |
| `C√≥d.√°rea` | `float64` | `object` C√≥digo identificador, no es variable num√©rica|



> **‚ö†Ô∏è Nota importante**: Aunque `Centro` y `C√≥d.√°rea` contengan n√∫meros, representan c√≥digos identificadores y deben tratarse como texto para evitar operaciones matem√°ticas incorrectas.


In [33]:

# 1. Variables enteras (sin decimales)
variables_enteras = ['Duraci√≥n (meses)', 'Participantes CSIC', 'Participantes Espa√±a (no CSIC)', 'Total Participantes']

for var in variables_enteras:
    if var in df.columns:
        df[var] = df[var].astype('Int64')  # Int64 permite valores nulos
        print(f"   ‚úÖ {var} ‚Üí int64")

# 2. Variables que son c√≥digos identificadores (C√≥d.√°rea)

if 'C√≥d.√°rea' in df.columns:
    df['C√≥d.√°rea'] = pd.to_numeric(df['C√≥d.√°rea'], errors='coerce').astype('Int64')
    df['C√≥d.√°rea'] = df['C√≥d.√°rea'].astype(str).replace('<NA>', pd.NA)
    print(f"   ‚úÖ C√≥d.√°rea ‚Üí int64 ‚Üí object (c√≥digo identificador)")

# 3. Importe Concedido se mantiene como float64
print(f"   ‚úÖ Importe Concedido ‚Üí float64 (se mantiene)")

print("\nüìä Verificaci√≥n de tipos de datos:")
tipos_relevantes = ['Duraci√≥n (meses)', 'Importe Concedido', 'Participantes CSIC', 
                   'Participantes Espa√±a (no CSIC)', 'Total Participantes', 'Centro', 'C√≥d.√°rea']

for var in tipos_relevantes:
    if var in df.columns:
        print(f"   {var}: {df[var].dtype}")


   ‚úÖ Duraci√≥n (meses) ‚Üí int64
   ‚úÖ Participantes CSIC ‚Üí int64
   ‚úÖ Participantes Espa√±a (no CSIC) ‚Üí int64
   ‚úÖ Total Participantes ‚Üí int64
   ‚úÖ C√≥d.√°rea ‚Üí int64 ‚Üí object (c√≥digo identificador)
   ‚úÖ Importe Concedido ‚Üí float64 (se mantiene)

üìä Verificaci√≥n de tipos de datos:
   Duraci√≥n (meses): Int64
   Importe Concedido: float64
   Participantes CSIC: Int64
   Participantes Espa√±a (no CSIC): Int64
   Total Participantes: Int64
   Centro: object
   C√≥d.√°rea: object


Ahora veamos si los cambios se han aplicado correctamente:

In [34]:
# Vista previa de datos
print("üîç PRIMERAS FILAS DEL DATASET:")
print("=" * 70)
display(df.head())

print("\nüìä INFORMACI√ìN B√ÅSICA:")
print(f"Total proyectos: {len(df)}")

üîç PRIMERAS FILAS DEL DATASET:


Unnamed: 0,Ref.CSIC,Ref.UE,Situaci√≥n,Programa,Acci√≥n clave,T√≠tulo,Comienzo,Final,Duraci√≥n (meses),Importe Concedido,Participantes CSIC,Participantes Espa√±a (no CSIC),Total Participantes,C√≥d.√°rea,Acr√≥nimo del proyecto,Convocatoria,Centro,Nombre Centro IP,Resumen,Keywords
0,EUROHPC/1238,101196247,VIGENTE,JOINT UNDERTAKING,JOINT UNDERTAKING,Europe-India Partnership for Scientific High-P...,01/02/2025,31/01/2028,36,302687.5,1,2,10,8903,GANANA,HORIZON-EUROHPC-JU-2023-INCO-06-01,30102,GEOCIENCIAS BARCELONA,HIGH-PERFORMANCE COMPUTING (HPC) IS A MAJOR EN...,
1,HE/CBE/0653,101214822,VIGENTE,JOINT UNDERTAKING,JOINT UNDERTAKING,Bio-based in Soil applications with Optimal bi...,01/09/2025,31/08/2029,48,273837.5,1,6,16,8908,SOUL,HORIZON-JU-CBE-2024,20401,INSTO. CATALISIS Y PETROLEOQUIMICA,THE USE OF PLASTIC PRODUCTS HAS INCREASED SIGN...,IMPROVED CONTROLLED BIODEGRADABILIY; IMPROVED ...
2,HE/CBE/0653,101214822,VIGENTE,JOINT UNDERTAKING,JOINT UNDERTAKING,Bio-based in Soil applications with Optimal bi...,01/09/2025,31/08/2029,48,273837.5,1,6,16,8908,SOUL,HORIZON-JU-CBE-2024,20401,INSTO. CATALISIS Y PETROLEOQUIMICA,THE USE OF PLASTIC PRODUCTS HAS INCREASED SIGN...,IMPROVED CONTROLLED BIODEGRADABILIY; IMPROVED ...
3,HE/CLEANH2/0431,101137792,VIGENTE,JTI-CLEANH2,JTI-CLEANH2,A novel multi-stage steam gasification and syn...,01/01/2024,31/12/2027,48,220047.5,1,10,16,8908,HYIELD,HORIZON-JTI-CLEANH2-2023-1,20403,INSTO. CARBOQUIMICA,EUROPE FACES THE JOINT CHALLENGE OF DECARBONIS...,
4,HE/CLEANH2/0571,101137756,VIGENTE,JTI-CLEANH2,JTI-CLEANH2,Carbon-negative pressurized hydrogen productio...,01/10/2024,30/09/2028,48,224156.25,0,0,0,8908,CARMA-H2,HORIZON-JTI-CLEANH2-2023-1,20166,INSTO. TECNOLOGIA QUIMICA,CARMA-H2 WILL ENABLE HIGHLY ATTRACTIVE HYDROGE...,CARBON NEGATIVE ELECTROCHEMICAL HYDROGEN PRODU...



üìä INFORMACI√ìN B√ÅSICA:
Total proyectos: 719


Ahora las variables num√©ricas tienen el formato correcto

## 4. Eliminaci√≥n de Duplicados

Al reflejar cada registro un proyecto individual, los campos que actuan como clave (`Ref. CSIC`, `Ref. UE`, `Acr√≥nimo del proyecto`) no deber√≠an repetirse. A continuaci√≥n se detectan y eliminan posibles duplicados en base a `Ref.CSIC` (anteriormente se eliminan los nulos).

In [35]:
# Eliminar filas con Ref.CSIC nulo
print("üßπ ELIMINACI√ìN DE NULOS Y DUPLICADOS EN Ref.CSIC")
print("=" * 60)

# 1. Eliminar filas donde Ref.CSIC es nulo
filas_antes = len(df)
df = df.dropna(subset=['Ref.CSIC'])
filas_despues_nulos = len(df)
nulos_eliminados = filas_antes - filas_despues_nulos

print(f"‚úÖ Filas con Ref.CSIC nulo eliminadas: {nulos_eliminados}")

# 2. Eliminar duplicados por Ref.CSIC (mantener primera ocurrencia)
df = df.drop_duplicates(subset=['Ref.CSIC'], keep='first')
filas_final = len(df)
duplicados_eliminados = filas_despues_nulos - filas_final

print(f"‚úÖ Duplicados por Ref.CSIC eliminados: {duplicados_eliminados}")
print(f"üìä Dataset final: {filas_final} proyectos √∫nicos")



üßπ ELIMINACI√ìN DE NULOS Y DUPLICADOS EN Ref.CSIC
‚úÖ Filas con Ref.CSIC nulo eliminadas: 24
‚úÖ Duplicados por Ref.CSIC eliminados: 1
üìä Dataset final: 694 proyectos √∫nicos


## 5. Normalizaci√≥n de Nombres de Centros

**CR√çTICO**: `nombre centro IP` puede tener variaciones (abreviaturas).  
Normalizar usando `Centro` (c√≥digo) como referencia.

In [38]:
# Explorar relaci√≥n Centro - nombre centro IP
if 'Centro' in df.columns and 'Nombre Centro IP' in df.columns:
    print("üîç AN√ÅLISIS DE NOMBRES DE CENTROS:")
    print("=" * 70)
    
    # Agrupar por c√≥digo de centro y ver variaciones de nombres
    centro_nombres = df.groupby('Centro')['Nombre Centro IP'].unique()
    
    # Detectar centros con m√∫ltiples nombres
    centros_multiples = {centro: nombres for centro, nombres in centro_nombres.items() 
                         if len(nombres) > 1}
    
    if centros_multiples:
        print(f"\n‚ö†Ô∏è Se encontraron {len(centros_multiples)} centros con m√∫ltiples variaciones de nombre:")
        for centro, nombres in list(centros_multiples.items())[:10]:  # Mostrar primeros 10
            print(f"\n  Centro c√≥digo: {centro}")
            for nombre in nombres:
                print(f"    - {nombre}")
    else:
        print("‚úÖ No se encontraron variaciones en nombres de centros")

üîç AN√ÅLISIS DE NOMBRES DE CENTROS:
‚úÖ No se encontraron variaciones en nombres de centros


In [39]:
# Normalizar nombres de centros usando el nombre m√°s frecuente por c√≥digo
if 'Centro' in df.columns and 'Nombre Centro IP' in df.columns:
    # Crear mapeo: c√≥digo centro ‚Üí nombre m√°s frecuente
    centro_nombre_map = {}
    
    for centro in df['Centro'].unique():
        if pd.notna(centro):
            # Obtener nombre m√°s frecuente para este centro
            nombres = df[df['Centro'] == centro]['Nombre Centro IP']
            nombre_frecuente = nombres.mode()[0] if len(nombres.mode()) > 0 else nombres.iloc[0]
            centro_nombre_map[centro] = nombre_frecuente
    
    # Aplicar normalizaci√≥n
    df['Nombre Centro IP Normalizado'] = df['Centro'].map(centro_nombre_map)
    
    # Contar cambios
    cambios = (df['Nombre Centro IP'] != df['Nombre Centro IP Normalizado']).sum()
    print(f"\n‚úÖ Normalizaci√≥n completada:")
    print(f"   Total de registros con nombre normalizado: {cambios}")
    print(f"   Centros √∫nicos: {df['Nombre Centro IP Normalizado'].nunique()}")

    # Mostrar ejemplo de normalizaci√≥n
    if cambios > 0:
        print("\nüìä Ejemplos de normalizaci√≥n:")
        ejemplos = df[df['Nombre Centro IP'] != df['Nombre Centro IP Normalizado']][
            ['Centro', 'Nombre Centro IP', 'Nombre Centro IP Normalizado']
        ].head(5)
        display(ejemplos)


‚úÖ Normalizaci√≥n completada:
   Total de registros con nombre normalizado: 0
   Centros √∫nicos: 118


## 6. Conversi√≥n de Variables temporales

Modificar el tipo de dato de las variables temporales para asegurarse de que tengan el tipo correcto

In [40]:
# Convertir variables temporales a formato datetime
print("üóìÔ∏è CONVERSI√ìN DE VARIABLES TEMPORALES:")
print("=" * 60)

# Variables temporales a convertir
variables_temporales = ['Comienzo', 'Final']

for var in variables_temporales:
    if var in df.columns:
        # Convertir a datetime
        df[var] = pd.to_datetime(df[var], errors='coerce')
        print(f"   ‚úÖ {var} ‚Üí datetime64[ns]")

# Verificar conversi√≥n
print("\nüìä Verificaci√≥n de tipos de datos temporales:")
for var in variables_temporales:
    if var in df.columns:
        print(f"   {var}: {df[var].dtype}")
        # Mostrar rango de fechas
        fecha_min = df[var].min()
        fecha_max = df[var].max()
        print(f"     Rango: {fecha_min} a {fecha_max}")

print("\n‚úÖ Conversi√≥n de variables temporales completada")

üóìÔ∏è CONVERSI√ìN DE VARIABLES TEMPORALES:
   ‚úÖ Comienzo ‚Üí datetime64[ns]
   ‚úÖ Final ‚Üí datetime64[ns]

üìä Verificaci√≥n de tipos de datos temporales:
   Comienzo: datetime64[ns]
     Rango: 2021-01-01 00:00:00 a 2026-01-09 00:00:00
   Final: datetime64[ns]
     Rango: 2022-12-31 00:00:00 a 2034-05-31 00:00:00

‚úÖ Conversi√≥n de variables temporales completada


## 7. Limpieza de Strings

Eliminar espacios y normalizar formato

In [41]:
# Limpiar columnas de texto
text_columns = df.select_dtypes(include=['object']).columns

for col in text_columns:
    if col in df.columns and df[col].dtype == 'object':
        # Eliminar espacios al inicio y final
        df[col] = df[col].str.strip()
        # Reemplazar m√∫ltiples espacios por uno solo
        df[col] = df[col].str.replace(r'\s+', ' ', regex=True)

print(f"‚úÖ Limpieza de {len(text_columns)} columnas de texto completada")

‚úÖ Limpieza de 14 columnas de texto completada


## 8. Variables Derivadas: Transformar Areas Cient√≠ficas antiguas a nuevas

La variable `C√≥d.√Årea` hace referencia a las antiguas √°reas cient√≠ficas del CSIC. Se transformar√°n a las nuevas categor√≠as: Vida, Materia y Sociedad (incluyendo tambien las categor√≠as Central y Desconocido).

In [49]:
# Cargar el diccionario de √°reas desde el archivo maestros
areas_dict = pd.read_excel('../data/maestros.xlsx', sheet_name='Hoja1')

print("üîç DICCIONARIO DE √ÅREAS CIENT√çFICAS:")
print("=" * 50)
display(areas_dict.head())

# Convertir C√≥d.√°rea a string para hacer el mapeo (ambas columnas deben ser del mismo tipo)
areas_dict['C√≥d.√°rea'] = areas_dict['C√≥d.√°rea'].astype(str)

# Crear el mapeo de c√≥digo antiguo a nueva categor√≠a
codigo_a_categoria = dict(zip(areas_dict['C√≥d.√°rea'], areas_dict['Area']))

print(f"\nüìä MAPEO DE TRANSFORMACI√ìN:")
print("C√≥d.√°rea ‚Üí Area")
for codigo, categoria in list(codigo_a_categoria.items())[:10]:  # Mostrar primeros 10
    print(f"  {codigo} ‚Üí {categoria}")

# Transformar la variable C√≥d.√°rea a las nuevas categor√≠as
# IMPORTANTE: La nueva variable se llama 'Area' (sin tilde)
df['Area'] = df['C√≥d.√°rea'].map(codigo_a_categoria)

# Verificar la transformaci√≥n
print(f"\n‚úÖ TRANSFORMACI√ìN COMPLETADA:")
print(f"   Total c√≥digos √∫nicos originales: {df['C√≥d.√°rea'].nunique()}")
print(f"   Total categor√≠as nuevas: {df['Area'].nunique()}")

# Mostrar distribuci√≥n de nuevas categor√≠as
print(f"\nüìà DISTRIBUCI√ìN POR NUEVA CATEGOR√çA:")
distribucion = df['Area'].value_counts()
for categoria, count in distribucion.items():
    print(f"   {categoria}: {count} proyectos")

# Verificar si hay c√≥digos sin mapear
sin_mapear = df[df['Area'].isna()]['C√≥d.√°rea'].unique()
if len(sin_mapear) > 0:
    print(f"\n‚ö†Ô∏è C√ìDIGOS SIN MAPEAR: {sin_mapear}")
    print(f"   Total registros sin mapear: {df['Area'].isna().sum()}")

print(f"\nüîç VISTA PREVIA DEL DATASET CON NUEVA VARIABLE:")
print("=" * 70)
display(df[['Ref.CSIC', 'T√≠tulo', 'C√≥d.√°rea', 'Area', 'Centro']].head())

üîç DICCIONARIO DE √ÅREAS CIENT√çFICAS:


Unnamed: 0,C√≥d.√°rea,Area
0,8901,SOCIEDAD
1,8902,VIDA
2,8903,VIDA
3,8904,VIDA
4,8905,MATERIA



üìä MAPEO DE TRANSFORMACI√ìN:
C√≥d.√°rea ‚Üí Area
  8901 ‚Üí SOCIEDAD
  8902 ‚Üí VIDA
  8903 ‚Üí VIDA
  8904 ‚Üí VIDA
  8905 ‚Üí MATERIA
  8906 ‚Üí MATERIA
  8907 ‚Üí VIDA
  8908 ‚Üí MATERIA
  8909 ‚Üí CENTRAL
  8900 ‚Üí DESCONOCIDO

‚úÖ TRANSFORMACI√ìN COMPLETADA:
   Total c√≥digos √∫nicos originales: 10
   Total categor√≠as nuevas: 5

üìà DISTRIBUCI√ìN POR NUEVA CATEGOR√çA:
   VIDA: 314 proyectos
   MATERIA: 244 proyectos
   DESCONOCIDO: 98 proyectos
   SOCIEDAD: 36 proyectos
   CENTRAL: 2 proyectos

üîç VISTA PREVIA DEL DATASET CON NUEVA VARIABLE:


Unnamed: 0,Ref.CSIC,T√≠tulo,C√≥d.√°rea,Area,Centro
0,EUROHPC/1238,Europe-India Partnership for Scientific High-P...,8903,VIDA,30102
1,HE/CBE/0653,Bio-based in Soil applications with Optimal bi...,8908,MATERIA,20401
3,HE/CLEANH2/0431,A novel multi-stage steam gasification and syn...,8908,MATERIA,20403
4,HE/CLEANH2/0571,Carbon-negative pressurized hydrogen productio...,8908,MATERIA,20166
5,HE/CLEANH2/0576,DIAGNOSTIC TOOLS AND RISK PROTOCOLS TO ACCELER...,8903,VIDA,30502


## 8. Creaci√≥n de Variables Derivadas

Extraer informaci√≥n adicional √∫til para an√°lisis

In [16]:
# Extraer informaci√≥n temporal
if 'Comienzo' in df.columns and pd.api.types.is_datetime64_any_dtype(df['Comienzo']):
    df['A√±o Inicio'] = df['Comienzo'].dt.year
    df['Mes Inicio'] = df['Comienzo'].dt.month
    df['A√±o Inicio (string)'] = df['A√±o Inicio'].astype(str)
    print("‚úÖ Variables temporales creadas (A√±o Inicio, Mes Inicio)")

if 'Final' in df.columns and pd.api.types.is_datetime64_any_dtype(df['Final']):
    df['A√±o Fin'] = df['Final'].dt.year
    print("‚úÖ A√±o Fin creado")

# Calcular presupuesto por mes
if 'Concedido' in df.columns and 'Duraci√≥n(meses)' in df.columns:
    df['Presupuesto Mensual'] = df.apply(
        lambda row: row['Concedido'] / row['Duraci√≥n(meses)'] 
        if pd.notna(row['Duraci√≥n(meses)']) and row['Duraci√≥n(meses)'] > 0 
        else np.nan, 
        axis=1
    )
    print("‚úÖ Presupuesto Mensual calculado")

# Categorizar duraci√≥n de proyectos
if 'Duraci√≥n(meses)' in df.columns:
    def categorizar_duracion(meses):
        if pd.isna(meses):
            return 'Sin especificar'
        elif meses <= 12:
            return 'Corto (‚â§12 meses)'
        elif meses <= 36:
            return 'Medio (13-36 meses)'
        else:
            return 'Largo (>36 meses)'
    
    df['Categor√≠a Duraci√≥n'] = df['Duraci√≥n(meses)'].apply(categorizar_duracion)
    print("‚úÖ Categor√≠a Duraci√≥n creada")

# Categorizar presupuesto
if 'Concedido' in df.columns:
    def categorizar_presupuesto(cantidad):
        if pd.isna(cantidad):
            return 'Sin especificar'
        elif cantidad < 100000:
            return 'Peque√±o (<100K)'
        elif cantidad < 500000:
            return 'Medio (100K-500K)'
        elif cantidad < 1000000:
            return 'Grande (500K-1M)'
        else:
            return 'Muy Grande (>1M)'
    
    df['Categor√≠a Presupuesto'] = df['Concedido'].apply(categorizar_presupuesto)
    print("‚úÖ Categor√≠a Presupuesto creada")

print("\n‚úÖ Todas las variables derivadas creadas exitosamente")

‚úÖ Variables temporales creadas (A√±o Inicio, Mes Inicio)
‚úÖ A√±o Fin creado
‚úÖ Categor√≠a Presupuesto creada

‚úÖ Todas las variables derivadas creadas exitosamente


## 9. Resumen Final del Preprocesado

In [17]:
# Resumen completo del dataset preprocesado
print("=" * 80)
print("üìä RESUMEN FINAL DEL DATASET PREPROCESADO")
print("=" * 80)

print(f"\nüìÅ DIMENSIONES:")
print(f"   Total de proyectos: {df.shape[0]:,}")
print(f"   Total de variables: {df.shape[1]}")

print(f"\nüìÖ PER√çODO TEMPORAL:")
if 'Comienzo' in df.columns:
    print(f"   Primer proyecto: {df['Comienzo'].min()}")
    print(f"   √öltimo proyecto: {df['Final'].max() if 'Final' in df.columns else 'N/A'}")

print(f"\nüí∞ PRESUPUESTO:")
if 'Concedido' in df.columns:
    print(f"   Total concedido: {df['Concedido'].sum():,.2f} ‚Ç¨")
    print(f"   Promedio por proyecto: {df['Concedido'].mean():,.2f} ‚Ç¨")

print(f"\nüèõÔ∏è PARTICIPACI√ìN:")
if 'CSIC' in df.columns:
    print(f"   Centros CSIC participantes: {df['CSIC'].sum()}")
if 'Espa√±a (no CSIC)' in df.columns:
    print(f"   Centros espa√±oles (no CSIC): {df['Espa√±a (no CSIC)'].sum()}")

print(f"\nüìä PROGRAMAS:")
if 'programa' in df.columns:
    print(f"   Programas √∫nicos: {df['programa'].nunique()}")
    print(f"   Top 3 programas:")
    for i, (prog, count) in enumerate(df['programa'].value_counts().head(3).items(), 1):
        print(f"      {i}. {prog}: {count} proyectos")

print(f"\n‚ö†Ô∏è VALORES NULOS:")
print(f"   Total: {df.isnull().sum().sum():,} valores nulos")
print(f"   Nota: Los nulos NO han sido eliminados (datos administrativos)")

print(f"\n‚úÖ TRANSFORMACIONES APLICADAS:")
print(f"   ‚úì Duplicados por Ref.CSIC eliminados")
print(f"   ‚úì Nombres de centros normalizados")
print(f"   ‚úì Tipos de datos convertidos correctamente")
print(f"   ‚úì Variables derivadas creadas")

print("\n" + "=" * 80)

üìä RESUMEN FINAL DEL DATASET PREPROCESADO

üìÅ DIMENSIONES:
   Total de proyectos: 719
   Total de variables: 25

üìÖ PER√çODO TEMPORAL:
   Primer proyecto: 2021-01-01 00:00:00
   √öltimo proyecto: 2034-05-31 00:00:00

üí∞ PRESUPUESTO:
   Total concedido: 336,698,452.57 ‚Ç¨
   Promedio por proyecto: 484,458.21 ‚Ç¨

üèõÔ∏è PARTICIPACI√ìN:
   Centros CSIC participantes: 305.0
   Centros espa√±oles (no CSIC): 453.0

üìä PROGRAMAS:

‚ö†Ô∏è VALORES NULOS:
   Total: 1,107 valores nulos
   Nota: Los nulos NO han sido eliminados (datos administrativos)

‚úÖ TRANSFORMACIONES APLICADAS:
   ‚úì Duplicados por Ref.CSIC eliminados
   ‚úì Nombres de centros normalizados
   ‚úì Tipos de datos convertidos correctamente
   ‚úì Variables derivadas creadas



## 10. Exportaci√≥n de Datos Limpios

In [18]:
# Guardar dataset preprocesado
df.to_csv('../data/9PM_bootcamp_clean.csv', index=False, encoding='utf-8')
df.to_excel('../data/9PM_bootcamp_clean.xlsx', index=False)

print("‚úÖ Datos exportados exitosamente:")
print("   üìÅ ../data/9PM_bootcamp_clean.csv")
print("   üìÅ ../data/9PM_bootcamp_clean.xlsx")
print(f"\nüìä Total de proyectos exportados: {len(df):,}")

‚úÖ Datos exportados exitosamente:
   üìÅ ../data/9PM_bootcamp_clean.csv
   üìÅ ../data/9PM_bootcamp_clean.xlsx

üìä Total de proyectos exportados: 719
