# PROYECTO 1 - EDA: Inversi√≥n en I+D en Espa√±a

## 1. Introducci√≥n

### 1.1 Contexto

La **Investigaci√≥n y Desarrollo (I+D)** es un indicador fundamental del desarrollo cient√≠fico, tecnol√≥gico y econ√≥mico de un pa√≠s. Representa la inversi√≥n en conocimiento, innovaci√≥n y competitividad a largo plazo.

Espa√±a, como miembro de la Uni√≥n Europea, ha experimentado fluctuaciones significativas en su inversi√≥n en I+D durante las √∫ltimas d√©cadas, especialmente influenciadas por:
- La **crisis financiera de 2008**, que provoc√≥ recortes significativos en el gasto p√∫blico
- Las pol√≠ticas de **austeridad** implementadas entre 2010-2014
- La **recuperaci√≥n econ√≥mica** posterior y el impulso de fondos europeos
- El impacto de la **pandemia COVID-19** (2020-2021)

### 1.2 Objetivo del Proyecto

**Objetivo Principal:**
> Analizar la **evoluci√≥n temporal del gasto en Investigaci√≥n y Desarrollo (I+D) en Espa√±a durante el per√≠odo 2000-2024**, identificando tendencias, patrones y el impacto de eventos econ√≥micos relevantes.

**Objetivos Espec√≠ficos:**

1. **Evoluci√≥n del gasto total:**
   - Examinar la tendencia general del gasto en I+D (2000-2024)
   - Identificar per√≠odos de crecimiento, estancamiento y decrecimiento
   - Calcular tasas de crecimiento interanual

2. **An√°lisis sectorial:**
   - Analizar la distribuci√≥n del gasto por sectores ejecutores:
     - Administraci√≥n P√∫blica
     - Ense√±anza Superior (universidades)
     - Empresas (sector privado)
     - IPSFL (Instituciones Privadas Sin Fines de Lucro)
   - Identificar cambios en la composici√≥n sectorial a lo largo del tiempo

3. **Origen de los fondos:**
   - Comparar el origen de la financiaci√≥n (p√∫blico vs privado vs internacional)
   - Analizar la dependencia de fondos del "Resto del Mundo"
   - Evaluar la coherencia entre fondos disponibles y gastos ejecutados

4. **Impacto de eventos econ√≥micos:**
   - Cuantificar el efecto de la crisis financiera de 2008 en la I+D espa√±ola
   - Analizar la recuperaci√≥n del sector durante 2014-2024
   - Evaluar el impacto de la pandemia COVID-19

### 1.3 Preguntas de Investigaci√≥n

Este an√°lisis busca responder las siguientes preguntas:

- ¬øC√≥mo ha evolucionado el gasto en I+D en Espa√±a en las √∫ltimas dos d√©cadas?
- ¬øQu√© sector (p√∫blico o privado) lidera la inversi√≥n en I+D?
- ¬øCu√°l fue el impacto real de la crisis de 2008 en el gasto en I+D?
- ¬øSe ha recuperado la inversi√≥n en I+D a niveles pre-crisis?
- ¬øCu√°l es el papel de los fondos internacionales en el sistema espa√±ol de I+D?
- ¬øExisten diferencias entre d√≥nde se gastan los fondos y de d√≥nde provienen?

### 1.4 Fuente de Datos

**Organismo:** Instituto Nacional de Estad√≠stica (INE)  
**Fiabilidad:** Datos oficiales del Gobierno de Espa√±a  
**Cobertura temporal:** 1964-2024 (an√°lisis centrado en **2000-2024**)  
**Granularidad:** Datos agregados a nivel nacional por a√±o y sector  
**Unidad:** Miles de euros

**Datasets utilizados:**

| Dataset | Per√≠odo | URL | Descripci√≥n |
|---------|---------|-----|-------------|
| Gastos I+D (hist√≥rico) | 1964-2021 | [INE](https://www.ine.es/jaxi/Tabla.htm?tpx=76787&L=0) | Gasto ejecutado en I+D por sectores |
| Gastos I+D (reciente) | 2021-2024 | [INE](https://www.ine.es/jaxi/Tabla.htm?tpx=76743&L=0) | Gasto ejecutado en I+D por sectores |
| Fondos I+D (hist√≥rico) | 1981-2021 | [INE](https://www.ine.es/jaxi/Tabla.htm?tpx=76789&L=0) | Origen de los fondos destinados a I+D |
| Fondos I+D (reciente) | 2021-2024 | [INE](https://www.ine.es/jaxi/Tabla.htm?tpx=76745&L=0) | Origen de los fondos destinados a I+D |

### 1.5 Justificaci√≥n del Per√≠odo de An√°lisis (2000-2024)

Aunque disponemos de datos hist√≥ricos desde 1964, este an√°lisis se centra en el per√≠odo **2000-2024** por las siguientes razones:

‚úÖ **Relevancia contempor√°nea:**
- Proporciona una visi√≥n actualizada del sistema de I+D espa√±ol
- Los datos m√°s recientes son m√°s relevantes para pol√≠ticas actuales

‚úÖ **Ciclos econ√≥micos completos:**
- **2000-2008**: Expansi√≥n econ√≥mica y crecimiento de la I+D
- **2008-2014**: Crisis financiera, recesi√≥n y recortes presupuestarios
- **2014-2024**: Recuperaci√≥n econ√≥mica y nuevos desaf√≠os (pandemia)

‚úÖ **Homogeneidad metodol√≥gica:**
- Los datos del siglo XXI tienen criterios de medici√≥n m√°s consistentes
- Se evitan inconsistencias metodol√≥gicas de d√©cadas anteriores

‚úÖ **Perspectiva suficiente:**
- 25 a√±os permiten identificar tendencias a largo plazo
- Suficiente para an√°lisis temporal sin perder foco en la actualidad

## 2. Importacion de librerias.

In [18]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaci√≥n
pd.options.display.float_format = '{:.2f}'.format
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## 3. Carga de Datos

### 3.1 Lectura de archivos CSV

Los datos del INE est√°n distribuidos en cuatro archivos que cubren diferentes per√≠odos temporales. A continuaci√≥n, se cargan los datasets originales:

In [19]:
# Leemos los csvs y los guardamos en una variable.
df_gID_21_24 = pd.read_csv('../data/original/gastoI+D2021-2024.csv', sep='\t')
df_gID_64_21 = pd.read_csv('../data/original/gastoI+D1964-2021.csv', sep='\t')
df_fID_21_24 = pd.read_csv('../data/original/origenfondosI+D2021-2024.csv', sep='\t')
df_fID_64_21 = pd.read_csv('../data/original/origenfondosI+D1964-2021.csv', sep='\t')

print("‚úÖ Archivos CSV cargados correctamente")

‚úÖ Archivos CSV cargados correctamente


### 3.2 Verificaci√≥n de la carga de datasets

Verificamos que los datasets se han cargado correctamente y revisamos sus dimensiones:

In [20]:
print("="*70)
print("VERIFICACI√ìN Y ESTRUCTURA DE LOS DATASETS CARGADOS")
print("="*70)

datasets_originales = {
    'Gastos I+D (2021-2024)': df_gID_21_24,
    'Gastos I+D (1964-2021)': df_gID_64_21,
    'Fondos I+D (2021-2024)': df_fID_21_24,
    'Fondos I+D (1964-2021)': df_fID_64_21
}

for nombre, df in datasets_originales.items():
    print(f"\n{'='*70}")
    print(f"üìä {nombre}")
    print(f"{'='*70}")
    
    # Dimensiones
    print(f"\nüìê Dimensiones:")
    print(f"   Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}")
    
    # Columnas y tipos
    print(f"\nüìã Columnas y tipos de datos:")
    for col in df.columns:
        tipo = df[col].dtype
        valores_unicos = df[col].nunique()
        print(f"   ‚Ä¢ {col:30} ‚Üí {str(tipo):10} ({valores_unicos:,} valores √∫nicos)")
    
    # Muestra de datos
    print(f"\nüîç Primeras 3 filas:")
    display(df.head(3))

print(f"\n{'='*70}")
print("‚úÖ Verificaci√≥n completada")
print(f"{'='*70}")

VERIFICACI√ìN Y ESTRUCTURA DE LOS DATASETS CARGADOS

üìä Gastos I+D (2021-2024)

üìê Dimensiones:
   Filas: 36 | Columnas: 3

üìã Columnas y tipos de datos:
   ‚Ä¢ A√±os                           ‚Üí int64      (4 valores √∫nicos)
   ‚Ä¢ Sectores/unidad                ‚Üí object     (9 valores √∫nicos)
   ‚Ä¢ Total                          ‚Üí object     (32 valores √∫nicos)

üîç Primeras 3 filas:


Unnamed: 0,A√±os,Sectores/unidad,Total
0,2024,Total (miles de euros),"23.930.880,9"
1,2024,Administraci√≥n P√∫blica: Total (miles de euros),"4.564.778,7"
2,2024,Administraci√≥n P√∫blica: %,191



üìä Gastos I+D (1964-2021)

üìê Dimensiones:
   Filas: 531 | Columnas: 3

üìã Columnas y tipos de datos:
   ‚Ä¢ Sectores/unidad                ‚Üí object     (9 valores √∫nicos)
   ‚Ä¢ A√±os                           ‚Üí object     (59 valores √∫nicos)
   ‚Ä¢ Total                          ‚Üí object     (408 valores √∫nicos)

üîç Primeras 3 filas:


Unnamed: 0,Sectores/unidad,A√±os,Total
0,Total (miles de euros),1964,"10.054,9"
1,Total (miles de euros),1965,..
2,Total (miles de euros),1966,..



üìä Fondos I+D (2021-2024)

üìê Dimensiones:
   Filas: 36 | Columnas: 3

üìã Columnas y tipos de datos:
   ‚Ä¢ A√±os                           ‚Üí int64      (4 valores √∫nicos)
   ‚Ä¢ Sectores/unidad                ‚Üí object     (9 valores √∫nicos)
   ‚Ä¢ Total                          ‚Üí object     (34 valores √∫nicos)

üîç Primeras 3 filas:


Unnamed: 0,A√±os,Sectores/unidad,Total
0,2024,Total (miles de euros),23.930.881
1,2024,Administraci√≥n P√∫blica: Total (miles de euros),10.236.725
2,2024,Administraci√≥n P√∫blica: %,428



üìä Fondos I+D (1964-2021)

üìê Dimensiones:
   Filas: 378 | Columnas: 3

üìã Columnas y tipos de datos:
   ‚Ä¢ Origen de los fondos/unidad    ‚Üí object     (9 valores √∫nicos)
   ‚Ä¢ A√±os                           ‚Üí object     (42 valores √∫nicos)
   ‚Ä¢ Total                          ‚Üí object     (305 valores √∫nicos)

üîç Primeras 3 filas:


Unnamed: 0,Origen de los fondos/unidad,A√±os,Total
0,Total (miles de euros),1981,437.615
1,Total (miles de euros),1982,576.984
2,Total (miles de euros),1983,647.074



‚úÖ Verificaci√≥n completada


## 4. Preparaci√≥n de datos
### 4.1. Necesidad de unificaci√≥n
**Problema identificado:**
Los datos est√°n fragmentados en cuatro archivos con per√≠odos solapados (el a√±o 2021 aparece en ambos conjuntos), lo que dificulta el an√°lisis temporal continuo.

**Soluci√≥n:**
1. **Unificar** los datasets por categor√≠a (Gastos y Fondos)
2. **Eliminar duplicados** del a√±o 2021
3. **Filtrar** el per√≠odo de inter√©s (2000-2024)
4. **Normalizar** tipos de datos para el an√°lisis
### 4.2. Justificaci√≥n temporal
Como se mencion√≥ en la introducci√≥n, el an√°lisis se centra en el per√≠odo **2000-2024** porque:

‚úÖ **Relevancia contempor√°nea:**
- Proporciona una visi√≥n actualizada del sistema de I+D espa√±ol
- Los datos m√°s recientes son m√°s relevantes para pol√≠ticas actuales

‚úÖ **Ciclos econ√≥micos completos:**
- **2000-2008**: Expansi√≥n econ√≥mica y crecimiento de la I+D
- **2008-2014**: Crisis financiera, recesi√≥n y recortes presupuestarios
- **2014-2024**: Recuperaci√≥n econ√≥mica y nuevos desaf√≠os (pandemia)

‚úÖ **Homogeneidad metodol√≥gica:**
- Los datos del siglo XXI tienen criterios de medici√≥n m√°s consistentes
- Se evitan inconsistencias metodol√≥gicas de d√©cadas anteriores

‚úÖ **Perspectiva suficiente:**
- 25 a√±os permiten identificar tendencias a largo plazo
- Suficiente para an√°lisis temporal sin perder foco en la actualidad
### 4.3. Proceso de consolidaci√≥n
A continuaci√≥n se ejecuta el proceso completo de consolidaci√≥n en 4 pasos:

1. **Paso 1**: Unificar datasets de gastos (1964-2021 + 2021-2024)
2. **Paso 2**: Unificar datasets de fondos (1981-2021 + 2021-2024)
3. **Paso 3**: Filtrar per√≠odo temporal (2000-2024)
4. **Paso 4**: Crear diccionario de datasets finales para an√°lisis

In [21]:
print("="*70)
print("PROCESO DE CONSOLIDACI√ìN DE DATASETS")
print("="*70)

# -----------------------------------------------------------------------------
# PASO 1: UNIFICAR DATASETS DE GASTOS
# -----------------------------------------------------------------------------
print("\n" + "="*70)
print("PASO 1: UNIFICACI√ìN DE DATASETS DE GASTOS")
print("="*70)

print("\nüìå Objetivo: Crear un √∫nico dataset de gastos combinando:")
print("   - df_gID_64_21 (1964-2021)")
print("   - df_gID_21_24 (2021-2024)")

# Eliminar a√±o 2021 de df_gID_21_24 para evitar duplicados
print("\nüîß Eliminando a√±o 2021 de df_gID_21_24 para evitar duplicados...")
df_gID_21_24_sin2021 = df_gID_21_24[df_gID_21_24['A√±os'] != 2021].copy()
print(f"   Filas antes: {len(df_gID_21_24)} | Filas despu√©s: {len(df_gID_21_24_sin2021)}")

# Concatenar ambos datasets
print("\nüîó Concatenando datasets...")
df_gastos_completo = pd.concat([df_gID_64_21, df_gID_21_24_sin2021], ignore_index=True)
print(f"   ‚úÖ Dataset de gastos unificado: {df_gastos_completo.shape[0]:,} filas")

# Convertir columna 'A√±os' a num√©rico
print("\nüîß Convirtiendo columna 'A√±os' a tipo num√©rico...")
df_gastos_completo['A√±os'] = pd.to_numeric(df_gastos_completo['A√±os'], errors='coerce')
a√±os_unicos_gastos = sorted(df_gastos_completo['A√±os'].dropna().unique())
print(f"   ‚úÖ A√±os disponibles: {a√±os_unicos_gastos[0]:.0f} - {a√±os_unicos_gastos[-1]:.0f}")
print(f"   Total de a√±os √∫nicos: {len(a√±os_unicos_gastos)}")

PROCESO DE CONSOLIDACI√ìN DE DATASETS

PASO 1: UNIFICACI√ìN DE DATASETS DE GASTOS

üìå Objetivo: Crear un √∫nico dataset de gastos combinando:
   - df_gID_64_21 (1964-2021)
   - df_gID_21_24 (2021-2024)

üîß Eliminando a√±o 2021 de df_gID_21_24 para evitar duplicados...
   Filas antes: 36 | Filas despu√©s: 27

üîó Concatenando datasets...
   ‚úÖ Dataset de gastos unificado: 558 filas

üîß Convirtiendo columna 'A√±os' a tipo num√©rico...
   ‚úÖ A√±os disponibles: 1964 - 2024
   Total de a√±os √∫nicos: 61


In [22]:
# -----------------------------------------------------------------------------
# PASO 2: UNIFICAR DATASETS DE FONDOS
# -----------------------------------------------------------------------------
print("\n" + "="*70)
print("PASO 2: UNIFICACI√ìN DE DATASETS DE FONDOS")
print("="*70)

print("\nüìå Objetivo: Crear un √∫nico dataset de fondos combinando:")
print("   - df_fID_64_21 (1981-2021)")
print("   - df_fID_21_24 (2021-2024)")

# Renombrar columna para uniformidad
print("\nüîß Estandarizando nombres de columnas...")
df_fID_64_21_renamed = df_fID_64_21.rename(
    columns={'Origen de los fondos/unidad': 'Sectores/unidad'}
).copy()
print("   ‚úÖ Columna 'Origen de los fondos/unidad' ‚Üí 'Sectores/unidad'")

# Eliminar a√±o 2021 de df_fID_21_24
print("\nüîß Eliminando a√±o 2021 de df_fID_21_24...")
df_fID_21_24_sin2021 = df_fID_21_24[df_fID_21_24['A√±os'] != 2021].copy()
print(f"   Filas antes: {len(df_fID_21_24)} | Filas despu√©s: {len(df_fID_21_24_sin2021)}")

# Concatenar ambos datasets
print("\nüîó Concatenando datasets...")
df_fondos_completo = pd.concat([df_fID_64_21_renamed, df_fID_21_24_sin2021], ignore_index=True)
print(f"   ‚úÖ Dataset de fondos unificado: {df_fondos_completo.shape[0]:,} filas")

# Convertir columna 'A√±os' a num√©rico
print("\nüîß Convirtiendo columna 'A√±os' a tipo num√©rico...")
df_fondos_completo['A√±os'] = pd.to_numeric(df_fondos_completo['A√±os'], errors='coerce')
a√±os_unicos_fondos = sorted(df_fondos_completo['A√±os'].dropna().unique())
print(f"   ‚úÖ A√±os disponibles: {a√±os_unicos_fondos[0]:.0f} - {a√±os_unicos_fondos[-1]:.0f}")
print(f"   Total de a√±os √∫nicos: {len(a√±os_unicos_fondos)}")


PASO 2: UNIFICACI√ìN DE DATASETS DE FONDOS

üìå Objetivo: Crear un √∫nico dataset de fondos combinando:
   - df_fID_64_21 (1981-2021)
   - df_fID_21_24 (2021-2024)

üîß Estandarizando nombres de columnas...
   ‚úÖ Columna 'Origen de los fondos/unidad' ‚Üí 'Sectores/unidad'

üîß Eliminando a√±o 2021 de df_fID_21_24...
   Filas antes: 36 | Filas despu√©s: 27

üîó Concatenando datasets...
   ‚úÖ Dataset de fondos unificado: 405 filas

üîß Convirtiendo columna 'A√±os' a tipo num√©rico...
   ‚úÖ A√±os disponibles: 1981 - 2024
   Total de a√±os √∫nicos: 44


In [23]:
# -----------------------------------------------------------------------------
# PASO 3: FILTRAR PER√çODO 2000-2024
# -----------------------------------------------------------------------------
print("\n" + "="*70)
print("PASO 3: FILTRADO TEMPORAL (2000-2024)")
print("="*70)

print("\nüìå Objetivo: Acotar el an√°lisis al per√≠odo 2000-2024")

# Filtrar gastos
print("\nüîß Filtrando dataset de gastos...")
df_gastos_2000_2024 = df_gastos_completo[
    (df_gastos_completo['A√±os'] >= 2000) & 
    (df_gastos_completo['A√±os'] <= 2024)
].copy()
print(f"   Filas antes del filtro: {len(df_gastos_completo):,}")
print(f"   Filas despu√©s del filtro: {len(df_gastos_2000_2024):,}")
print(f"   ‚úÖ Gastos (2000-2024): {df_gastos_2000_2024.shape[0]:,} filas")

# Filtrar fondos
print("\nüîß Filtrando dataset de fondos...")
df_fondos_2000_2024 = df_fondos_completo[
    (df_fondos_completo['A√±os'] >= 2000) & 
    (df_fondos_completo['A√±os'] <= 2024)
].copy()
print(f"   Filas antes del filtro: {len(df_fondos_completo):,}")
print(f"   Filas despu√©s del filtro: {len(df_fondos_2000_2024):,}")
print(f"   ‚úÖ Fondos (2000-2024): {df_fondos_2000_2024.shape[0]:,} filas")


PASO 3: FILTRADO TEMPORAL (2000-2024)

üìå Objetivo: Acotar el an√°lisis al per√≠odo 2000-2024

üîß Filtrando dataset de gastos...
   Filas antes del filtro: 558
   Filas despu√©s del filtro: 225
   ‚úÖ Gastos (2000-2024): 225 filas

üîß Filtrando dataset de fondos...
   Filas antes del filtro: 405
   Filas despu√©s del filtro: 225
   ‚úÖ Fondos (2000-2024): 225 filas


In [24]:
# -----------------------------------------------------------------------------
# PASO 4: CREAR DICCIONARIO DE TRABAJO
# -----------------------------------------------------------------------------
print("\n" + "="*70)
print("PASO 4: DATASETS FINALES PARA AN√ÅLISIS")
print("="*70)

# Diccionario con los datasets filtrados
datasets = {
    'Gastos I+D (2000-2024)': df_gastos_2000_2024,
    'Fondos I+D (2000-2024)': df_fondos_2000_2024
}

print("\nüìä Datasets preparados:")
for nombre, df in datasets.items():
    a√±os_disponibles = sorted(df['A√±os'].unique())
    print(f"\n   {nombre}:")
    print(f"      Filas: {len(df):,}")
    print(f"      A√±os: {int(a√±os_disponibles[0])} - {int(a√±os_disponibles[-1])}")
    print(f"      Columnas: {df.columns.tolist()}")

print("\n" + "="*70)
print("‚úÖ CONSOLIDACI√ìN COMPLETADA")
print("="*70)
print("\nüìå Resultado:")
print(f"   ‚Ä¢ De 4 datasets originales ‚Üí 2 datasets consolidados")
print(f"   ‚Ä¢ Per√≠odo de an√°lisis: 2000-2024 (25 a√±os)")
print(f"   ‚Ä¢ Listo para exploraci√≥n y limpieza")


PASO 4: DATASETS FINALES PARA AN√ÅLISIS

üìä Datasets preparados:

   Gastos I+D (2000-2024):
      Filas: 225
      A√±os: 2000 - 2024
      Columnas: ['Sectores/unidad', 'A√±os', 'Total']

   Fondos I+D (2000-2024):
      Filas: 225
      A√±os: 2000 - 2024
      Columnas: ['Sectores/unidad', 'A√±os', 'Total']

‚úÖ CONSOLIDACI√ìN COMPLETADA

üìå Resultado:
   ‚Ä¢ De 4 datasets originales ‚Üí 2 datasets consolidados
   ‚Ä¢ Per√≠odo de an√°lisis: 2000-2024 (25 a√±os)
   ‚Ä¢ Listo para exploraci√≥n y limpieza


### 4.4. Verificaci√≥n de la consolidaci√≥n

In [25]:
# Visualizar primeras filas de los datasets consolidados
print("="*70)
print("PRIMERAS FILAS DE LOS DATASETS CONSOLIDADOS")
print("="*70)

print("\nüìä Gastos I+D (2000-2024):")
display(df_gastos_2000_2024.head(10))

print("\nüí∞ Fondos I+D (2000-2024):")
display(df_fondos_2000_2024.head(10))

PRIMERAS FILAS DE LOS DATASETS CONSOLIDADOS

üìä Gastos I+D (2000-2024):


Unnamed: 0,Sectores/unidad,A√±os,Total
36,Total (miles de euros),2000.0,"5.718.988,3"
37,Total (miles de euros),2001.0,"6.227.157,1"
39,Total (miles de euros),2002.0,7.193.538
40,Total (miles de euros),2003.0,"8.213.035,6"
41,Total (miles de euros),2004.0,"8.945.760,7"
42,Total (miles de euros),2005.0,10.196.871
43,Total (miles de euros),2006.0,"11.815.217,9"
44,Total (miles de euros),2007.0,"13.342.370,6"
45,Total (miles de euros),2008.0,"14.701.392,9"
46,Total (miles de euros),2009.0,"14.581.675,7"



üí∞ Fondos I+D (2000-2024):


Unnamed: 0,Sectores/unidad,A√±os,Total
19,Total (miles de euros),2000.0,5.718.988
20,Total (miles de euros),2001.0,6.227.157
22,Total (miles de euros),2002.0,7.193.538
23,Total (miles de euros),2003.0,8.213.036
24,Total (miles de euros),2004.0,8.945.761
25,Total (miles de euros),2005.0,10.196.871
26,Total (miles de euros),2006.0,11.815.218
27,Total (miles de euros),2007.0,13.342.371
28,Total (miles de euros),2008.0,14.701.393
29,Total (miles de euros),2009.0,14.581.676


### 4.5. Resumen de la preparaci√≥n

**Transformaciones aplicadas:**

| Transformaci√≥n | Dataset Gastos | Dataset Fondos |
|----------------|----------------|----------------|
| **Datasets originales combinados** | 2 (1964-2021 + 2021-2024) | 2 (1981-2021 + 2021-2024) |
| **Duplicados eliminados** | A√±o 2021 | A√±o 2021 |
| **Filtro temporal aplicado** | 2000-2024 | 2000-2024 |
| **Tipo de dato 'A√±os'** | Convertido a num√©rico | Convertido a num√©rico |
| **Nombres de columnas** | Mantenidos | Estandarizados |

**Datasets resultantes:**
- ‚úÖ **Gastos I+D (2000-2024)**: Listo para an√°lisis
- ‚úÖ **Fondos I+D (2000-2024)**: Listo para an√°lisis

**Estado de preparaci√≥n:**
- ‚úÖ Unificaci√≥n completada
- ‚úÖ Filtrado temporal aplicado
- ‚úÖ Columna 'A√±os' normalizada
- ‚ö†Ô∏è Pendiente: Limpieza de la columna 'Total' (formato num√©rico)
- ‚ö†Ô∏è Pendiente: Transformaci√≥n de formato largo a ancho

**Pr√≥ximos pasos:**
1. Evaluaci√≥n de calidad de datos (valores nulos, duplicados)
2. Limpieza y normalizaci√≥n de la columna 'Total'
3. Transformaci√≥n del formato para an√°lisis temporal
4. An√°lisis exploratorio y visualizaciones

## 5. Exploraci√≥n y Evaluaci√≥n de Calidad de Datos

En esta secci√≥n se realiza una **evaluaci√≥n exhaustiva de la calidad de los datos** consolidados, respondiendo a las preguntas clave del an√°lisis exploratorio:

- ¬øQu√© tipos de datos tenemos?
- ¬øHay valores perdidos o nulos?
- ¬øExisten duplicados?
- ¬øLos formatos est√°n normalizados?
- ¬øHay incoherencias entre columnas?

Esta evaluaci√≥n nos permitir√° identificar los problemas que deben resolverse en la fase de limpieza.

### 5.1 Tipos de datos y estructura

Analizamos la estructura detallada de los datasets consolidados:

In [26]:
# ============================================================================
# EXPLORACI√ìN: ESTRUCTURA Y TIPOS DE DATOS
# ============================================================================

print("="*70)
print("ESTRUCTURA DE LOS DATASETS CONSOLIDADOS (2000-2024)")
print("="*70)

for nombre, df in datasets.items():
    print(f"\n{'='*70}")
    print(f"üìä {nombre}")
    print(f"{'='*70}")
    
    # Dimensiones
    print(f"\nüìê DIMENSIONES:")
    print(f"   Filas: {df.shape[0]:,}")
    print(f"   Columnas: {df.shape[1]}")
    
    # Columnas y tipos
    print(f"\nüìã COLUMNAS Y TIPOS DE DATOS:")
    for i, col in enumerate(df.columns, 1):
        tipo = df[col].dtype
        valores_unicos = df[col].nunique()
        valores_nulos = df[col].isnull().sum()
        print(f"   {i}. {col:25} ‚Üí {str(tipo):10} | {valores_unicos:4} √∫nicos | {valores_nulos:3} nulos")
    
    # Rango temporal
    print(f"\nüìÖ RANGO TEMPORAL:")
    a√±os = df['A√±os'].dropna()
    if len(a√±os) > 0:
        print(f"   Desde: {int(a√±os.min())}")
        print(f"   Hasta: {int(a√±os.max())}")
        print(f"   Total de a√±os: {a√±os.nunique()}")

    # Informaci√≥n con .info()
    print(f"\nüìä INFORMACI√ìN DETALLADA:")
    df.info()

ESTRUCTURA DE LOS DATASETS CONSOLIDADOS (2000-2024)

üìä Gastos I+D (2000-2024)

üìê DIMENSIONES:
   Filas: 225
   Columnas: 3

üìã COLUMNAS Y TIPOS DE DATOS:
   1. Sectores/unidad           ‚Üí object     |    9 √∫nicos |   0 nulos
   2. A√±os                      ‚Üí float64    |   25 √∫nicos |   0 nulos
   3. Total                     ‚Üí object     |  194 √∫nicos |   0 nulos

üìÖ RANGO TEMPORAL:
   Desde: 2000
   Hasta: 2024
   Total de a√±os: 25

üìä INFORMACI√ìN DETALLADA:
<class 'pandas.core.frame.DataFrame'>
Index: 225 entries, 36 to 557
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Sectores/unidad  225 non-null    object 
 1   A√±os             225 non-null    float64
 2   Total            225 non-null    object 
dtypes: float64(1), object(2)
memory usage: 7.0+ KB

üìä Fondos I+D (2000-2024)

üìê DIMENSIONES:
   Filas: 225
   Columnas: 3

üìã COLUMNAS Y TIPOS DE DATOS:
   1. Sectores/uni

### 5.2 Valores nulos y datos faltantes

Verificamos la presencia de valores nulos (NaN) y valores ".." (datos no disponibles del INE):

In [27]:
# ============================================================================
# AN√ÅLISIS DE VALORES NULOS Y DATOS FALTANTES
# ============================================================================

print("="*70)
print("AN√ÅLISIS DE VALORES NULOS Y DATOS FALTANTES")
print("="*70)

for nombre, df in datasets.items():
    print(f"\n{'='*70}")
    print(f"üìä {nombre}")
    print(f"{'='*70}")
    
    # 1. Valores nulos (NaN)
    print(f"\nüîç VALORES NULOS (NaN):")
    nulos = df.isnull().sum()
    total_celdas = len(df) * len(df.columns)
    total_nulos = nulos.sum()
    
    if total_nulos > 0:
        porcentaje = (nulos / len(df) * 100).round(2)
        resumen_nulos = pd.DataFrame({
            'Valores_Nulos': nulos,
            'Porcentaje': porcentaje
        })
        con_nulos = resumen_nulos[resumen_nulos['Valores_Nulos'] > 0]
        print(con_nulos)
        print(f"\n   Total de valores nulos: {total_nulos:,} ({(total_nulos/total_celdas*100):.2f}% del dataset)")
    else:
        print("   ‚úÖ No hay valores nulos (NaN)")
        
    # 2. Valores ".." (datos no disponibles del INE)
    print(f"\nüîç VALORES '..' (DATOS NO DISPONIBLES):")
    if 'Total' in df.columns:
        valores_dd = (df['Total'] == '..').sum()
        if valores_dd > 0:
            porcentaje_dd = (valores_dd / len(df) * 100).round(2)
            print(f"   ‚ö†Ô∏è Encontrados: {valores_dd} ({porcentaje_dd}%)")
            print(f"   Nota: '..' significa que el INE no dispone del dato para ese a√±o")
            
            # Mostrar algunos ejemplos
            print(f"\n   Ejemplos de filas con '..':")
            display(df[df['Total'] == '..'].head(5)[['A√±os', 'Sectores/unidad', 'Total']])
        else:
            print("   ‚úÖ No hay valores '..'")
    
    # 3. Resumen general
    print(f"\nüìä RESUMEN DE CALIDAD:")
    print(f"   Total de filas: {len(df):,}")
    print(f"   Filas completas (sin nulos): {df.dropna().shape[0]:,}")
    print(f"   Filas con alg√∫n nulo: {df.isnull().any(axis=1).sum():,}")

AN√ÅLISIS DE VALORES NULOS Y DATOS FALTANTES

üìä Gastos I+D (2000-2024)

üîç VALORES NULOS (NaN):
   ‚úÖ No hay valores nulos (NaN)

üîç VALORES '..' (DATOS NO DISPONIBLES):
   ‚úÖ No hay valores '..'

üìä RESUMEN DE CALIDAD:
   Total de filas: 225
   Filas completas (sin nulos): 225
   Filas con alg√∫n nulo: 0

üìä Fondos I+D (2000-2024)

üîç VALORES NULOS (NaN):
   ‚úÖ No hay valores nulos (NaN)

üîç VALORES '..' (DATOS NO DISPONIBLES):
   ‚úÖ No hay valores '..'

üìä RESUMEN DE CALIDAD:
   Total de filas: 225
   Filas completas (sin nulos): 225
   Filas con alg√∫n nulo: 0


### 5.3 Duplicados

Verificamos si existen filas duplicadas en los datasets:

In [28]:
# ============================================================================
# AN√ÅLISIS DE DUPLICADOS
# ============================================================================

print("="*70)
print("AN√ÅLISIS DE DUPLICADOS")
print("="*70)

for nombre, df in datasets.items():
    print(f"\n{'='*70}")
    print(f"üìä {nombre}")
    print(f"{'='*70}")
    
    # Duplicados completos (todas las columnas iguales)
    duplicados_completos = df.duplicated().sum()
    print(f"\nüîç DUPLICADOS COMPLETOS (todas las columnas):")
    print(f"   Filas duplicadas: {duplicados_completos}")
    
    if duplicados_completos > 0:
        print(f"   ‚ö†Ô∏è Hay {duplicados_completos} filas completamente duplicadas")
        print("\n   Ejemplos:")
        display(df[df.duplicated(keep=False)].head(10))
    else:
        print("   ‚úÖ No hay filas completamente duplicadas")
    
    # Duplicados por combinaci√≥n A√±o + Sector
    print(f"\nüîç DUPLICADOS POR COMBINACI√ìN (A√±o + Sector):")
    duplicados_clave = df.duplicated(subset=['A√±os', 'Sectores/unidad']).sum()
    print(f"   Combinaciones duplicadas: {duplicados_clave}")

    if duplicados_clave > 0:
        print(f"   ‚ö†Ô∏è Hay {duplicados_clave} combinaciones A√±o+Sector repetidas")
        print("\n   Ejemplos:")
        dup_mask = df.duplicated(subset=['A√±os', 'Sectores/unidad'], keep=False)
        display(df[dup_mask].sort_values(['A√±os', 'Sectores/unidad']).head(10))
    else:
        print("   ‚úÖ No hay combinaciones A√±o+Sector duplicadas")

AN√ÅLISIS DE DUPLICADOS

üìä Gastos I+D (2000-2024)

üîç DUPLICADOS COMPLETOS (todas las columnas):
   Filas duplicadas: 0
   ‚úÖ No hay filas completamente duplicadas

üîç DUPLICADOS POR COMBINACI√ìN (A√±o + Sector):
   Combinaciones duplicadas: 0
   ‚úÖ No hay combinaciones A√±o+Sector duplicadas

üìä Fondos I+D (2000-2024)

üîç DUPLICADOS COMPLETOS (todas las columnas):
   Filas duplicadas: 0
   ‚úÖ No hay filas completamente duplicadas

üîç DUPLICADOS POR COMBINACI√ìN (A√±o + Sector):
   Combinaciones duplicadas: 0
   ‚úÖ No hay combinaciones A√±o+Sector duplicadas


### 5.4 An√°lisis de la columna 'Sectores/unidad'

Exploramos qu√© categor√≠as contiene esta columna:

In [29]:
# ============================================================================
# AN√ÅLISIS DE LA COLUMNA 'Sectores/unidad'
# ============================================================================

print("="*70)
print("AN√ÅLISIS DE LA COLUMNA 'Sectores/unidad'")
print("="*70)

for nombre, df in datasets.items():
    print(f"\n{'='*70}")
    print(f"üìä {nombre}")
    print(f"{'='*70}")
    
    # Valores √∫nicos
    print(f"\nüìã CATEGOR√çAS ENCONTRADAS:")
    categorias = df['Sectores/unidad'].unique()
    print(f"   Total de categor√≠as: {len(categorias)}")
    
    print(f"\n   Lista de categor√≠as:")
    for i, cat in enumerate(sorted(categorias), 1):
        count = (df['Sectores/unidad'] == cat).sum()
        print(f"   {i:2}. {cat:50} ({count:3} registros)")
    
    # Separar valores absolutos de porcentajes
    print(f"\nüîç TIPOS DE MEDICI√ìN:")
    con_porcentaje = df['Sectores/unidad'].str.contains('%', na=False).sum()
    sin_porcentaje = len(df) - con_porcentaje
    print(f"   Valores absolutos (miles de euros): {sin_porcentaje}")
    print(f"   Porcentajes (%): {con_porcentaje}")
    
    # Frecuencia por categor√≠a
    print(f"\nüìä DISTRIBUCI√ìN POR CATEGOR√çA:")
    display(df['Sectores/unidad'].value_counts())

AN√ÅLISIS DE LA COLUMNA 'Sectores/unidad'

üìä Gastos I+D (2000-2024)

üìã CATEGOR√çAS ENCONTRADAS:
   Total de categor√≠as: 9

   Lista de categor√≠as:
    1. Administraci√≥n P√∫blica: %                          ( 25 registros)
    2. Administraci√≥n P√∫blica: Total (miles de euros)     ( 25 registros)
    3. Empresas: %                                        ( 25 registros)
    4. Empresas: Total (miles de euros)                   ( 25 registros)
    5. Ense√±anza Superior: Total (miles de euros)         ( 25 registros)
    6. Ense√±anza superior: %                              ( 25 registros)
    7. IPSFL: %                                           ( 25 registros)
    8. IPSFL: Total (miles de euros)                      ( 25 registros)
    9. Total (miles de euros)                             ( 25 registros)

üîç TIPOS DE MEDICI√ìN:
   Valores absolutos (miles de euros): 125
   Porcentajes (%): 100

üìä DISTRIBUCI√ìN POR CATEGOR√çA:


Sectores/unidad
Total (miles de euros)                            25
Administraci√≥n P√∫blica: Total (miles de euros)    25
Administraci√≥n P√∫blica: %                         25
Ense√±anza Superior: Total (miles de euros)        25
Ense√±anza superior: %                             25
Empresas: Total (miles de euros)                  25
Empresas: %                                       25
IPSFL: Total (miles de euros)                     25
IPSFL: %                                          25
Name: count, dtype: int64


üìä Fondos I+D (2000-2024)

üìã CATEGOR√çAS ENCONTRADAS:
   Total de categor√≠as: 9

   Lista de categor√≠as:
    1. Administraci√≥n P√∫blica: %                          ( 25 registros)
    2. Administraci√≥n P√∫blica: Total (miles de euros)     ( 25 registros)
    3. Empresas: %                                        ( 25 registros)
    4. Empresas: Total (miles de euros)                   ( 25 registros)
    5. IPSFL: %                                           ( 25 registros)
    6. IPSFL: Total (miles de euros)                      ( 25 registros)
    7. Resto del Mundo: %                                 ( 25 registros)
    8. Resto del Mundo: Total (miles de euros)            ( 25 registros)
    9. Total (miles de euros)                             ( 25 registros)

üîç TIPOS DE MEDICI√ìN:
   Valores absolutos (miles de euros): 125
   Porcentajes (%): 100

üìä DISTRIBUCI√ìN POR CATEGOR√çA:


Sectores/unidad
Total (miles de euros)                            25
Administraci√≥n P√∫blica: Total (miles de euros)    25
Administraci√≥n P√∫blica: %                         25
Empresas: Total (miles de euros)                  25
Empresas: %                                       25
IPSFL: Total (miles de euros)                     25
IPSFL: %                                          25
Resto del Mundo: Total (miles de euros)           25
Resto del Mundo: %                                25
Name: count, dtype: int64

### 5.6 Resumen de la evaluaci√≥n de calidad

**Problemas identificados:**

| Aspecto | Dataset Gastos | Dataset Fondos | Gravedad |
|---------|---------------|----------------|----------|
| **Valores nulos (NaN)** | [ver resultado] | [ver resultado] | Variable |
| **Valores '..' (no disponibles)** | [ver resultado] | [ver resultado] | Variable |
| **Duplicados completos** | [ver resultado] | [ver resultado] | Bajo |
| **Duplicados A√±o+Sector** | [ver resultado] | [ver resultado] | Cr√≠tico si existe |
| **Columna 'Total' como texto** | ‚úÖ Identificado | ‚úÖ Identificado | üî¥ **Alto** |
| **Formato num√©rico europeo** | ‚úÖ Identificado | ‚úÖ Identificado | üî¥ **Alto** |
| **Mezcla valores/porcentajes** | ‚úÖ Identificado | ‚úÖ Identificado | ‚ö†Ô∏è Moderado |

In [31]:
# Guardar datasets consolidados para el siguiente notebook
import os

# Crear carpeta si no existe
os.makedirs('../data/cleanedDataset', exist_ok=True)

# Guardar datos consolidados (despu√©s del Punto 4)
df_gastos_2000_2024.to_csv('../data/consolidatedDataset/gastos_consolidados.csv', index=False)
df_fondos_2000_2024.to_csv('../data/consolidatedDataset/fondos_consolidados.csv', index=False)

print("‚úÖ Datos limpiados guardados en data/cleanedDataset/")

‚úÖ Datos limpiados guardados en data/cleanedDataset/
