# 2. Transformaci√≥n y Limpieza de Datos

Este notebook aplica transformaciones y limpieza a los datos consolidados usando funciones modulares del paquete `src/cleaning.py`.

## Pipeline de transformaci√≥n

1. **Carga** de datos consolidados
2. **Limpieza** de formato num√©rico (europeo ‚Üí est√°ndar)
3. **Separaci√≥n** de valores absolutos y porcentajes
4. **Pivot** de formato largo a ancho
5. **Renombrado** de columnas para claridad
6. **Verificaci√≥n** final y guardado

---

**Input:** 
- `data/cleanedDataset/gastos_consolidado.csv` (generado por notebook 1)
- `data/cleanedDataset/fondos_consolidado.csv` (generado por notebook 1)

**Output:** 
- `data/cleanedDataset/gastos_clean.csv`
- `data/cleanedDataset/fondos_clean.csv`

In [38]:
# Importar librer√≠as est√°ndar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de pandas
pd.options.display.float_format = '{:.2f}'.format

# Importar m√≥dulo de limpieza personalizado
import sys
sys.path.append('../src')
from cleaning import (
    limpiar_columna_total,
    separar_valores_porcentajes,
    pivotear_dataset,
    renombrar_columnas_gastos,
    renombrar_columnas_fondos,
    preparar_para_indice
)

print("‚úÖ Librer√≠as y m√≥dulos importados correctamente")

‚úÖ Librer√≠as y m√≥dulos importados correctamente


## 6. Limpieza y Transformaci√≥n de Datos

En base a los problemas identificados en la exploraci√≥n (Notebook 1), procedemos a limpiar y transformar los datos para hacerlos aptos para el an√°lisis num√©rico y temporal.

### Carga de datos consolidados

In [39]:
# Cargar datasets consolidados del notebook anterior
df_gastos = pd.read_csv('../data/consolidatedDataset/gastos_consolidados.csv')
df_fondos = pd.read_csv('../data/consolidatedDataset/fondos_consolidados.csv')

print("="*70)
print("DATASETS CONSOLIDADOS CARGADOS")
print("="*70)
print(f"\nüìä Gastos I+D (2000-2024):")
print(f"   Dimensiones: {df_gastos.shape}")
print(f"   Columnas: {list(df_gastos.columns)}")
print(f"   Tipo 'Total': {df_gastos['Total'].dtype}")
print(f"   Rango a√±os: {df_gastos['A√±os'].min():.0f} - {df_gastos['A√±os'].max():.0f}")

print(f"\nüìä Fondos I+D (2000-2024):")
print(f"   Dimensiones: {df_fondos.shape}")
print(f"   Columnas: {list(df_fondos.columns)}")
print(f"   Tipo 'Total': {df_fondos['Total'].dtype}")
print(f"   Rango a√±os: {df_fondos['A√±os'].min():.0f} - {df_fondos['A√±os'].max():.0f}")

# Mostrar ejemplo de los datos sin limpiar
print("\nüìã Ejemplo de datos SIN limpiar:")
print(df_gastos.head(10))

DATASETS CONSOLIDADOS CARGADOS

üìä Gastos I+D (2000-2024):
   Dimensiones: (225, 3)
   Columnas: ['Sectores/unidad', 'A√±os', 'Total']
   Tipo 'Total': object
   Rango a√±os: 2000 - 2024

üìä Fondos I+D (2000-2024):
   Dimensiones: (225, 3)
   Columnas: ['Sectores/unidad', 'A√±os', 'Total']
   Tipo 'Total': object
   Rango a√±os: 2000 - 2024

üìã Ejemplo de datos SIN limpiar:
          Sectores/unidad    A√±os         Total
0  Total (miles de euros) 2000.00   5.718.988,3
1  Total (miles de euros) 2001.00   6.227.157,1
2  Total (miles de euros) 2002.00     7.193.538
3  Total (miles de euros) 2003.00   8.213.035,6
4  Total (miles de euros) 2004.00   8.945.760,7
5  Total (miles de euros) 2005.00    10.196.871
6  Total (miles de euros) 2006.00  11.815.217,9
7  Total (miles de euros) 2007.00  13.342.370,6
8  Total (miles de euros) 2008.00  14.701.392,9
9  Total (miles de euros) 2009.00  14.581.675,7


### 6.1 Limpieza de la columna 'Total'

**Problema identificado:** 
- La columna 'Total' est√° en formato texto con notaci√≥n europea
- Ejemplo: "1.234.567,89" en lugar de 1234567.89
- Valores faltantes representados como ".."

**Soluci√≥n aplicada:**
- Reemplazar ".." por NaN
- Eliminar puntos (separador de miles)
- Reemplazar comas por puntos (separador decimal)
- Convertir a tipo num√©rico (float)

Utilizamos la funci√≥n `limpiar_columna_total()` del m√≥dulo `cleaning.py`

In [40]:
# Aplicar limpieza de columna Total usando funci√≥n modular
df_gastos_limpio = limpiar_columna_total(df_gastos, "Gastos I+D")
df_fondos_limpio = limpiar_columna_total(df_fondos, "Fondos I+D")

print("\n‚úÖ Limpieza completada")
print(f"   Tipo 'Total' en gastos: {df_gastos_limpio['Total'].dtype}")
print(f"   Tipo 'Total' en fondos: {df_fondos_limpio['Total'].dtype}")


üßπ Limpiando columna 'Total' de Gastos I+D...
   Tipo original: object
   Tipo final: float64
   Valores NaN: 0

üßπ Limpiando columna 'Total' de Fondos I+D...
   Tipo original: object
   Tipo final: float64
   Valores NaN: 0

‚úÖ Limpieza completada
   Tipo 'Total' en gastos: float64
   Tipo 'Total' en fondos: float64


### 6.2 Separaci√≥n de valores absolutos y porcentajes

**Problema identificado:**
- Los datasets mezclan valores absolutos (miles de ‚Ç¨) con porcentajes
- Ejemplo: "Total (miles de euros)" y "Empresas: %"

**Soluci√≥n aplicada:**
- Filtrar solo las filas con valores absolutos
- Eliminar las filas que contienen "%"

Utilizamos la funci√≥n `separar_valores_porcentajes()` del m√≥dulo `cleaning.py`

In [41]:
# Separar valores absolutos de porcentajes
df_gastos_valores = separar_valores_porcentajes(df_gastos_limpio)
df_fondos_valores = separar_valores_porcentajes(df_fondos_limpio)

print("\nüìã Verificaci√≥n de separaci√≥n:")
print(f"   Gastos - Categor√≠as √∫nicas:")
print(f"   {df_gastos_valores['Sectores/unidad'].unique()}")
print(f"\n   Fondos - Categor√≠as √∫nicas:")
print(f"   {df_fondos_valores['Sectores/unidad'].unique()}")


üìä Separando valores absolutos de porcentajes...
   Filas con porcentajes: 100
   Filas con valores absolutos: 125

üìä Separando valores absolutos de porcentajes...
   Filas con porcentajes: 100
   Filas con valores absolutos: 125

üìã Verificaci√≥n de separaci√≥n:
   Gastos - Categor√≠as √∫nicas:
   ['Total (miles de euros)' 'Administraci√≥n P√∫blica: Total (miles de euros)'
 'Ense√±anza Superior: Total (miles de euros)'
 'Empresas: Total (miles de euros)' 'IPSFL: Total (miles de euros)']

   Fondos - Categor√≠as √∫nicas:
   ['Total (miles de euros)' 'Administraci√≥n P√∫blica: Total (miles de euros)'
 'Empresas: Total (miles de euros)' 'IPSFL: Total (miles de euros)'
 'Resto del Mundo: Total (miles de euros)']


### 6.3 Transformaci√≥n de formato largo a ancho (Pivot)

**Problema identificado:**
- Los datos est√°n en formato largo (m√∫ltiples filas por a√±o)
- Dificulta el an√°lisis temporal

**Formato largo (actual):**
A√±os | Sectores/unidad | Total 2000 | Total (miles de euros) | 5718919 2000 | Empresas: Total (miles de euros) | 3456789 2001 | Total (miles de euros) | 6123456

**Formato ancho (objetivo):**
A√±os | Total | Admin_Publica | Empresas | ... 2000 | 5718919 | 1234567 | 3456789 | ... 2001 | 6123456 | 1345678 | 3621011 | ...

Utilizamos la funci√≥n `pivotear_dataset()` del m√≥dulo `cleaning.py`

In [42]:
# Transformar de formato largo a ancho
df_gastos_wide = pivotear_dataset(df_gastos_valores, "Gastos I+D")
df_fondos_wide = pivotear_dataset(df_fondos_valores, "Fondos I+D")

print("\nüìã Primeras filas del dataset pivotado (gastos):")
print(df_gastos_wide.head())

print("\nüìã Primeras filas del dataset pivotado (fondos):")
print(df_fondos_wide.head())


üîÑ Transformando Gastos I+D de formato largo a ancho...
   Dimensiones originales: (125, 3)
   Dimensiones despu√©s de pivot: (25, 6)
   Columnas creadas: ['A√±os', 'Administraci√≥n P√∫blica: Total (miles de euros)', 'Empresas: Total (miles de euros)', 'Ense√±anza Superior: Total (miles de euros)', 'IPSFL: Total (miles de euros)', 'Total (miles de euros)']

üîÑ Transformando Fondos I+D de formato largo a ancho...
   Dimensiones originales: (125, 3)
   Dimensiones despu√©s de pivot: (25, 6)
   Columnas creadas: ['A√±os', 'Administraci√≥n P√∫blica: Total (miles de euros)', 'Empresas: Total (miles de euros)', 'IPSFL: Total (miles de euros)', 'Resto del Mundo: Total (miles de euros)', 'Total (miles de euros)']

üìã Primeras filas del dataset pivotado (gastos):
Sectores/unidad    A√±os  Administraci√≥n P√∫blica: Total (miles de euros)  \
0               2000.00                                       904776.10   
1               2001.00                                       989011.10   


### 6.4 Renombrado de columnas

**Problema identificado:**
- Nombres de columnas muy largos y dif√≠ciles de usar
- Ejemplo: "Administraci√≥n P√∫blica: Total (miles de euros)"

**Soluci√≥n aplicada:**
- Simplificar nombres para mayor claridad
- Ejemplo: "Admin_Publica", "Ense√±anza_Superior", "Empresas", etc.

Utilizamos las funciones `renombrar_columnas_gastos()` y `renombrar_columnas_fondos()` del m√≥dulo `cleaning.py`

In [43]:
# Renombrar columnas para mayor claridad
df_gastos_wide = renombrar_columnas_gastos(df_gastos_wide)
df_fondos_wide = renombrar_columnas_fondos(df_fondos_wide)

print("\nüìã Columnas finales:")
print(f"   Gastos: {list(df_gastos_wide.columns)}")
print(f"   Fondos: {list(df_fondos_wide.columns)}")


‚úèÔ∏è  Columnas renombradas:
   'Total (miles de euros)' ‚Üí 'Total'
   'Administraci√≥n P√∫blica: Total (miles de euros)' ‚Üí 'Admin_Publica'
   'Ense√±anza Superior: Total (miles de euros)' ‚Üí 'Ense√±anza_Superior'
   'Empresas: Total (miles de euros)' ‚Üí 'Empresas'
   'IPSFL: Total (miles de euros)' ‚Üí 'IPSFL'

‚úèÔ∏è  Columnas renombradas:
   'Total (miles de euros)' ‚Üí 'Total'
   'Administraci√≥n P√∫blica: Total (miles de euros)' ‚Üí 'Admin_Publica'
   'Empresas: Total (miles de euros)' ‚Üí 'Empresas'
   'IPSFL: Total (miles de euros)' ‚Üí 'IPSFL'
   'Resto del Mundo: Total (miles de euros)' ‚Üí 'Resto_Mundo'

üìã Columnas finales:
   Gastos: ['A√±os', 'Admin_Publica', 'Empresas', 'Ense√±anza_Superior', 'IPSFL', 'Total']
   Fondos: ['A√±os', 'Admin_Publica', 'Empresas', 'IPSFL', 'Resto_Mundo', 'Total']


### 6.5 Preparaci√≥n del √≠ndice

**Transformaci√≥n final:**
- Establecer 'A√±os' como √≠ndice del DataFrame
- Facilita el an√°lisis temporal y selecci√≥n de datos

Utilizamos la funci√≥n `preparar_para_indice()` del m√≥dulo `cleaning.py`

In [44]:
# Establecer A√±os como √≠ndice para facilitar an√°lisis temporal
df_gastos_wide = preparar_para_indice(df_gastos_wide)
df_fondos_wide = preparar_para_indice(df_fondos_wide)

print("‚úÖ √çndice establecido correctamente")


üîë 'A√±os' establecido como √≠ndice
   √çndice: 2000 - 2024

üîë 'A√±os' establecido como √≠ndice
   √çndice: 2000 - 2024
‚úÖ √çndice establecido correctamente


### 6.6 Verificaci√≥n final de los datos limpios

Revisi√≥n completa de los datasets transformados:
- Estructura y dimensiones
- Tipos de datos
- Valores faltantes
- Estad√≠sticas descriptivas

In [45]:
print("="*70)
print("VERIFICACI√ìN FINAL DE DATASETS LIMPIOS")
print("="*70)

print("\nüìä DATASET: GASTOS I+D")
print("="*70)
print(f"Dimensiones: {df_gastos_wide.shape}")
print(f"√çndice: {df_gastos_wide.index.min():.0f} - {df_gastos_wide.index.max():.0f}")
print(f"\nColumnas y tipos:")
print(df_gastos_wide.dtypes)
print(f"\nValores NaN por columna:")
print(df_gastos_wide.isnull().sum())
print(f"\nEstad√≠sticas descriptivas:")
print(df_gastos_wide.describe())

print("\n" + "="*70)
print("üìä DATASET: FONDOS I+D")
print("="*70)
print(f"Dimensiones: {df_fondos_wide.shape}")
print(f"√çndice: {df_fondos_wide.index.min():.0f} - {df_fondos_wide.index.max():.0f}")
print(f"\nColumnas y tipos:")
print(df_fondos_wide.dtypes)
print(f"\nValores NaN por columna:")
print(df_fondos_wide.isnull().sum())
print(f"\nEstad√≠sticas descriptivas:")
print(df_fondos_wide.describe())

print("\n" + "="*70)
print("‚úÖ VERIFICACI√ìN COMPLETADA")
print("="*70)
print("   ‚úÖ Formato num√©rico correcto (float64)")
print("   ‚úÖ Estructura adecuada para an√°lisis temporal")
print("   ‚úÖ Nombres de columnas claros")
print("   ‚úÖ A√±os como √≠ndice")

total_nan = df_gastos_wide.isnull().sum().sum() + df_fondos_wide.isnull().sum().sum()
if total_nan > 0:
    print(f"   ‚ö†Ô∏è  {total_nan} valores NaN (datos no disponibles del INE) - se mantendr√°n")
else:
    print("   ‚úÖ Sin valores NaN")


VERIFICACI√ìN FINAL DE DATASETS LIMPIOS

üìä DATASET: GASTOS I+D
Dimensiones: (25, 5)
√çndice: 2000 - 2024

Columnas y tipos:
Sectores/unidad
Admin_Publica         float64
Empresas              float64
Ense√±anza_Superior    float64
IPSFL                 float64
Total                 float64
dtype: object

Valores NaN por columna:
Sectores/unidad
Admin_Publica         0
Empresas              0
Ense√±anza_Superior    0
IPSFL                 0
Total                 0
dtype: int64

Estad√≠sticas descriptivas:
Sectores/unidad  Admin_Publica    Empresas  Ense√±anza_Superior    IPSFL  \
count                    25.00       25.00               25.00    25.00   
mean                2424949.90  7386992.03          3698336.16 33636.06   
std                  868648.14  2532555.50          1033414.94 16600.27   
min                  904776.10  3068994.40          1693881.60 11673.70   
25%                 1970823.50  6557529.00          3265738.50 21551.10   
50%                 2515228.40  7396

### 6.7 Guardado de datasets limpios

Los datos limpios se guardan en formato CSV para ser utilizados en el siguiente notebook de an√°lisis y visualizaci√≥n.

In [46]:
# ============================================================================
# GUARDAR DATASETS LIMPIOS
# ============================================================================

print("\n" + "="*70)
print("GUARDANDO DATASETS LIMPIOS")
print("="*70)

# Guardar datasets en formato wide con √≠ndice de a√±os
df_gastos_wide.to_csv('../data/cleanedDataset/gastos_clean.csv')
df_fondos_wide.to_csv('../data/cleanedDataset/fondos_clean.csv')

print("\n‚úÖ Datos limpios guardados exitosamente:")
print(f"   üìÅ ../data/cleanedDataset/gastos_clean.csv")
print(f"      Dimensiones: {df_gastos_wide.shape}")
print(f"   üìÅ ../data/cleanedDataset/fondos_clean.csv")
print(f"      Dimensiones: {df_fondos_wide.shape}")

print("\n" + "="*70)
print("üìå PR√ìXIMO PASO")
print("="*70)
print("   Ejecutar el notebook eda.ipynb para:")
print("   - An√°lisis visual de tendencias temporales")
print("   - Distribuci√≥n sectorial del gasto")
print("   - Impacto de eventos econ√≥micos")
print("   - Conclusiones del an√°lisis")


GUARDANDO DATASETS LIMPIOS

‚úÖ Datos limpios guardados exitosamente:
   üìÅ ../data/cleanedDataset/gastos_clean.csv
      Dimensiones: (25, 5)
   üìÅ ../data/cleanedDataset/fondos_clean.csv
      Dimensiones: (25, 5)

üìå PR√ìXIMO PASO
   Ejecutar el notebook eda.ipynb para:
   - An√°lisis visual de tendencias temporales
   - Distribuci√≥n sectorial del gasto
   - Impacto de eventos econ√≥micos
   - Conclusiones del an√°lisis
