## 1. Introducción al análisis exploratorio

Este notebook corresponde a la fase de análisis exploratorio de datos del proyecto.  
El objetivo es comprender la estructura del dataset, analizar las distribuciones de las variables macroeconómicas y fiscales, y explorar posibles relaciones entre ellas.

Este análisis sirve como base para las decisiones posteriores de ingeniería de variables y modelado predictivo.

# Notebook 01 — Análisis Exploratorio de Datos (EDA)

Este notebook realiza el análisis exploratorio inicial de los datasets macroeconómicos
utilizados en el proyecto.

El análisis se basa exclusivamente en los siguientes archivos CSV:

1. PSNW.csv
2. Labor Slack.csv
3. Inflation Monthly Euro Zone.csv
4. GDP Growth Rate.csv
5. EU PSNW over GDP.csv
6. Debt-To-GDP Ratio.csv

Cada dataset se analiza de forma individual para comprender su estructura,
variables disponibles y unidad de observación, antes de cualquier proceso
de integración.


## 2. Definicion y carga de rutas de los datasets

En esta sección se realiza la carga del dataset macroeconómico y fiscal utilizado en el proyecto.
Se verificará la estructura general de los datos, el número de observaciones y las variables disponibles.

**Pendiente:** cargar el dataset definitivo desde la fuente correspondiente y verificar su correcta lectura.


In [14]:
path_psnw = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\PSNW.csv"
path_labor_slack = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\Labor Slack.csv"
path_inflation = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\Inflation Monthly Euro Zone.csv"
path_gdp_growth = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\GDP Growth Rate.csv"
path_psnw_gdp = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\EU PSNW over GDP.csv"
path_debt_gdp = r"C:\Users\rosal\Desktop\practica-1-EDA-pj2r98\data\Debt-To-GDP Ratio.csv"

In [15]:
#Carga del Dataset 

df_psnw = pd.read_csv(path_psnw)
df_labor_slack = pd.read_csv(path_labor_slack)
df_inflation = pd.read_csv(path_inflation)
df_gdp_growth = pd.read_csv(path_gdp_growth)
df_psnw_gdp = pd.read_csv(path_psnw_gdp)
df_debt_gdp = pd.read_csv(path_debt_gdp)


# Importación de librerías necesarias


In [16]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

## 3. Estructura general de los datasets

En esta sección se analiza la estructura general de cada uno de los datasets
macroeconómicos utilizados en el proyecto.

Para cada dataset se examina:

- Número de observaciones
- Número de variables
- Tipos de datos
- Identificación de variables numéricas y categóricas
- Unidad de observación implícita
- Verificar consistencia entre datasets
- Identificar diferencias estructurales relevantes
- Preparar correctamente la integración y cruce de información en etapas posteriores

Este análisis se realiza de forma individual antes de cualquier proceso de
integración o transformación de los datos.


### 3.1 Identificación de datasets utilizados

El análisis se basa en seis datasets macroeconómicos y fiscales obtenidos de fuentes oficiales europeas.  
Cada dataset representa un indicador distinto y presenta estructuras y granularidades diferentes.

Los datasets analizados son:

- Debt_to_GDP_Ratio  
- EU_PSNW_over_GDP  
- GDP_Growth_Rate  
- Inflation_Monthly_Euro_Zone  
- Labor_Slack  
- PSNW


### 3.2 Verificación de existencia de los datasets


In [24]:
# Directorio base de datos (ruta relativa correcta)
DATA_DIR = "../data"

# Listado real de archivos en data/
files_in_data = sorted(os.listdir(DATA_DIR))

files_in_data


['Debt-To-GDP Ratio.csv',
 'EU PSNW over GDP.csv',
 'GDP Growth Rate.csv',
 'Inflation Monthly Euro Zone.csv',
 'Labor Slack.csv',
 'PSNW.csv']

### 3.3 Carga individual de los datasets


En este apartado se cargan los datasets de forma individual y sin aplicar
ningún tipo de transformación.

El objetivo es preservar la estructura original de cada archivo para su
análisis exploratorio independiente, previo a cualquier integración.


In [None]:
datasets = {
    "Debt_to_GDP_Ratio": "Debt-To-GDP Ratio.csv",
    "EU_PSNW_over_GDP": "EU PSNW over GDP.csv",
    "GDP_Growth_Rate": "GDP Growth Rate.csv",
    "Inflation_Monthly_Euro_Zone": "Inflation Monthly Euro Zone.csv",
    "Labor_Slack": "Labor Slack.csv",
    "PSNW": "PSNW.csv"
}

In [18]:
# Directorio base de datos
DATA_DIR = "data"

# Diccionario con nombres EXACTOS de los archivos existentes
datasets = {
    "Debt_to_GDP_Ratio": "Debt-To-GDP Ratio.csv",
    "EU_PSNW_over_GDP": "EU PSNW over GDP.csv",
    "GDP_Growth_Rate": "GDP Growth Rate.csv",
    "Inflation_Monthly_Euro_Zone": "Inflation Monthly Euro Zone.csv",
    "Labor_Slack": "Labor Slack.csv",
    "PSNW": "PSNW.csv"
}


In [29]:
missing_files = []

for file in datasets.values():
    file_path = os.path.join(DATA_DIR, file)
    if not os.path.exists(file_path):
        missing_files.append(file)

if missing_files:
    raise FileNotFoundError(
        f"Archivos no encontrados en '{DATA_DIR}': {missing_files}"
    )

print("Confirmacion de archivos existes y accesibles.")


Confirmacion de archivos existes y accesibles.


### 3.4 Estructura interna de los datasets

En este apartado se analiza la estructura interna de cada dataset de forma
individual.

Para cada dataset se examina:

- Número de observaciones
- Número de variables
- Tipos de datos
- Variables numéricas y categóricas
- Unidad de observación implícita

Este análisis permite comprender la naturaleza de los datos antes de cualquier
proceso de limpieza, transformación o integración.


In [32]:
# Carga individual de cada dataset en un diccionario de DataFrames
# No se aplica ninguna transformación en esta etapa

dataframes = {}

for key, file in datasets.items():
    dataframes[key] = pd.read_csv(os.path.join(DATA_DIR, file))


In [33]:
# Dimensiones de cada dataset (observaciones, variables)

{key: df.shape for key, df in dataframes.items()}


{'Debt_to_GDP_Ratio': (1260, 11),
 'EU_PSNW_over_GDP': (1740, 29),
 'GDP_Growth_Rate': (958, 10),
 'Inflation_Monthly_Euro_Zone': (20135, 10),
 'Labor_Slack': (11856, 13),
 'PSNW': (3720, 15)}

In [44]:
# Información estructural completa (info()) de los 6 datasets

dataframes["Debt_to_GDP_Ratio"].info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1260 entries, 0 to 1259
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DATAFLOW     1260 non-null   object 
 1   LAST UPDATE  1260 non-null   object 
 2   freq         1260 non-null   object 
 3   na_item      1260 non-null   object 
 4   sector       1260 non-null   object 
 5   unit         1260 non-null   object 
 6   geo          1260 non-null   object 
 7   TIME_PERIOD  1260 non-null   object 
 8   OBS_VALUE    1260 non-null   float64
 9   OBS_FLAG     148 non-null    object 
 10  CONF_STATUS  0 non-null      float64
dtypes: float64(2), object(9)
memory usage: 108.4+ KB


In [45]:
dataframes["EU_PSNW_over_GDP"].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1740 entries, 0 to 1739
Data columns (total 29 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   STRUCTURE                               1740 non-null   object 
 1   STRUCTURE_ID                            1740 non-null   object 
 2   STRUCTURE_NAME                          1740 non-null   object 
 3   freq                                    1740 non-null   object 
 4   Time frequency                          1740 non-null   object 
 5   na_item                                 1740 non-null   object 
 6   National accounts indicator (ESA 2010)  1740 non-null   object 
 7   finpos                                  1740 non-null   object 
 8   Financial position                      1740 non-null   object 
 9   stk_flow                                1740 non-null   object 
 10  Stock or flow                           1740 non-null   obje

In [46]:
dataframes["GDP_Growth_Rate"].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 958 entries, 0 to 957
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DATAFLOW     958 non-null    object 
 1   LAST UPDATE  958 non-null    object 
 2   freq         958 non-null    object 
 3   unit         958 non-null    object 
 4   na_item      958 non-null    object 
 5   geo          958 non-null    object 
 6   TIME_PERIOD  958 non-null    int64  
 7   OBS_VALUE    958 non-null    float64
 8   OBS_FLAG     79 non-null     object 
 9   CONF_STATUS  0 non-null      float64
dtypes: float64(2), int64(1), object(7)
memory usage: 75.0+ KB


In [47]:
dataframes["Inflation_Monthly_Euro_Zone"].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20135 entries, 0 to 20134
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DATAFLOW     20135 non-null  object 
 1   LAST UPDATE  20135 non-null  object 
 2   freq         20135 non-null  object 
 3   unit         20135 non-null  object 
 4   coicop       20135 non-null  object 
 5   geo          20135 non-null  object 
 6   TIME_PERIOD  20135 non-null  object 
 7   OBS_VALUE    20135 non-null  float64
 8   OBS_FLAG     2939 non-null   object 
 9   CONF_STATUS  0 non-null      float64
dtypes: float64(2), object(8)
memory usage: 1.5+ MB


In [48]:
dataframes["Labor_Slack"].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11856 entries, 0 to 11855
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DATAFLOW     11856 non-null  object 
 1   LAST UPDATE  11856 non-null  object 
 2   freq         11856 non-null  object 
 3   s_adj        11856 non-null  object 
 4   wstatus      11856 non-null  object 
 5   sex          11856 non-null  object 
 6   age          11856 non-null  object 
 7   unit         11856 non-null  object 
 8   geo          11856 non-null  object 
 9   TIME_PERIOD  11856 non-null  object 
 10  OBS_VALUE    11533 non-null  float64
 11  OBS_FLAG     1257 non-null   object 
 12  CONF_STATUS  0 non-null      float64
dtypes: float64(2), object(11)
memory usage: 1.2+ MB


In [49]:
dataframes["PSNW"].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3720 entries, 0 to 3719
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DATAFLOW     3720 non-null   object 
 1   LAST UPDATE  3720 non-null   object 
 2   freq         3720 non-null   object 
 3   na_item      3720 non-null   object 
 4   finpos       3720 non-null   object 
 5   stk_flow     3720 non-null   object 
 6   sector       3720 non-null   object 
 7   sector2      3720 non-null   object 
 8   co_nco       3720 non-null   object 
 9   unit         3720 non-null   object 
 10  geo          3720 non-null   object 
 11  TIME_PERIOD  3720 non-null   object 
 12  OBS_VALUE    3720 non-null   float64
 13  OBS_FLAG     240 non-null    object 
 14  CONF_STATUS  0 non-null      float64
dtypes: float64(2), object(13)
memory usage: 436.1+ KB


In [34]:
# Tipos de datos por variable en cada dataset

{key: df.dtypes for key, df in dataframes.items()}


{'Debt_to_GDP_Ratio': DATAFLOW        object
 LAST UPDATE     object
 freq            object
 na_item         object
 sector          object
 unit            object
 geo             object
 TIME_PERIOD     object
 OBS_VALUE      float64
 OBS_FLAG        object
 CONF_STATUS    float64
 dtype: object,
 'EU_PSNW_over_GDP': STRUCTURE                                  object
 STRUCTURE_ID                               object
 STRUCTURE_NAME                             object
 freq                                       object
 Time frequency                             object
 na_item                                    object
 National accounts indicator (ESA 2010)     object
 finpos                                     object
 Financial position                         object
 stk_flow                                   object
 Stock or flow                              object
 sector                                     object
 Sector                                     object
 sector2        

In [35]:
# Dimensiones de cada dataset (observaciones, variables)

{key: df.shape for key, df in dataframes.items()}


{'Debt_to_GDP_Ratio': (1260, 11),
 'EU_PSNW_over_GDP': (1740, 29),
 'GDP_Growth_Rate': (958, 10),
 'Inflation_Monthly_Euro_Zone': (20135, 10),
 'Labor_Slack': (11856, 13),
 'PSNW': (3720, 15)}

In [36]:
# Tipos de datos por variable en cada dataset

{key: df.dtypes for key, df in dataframes.items()}


{'Debt_to_GDP_Ratio': DATAFLOW        object
 LAST UPDATE     object
 freq            object
 na_item         object
 sector          object
 unit            object
 geo             object
 TIME_PERIOD     object
 OBS_VALUE      float64
 OBS_FLAG        object
 CONF_STATUS    float64
 dtype: object,
 'EU_PSNW_over_GDP': STRUCTURE                                  object
 STRUCTURE_ID                               object
 STRUCTURE_NAME                             object
 freq                                       object
 Time frequency                             object
 na_item                                    object
 National accounts indicator (ESA 2010)     object
 finpos                                     object
 Financial position                         object
 stk_flow                                   object
 Stock or flow                              object
 sector                                     object
 Sector                                     object
 sector2        

In [37]:
# Identificación de variables numéricas y no numéricas por dataset

{
    key: {
        "numericas": df.select_dtypes(include="number").columns.tolist(),
        "no_numericas": df.select_dtypes(exclude="number").columns.tolist()
    }
    for key, df in dataframes.items()
}


{'Debt_to_GDP_Ratio': {'numericas': ['OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
   'na_item',
   'sector',
   'unit',
   'geo',
   'TIME_PERIOD',
   'OBS_FLAG']},
 'EU_PSNW_over_GDP': {'numericas': ['Time',
   'OBS_VALUE',
   'Observation value',
   'CONF_STATUS',
   'Confidentiality status (flag)'],
  'no_numericas': ['STRUCTURE',
   'STRUCTURE_ID',
   'STRUCTURE_NAME',
   'freq',
   'Time frequency',
   'na_item',
   'National accounts indicator (ESA 2010)',
   'finpos',
   'Financial position',
   'stk_flow',
   'Stock or flow',
   'sector',
   'Sector',
   'sector2',
   'Counterpart sector',
   'co_nco',
   'Consolidated/Non consolidated',
   'unit',
   'Unit of measure',
   'geo',
   'Geopolitical entity (reporting)',
   'TIME_PERIOD',
   'OBS_FLAG',
   'Observation status (Flag) V2 structure']},
 'GDP_Growth_Rate': {'numericas': ['TIME_PERIOD', 'OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
  

#### Observación

A partir de la estructura observada en los datasets, la unidad de observación corresponde a registros temporales asociados a indicadores macroeconómicos, desagregados por país o agregado regional, según el dataset específico.

Esta definición se confirma en etapas posteriores mediante el análisis de variables de tiempo y entidad geográfica.

Se inspecciona la información estructural completa de cada dataset utilizando el método `info()` de pandas.

Este análisis permite identificar:
- Tipos de datos por columna
- Presencia de valores nulos
- Uso de memoria
- Diferencias en estructura entre indicadores

Se confirma que:
- La mayoría de las variables categóricas están almacenadas como `object`
- Las variables cuantitativas principales se encuentran en `float64`
- Las columnas `CONF_STATUS` presentan 0 valores no nulos en todos los datasets



## 4. Análisis descriptivo de las variables (planificado)

El análisis descriptivo de las variables macroeconómicas y fiscales se realizará en una fase posterior del proyecto, a lo largo del cuatrimestre, una vez finalizada la validación estructural de los datasets y definida la estrategia de modelado.

Este bloque incluirá:
- Estadísticas descriptivas básicas
- Estudio de distribuciones y escalas
- Análisis de valores faltantes
- Identificación de posibles outliers

Por el momento, este análisis no se ejecuta para evitar decisiones prematuras sobre limpieza, transformación o tratamiento de datos sin un marco de modelado claramente definido.

## 4.1 Estadísticas descriptivas básicas

Se calcularon estadísticas descriptivas básicas (media, desviación estándar, mínimos, máximos y percentiles) para las variables numéricas principales de cada dataset.

Los resultados muestran que las variables económicas presentan rangos amplios y una elevada heterogeneidad entre datasets, con diferencias significativas tanto en magnitud como en dispersión. En varios indicadores se observan valores mínimos y máximos alejados de la mediana, lo que sugiere distribuciones no simétricas.


In [38]:
# Estadísticas descriptivas básicas por dataset (solo variables numéricas)

estadisticas_descriptivas = {
    key: df.select_dtypes(include=["number"]).describe()
    for key, df in dataframes.items()
}

estadisticas_descriptivas


{'Debt_to_GDP_Ratio':          OBS_VALUE  CONF_STATUS
 count  1260.000000          0.0
 mean     69.172460          NaN
 std      37.384545          NaN
 min       8.300000          NaN
 25%      40.500000          NaN
 50%      62.350000          NaN
 75%      88.150000          NaN
 max     212.900000          NaN,
 'EU_PSNW_over_GDP':        Time    OBS_VALUE  Observation value  CONF_STATUS  \
 count   0.0  1740.000000                0.0          0.0   
 mean    NaN   -22.323678                NaN          NaN   
 std     NaN    82.438968                NaN          NaN   
 min     NaN  -183.700000                NaN          NaN   
 25%     NaN   -55.900000                NaN          NaN   
 50%     NaN   -31.600000                NaN          NaN   
 75%     NaN    -8.000000                NaN          NaN   
 max     NaN   428.800000                NaN          NaN   
 
        Confidentiality status (flag)  
 count                            0.0  
 mean                         

## 4.2 Estudio de distribuciones y escalas

El análisis de las distribuciones revela que las variables numéricas no comparten una escala común y presentan comportamientos estadísticos diversos.

Se identifican asimetrías claras y la presencia de colas largas en varios indicadores, lo que indica que no es apropiado asumir normalidad ni escalas homogéneas en esta etapa del análisis.


In [39]:
# Resumen rápido de escalas numéricas (mínimo, máximo, rango)

resumen_escalas = {}

for key, df in dataframes.items():
    numericas = df.select_dtypes(include=["number"])
    resumen_escalas[key] = {
        "min": numericas.min(),
        "max": numericas.max(),
        "rango": numericas.max() - numericas.min()
    }

resumen_escalas


{'Debt_to_GDP_Ratio': {'min': OBS_VALUE      8.3
  CONF_STATUS    NaN
  dtype: float64,
  'max': OBS_VALUE      212.9
  CONF_STATUS      NaN
  dtype: float64,
  'rango': OBS_VALUE      204.6
  CONF_STATUS      NaN
  dtype: float64},
 'EU_PSNW_over_GDP': {'min': Time                               NaN
  OBS_VALUE                       -183.7
  Observation value                  NaN
  CONF_STATUS                        NaN
  Confidentiality status (flag)      NaN
  dtype: float64,
  'max': Time                               NaN
  OBS_VALUE                        428.8
  Observation value                  NaN
  CONF_STATUS                        NaN
  Confidentiality status (flag)      NaN
  dtype: float64,
  'rango': Time                               NaN
  OBS_VALUE                        612.5
  Observation value                  NaN
  CONF_STATUS                        NaN
  Confidentiality status (flag)      NaN
  dtype: float64},
 'GDP_Growth_Rate': {'min': TIME_PERIOD    2013.0
  OB

## 4.3 Análisis de valores faltantes

Se evaluó la presencia y proporción de valores faltantes tanto en términos absolutos como porcentuales para cada variable.

Los resultados muestran que los valores faltantes se concentran principalmente en columnas asociadas a metadatos o flags administrativos, mientras que las variables económicas principales presentan, en general, una cobertura elevada. No se realiza imputación en esta fase, limitándose el análisis a la identificación y cuantificación de ausencias.


In [40]:
# Conteo y porcentaje de valores faltantes por dataset

valores_faltantes = {}

for key, df in dataframes.items():
    total = df.shape[0]
    missing = df.isna().sum()
    porcentaje = (missing / total) * 100

    valores_faltantes[key] = {
        "conteo": missing,
        "porcentaje": porcentaje
    }

valores_faltantes


{'Debt_to_GDP_Ratio': {'conteo': DATAFLOW          0
  LAST UPDATE       0
  freq              0
  na_item           0
  sector            0
  unit              0
  geo               0
  TIME_PERIOD       0
  OBS_VALUE         0
  OBS_FLAG       1112
  CONF_STATUS    1260
  dtype: int64,
  'porcentaje': DATAFLOW         0.000000
  LAST UPDATE      0.000000
  freq             0.000000
  na_item          0.000000
  sector           0.000000
  unit             0.000000
  geo              0.000000
  TIME_PERIOD      0.000000
  OBS_VALUE        0.000000
  OBS_FLAG        88.253968
  CONF_STATUS    100.000000
  dtype: float64},
 'EU_PSNW_over_GDP': {'conteo': STRUCTURE                                    0
  STRUCTURE_ID                                 0
  STRUCTURE_NAME                               0
  freq                                         0
  Time frequency                               0
  na_item                                      0
  National accounts indicator (ESA 2010)      

## 4.4 Análisis de outliers (diagnóstico preliminar)

A partir de los rangos observados en las estadísticas descriptivas, se identifican valores extremos en varias variables macroeconómicas.

Estos valores no se consideran automáticamente errores, sino posibles reflejos de episodios económicos excepcionales o cambios estructurales. En esta etapa, los outliers se documentan sin aplicar tratamientos específicos, que serán evaluados en fases posteriores del análisis.


In [41]:
# Detección exploratoria de outliers usando IQR (sin eliminar datos)

outliers_iqr = {}

for key, df in dataframes.items():
    numericas = df.select_dtypes(include=["number"])
    outliers_dataset = {}

    for col in numericas.columns:
        Q1 = numericas[col].quantile(0.25)
        Q3 = numericas[col].quantile(0.75)
        IQR = Q3 - Q1

        outliers = numericas[
            (numericas[col] < Q1 - 1.5 * IQR) |
            (numericas[col] > Q3 + 1.5 * IQR)
        ]

        outliers_dataset[col] = outliers.shape[0]

    outliers_iqr[key] = outliers_dataset

outliers_iqr


{'Debt_to_GDP_Ratio': {'OBS_VALUE': 38, 'CONF_STATUS': 0},
 'EU_PSNW_over_GDP': {'Time': 0,
  'OBS_VALUE': 142,
  'Observation value': 0,
  'CONF_STATUS': 0,
  'Confidentiality status (flag)': 0},
 'GDP_Growth_Rate': {'TIME_PERIOD': 0, 'OBS_VALUE': 68, 'CONF_STATUS': 0},
 'Inflation_Monthly_Euro_Zone': {'OBS_VALUE': 2038, 'CONF_STATUS': 0},
 'Labor_Slack': {'OBS_VALUE': 549, 'CONF_STATUS': 0},
 'PSNW': {'OBS_VALUE': 962, 'CONF_STATUS': 0}}

## 4.5 Observaciones generales del análisis descriptivo

El análisis descriptivo realizado sobre los distintos datasets macroeconómicos permite identificar patrones estructurales relevantes en términos de escala, distribución, completitud y naturaleza de las variables disponibles, desde una perspectiva orientada al aprendizaje automático supervisado.

En conjunto, los resultados confirman la existencia de una elevada heterogeneidad entre los datasets analizados, tanto en el número de observaciones como en la cantidad y tipo de variables incluidas. Esta heterogeneidad es especialmente relevante en un contexto de Machine Learning, ya que influye directamente en la selección de variables, el diseño del conjunto de entrenamiento y la estabilidad de los modelos predictivos.

Asimismo, se observa que una proporción significativa de las columnas presentes corresponde a información administrativa o metadatos, lo que refuerza la necesidad de una depuración analítica previa al modelado, evitando la incorporación de variables que no aportan señal predictiva.


### 4.5.1 Heterogeneidad entre datasets

Los datasets analizados presentan diferencias sustanciales en términos de tamaño, estructura interna y nivel de agregación de la información. Estas diferencias se manifiestan tanto en el número de observaciones disponibles como en la diversidad de variables incluidas en cada conjunto de datos.

Desde la perspectiva del Machine Learning, esta heterogeneidad implica que las variables no pueden ser utilizadas de forma homogénea sin un proceso previo de selección y alineación conceptual. Además, las variables numéricas presentan escalas muy dispares y distribuciones asimétricas, con presencia de valores extremos y rangos amplios.

Estas características descartan la posibilidad de asumir distribuciones estándar o relaciones lineales simples, y justifican el uso posterior de modelos capaces de capturar relaciones no lineales y manejar heterogeneidad estructural en datos tabulares.


In [50]:
# Resumen de dimensiones para evidenciar heterogeneidad entre datasets
{key: df.shape for key, df in dataframes.items()}


{'Debt_to_GDP_Ratio': (1260, 11),
 'EU_PSNW_over_GDP': (1740, 29),
 'GDP_Growth_Rate': (958, 10),
 'Inflation_Monthly_Euro_Zone': (20135, 10),
 'Labor_Slack': (11856, 13),
 'PSNW': (3720, 15)}

### 4.5.2 Variables administrativas y metadatos

El análisis estructural de los datasets revela que una parte considerable de las columnas corresponde a variables administrativas, identificadores técnicos o metadatos. Estas incluyen códigos de flujo de datos, descriptores institucionales, unidades de medida, indicadores sectoriales y flags de observación o confidencialidad.

Aunque estas variables son esenciales para la trazabilidad y documentación de los datos, no contienen información directamente relevante para la predicción del comportamiento económico. En un contexto de aprendizaje automático, su inclusión sin un criterio analítico claro podría introducir ruido, aumentar la dimensionalidad innecesariamente o generar riesgos de data leakage.

Por ello, estas variables serán consideradas únicamente como soporte documental y no como candidatas directas a variables explicativas, salvo que se justifique explícitamente su valor predictivo en etapas posteriores.


In [51]:
# Identificación de variables numéricas y no numéricas por dataset
{
    key: {
        "numericas": df.select_dtypes(include="number").columns.tolist(),
        "no_numericas": df.select_dtypes(exclude="number").columns.tolist()
    }
    for key, df in dataframes.items()
}


{'Debt_to_GDP_Ratio': {'numericas': ['OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
   'na_item',
   'sector',
   'unit',
   'geo',
   'TIME_PERIOD',
   'OBS_FLAG']},
 'EU_PSNW_over_GDP': {'numericas': ['Time',
   'OBS_VALUE',
   'Observation value',
   'CONF_STATUS',
   'Confidentiality status (flag)'],
  'no_numericas': ['STRUCTURE',
   'STRUCTURE_ID',
   'STRUCTURE_NAME',
   'freq',
   'Time frequency',
   'na_item',
   'National accounts indicator (ESA 2010)',
   'finpos',
   'Financial position',
   'stk_flow',
   'Stock or flow',
   'sector',
   'Sector',
   'sector2',
   'Counterpart sector',
   'co_nco',
   'Consolidated/Non consolidated',
   'unit',
   'Unit of measure',
   'geo',
   'Geopolitical entity (reporting)',
   'TIME_PERIOD',
   'OBS_FLAG',
   'Observation status (Flag) V2 structure']},
 'GDP_Growth_Rate': {'numericas': ['TIME_PERIOD', 'OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
  

In [52]:
# Identificación de variables numéricas y no numéricas por dataset
{
    key: {
        "numericas": df.select_dtypes(include="number").columns.tolist(),
        "no_numericas": df.select_dtypes(exclude="number").columns.tolist()
    }
    for key, df in dataframes.items()
}


{'Debt_to_GDP_Ratio': {'numericas': ['OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
   'na_item',
   'sector',
   'unit',
   'geo',
   'TIME_PERIOD',
   'OBS_FLAG']},
 'EU_PSNW_over_GDP': {'numericas': ['Time',
   'OBS_VALUE',
   'Observation value',
   'CONF_STATUS',
   'Confidentiality status (flag)'],
  'no_numericas': ['STRUCTURE',
   'STRUCTURE_ID',
   'STRUCTURE_NAME',
   'freq',
   'Time frequency',
   'na_item',
   'National accounts indicator (ESA 2010)',
   'finpos',
   'Financial position',
   'stk_flow',
   'Stock or flow',
   'sector',
   'Sector',
   'sector2',
   'Counterpart sector',
   'co_nco',
   'Consolidated/Non consolidated',
   'unit',
   'Unit of measure',
   'geo',
   'Geopolitical entity (reporting)',
   'TIME_PERIOD',
   'OBS_FLAG',
   'Observation status (Flag) V2 structure']},
 'GDP_Growth_Rate': {'numericas': ['TIME_PERIOD', 'OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
  

In [53]:
# Identificación de variables numéricas y no numéricas por dataset
{
    key: {
        "numericas": df.select_dtypes(include="number").columns.tolist(),
        "no_numericas": df.select_dtypes(exclude="number").columns.tolist()
    }
    for key, df in dataframes.items()
}


{'Debt_to_GDP_Ratio': {'numericas': ['OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
   'na_item',
   'sector',
   'unit',
   'geo',
   'TIME_PERIOD',
   'OBS_FLAG']},
 'EU_PSNW_over_GDP': {'numericas': ['Time',
   'OBS_VALUE',
   'Observation value',
   'CONF_STATUS',
   'Confidentiality status (flag)'],
  'no_numericas': ['STRUCTURE',
   'STRUCTURE_ID',
   'STRUCTURE_NAME',
   'freq',
   'Time frequency',
   'na_item',
   'National accounts indicator (ESA 2010)',
   'finpos',
   'Financial position',
   'stk_flow',
   'Stock or flow',
   'sector',
   'Sector',
   'sector2',
   'Counterpart sector',
   'co_nco',
   'Consolidated/Non consolidated',
   'unit',
   'Unit of measure',
   'geo',
   'Geopolitical entity (reporting)',
   'TIME_PERIOD',
   'OBS_FLAG',
   'Observation status (Flag) V2 structure']},
 'GDP_Growth_Rate': {'numericas': ['TIME_PERIOD', 'OBS_VALUE', 'CONF_STATUS'],
  'no_numericas': ['DATAFLOW',
   'LAST UPDATE',
   'freq',
  

### 4.5.3 Implicaciones para el modelado

Los resultados del análisis descriptivo establecen un marco claro para las etapas posteriores de modelado predictivo. En particular, la heterogeneidad observada en escalas, distribuciones y estructuras refuerza la necesidad de una selección rigurosa de variables antes del entrenamiento de modelos.

Asimismo, la presencia de valores extremos y distribuciones asimétricas sugiere que no es apropiado asumir relaciones simples o comportamientos estadísticos homogéneos entre variables.

Este análisis confirma que el EDA cumple un rol exploratorio dentro del flujo de trabajo de Machine Learning, sirviendo como base para decisiones metodológicas posteriores sin establecer aún relaciones causales ni hipótesis predictivas formales.


In [54]:
# Estadísticas descriptivas básicas como soporte para decisiones de modelado
{
    key: df.select_dtypes(include="number").describe()
    for key, df in dataframes.items()
}


{'Debt_to_GDP_Ratio':          OBS_VALUE  CONF_STATUS
 count  1260.000000          0.0
 mean     69.172460          NaN
 std      37.384545          NaN
 min       8.300000          NaN
 25%      40.500000          NaN
 50%      62.350000          NaN
 75%      88.150000          NaN
 max     212.900000          NaN,
 'EU_PSNW_over_GDP':        Time    OBS_VALUE  Observation value  CONF_STATUS  \
 count   0.0  1740.000000                0.0          0.0   
 mean    NaN   -22.323678                NaN          NaN   
 std     NaN    82.438968                NaN          NaN   
 min     NaN  -183.700000                NaN          NaN   
 25%     NaN   -55.900000                NaN          NaN   
 50%     NaN   -31.600000                NaN          NaN   
 75%     NaN    -8.000000                NaN          NaN   
 max     NaN   428.800000                NaN          NaN   
 
        Confidentiality status (flag)  
 count                            0.0  
 mean                         

## 5. Relación entre variables

En este subapartado se analiza la relación entre las principales variables numéricas disponibles en los datasets, con el objetivo de identificar posibles asociaciones En este apartado se analiza la relación entre las principales variables numéricas disponibles en los datasets, con el objetivo de identificar asociaciones estadísticas preliminares relevantes para el aprendizaje automático.

El análisis se realiza de forma exploratoria, sin asumir causalidad ni establecer hipótesis predictivas formales. Las relaciones observadas se interpretan únicamente como indicios estadísticos iniciales.

Dado que los datasets presentan distintas escalas, estructuras y niveles de agregación, las relaciones identificadas se consideran orientativas y sujetas a validación posterior tras la definición final de variables y el diseño del enfoque de modelado.

Este análisis permite detectar posibles dependencias fuertes, relaciones redundantes o ausencia de asociación entre variables, información clave para etapas posteriores de selección de variables y construcción de modelos.


### 5.1 Objetivo del análisis


El objetivo de este subapartado es explorar la relación estadística entre variables numéricas dentro de cada dataset, con el fin de identificar patrones de asociación que puedan aportar información útil para el diseño de modelos de aprendizaje automático.

Este análisis busca apoyar decisiones posteriores como:
- Selección de variables explicativas
- Identificación de variables redundantes
- Evaluación preliminar de dependencias entre indicadores


### 5.2 Variables consideradas


En este análisis se consideran únicamente las variables numéricas identificadas en cada dataset durante la fase de exploración estructural.

No se incluyen variables administrativas, categóricas o de metadatos, ya que no aportan información directa para el análisis de relaciones cuantitativas en esta etapa.


In [55]:
# Identificación de variables numéricas por dataset (reutilizando estructura existente)

variables_numericas = {
    key: df.select_dtypes(include=["number"]).columns.tolist()
    for key, df in dataframes.items()
}

variables_numericas


{'Debt_to_GDP_Ratio': ['OBS_VALUE', 'CONF_STATUS'],
 'EU_PSNW_over_GDP': ['Time',
  'OBS_VALUE',
  'Observation value',
  'CONF_STATUS',
  'Confidentiality status (flag)'],
 'GDP_Growth_Rate': ['TIME_PERIOD', 'OBS_VALUE', 'CONF_STATUS'],
 'Inflation_Monthly_Euro_Zone': ['OBS_VALUE', 'CONF_STATUS'],
 'Labor_Slack': ['OBS_VALUE', 'CONF_STATUS'],
 'PSNW': ['OBS_VALUE', 'CONF_STATUS']}

### 5.3 Análisis exploratorio de correlaciones


En este subapartado se calcula la matriz de correlación para las variables numéricas disponibles en cada dataset, con el objetivo de identificar asociaciones lineales preliminares.

El análisis se realiza de forma independiente por dataset, evitando combinaciones artificiales entre fuentes con distinta estructura o significado económico.


In [56]:
# Cálculo de matrices de correlación por dataset (solo variables numéricas)

correlaciones = {}

for key, df in dataframes.items():
    numericas = df.select_dtypes(include=["number"])
    if numericas.shape[1] > 1:
        correlaciones[key] = numericas.corr()
    else:
        correlaciones[key] = None

correlaciones


{'Debt_to_GDP_Ratio':              OBS_VALUE  CONF_STATUS
 OBS_VALUE          1.0          NaN
 CONF_STATUS        NaN          NaN,
 'EU_PSNW_over_GDP':                                Time  OBS_VALUE  Observation value  \
 Time                            NaN        NaN                NaN   
 OBS_VALUE                       NaN        1.0                NaN   
 Observation value               NaN        NaN                NaN   
 CONF_STATUS                     NaN        NaN                NaN   
 Confidentiality status (flag)   NaN        NaN                NaN   
 
                                CONF_STATUS  Confidentiality status (flag)  
 Time                                   NaN                            NaN  
 OBS_VALUE                              NaN                            NaN  
 Observation value                      NaN                            NaN  
 CONF_STATUS                            NaN                            NaN  
 Confidentiality status (flag)          

### 5.4 Interpretación preliminar


Las matrices de correlación permiten identificar patrones iniciales de asociación entre variables numéricas dentro de cada dataset.

En esta etapa, las correlaciones se interpretan únicamente como indicadores estadísticos exploratorios, sin implicar relaciones causales ni validez predictiva directa.

La presencia de correlaciones elevadas puede sugerir:
- Redundancia entre variables
- Potencial multicolinealidad
- Variables candidatas para reducción dimensional o selección posterior

La ausencia de correlaciones fuertes también resulta informativa, ya que indica independencia estadística entre ciertos indicadores.


### 5.5 Limitaciones del análisis

Este análisis presenta varias limitaciones que deben considerarse antes de su uso en el modelado:

- Las correlaciones se calculan únicamente a nivel descriptivo y no implican capacidad predictiva.
- Las diferencias de escala y estructura entre datasets limitan la comparación directa entre fuentes.
- No se han aplicado transformaciones, normalizaciones ni filtrados de observaciones.
- No se evalúan relaciones no lineales ni interacciones complejas entre variables.

Por estas razones, los resultados de este apartado deben utilizarse como insumo exploratorio y no como criterio definitivo para decisiones de modelado.


Este análisis presenta varias limitaciones que deben considerarse antes de su uso en el modelado:

- Las correlaciones se calculan únicamente a nivel descriptivo y no implican capacidad predictiva.
- Las diferencias de escala y estructura entre datasets limitan la comparación directa entre fuentes.
- No se han aplicado transformaciones, normalizaciones ni filtrados de observaciones.
- No se evalúan relaciones no lineales ni interacciones complejas entre variables.

Por estas razones, los resultados de este apartado deben utilizarse como insumo exploratorio y no como criterio definitivo para decisiones de modelado.


## 6. Comparación entre países

En esta sección se analiza la dimensión geográfica presente en los distintos datasets, con el objetivo de evaluar la consistencia y cobertura de países entre indicadores macroeconómicos.

El análisis muestra que todos los datasets comparten un universo geográfico común, definido por la variable `geo`, lo que garantiza coherencia estructural para etapas posteriores de integración y modelado.

Adicionalmente, se identifican observaciones que corresponden a agregados regionales (por ejemplo, área del euro o Unión Europea), las cuales no representan países individuales y deberán ser tratadas explícitamente en fases posteriores del proyecto.

En esta etapa del EDA no se realizan comparaciones entre países ni agregaciones geográficas, ya que dichas transformaciones forman parte del proceso de construcción del dataset final para Machine Learning.


## 6.1 Objetivo del análisis

Evaluar si existen diferencias sistemáticas entre países en términos de magnitud, dispersión y rango de los indicadores económicos disponibles, con el fin de anticipar decisiones de modelado relacionadas con el tratamiento de la variable país.


## 6.2 Alcance y delimitaciones del análisis

El análisis se limita a estadísticas descriptivas comparativas entre países.

No se realizan:
- transformaciones de variables,
- normalizaciones,
- ajustes de modelos,
- ni evaluaciones fuera de muestra.

Los resultados obtenidos se utilizarán únicamente como insumo para etapas posteriores del proyecto.


## 6.3 Variables consideradas

Se utilizan exclusivamente variables numéricas económicas previamente identificadas en el EDA.

Se excluyen explícitamente:
- columnas administrativas,
- metadatos,
- flags de confidencialidad.

No se redefine ninguna variable en esta sección.


In [64]:
# Identificación del universo geográfico (países y agregados) por dataset

paises_por_dataset = {
    key: sorted(df["geo"].dropna().unique().tolist())
    for key, df in dataframes.items()
    if "geo" in df.columns
}

paises_por_dataset


{'Debt_to_GDP_Ratio': ['Austria',
  'Belgium',
  'Bulgaria',
  'Croatia',
  'Cyprus',
  'Czechia',
  'Denmark',
  'Estonia',
  'Euro area - 19 countries  (2015-2022)',
  'European Union - 27 countries (from 2020)',
  'Finland',
  'France',
  'Germany',
  'Greece',
  'Hungary',
  'Ireland',
  'Italy',
  'Latvia',
  'Lithuania',
  'Luxembourg',
  'Malta',
  'Netherlands',
  'Norway',
  'Poland',
  'Portugal',
  'Romania',
  'Slovakia',
  'Slovenia',
  'Spain',
  'Sweden'],
 'EU_PSNW_over_GDP': ['AT',
  'BE',
  'BG',
  'CY',
  'CZ',
  'DE',
  'DK',
  'EE',
  'EL',
  'ES',
  'EU27_2020',
  'FI',
  'FR',
  'HR',
  'HU',
  'IE',
  'IT',
  'LT',
  'LU',
  'LV',
  'MT',
  'NL',
  'NO',
  'PL',
  'PT',
  'RO',
  'SE',
  'SI',
  'SK'],
 'GDP_Growth_Rate': ['AL',
  'AT',
  'BA',
  'BE',
  'BG',
  'CH',
  'CY',
  'CZ',
  'DE',
  'DK',
  'EA19',
  'EA20',
  'EE',
  'EL',
  'ES',
  'EU27_2020',
  'FI',
  'FR',
  'HR',
  'HU',
  'IE',
  'IS',
  'IT',
  'LT',
  'LU',
  'LV',
  'ME',
  'MK',
  'MT',
  

In [60]:
# Estadísticas descriptivas comparativas por país
comparacion_paises = {}

for key, df in dataframes.items():
    if "geo" in df.columns:
        numericas = df.select_dtypes(include=["number"])
        comparacion_paises[key] = (
            df
            .groupby("geo")[numericas.columns]
            .agg(["mean", "std", "min", "max"])
        )

comparacion_paises


{'Debt_to_GDP_Ratio':                                             OBS_VALUE                    \
                                                  mean        std    min   
 geo                                                                       
 Austria                                     80.578571   4.295859   71.0   
 Belgium                                    106.261905   3.648852   97.7   
 Bulgaria                                    24.038095   2.768724   20.0   
 Croatia                                     74.033333   8.850373   57.4   
 Cyprus                                      95.169048  17.119700   61.2   
 Czechia                                     38.735714   4.188476   29.6   
 Denmark                                     38.876190   4.996477   29.7   
 Estonia                                     14.954762   5.596218    8.3   
 Euro area - 19 countries  (2015-2022)       90.083333   3.626321   83.7   
 European Union - 27 countries (from 2020)   83.542857   3.409681  

In [63]:
# Conteo de observaciones numéricas disponibles por país
disponibilidad_por_pais = {}

for key, df in dataframes.items():
    if "geo" in df.columns:
        numericas = df.select_dtypes(include=["number"])
        disponibilidad_por_pais[key] = (
            df.groupby("geo")[numericas.columns]
            .count()
        )

disponibilidad_por_pais


{'Debt_to_GDP_Ratio':                                            OBS_VALUE  CONF_STATUS
 geo                                                              
 Austria                                           42            0
 Belgium                                           42            0
 Bulgaria                                          42            0
 Croatia                                           42            0
 Cyprus                                            42            0
 Czechia                                           42            0
 Denmark                                           42            0
 Estonia                                           42            0
 Euro area - 19 countries  (2015-2022)             42            0
 European Union - 27 countries (from 2020)         42            0
 Finland                                           42            0
 France                                            42            0
 Germany                                 

## 6.5 Interpretación preliminar

Los resultados muestran la existencia de diferencias significativas entre países en términos de escala y variabilidad de los indicadores económicos.

Se observan patrones heterogéneos que sugieren que el país puede actuar como una fuente relevante de variabilidad dentro del conjunto de datos.


## 6.6 Implicaciones para el modelado

La heterogeneidad observada entre países indica que la dimensión geográfica no debe ser ignorada en el modelado supervisado.

Será necesario evaluar su tratamiento como:
- variable explicativa,
- factor de control,
- o criterio de segmentación.

Estas decisiones se abordarán en la fase de modelado.


## 6.7 Limitaciones del análisis

Este análisis:
- se basa en estadísticas agregadas,
- no evalúa interacciones entre variables,
- no considera el target definido,
- no mide impacto predictivo.

Por lo tanto, sus resultados deben interpretarse únicamente como diagnóstico exploratorio.


## 7. Principales hallazgos del Análisis Exploratorio (EDA)

Esta sección sintetiza los hallazgos más relevantes del análisis exploratorio de datos. Los resultados se interpretan exclusivamente como diagnósticos descriptivos y no implican conclusiones causales ni predictivas.

---

### 7.1 Heterogeneidad entre datasets

Los datasets analizados presentan una elevada heterogeneidad en términos de volumen de datos, número de variables, escalas y cobertura geográfica. Esto confirma que no son directamente comparables sin un proceso previo de selección y alineación de variables, el cual se abordará en la fase de preparación para el modelado.

---

### 7.2 Comportamiento de las variables numéricas

Las variables numéricas muestran diferencias relevantes en rangos, dispersión y forma de distribución. Se observan asimetrías y valores extremos, lo que indica que no es apropiado asumir escalas homogéneas en esta etapa y refuerza la necesidad de transformaciones posteriores antes del entrenamiento de modelos.

---

### 7.3 Valores faltantes y variables administrativas

Los valores faltantes se concentran principalmente en variables administrativas o de control, mientras que las variables económicas principales presentan mayor completitud. Esto sugiere que las ausencias responden a características estructurales de los datasets y no a fallos sistemáticos de medición económica.

---

### 7.4 Diferencias entre países

El análisis comparativo entre países evidencia diferencias significativas en niveles promedio, variabilidad y disponibilidad de observaciones. La dimensión geográfica emerge como una fuente relevante de variabilidad dentro de los datos.

---

### 7.5 Implicaciones para el modelado

A partir del EDA se concluye que:
- será necesaria una selección cuidadosa de variables,
- deberán tratarse explícitamente las diferencias de escala,
- la dimensión geográfica no debe ignorarse en el modelado supervisado,
- los valores extremos deberán evaluarse según su impacto predictivo.

Estas decisiones quedan formalmente reservadas para la fase de modelado.

---

### 7.6 Alcance del análisis

El EDA se limita a estadística descriptiva, no evalúa interacciones complejas ni capacidad predictiva y no incorpora una variable objetivo. Sus resultados deben interpretarse únicamente como un diagnóstico exploratorio.

---


### 7.7 Cierre del Análisis Exploratorio

El análisis exploratorio queda cerrado a nivel descriptivo y no será recalculado en las fases posteriores del proyecto.

Los hallazgos obtenidos se conservarán como referencia metodológica para la selección de variables, el diseño del enfoque de modelado supervisado y la interpretación posterior de los resultados.

Las etapas siguientes se centrarán exclusivamente en el modelado y la evaluación predictiva, utilizando este EDA como punto de partida.
