---
## 1. Carga de Datos

---

## 1. Configuración e Importación de Librerías

In [1]:
import pandas as pd
import json
import os
from datetime import datetime
from IPython.display import display, Markdown, JSON
from pathlib import Path
# Configuración de pandas para mejor visualización
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 20)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

OUTPUT_DIR = Path('../datos/procesados')

---

## 2. Carga de la Tabla de Hechos

Cargamos los datos exportados de la base de datos del Data Warehouse. Esta tabla contiene todos los indicadores económicos procesados durante el proyecto ETL.

In [2]:
# Ruta al archivo exportado de la base de datos
db_export_path = "../datos/procesados/hechos_exportados_db.csv"

if os.path.exists(db_export_path):
    df_hechos = pd.read_csv(db_export_path)
    df_hechos['fecha'] = pd.to_datetime(df_hechos['fecha'])
    display(Markdown(f"**Archivo cargado correctamente:** `{db_export_path}`"))
else:
    raise FileNotFoundError(f"No se encontró el archivo: {db_export_path}")

**Archivo cargado correctamente:** `../datos/procesados/hechos_exportados_db.csv`

### 2.1 Resumen de la Tabla de Hechos

In [3]:
# Información general del dataset
resumen = pd.DataFrame({
    'Métrica': [
        'Total de registros',
        'Columnas',
        'Fecha mínima',
        'Fecha máxima',
        'Indicadores únicos',
        'Geografías'
    ],
    'Valor': [
        f"{len(df_hechos):,}",
        ', '.join(df_hechos.columns.tolist()),
        df_hechos['fecha'].min().strftime('%Y-%m-%d'),
        df_hechos['fecha'].max().strftime('%Y-%m-%d'),
        df_hechos['indicador'].nunique(),
        ', '.join(df_hechos['geografia'].unique())
    ]
})
resumen.style.set_properties(**{'text-align': 'left'}).hide(axis='index')

Métrica,Valor
Total de registros,16526
Columnas,"fecha, indicador, indicador_codigo, valor, unidad, geografia, fuente"
Fecha mínima,2010-01-01
Fecha máxima,2025-12-31
Indicadores únicos,31
Geografías,"Global, España"


### 2.2 Muestra de los Datos

In [4]:
df_hechos.head(10)

Unnamed: 0,fecha,indicador,indicador_codigo,valor,unidad,geografia,fuente
0,2010-01-01,Tipo Cambio EUR/USD,EURUSD,1.439,USD/EUR,Global,Yahoo Finance
1,2010-01-04,Tipo Cambio EUR/USD,EURUSD,1.4424,USD/EUR,Global,Yahoo Finance
2,2010-01-04,Precio Oro EUR,XAU_EUR,774.8902,EUR/oz,Global,Yahoo Finance
3,2010-01-04,IBEX 35,IBEX35,12145.0869,Puntos,España,Yahoo Finance
4,2010-01-04,Precio Oro USD,XAU_USD,1117.7,USD/oz,Global,Yahoo Finance
5,2010-01-05,Precio Oro USD,XAU_USD,1118.1,USD/oz,Global,Yahoo Finance
6,2010-01-05,IBEX 35,IBEX35,12204.3877,Puntos,España,Yahoo Finance
7,2010-01-05,Tipo Cambio EUR/USD,EURUSD,1.4366,USD/EUR,Global,Yahoo Finance
8,2010-01-05,Precio Oro EUR,XAU_EUR,778.2982,EUR/oz,Global,Yahoo Finance
9,2010-01-06,Tipo Cambio EUR/USD,EURUSD,1.4404,USD/EUR,Global,Yahoo Finance


---

## 3. Exploración de Indicadores Disponibles

Analizamos los diferentes indicadores económicos que serán transformados a Schema.org.

In [5]:
# Conteo de registros por indicador
indicadores_resumen = df_hechos.groupby('indicador').agg(
    registros=('valor', 'count'),
    valor_min=('valor', 'min'),
    valor_max=('valor', 'max'),
    unidad=('unidad', 'first'),
    fuente=('fuente', 'first')
).reset_index()

indicadores_resumen = indicadores_resumen.sort_values('registros', ascending=False)
indicadores_resumen

Unnamed: 0,indicador,registros,valor_min,valor_max,unidad,fuente
30,Tipo Cambio EUR/USD,4122,0.9596,1.4844,USD/EUR,Yahoo Finance
13,IBEX 35,4049,5956.2940,16150.0996,Puntos,Yahoo Finance
16,Precio Oro USD,3981,1050.8001,4336.3999,USD/oz,Yahoo Finance
15,Precio Oro EUR,3975,769.1476,3719.8505,EUR/oz,Yahoo Finance
5,Desempleo 35-39,16,8.8900,13.9200,%,INE
...,...,...,...,...,...,...
24,Salario Decil 70-80,14,2291.7000,2782.0000,EUR,INE
29,Salario medio bruto,14,22594.8700,27981.9000,EUR,INE
28,Salario mediano,13,18871.5400,22141.5900,EUR,INE
27,Salario mas frecuente,13,14522.7900,17031.9000,EUR,INE


---

## 4. Definición del Esquema de Mapeo a Schema.org

### 4.1 Tipo de Entidad: `Observation`

Usamos **`Observation`** (Schema.org) para cada fila de hechos, enlazando con URIs externas cuando existen.

| Campo Schema.org | Descripción | Mapeo desde nuestra BD |
|------------------|-------------|------------------------|
| `@type` | Tipo de entidad | `"Observation"` |
| `@id` | Identificador único | `indicador_slug + fecha` |
| `observationDate` | Fecha de la observación | `fecha` |
| `measuredValue` | Valor numérico | `valor` |
| `unitText` | Unidad de medida | `unidad` |
| `variableMeasured.name` | Nombre de la variable | `indicador` |
| `variableMeasured.propertyID` | ID interno o código | `indicador_codigo` o `indicador` |
| `variableMeasured.sameAs` | URI externa si existe | `INDICADOR_URI_MAP` |
| `spatialCoverage.name` | Cobertura geográfica | `geografia` |
| `spatialCoverage.@id` / `sameAs` | URI geográfica | `GEO_URI_MAP` |
| `publisher.name` | Fuente / publicador | `fuente` |

> Además, los URI helpers `GEO_URI_MAP` e `INDICADOR_URI_MAP` añaden `sameAs` para reflejar enlazado externo (Wikidata) en línea con LOD.

In [6]:
# Definición de la función de transformación
GEO_URI_MAP = {
    "Spain": "https://www.wikidata.org/entity/Q29",
    "España": "https://www.wikidata.org/entity/Q29",
    "Global": "https://www.wikidata.org/entity/Q2",
    "Mundo": "https://www.wikidata.org/entity/Q2"
}

INDICADOR_URI_MAP = {
    "ipc": "https://www.wikidata.org/entity/Q489763",
    "ibex35": "https://www.wikidata.org/entity/Q81978",
    "oro": "https://www.wikidata.org/entity/Q897"
}

def crear_observation_jsonld(row):
    """
    Transforma una fila del DataFrame de hechos en un diccionario JSON-LD
    siguiendo el esquema Observation de Schema.org.

    Args:
        row: Fila del DataFrame con los campos fecha, indicador, valor, unidad, geografia, fuente

    Returns:
        dict: Objeto JSON-LD válido según Schema.org
    """
    # Crear un identificador único seguro (sin espacios ni caracteres especiales)
    indicador_slug = str(row['indicador']).replace(' ', '_').replace('/', '_')
    indicador_key = indicador_slug.lower()
    fecha_str = row['fecha'].strftime('%Y-%m-%d')
    obs_id = f"https://example.org/fiat-depreciacion/observation/{indicador_slug}/{fecha_str}"

    # Determinar cobertura geográfica y sus URIs si existen
    geografia = row.get('geografia', 'Global')
    spatial = {
        "@type": "Place",
        "name": geografia
    }
    if GEO_URI_MAP.get(geografia):
        spatial["@id"] = GEO_URI_MAP[geografia]
        spatial["sameAs"] = GEO_URI_MAP[geografia]

    # Construir el objeto JSON-LD
    variable_measured = {
        "@type": "PropertyValue",
        "name": str(row['indicador']),
        "propertyID": str(row.get('indicador_codigo', row['indicador']))
    }
    if INDICADOR_URI_MAP.get(indicador_key):
        variable_measured["sameAs"] = INDICADOR_URI_MAP[indicador_key]

    observation = {
        "@type": "Observation",
        "@id": obs_id,
        "observationDate": fecha_str,
        "measuredValue": float(row['valor']),
        "unitText": str(row['unidad']),
        "variableMeasured": variable_measured,
        "spatialCoverage": spatial,
        "publisher": {
            "@type": "Organization",
            "name": str(row.get('fuente', 'Unknown'))
        }
    }

    return observation

### 4.2 Ejemplo de Transformación

Veamos cómo se transforma un registro individual:

In [7]:
# Ejemplo con el primer registro
ejemplo_original = df_hechos.iloc[0]
display(Markdown("**Registro Original:**"))
display(pd.DataFrame([ejemplo_original]))

**Registro Original:**

Unnamed: 0,fecha,indicador,indicador_codigo,valor,unidad,geografia,fuente
0,2010-01-01,Tipo Cambio EUR/USD,EURUSD,1.439,USD/EUR,Global,Yahoo Finance


In [8]:
# Transformación a JSON-LD
ejemplo_jsonld = crear_observation_jsonld(ejemplo_original)
display(Markdown("**Resultado JSON-LD:**"))
print(json.dumps(ejemplo_jsonld, indent=2, ensure_ascii=False))

**Resultado JSON-LD:**

{
  "@type": "Observation",
  "@id": "https://example.org/fiat-depreciacion/observation/Tipo_Cambio_EUR_USD/2010-01-01",
  "observationDate": "2010-01-01",
  "measuredValue": 1.439,
  "unitText": "USD/EUR",
  "variableMeasured": {
    "@type": "PropertyValue",
    "name": "Tipo Cambio EUR/USD",
    "propertyID": "EURUSD"
  },
  "spatialCoverage": {
    "@type": "Place",
    "name": "Global",
    "@id": "https://www.wikidata.org/entity/Q2",
    "sameAs": "https://www.wikidata.org/entity/Q2"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Yahoo Finance"
  }
}


---

## 5. Transformación Completa de la Tabla de Hechos

Aplicamos la transformación a **todos los registros** de la tabla de hechos para generar el archivo JSON-LD completo.

In [9]:
# Transformar todos los registros
json_ld_observations = []

for idx, row in df_hechos.iterrows():
    observation = crear_observation_jsonld(row)
    json_ld_observations.append(observation)

# Resumen de la transformación
transformacion_resumen = pd.DataFrame({
    'Metrica': [
        'Registros procesados',
        'Observaciones JSON-LD generadas',
        'Tasa de conversión'
    ],
    'Valor': [
        f"{len(df_hechos):,}",
        f"{len(json_ld_observations):,}",
        f"{(len(json_ld_observations)/len(df_hechos))*100:.1f}%"
    ]
})
transformacion_resumen.style.set_properties(**{'text-align': 'left'}).hide(axis='index')

Metrica,Valor
Registros procesados,16526
Observaciones JSON-LD generadas,16526
Tasa de conversión,100.0%


### 5.1 Estructura del Documento JSON-LD Final

El documento final usa un `@context` único y un `@graph` con el `Dataset` como primer nodo seguido de todas las `Observation`. Se incluyen `sameAs` cuando hay URIs externas (geografía e indicadores) para cumplir el enfoque Linked Data mostrado en clase.

In [10]:
# Crear documento JSON-LD completo con metadatos usando @graph y contexto único
# Nodo Dataset
nodo_dataset = {
    "@type": "Dataset",
    "@id": "https://example.org/fiat-depreciacion/dataset",
    "name": "Depreciacion del Euro - Indicadores Economicos (2010-2025)",
    "description": "Dataset que contiene indicadores economicos para analizar la depreciacion del Euro frente a activos reales como el Oro y la Bolsa (IBEX35), asi como su impacto en los salarios espanoles.",
    "temporalCoverage": f"{df_hechos['fecha'].min().strftime('%Y-%m-%d')}/{df_hechos['fecha'].max().strftime('%Y-%m-%d')}",
    "spatialCoverage": {
        "@type": "Place",
        "name": "Spain",
        "@id": GEO_URI_MAP.get("Spain"),
        "sameAs": GEO_URI_MAP.get("Spain")
    },
    "publisher": {
        "@type": "Organization",
        "name": "Universidad - Proyecto Integracion de Datos"
    },
    "dateCreated": datetime.now().strftime('%Y-%m-%d'),
    "license": "https://creativecommons.org/licenses/by/4.0/",
    "variableMeasured": [
        {"@type": "PropertyValue", "name": ind} 
        for ind in df_hechos['indicador'].unique()
    ],
    "distribution": {
        "@type": "DataDownload",
        "encodingFormat": "application/ld+json",
        "contentUrl": "https://example.org/fiat-depreciacion/output_schema.jsonld"
    }
}

# Armar grafo con dataset + observaciones
nodos_grafo = [nodo_dataset, *json_ld_observations]

# Contexto global único
CONTEXT = "https://schema.org"

# Documento final
documento_jsonld = {
    "@context": CONTEXT,
    "@graph": nodos_grafo
}

display(Markdown(f"**Documento JSON-LD creado con {len(json_ld_observations):,} observaciones**"))

**Documento JSON-LD creado con 16,526 observaciones**

### 5.2 Vista Previa del Documento (Primeras 3 Observaciones)

In [11]:
# Mostrar estructura con solo los primeros nodos del grafo
preview = {
    "@context": documento_jsonld["@context"],
    "@graph": documento_jsonld["@graph"][:4]  # Dataset + primeras 3 observaciones
}
preview["@graph"].append({"...": f"... y {len(json_ld_observations)-3:,} observaciones mas"})

print(json.dumps(preview, indent=2, ensure_ascii=False))

{
  "@context": "https://schema.org",
  "@graph": [
    {
      "@type": "Dataset",
      "@id": "https://example.org/fiat-depreciacion/dataset",
      "name": "Depreciacion del Euro - Indicadores Economicos (2010-2025)",
      "description": "Dataset que contiene indicadores economicos para analizar la depreciacion del Euro frente a activos reales como el Oro y la Bolsa (IBEX35), asi como su impacto en los salarios espanoles.",
      "temporalCoverage": "2010-01-01/2025-12-31",
      "spatialCoverage": {
        "@type": "Place",
        "name": "Spain",
        "@id": "https://www.wikidata.org/entity/Q29",
        "sameAs": "https://www.wikidata.org/entity/Q29"
      },
      "publisher": {
        "@type": "Organization",
        "name": "Universidad - Proyecto Integracion de Datos"
      },
      "dateCreated": "2025-12-08",
      "license": "https://creativecommons.org/licenses/by/4.0/",
      "variableMeasured": [
        {
          "@type": "PropertyValue",
          "name": "T

---

## 6. Exportación del Archivo JSON-LD

Guardamos el documento completo en el archivo `output_schema.jsonld`.

In [12]:
# Ruta de salida
output_file = "output_schema.jsonld"

# Guardar archivo
with open(OUTPUT_DIR / output_file, 'w', encoding='utf-8') as f:
    json.dump(documento_jsonld, f, indent=2, ensure_ascii=False)

# Verificar tamaño del archivo
file_size = os.path.getsize(OUTPUT_DIR / output_file)
# Resumen de exportación
export_resumen = pd.DataFrame({
    'Propiedad': [
        'Archivo generado',
        'Tamano del archivo',
        'Total de observaciones',
        'Indicadores incluidos',
        'Rango temporal',
        'Formato'
    ],
    'Valor': [
        output_file,
        f"{file_size / 1024 / 1024:.2f} MB" if file_size > 1024*1024 else f"{file_size / 1024:.1f} KB",
        f"{len(json_ld_observations):,}",
        f"{df_hechos['indicador'].nunique()}",
        f"{df_hechos['fecha'].min().strftime('%Y')} - {df_hechos['fecha'].max().strftime('%Y')}",
        'JSON-LD (Schema.org)'
    ]
})
export_resumen.style.set_properties(**{'text-align': 'left'}).hide(axis='index')

Propiedad,Valor
Archivo generado,output_schema.jsonld
Tamano del archivo,10.77 MB
Total de observaciones,16526
Indicadores incluidos,31
Rango temporal,2010 - 2025
Formato,JSON-LD (Schema.org)


---

## 7. Validación del JSON-LD Generado

Verificamos que el archivo generado es válido y contiene la estructura esperada.

In [13]:
# Leer y validar el archivo generado
with open(OUTPUT_DIR / output_file, 'r', encoding='utf-8') as f:
    documento_leido = json.load(f)

# Extraer nodos
contexto_ok = documento_leido.get('@context') == 'https://schema.org'
grafo = documento_leido.get('@graph', [])
dataset_nodo = grafo[0] if grafo else {}
observaciones_nodos = grafo[1:] if len(grafo) > 1 else []

# Validaciones
validaciones = [
    ('Contexto Schema.org presente', contexto_ok),
    ('Estructura @graph presente', '@graph' in documento_leido and len(grafo) > 0),
    ('Dataset en primer nodo', dataset_nodo.get('@type') == 'Dataset'),
    ('Publisher presente en dataset', 'publisher' in dataset_nodo),
    ('Cobertura temporal en dataset', 'temporalCoverage' in dataset_nodo),
    ('Distribucion presente', 'distribution' in dataset_nodo),
    ('Observaciones incluidas', len(observaciones_nodos) > 0),
    ('Cantidad correcta', len(observaciones_nodos) == len(json_ld_observations)),
    ('Observaciones con spatialCoverage', all('spatialCoverage' in obs for obs in observaciones_nodos)),
    ('Observaciones con variableMeasured', all('variableMeasured' in obs for obs in observaciones_nodos))
]

validacion_df = pd.DataFrame(validaciones, columns=['Validacion', 'Resultado'])
validacion_df['Estado'] = validacion_df['Resultado'].apply(lambda x: 'OK' if x else 'ERROR')
validacion_df[['Validacion', 'Estado']]

Unnamed: 0,Validacion,Estado
0,Contexto Schema.org presente,OK
1,Estructura @graph presente,OK
2,Dataset en primer nodo,OK
3,Publisher presente en dataset,OK
4,Cobertura temporal en dataset,OK
5,Distribucion presente,OK
6,Observaciones incluidas,OK
7,Cantidad correcta,OK
8,Observaciones con spatialCoverage,OK
9,Observaciones con variableMeasured,OK


### 7.1 Muestra de Observaciones por Indicador

In [14]:
# Mostrar una observación de ejemplo por cada indicador
observaciones_muestra = []
indicadores_vistos = set()

for obs in documento_leido.get('@graph', [])[1:]:  # saltar nodo Dataset
    indicador = obs['variableMeasured']['name']
    if indicador not in indicadores_vistos:
        indicadores_vistos.add(indicador)
        observaciones_muestra.append({
            'Indicador': indicador,
            'Fecha': obs['observationDate'],
            'Valor': obs['measuredValue'],
            'Unidad': obs['unitText'],
            'Geografia': obs['spatialCoverage']['name'],
            'Geografia_URI': obs['spatialCoverage'].get('@id')
        })

pd.DataFrame(observaciones_muestra)

Unnamed: 0,Indicador,Fecha,Valor,Unidad,Geografia,Geografia_URI
0,Tipo Cambio EUR/USD,2010-01-01,1.439000e+00,USD/EUR,Global,https://www.wikidata.org/entity/Q2
1,Precio Oro EUR,2010-01-04,7.748902e+02,EUR/oz,Global,https://www.wikidata.org/entity/Q2
2,IBEX 35,2010-01-04,1.214509e+04,Puntos,España,https://www.wikidata.org/entity/Q29
3,Precio Oro USD,2010-01-04,1.117700e+03,USD/oz,Global,https://www.wikidata.org/entity/Q2
4,Salario Decil 80-90,2010-12-31,2.841700e+03,EUR,España,https://www.wikidata.org/entity/Q29
...,...,...,...,...,...,...
26,Salario Decil 30-40,2010-12-31,1.316050e+03,EUR,España,https://www.wikidata.org/entity/Q29
27,Salario mas frecuente,2010-12-31,1.452279e+04,EUR,España,https://www.wikidata.org/entity/Q29
28,Salario mediano,2010-12-31,1.887154e+04,EUR,España,https://www.wikidata.org/entity/Q29
29,Salario medio bruto,2010-12-31,2.260748e+04,EUR,España,https://www.wikidata.org/entity/Q29


---

## 8. Conclusiones

### Resumen del Proceso

Transformamos la tabla de hechos a JSON-LD con Schema.org, modelando cada fila como `Observation` y el conjunto como `Dataset` dentro de un `@graph` único.

### Beneficios de esta Transformación

| Beneficio | Descripción |
|-----------|-------------|
| **Interoperabilidad** | Compatible con herramientas que entienden Schema.org y JSON-LD |
| **Linked Data** | `@graph` y `sameAs` facilitan enlazado con URIs externas (Wikidata) |
| **SEO** | Datos estructurados listos para validadores (Schema Markup Validator) |
| **Estandarización** | Uso de vocabulario mantenido y propiedades recomendadas (`publisher`) |
| **Documentación** | Estructura autodescriptiva con contexto único |

### Archivo Generado

El archivo `output_schema.jsonld` contiene todas las observaciones del proyecto y puede emplearse para:

- Publicación en la web como datos estructurados
- Integración con APIs de datos abiertos
- Importación en sistemas de gestión de conocimiento
- Validación con herramientas como el [Schema Markup Validator](https://validator.schema.org/) de Google