# Conversión archivos de 2023 de .tab a .csv

In [19]:
import pandas as pd

In [None]:


# Especifica los nombres de los archivos
archivo_tab = "data/2023/EPFgastos_2023.tab"  # Nombre del archivo de entrada
archivo_csv = "data/2023/EPFgastos_2023.csv"  # Nombre del archivo de salida

# Cargar el archivo .tabs
df_gastos = pd.read_csv(archivo_tab, delimiter="\t", encoding="utf-8")

# Guardar en formato CSV
df_gastos.to_csv(archivo_csv, index=False, encoding="utf-8", sep="\t")

print(f"Archivo convertido: {archivo_csv}")


Archivo convertido: C:/Users/rauul/Desktop/GCID 4º/TFG/proyecto/datos/2023/EPFgastos_2023.csv


In [None]:
import pandas as pd

# Especifica los nombres de los archivos
archivo_tab = "../data/2023/EPFhogar_2023.tab"  # Nombre del archivo de entrada
archivo_csv = "../data/2023/EPFhogar_2023.csv"  # Nombre del archivo de salida

# Cargar el archivo .tab
df_hogar = pd.read_csv(archivo_tab, delimiter="\t", encoding="utf-8")

# Guardar en formato CSV
df_hogar.to_csv(archivo_csv, index=False, encoding="utf-8", sep="\t")

print(f"Archivo convertido: {archivo_csv}")

Archivo convertido: C:/Users/rauul/Desktop/GCID 4º/TFG/proyecto/datos/2023/EPFhogar_2023.csv


In [None]:
import pandas as pd

# Especifica los nombres de los archivos
archivo_tab = "../data/2023/EPFmhogar_2023.tab"  # Nombre del archivo de entrada
archivo_csv = "../data/2023/EPFmhogar_2023.csv"  # Nombre del archivo de salida

# Cargar el archivo .tab
df_mhogar = pd.read_csv(archivo_tab, delimiter="\t", encoding="utf-8")

# Guardar en formato CSV
df_mhogar.to_csv(archivo_csv, index=False, encoding="utf-8", sep="\t")

print(f"Archivo convertido: {archivo_csv}")

Archivo convertido: C:/Users/rauul/Desktop/GCID 4º/TFG/proyecto/datos/2023/EPFmhogar_2023.csv


# Datos INE

- EPFhogar → Información del hogar (estructura, vivienda, ingresos).
- EPFmhogar → Datos individuales de cada miembro del hogar (edad, empleo, educación).
- EPFgastos → Gasto detallado por categorías (alimentación, vivienda, transporte, etc.).


In [None]:
import os
import pandas as pd

# Definir la ruta base donde están los datos
base_path = "../data"

# Estructura de los archivos
years = list(range(2016, 2024))  # De 2016 a 2023
file_types = ["EPFgastos", "EPFhogar", "EPFmhogar"]

# Diccionario para almacenar los DataFrames
dataframes = {ftype: [] for ftype in file_types}

# Leer los archivos y almacenarlos
for year in years:
    year_path = os.path.join(base_path, str(year))
    for ftype in file_types:
        file_name = f"{ftype}_{year}.csv"
        file_path = os.path.join(year_path, file_name)
        
        if os.path.exists(file_path):
            df = pd.read_csv(file_path, low_memory=False, encoding="utf-8", sep="\t")  # Cargar el CSV
            df["Año"] = year  # Agregar una columna de año
            dataframes[ftype].append(df)

# Unir los archivos en DataFrames únicos por tipo
df_gastos = pd.concat(dataframes["EPFgastos"], ignore_index=True) if dataframes["EPFgastos"] else None
df_hogar = pd.concat(dataframes["EPFhogar"], ignore_index=True) if dataframes["EPFhogar"] else None
df_mhogar = pd.concat(dataframes["EPFmhogar"], ignore_index=True) if dataframes["EPFmhogar"] else None


# 📊 Fichero de Gastos (`EPFgastos_YYYY.csv`)

El **Fichero de Gastos** contiene información detallada sobre los gastos de los hogares encuestados en diferentes categorías de consumo. Cada fila representa un **gasto específico** dentro de un hogar identificado por la variable `NUMERO`.

---

## 📌 **Estructura del Fichero**
Cada registro está organizado en las siguientes **secciones principales**:

1️⃣ **Identificación del Gasto**  
2️⃣ **Importes de Gasto**  
3️⃣ **Desglose e Imputación**  
4️⃣ **Cantidad Física (si aplica)**  
5️⃣ **Distribución del Gasto en Diferentes Modalidades**  

---

## **1️⃣ Identificación del Gasto**
Esta sección permite identificar **el hogar y el tipo de gasto realizado**.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `ANOENC` | Año de la encuesta | `2016 - 2023` |
| `NUMERO` | ID único del hogar en la muestra | `00001 - 25000` |
| `CODIGO` | Código de gasto según clasificación ECOICOP | Ver ANEXO |

📌 **🔎 Importancia**: Permite clasificar los gastos por hogar y tipo de bien o servicio.

---

## **2️⃣ Importes de Gasto**
Registra el importe total del gasto en diferentes modalidades.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `GASTO` | Importe total del gasto monetario y no monetario, ajustado temporal y poblacionalmente | `1 - 999999999999999` |
| `GASTOMON` | Importe del gasto **monetario** | `b` (No aplica), `1 - 999999999999999` |

📌 **🔎 Importancia**: Permite analizar el **nivel de gasto total y gasto en efectivo** de los hogares.

---

## **3️⃣ Desglose e Imputación**
Desglose del gasto total y porcentaje de imputación en la encuesta.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `PORCENDES` | Porcentaje de desglose del gasto total (2 decimales) | `0 - 10000` |
| `PORCENIMP` | Porcentaje de imputación del gasto total (2 decimales) | `0 - 10000` |

📌 **🔎 Importancia**: Indica **qué parte del gasto ha sido estimada o desglosada** en el análisis.

---

## **4️⃣ Cantidad Física (si aplica)**
Algunas categorías de gasto requieren registrar la cantidad física consumida.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `CANTIDAD` | Cantidad del bien o servicio consumido (sólo si aplica) | `b` (No aplica), `1 - 999999999999` |

📌 **🔎 Importancia**: Permite analizar **consumo físico en unidades específicas** (litros, kilos, etc.).

---

## **5️⃣ Distribución del Gasto en Diferentes Modalidades**
El gasto se divide en **monetario y no monetario** según su origen.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `GASTNOM1` | Gasto no monetario por **autoconsumo** | `b` (No aplica), `1 - 9999999999999` |
| `GASTNOM2` | Gasto no monetario por **autosuministro** | `b` (No aplica), `1 - 9999999999999` |
| `GASTNOM3` | Gasto no monetario por **salario en especie** (excluye alquiler imputado) | `b` (No aplica), `1 - 9999999999999` |
| `GASTNOM4` | Gasto no monetario por **alquiler imputado de vivienda** (excluye cesión por trabajo) | `b` (No aplica), `1 - 9999999999999` |
| `GASTNOM5` | Gasto no monetario por **alquiler imputado de vivienda cedida por trabajo** | `b` (No aplica), `1 - 9999999999999` |

📌 **🔎 Importancia**: Permite diferenciar entre **gasto en efectivo y gasto no monetario**.

---

## **6️⃣ Factor de Expansión**
Cada gasto se ajusta para representar mejor a la población general.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `FACTOR` | Factor poblacional (ponderación en la muestra) | **Cualquier valor distinto de `b` y `0`** |

📌 **🔎 Importancia**: Permite escalar los datos **de la muestra a la población total**.

---

## 📊 **Resumen General**
✔️ **Identificación del hogar y tipo de gasto**.  
✔️ **Importes de gasto total y gasto monetario**.  
✔️ **Desglose e imputación de los datos**.  
✔️ **Cantidad física (si aplica)**.  
✔️ **Distribución del gasto en modalidades monetarias y no monetarias**.  

🚀 **Este fichero es clave para estudios sobre el consumo y estructura de gasto de los hogares**.


In [64]:
df_gastos = pd.read_csv("C:/Users/rauul/Desktop/GCID 4º/TFG/proyecto/datos/2021/EPFgastos_2021.csv", sep="\t")

In [65]:
df_gastos.head()

Unnamed: 0,ANOENC,NUMERO,CODIGO,GASTO,PORCENDES,PORCENIMP,CANTIDAD,GASTOMON,GASTNOM1,GASTNOM2,GASTNOM3,GASTNOM4,GASTNOM5,FACTOR
0,2021,1,01113,31051.14,0.0,0.0,18326.47,31051.14,,,,,,585.77697
1,2021,1,01136,117292.44,0.0,0.0,12217.64,117292.44,,,,,,585.77697
2,2021,1,01163,68996.09,0.0,0.0,51924.99,68996.09,,,,,,585.77697
3,2021,1,01167,86934.65,0.0,0.0,137448.49,86934.65,,,,,,585.77697
4,2021,1,0117A,139711.81,0.0,0.0,103849.97,139711.81,,,,,,585.77697


In [71]:
df_gastos.tail()

Unnamed: 0,ANOENC,NUMERO,CODIGO,GASTO,PORCENDES,PORCENIMP,CANTIDAD,GASTOMON,GASTNOM1,GASTNOM2,GASTNOM3,GASTNOM4,GASTNOM5,FACTOR
1488794,2021,19394,11111,2760364.87,0.0,0.0,,2760364.87,,,,,,2150.09954
1488795,2021,19394,11112,11668201.56,0.0,0.0,,11668201.56,,,,,,2150.09954
1488796,2021,19394,12111,444713.47,0.0,0.0,,444713.47,,,,,,2150.09954
1488797,2021,19394,12521,537524.89,0.0,0.0,,537524.89,,,,,,2150.09954
1488798,2021,19394,12552,1161053.75,0.0,0.0,,1161053.75,,,,,,2150.09954


In [66]:
df_gastos.isnull().sum()

ANOENC             0
NUMERO             0
CODIGO             0
GASTO              0
PORCENDES          0
PORCENIMP          0
CANTIDAD      898666
GASTOMON           2
GASTNOM1     1486352
GASTNOM2     1487269
GASTNOM3     1486904
GASTNOM4     1469050
GASTNOM5     1488799
FACTOR             0
dtype: int64

In [81]:
df_gastos.duplicated().sum()

0

# 📊 Fichero de Hogar (`EPFhogar_YYYY.csv`)

El **Fichero de Hogar** contiene información sobre cada hogar encuestado, incluyendo su composición, ubicación, características de la vivienda, ingresos y gastos. Cada fila representa un **hogar único** identificado por la variable `NUMERO`.

---

## 📌 **Estructura del Fichero**
Cada registro está organizado en **8 secciones principales**:

1️⃣ **Información General**  
2️⃣ **Características del Hogar**  
3️⃣ **Datos del Sustentador Principal**  
4️⃣ **Características de la Vivienda**  
5️⃣ **Otras Viviendas a Disposición del Hogar**  
6️⃣ **Gastos de Consumo del Hogar**  
7️⃣ **Ingresos Regulares del Hogar**  
8️⃣ **Número de Comidas y Cenas Realizadas**  

---

## **1️⃣ Información General**
Contiene datos sobre la ubicación geográfica del hogar y su clasificación en la muestra.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `ANOENC` | Año de la encuesta | `2016 - 2023` |
| `NUMERO` | ID único del hogar en la muestra | `00001 - 22146` |
| `CCAA` | Comunidad Autónoma de residencia | `1` = Andalucía, `2` = Aragón, ..., `19` = Melilla |
| `NUTS1` | Región de España | `1` = Noroeste, `2` = Noreste, ..., `7` = Canarias |
| `CAPROV` | Capital de provincia | `1` = Sí, `6` = No |
| `TAMAMU` | Tamaño del municipio | `1` = +100,000 hab., `2` = 50,000 - 100,000 hab., ..., `5` = -10,000 hab. |
| `DENSIDAD` | Densidad de población | `1` = Alta, `2` = Intermedia, `3` = Diseminada |

📌 **🔎 Importancia**: Permite hacer análisis geográficos y socioeconómicos.

---

## **2️⃣ Características del Hogar**
Información sobre la estructura y composición del hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `NMIEMB` | Número total de miembros en el hogar | `1 - 20` |
| `TAMAÑO` | Tamaño del hogar en categorías | `1` = 1 persona, `2` = 2 personas, ..., `6` = 6 o más |
| `NUMACTI` | Número de miembros activos en el hogar | `0 - 20` |
| `NUMOCU` | Número de miembros ocupados en el hogar | `0 - 20` |
| `NUMESTU` | Número de estudiantes en el hogar | `0 - 20` |
| `NNINOSD` | Número de niños dependientes | `0 - 20`, `-9` = No consta |
| `NHIJOSD` | Número de hijos dependientes | `0 - 19`, `-9` = No consta |

📌 **🔎 Importancia**: Permite analizar **estructura familiar, educación y empleo** dentro de los hogares.

---

## **3️⃣ Datos del Sustentador Principal**
El **sustentador principal** es la persona con mayores ingresos en el hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `NORDENSP` | Número de orden del sustentador principal en el hogar | `01 - 20` |
| `EDADSP` | Edad del sustentador principal | `16 - 84`, `85` = 85 o más años |
| `SEXOSP` | Sexo del sustentador principal | `1` = Hombre, `6` = Mujer |
| `NACIONASP` | Nacionalidad | `1` = Española, `2` = Extranjera, `3` = Doble nacionalidad |
| `SITUACTSP` | Situación laboral | `1` = Trabajando, `2` = Parado, `4` = Jubilado, ..., `8` = Otra inactividad |

📌 **🔎 Importancia**: Permite estudiar **perfil laboral y sociodemográfico del sustentador principal**.

---

## **4️⃣ Características de la Vivienda**
Información sobre la propiedad, tamaño y equipamiento del hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `REGTEN` | Régimen de tenencia | `1` = Propiedad sin hipoteca, `2` = Propiedad con hipoteca, ..., `6` = Cesión gratuita |
| `TIPOEDIF` | Tipo de edificio | `1` = Unifamiliar, `3` = Menos de 10 viviendas, ..., `5` = Otros |
| `SUPERF` | Superficie de la vivienda | `35 - 299` metros cuadrados |
| `AGUACALI` | ¿Tiene agua caliente? | `1` = Sí, `6` = No |
| `CALEF` | ¿Tiene calefacción? | `1` = Sí, `6` = No |

📌 **🔎 Importancia**: Útil para analizar **condiciones de vivienda**.

---

## **5️⃣ Otras Viviendas a Disposición del Hogar**
Identifica si el hogar posee otras viviendas.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `DISPOSIOV` | ¿Tiene otras viviendas? | `1` = Sí, `6` = No |
| `NUMOVD` | Número de viviendas adicionales | `0 - 9` |

📌 **🔎 Importancia**: Permite identificar **segundas residencias y patrimonio inmobiliario**.

---

## **6️⃣ Gastos de Consumo del Hogar**
Gastos anuales del hogar en bienes y servicios.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `GASTOT` | Gasto total del hogar (monetario y no monetario) | `1 - 9999999999999999` |
| `GASTMON` | Gasto monetario del hogar | `1 - 9999999999999999` |
| `GASTNOM1` | Gasto en autoconsumo | `1 - 9999999999999` |
| `GASTNOM4` | Alquiler imputado | `1 - 9999999999999` |

📌 **🔎 Importancia**: Permite analizar **patrones de gasto y consumo**.

---

## **7️⃣ Ingresos Regulares del Hogar**
Identifica las fuentes y montos de ingresos del hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `CAPROP` | Ingresos por cuenta propia | `1` = Sí, `6` = No |
| `CAJENA` | Ingresos por cuenta ajena | `1` = Sí, `6` = No |
| `FUENPRIN` | Principal fuente de ingresos | `1` = Cuenta propia, `2` = Cuenta ajena, ..., `7` = Otros |
| `IMPEXAC` | Ingreso mensual neto exacto | `0 - 99999` |

📌 **🔎 Importancia**: Permite estudiar **niveles de ingresos y fuentes económicas** del hogar.

---

## **8️⃣ Número de Comidas y Cenas Realizadas**
Datos sobre la alimentación en el hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `COMIMH` | Comidas y cenas en el hogar | `0 - 999` |
| `COMISD` | Comidas del servicio doméstico | `0 - 999` |

📌 **🔎 Importancia**: Permite analizar **hábitos de alimentación y consumo**.

---

## 📊 **Resumen General**
✔️ **Identificación y ubicación del hogar**.  
✔️ **Estructura y composición del hogar**.  
✔️ **Perfil del sustentador principal**.  
✔️ **Condiciones de la vivienda**.  
✔️ **Gasto e ingresos del hogar**.  
✔️ **Patrones de alimentación**.  

🚀 **Este fichero es clave para estudios sobre economía doméstica y condiciones de vida.**


In [None]:
pd.set_option('display.max_columns', None)
df_hogar = pd.read_csv("../data/2021/EPFhogar_2021.csv", sep="\t")

In [73]:
df_hogar.head()

Unnamed: 0,ANOENC,NUMERO,CCAA,NUTS1,CAPROV,TAMAMU,DENSIDAD,CLAVE,CLATEO,FACTOR,NMIEMB,TAMANO,NMIEMSD,NMIEMHU,NMIEMIN,NMIEM1,NMIEM2,NMIEM3,NMIEM4,NMIEM5,NMIEM6,NMIEM7,NMIEM8,NMIEM9,NMIEM10,NMIEM11,NMIEM12,NMIEM13,NUMACTI,NUMINACTI,NUMOCU,NUMNOCU,NUMESTU,NUMNOESTU,NNINOSD,NHIJOSD,UC1,UC2,PF2TEO,PF2RECO,TIPHOGAR1,TIPHOGAR2,TIPHOGAR3,TIPHOGAR4,TIPHOGAR5,TIPHOGAR6,TIPHOGAR7,TIPHOGAR8,TIPHOGAR9,TIPHOGAR10,TIPHOGAR11,SITUOCUHOG,SITUACTHOG,NORDENSP,EDADSP,SEXOSP,PAISNACSP,NACIONASP,PAISSP,SITURESSP,ECIVILLEGALSP,NORDENCOSP,UNIONSP,CONVIVENCIASP,NORDENPASP,PAISPADRESP,NORDENMASP,PAISMADRESP,ESTUDIOSSP,ESTUDREDSP,SITUACTSP,SITUREDSP,OCUSP,JORNADASP,PERCEPSP,IMPEXACPSP,INTERINPSP,TRABAJO,OCUPA,OCUPARED,ACTESTB,ACTESTBRED,SITPROF,SECTOR,CONTRATO,TIPOCONT,SITSOCI,SITSOCIRE,REGTEN,TIPOEDIF,ZONARES,TIPOCASA,NHABIT,ANNOCON,SUPERF,AGUACALI,FUENAGUA,CALEF,FUENCALE,DISPOSIOV,NUMOVD,REGTENV1,MESESV1,DIASV1,AGUACV1,FUENACV1,CALEFV1,FUENCAV1,REGTENV2,MESESV2,DIASV2,AGUACV2,FUENACV2,CALEFV2,FUENCAV2,REGTENV3,MESESV3,DIASV3,AGUACV3,FUENACV3,CALEFV3,FUENCAV3,REGTENV4,MESESV4,DIASV4,AGUACV4,FUENACV4,CALEFV4,FUENCAV4,REGTENV5,MESESV5,DIASV5,AGUACV5,FUENACV5,CALEFV5,FUENCAV5,REGTENV6,MESESV6,DIASV6,AGUACV6,FUENACV6,CALEFV6,FUENCAV6,REGTENV7,MESESV7,DIASV7,AGUACV7,FUENACV7,CALEFV7,FUENCAV7,REGTENV8,MESESV8,DIASV8,AGUACV8,FUENACV8,CALEFV8,FUENCAV8,REGTENV9,MESESV9,DIASV9,AGUACV9,FUENACV9,CALEFV9,FUENCAV9,GASTOT,IMPUTGAS,GASTMON,GASTNOM1,GASTNOM2,GASTNOM3,GASTNOM4,CAPROP,CAJENA,PENSIO,DESEM,OTRSUB,RENTAS,OTROIN,FUENPRIN,FUENPRINRED,IMPEXAC,INTERIN,NUMPERI,COMIMH,COMISD,COMIHU,COMIINV,COMITOT
0,2021,1,8,4,6,3,2,1,1,585.77697,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,0,1,0,0,1,0,1,0,1,0,0,1.0,1.0,0,0,1,1,1,4,4,1,2,1,1,1,1,8,8,1,71,6,1,1,,1,3,99,,3,99,1,99,1,3,2,6,2,2,,1,-9.0,2,1,7.0,4.0,C,2.0,2.0,-9.0,-9.0,-9.0,10,6,1,4,3,2,5,1,90,1,2,1,1.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,3692812.45,0.0,1750165.37,,,,1942647.08,6,6,1,6,6,6,6,3,3,782,2,1,14,0,0,0,14
1,2021,2,3,1,6,1,1,1,2,627.355782,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,0,1,0,0,1,0,1,0,1,0,0,1.0,1.0,0,0,1,1,1,4,4,1,2,1,1,1,1,8,8,1,73,6,1,1,,1,3,99,,3,99,1,99,1,3,2,6,2,2,,1,1283.0,3,6,,,,,,,,,10,6,1,4,3,2,4,6,65,1,2,1,2.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,9798007.97,0.0,5424793.37,,,,4373214.6,6,6,1,6,6,6,6,3,3,1283,3,1,14,0,0,0,14
2,2021,3,5,7,6,4,2,1,1,501.645421,2,2,0,0,0,2,0,0,2,0,2,0,0,0,0,2,0,0,2,0,2,0,0,2,0,0,1.7,1.5,1,1,6,6,5,6,6,5,3,2,2,3,3,2,2,1,44,1,1,1,,1,1,2,3.0,2,99,1,99,1,7,4,1,1,1,2.0,1,930.0,2,1,3.0,2.0,S,3.0,2.0,-9.0,-9.0,-9.0,5,3,6,2,3,2,4,6,90,1,1,6,,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,11479590.32,0.0,8354996.5,,,,3124593.82,1,6,6,6,6,6,6,1,1,1860,4,2,54,0,0,4,58
3,2021,4,11,4,6,3,2,2,2,605.490446,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,0,1,0,0,1,0,1,0,1,0,0,1.0,1.0,0,0,1,1,1,2,2,1,2,1,1,1,1,8,8,1,70,1,1,1,,1,3,99,,3,99,1,99,1,3,2,4,2,2,,1,1350.0,3,1,4.0,3.0,M,3.0,1.0,6.0,1.0,1.0,8,5,1,4,3,2,4,6,70,1,2,1,1.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,7022441.93,0.0,5009218.41,,,,2013223.52,6,6,1,6,6,6,6,3,3,1350,3,1,14,0,0,0,14
4,2021,5,10,5,1,1,1,2,2,1748.502373,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,0,1,0,0,1,0,1,0,1,0,0,1.0,1.0,0,0,1,1,1,4,4,1,2,1,1,1,1,8,8,1,69,6,1,1,,1,3,99,,3,99,1,99,1,4,3,4,2,2,,1,1206.0,3,1,4.0,3.0,C,2.0,1.0,6.0,1.0,1.0,8,5,2,4,3,2,4,6,76,1,2,1,1.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,32068770.61,0.0,20577773.88,,,,11490996.73,6,6,1,6,6,6,6,3,3,1206,3,1,13,0,0,4,17


In [74]:
df_hogar.tail()

Unnamed: 0,ANOENC,NUMERO,CCAA,NUTS1,CAPROV,TAMAMU,DENSIDAD,CLAVE,CLATEO,FACTOR,NMIEMB,TAMANO,NMIEMSD,NMIEMHU,NMIEMIN,NMIEM1,NMIEM2,NMIEM3,NMIEM4,NMIEM5,NMIEM6,NMIEM7,NMIEM8,NMIEM9,NMIEM10,NMIEM11,NMIEM12,NMIEM13,NUMACTI,NUMINACTI,NUMOCU,NUMNOCU,NUMESTU,NUMNOESTU,NNINOSD,NHIJOSD,UC1,UC2,PF2TEO,PF2RECO,TIPHOGAR1,TIPHOGAR2,TIPHOGAR3,TIPHOGAR4,TIPHOGAR5,TIPHOGAR6,TIPHOGAR7,TIPHOGAR8,TIPHOGAR9,TIPHOGAR10,TIPHOGAR11,SITUOCUHOG,SITUACTHOG,NORDENSP,EDADSP,SEXOSP,PAISNACSP,NACIONASP,PAISSP,SITURESSP,ECIVILLEGALSP,NORDENCOSP,UNIONSP,CONVIVENCIASP,NORDENPASP,PAISPADRESP,NORDENMASP,PAISMADRESP,ESTUDIOSSP,ESTUDREDSP,SITUACTSP,SITUREDSP,OCUSP,JORNADASP,PERCEPSP,IMPEXACPSP,INTERINPSP,TRABAJO,OCUPA,OCUPARED,ACTESTB,ACTESTBRED,SITPROF,SECTOR,CONTRATO,TIPOCONT,SITSOCI,SITSOCIRE,REGTEN,TIPOEDIF,ZONARES,TIPOCASA,NHABIT,ANNOCON,SUPERF,AGUACALI,FUENAGUA,CALEF,FUENCALE,DISPOSIOV,NUMOVD,REGTENV1,MESESV1,DIASV1,AGUACV1,FUENACV1,CALEFV1,FUENCAV1,REGTENV2,MESESV2,DIASV2,AGUACV2,FUENACV2,CALEFV2,FUENCAV2,REGTENV3,MESESV3,DIASV3,AGUACV3,FUENACV3,CALEFV3,FUENCAV3,REGTENV4,MESESV4,DIASV4,AGUACV4,FUENACV4,CALEFV4,FUENCAV4,REGTENV5,MESESV5,DIASV5,AGUACV5,FUENACV5,CALEFV5,FUENCAV5,REGTENV6,MESESV6,DIASV6,AGUACV6,FUENACV6,CALEFV6,FUENCAV6,REGTENV7,MESESV7,DIASV7,AGUACV7,FUENACV7,CALEFV7,FUENCAV7,REGTENV8,MESESV8,DIASV8,AGUACV8,FUENACV8,CALEFV8,FUENCAV8,REGTENV9,MESESV9,DIASV9,AGUACV9,FUENACV9,CALEFV9,FUENCAV9,GASTOT,IMPUTGAS,GASTMON,GASTNOM1,GASTNOM2,GASTNOM3,GASTNOM4,CAPROP,CAJENA,PENSIO,DESEM,OTRSUB,RENTAS,OTROIN,FUENPRIN,FUENPRINRED,IMPEXAC,INTERIN,NUMPERI,COMIMH,COMISD,COMIHU,COMIINV,COMITOT
19389,2021,19390,11,4,6,5,3,1,1,491.129543,5,5,0,0,0,3,2,3,2,3,2,0,3,0,0,2,0,0,1,4,1,4,0,5,3,3,3.4,2.6,2,2,9,9,8,11,11,7,6,3,5,4,4,5,5,1,49,1,4,2,3.0,1,2,2,1.0,1,99,4,99,4,7,4,1,1,1,1.0,1,-9.0,2,1,5,3,G,3,2,-9,-9,-9,5,3,3,2,7,2,5,6,100,1,3,6,,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,6694140.99,0.0,6598534.17,,95606.81,,,1,6,6,1,1,1,1,4,3,828,2,1,112,0,0,0,112
19390,2021,19391,8,4,6,4,2,1,1,627.336739,2,2,0,0,0,2,0,0,2,0,2,0,0,0,0,0,2,0,0,2,0,2,0,2,0,0,1.7,1.5,1,1,5,5,4,5,5,5,3,1,2,3,3,8,8,1,78,1,1,1,,1,2,2,1.0,1,99,1,99,1,2,1,4,2,2,,1,-9.0,3,1,7,4,C,2,1,6,1,1,8,5,1,2,3,2,7,6,90,1,3,6,,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,5760647.89,0.0,3680173.67,,,,2080474.22,6,6,1,6,6,6,6,3,3,1188,3,1,56,0,0,0,56
19391,2021,19392,9,5,6,3,2,1,1,1016.009331,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,1,0,0,0,1,0,1,0,1,0,0,1.0,1.0,0,0,2,2,2,3,3,1,1,2,1,1,1,8,8,1,64,6,1,1,,1,4,99,,3,99,1,99,1,6,4,4,2,2,,1,-9.0,4,1,2,2,Q,3,1,1,1,1,8,5,1,4,3,2,4,6,100,1,2,1,4.0,1,1.0,1.0,12.0,-9.0,1.0,3.0,6.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,27287470.79,0.0,14180101.85,,,,13107368.94,6,6,1,6,6,6,6,3,3,1761,4,1,28,0,0,8,36
19392,2021,19393,8,4,1,2,1,1,1,984.997247,4,4,0,0,0,3,1,1,3,1,3,0,1,1,0,2,0,0,2,2,2,2,1,3,2,2,2.9,2.3,2,2,11,11,7,10,10,7,5,4,5,4,4,2,2,1,49,1,1,1,,1,2,2,1.0,1,99,1,99,1,5,4,1,1,1,1.0,1,-9.0,4,1,3,2,O,3,1,1,1,1,4,2,2,4,3,2,4,1,90,1,2,1,2.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,64481881.54,0.0,59521001.22,,,,4960880.32,6,1,6,6,6,6,6,2,2,3370,7,2,109,0,0,90,199
19393,2021,19394,9,5,6,3,2,1,1,2150.09954,3,3,0,0,0,3,0,0,3,0,3,0,0,0,0,1,2,0,1,2,1,2,0,3,0,0,2.4,2.0,2,2,11,11,10,7,7,4,4,4,3,6,6,-9,-9,3,39,1,1,1,,1,1,99,,3,1,1,2,1,3,2,1,1,1,1.0,1,-9.0,2,1,8,4,G,3,1,6,1,1,1,1,1,4,3,2,8,6,123,1,2,1,1.0,6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,55527771.6,0.0,37224956.38,,,,18302815.22,6,1,1,6,6,6,6,3,3,2277,5,2,42,0,0,0,42


In [None]:
pd.set_option('display.max_rows', None)

df_hogar.isnull().sum().sort_values(ascending=False)

DIASV7           19394
MESESV9          19394
MESESV6          19394
DIASV6           19394
DIASV8           19394
DIASV9           19394
DIASV5           19394
MESESV7          19394
MESESV5          19394
MESESV8          19394
MESESV4          19391
DIASV4           19391
DIASV3           19370
MESESV3          19370
GASTNOM2         19277
MESESV2          19211
DIASV2           19211
GASTNOM3         18610
GASTNOM1         18303
DIASV1           16484
MESESV1          16484
NUMOVD           16484
GASTNOM4          2388
IMPEXACPSP         137
GASTMON              4
ANOENC               0
FUENACV4             0
AGUACV4              0
FUENCAV3             0
CALEFV4              0
FUENCAV4             0
REGTENV5             0
AGUACV5              0
REGTENV4             0
REGTENV3             0
CALEFV3              0
FUENACV3             0
CALEF                0
FUENCALE             0
DISPOSIOV            0
REGTENV1             0
AGUACV1              0
FUENACV1             0
CALEFV1    

In [80]:
df_hogar.duplicated().sum()

0

# 📊 Fichero de Miembros del Hogar (`EPFmhogar_YYYY.csv`)

El **Fichero de Miembros del Hogar** contiene información individual sobre cada miembro de los hogares encuestados.  
Cada fila representa **una persona** dentro de un hogar identificado por la variable `NUMERO`.

---

## 📌 **Estructura del Fichero**
Cada registro está organizado en las siguientes **secciones principales**:

1️⃣ **Identificación del Miembro del Hogar**  
2️⃣ **Datos Demográficos y Parentesco**  
3️⃣ **Nacionalidad y Lugar de Nacimiento**  
4️⃣ **Situación Familiar**  
5️⃣ **Nivel de Educación**  
6️⃣ **Situación Laboral**  
7️⃣ **Ingresos y Dependencia Económica**  

---

## **1️⃣ Identificación del Miembro del Hogar**
Cada persona en un hogar tiene un número asignado dentro del mismo hogar.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `ANOENC` | Año de la encuesta | `2016-2023` |
| `NUMERO` | ID único del hogar en la muestra | `00001 - 25000` |
| `NORDEN` | Número de orden del miembro dentro del hogar | `01 - 20` |

📌 **🔎 Importancia**: Permite **identificar a cada persona dentro de su hogar**.

---

## **2️⃣ Datos Demográficos y Parentesco**
Información sobre la relación de cada miembro con el sustentador principal.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `CATEGMH` | Categoría del miembro dentro del hogar | `1` = Miembro del hogar, `2` = Servicio doméstico, `3` = Huésped, `4` = Invitado, `-9` = No consta |
| `SUSPRIN` | ¿Es el sustentador principal? | `1` = Sí, `6` = No |
| `RELASP` | Relación con el sustentador principal | `1` = Sustentador, `2` = Cónyuge, `3` = Hijo/a, ..., `6` = Otro parentesco |
| `EDAD` | Edad en la fecha de la entrevista | `0 - 84`, `85` = 85 o más años |
| `SEXO` | Sexo | `1` = Hombre, `6` = Mujer, `-9` = No consta |

📌 **🔎 Importancia**: Permite analizar **estructura familiar y demografía** dentro del hogar.

---

## **3️⃣ Nacionalidad y Lugar de Nacimiento**
Datos sobre la nacionalidad y origen del individuo.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `PAISNACIM` | País de nacimiento | `1` = España, `2` = UE-27, `3` = Resto de Europa, `4` = Resto del mundo, `-9` = No consta |
| `NACIONA` | Nacionalidad | `1` = Española, `2` = Extranjera, `3` = Doble nacionalidad, `-9` = No consta |
| `PAISNACION` | País de nacionalidad extranjera | `1` = UE-27, `2` = Resto de Europa, `3` = Resto del mundo, `b` = No aplica |

📌 **🔎 Importancia**: Permite estudios sobre **movilidad migratoria y origen de la población**.

---

## **4️⃣ Situación Familiar**
Información sobre la convivencia en pareja y datos de los padres.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `ECIVILLEGAL` | Estado civil legal | `1` = Soltero, `2` = Casado, ..., `5` = Divorciado, `-9` = No consta |
| `NORDENCO` | Número de orden del cónyuge o pareja | `01 - 20`, `99` = No tiene pareja |
| `UNION` | Tipo de unión con la pareja | `1` = Matrimonio, `2` = Pareja registrada, `3` = Pareja sin registrar |
| `CONVIVENCIA` | Convivencia en pareja | `1` = Convive con cónyuge, `2` = Con pareja de hecho, `3` = No convive en pareja |
| `NORDENPA` | Número de orden del padre en el hogar | `01 - 20`, `99` = No vive en el hogar |
| `PAISPADRE` | País de nacimiento del padre | `1` = España, `2` = UE-27, `3` = Resto de Europa, `4` = Resto del mundo |

📌 **🔎 Importancia**: Permite estudiar **estructura familiar y convivencia** dentro del hogar.

---

## **5️⃣ Nivel de Educación**
Nivel educativo alcanzado por cada persona.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `ESTUDIOS` | Nivel educativo completado | `1` = Sin estudios, `2` = Primaria, ..., `8` = Doctorado |
| `ESTUDRED` | Nivel educativo reducido | `1` = Menos de secundaria, `2` = Secundaria, ..., `4` = Superior |

📌 **🔎 Importancia**: Permite analizar **niveles educativos y acceso a la educación**.

---

## **6️⃣ Situación Laboral**
Información sobre empleo y actividad económica.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `SITUACT` | Situación laboral la semana anterior | `1` = Trabajando, `3` = Parado, `4` = Jubilado, `5` = Estudiante, ..., `8` = Inactivo |
| `OCU` | ¿Estaba ocupado en la semana anterior? | `1` = Sí, `2` = No |
| `JORNADA` | Tipo de jornada laboral | `1` = Completa, `2` = Parcial |

📌 **🔎 Importancia**: Permite estudiar **tasa de empleo y condiciones laborales**.

---

## **7️⃣ Ingresos y Dependencia Económica**
Información sobre los ingresos regulares de cada persona.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `PERCEP` | ¿Recibe ingresos mensuales? | `1` = Sí, `6` = No |
| `IMPEXACP` | Importe exacto de los ingresos mensuales | `0 - 99999` |
| `INTERINP` | Intervalo de ingresos mensuales | `1` = Menos de 500€, ..., `7` = Más de 3000€ |

📌 **🔎 Importancia**: Permite estudiar **distribución de ingresos y desigualdad económica**.

---

## **8️⃣ Dependencia Económica**
Clasificación de los miembros según su dependencia económica.

| **Variable** | **Descripción** | **Valores** |
|-------------|----------------|-------------|
| `NINODEP` | ¿Es un niño dependiente? | `1` = Sí, `2` = No, `-9` = No consta |
| `HIJODEP` | ¿Es un hijo dependiente? | `1` = Sí, `6` = No, `-9` = No consta |
| `ADULTO` | ¿Es adulto? | `1` = Sí, `6` = No, `-9` = No consta |

📌 **🔎 Importancia**: Permite definir **estructuras familiares y dependencias económicas**.

---

## 📊 **Resumen General**
✔️ **Identificación dentro del hogar**.  
✔️ **Relación con el sustentador principal**.  
✔️ **Nacionalidad y lugar de nacimiento**.  
✔️ **Situación familiar y convivencia**.  
✔️ **Nivel educativo**.  
✔️ **Situación laboral y actividad económica**.  
✔️ **Ingresos individuales**.  
✔️ **Clasificación según su rol en el hogar**.  

🚀 **Este fichero es clave para estudios sobre demografía, educación, empleo e ingresos de la población**.


In [None]:
pd.set_option('display.max_columns', None)
df_mhogar = pd.read_csv("../data/2021/EPFmhogar_2021.csv", sep="\t")

In [84]:
df_mhogar.head()

Unnamed: 0,ANOENC,NUMERO,NORDEN,CATEGMH,SUSPRIN,RELASP,EDAD,SEXO,PAISNACIM,NACIONA,PAISNACION,SITURES,ECIVILLEGAL,NORDENCO,UNION,CONVIVENCIA,NORDENPA,PAISPADRE,NORDENMA,PAISMADRE,ESTUDIOS,ESTUDRED,SITUACT,SITURED,OCU,JORNADA,PERCEP,IMPEXACP,INTERINP,NINODEP,HIJODEP,ADULTO,FACTOR
0,2021,1,1,1,1,1,71,6,1,1,,1,3,99,,3,99,1,99,1,3,2,6,2,2,,1,-9.0,2,6,6,1,585.77697
1,2021,2,1,1,1,1,73,6,1,1,,1,3,99,,3,99,1,99,1,3,2,6,2,2,,1,1283.0,3,6,6,1,627.355782
2,2021,3,1,1,1,1,44,1,1,1,,1,1,2,3.0,2,99,1,99,1,7,4,1,1,1,2.0,1,930.0,2,6,6,1,501.645421
3,2021,3,2,1,6,2,44,6,1,1,,1,1,1,3.0,2,99,1,99,1,7,4,1,1,1,2.0,1,930.0,2,6,6,1,501.645421
4,2021,4,1,1,1,1,70,1,1,1,,1,3,99,,3,99,1,99,1,3,2,4,2,2,,1,1350.0,3,6,6,1,605.490446


In [83]:
df_mhogar.tail()

Unnamed: 0,ANOENC,NUMERO,NORDEN,CATEGMH,SUSPRIN,RELASP,EDAD,SEXO,PAISNACIM,NACIONA,PAISNACION,SITURES,ECIVILLEGAL,NORDENCO,UNION,CONVIVENCIA,NORDENPA,PAISPADRE,NORDENMA,PAISMADRE,ESTUDIOS,ESTUDRED,SITUACT,SITURED,OCU,JORNADA,PERCEP,IMPEXACP,INTERINP,NINODEP,HIJODEP,ADULTO,FACTOR
49399,2021,19393,3,1,6,3,18,1,1,1,,1,1,99,,3,1,1,2,1,4.0,3.0,5.0,2.0,2.0,,6,,,1,1,6,984.997247
49400,2021,19393,4,1,6,3,13,1,1,1,,1,1,99,,3,1,1,2,1,,,,,,,6,,,1,1,6,984.997247
49401,2021,19394,1,1,6,4,73,1,1,1,,1,2,2,1.0,1,99,1,99,1,2.0,1.0,4.0,2.0,2.0,,1,-9.0,3.0,6,6,1,2150.09954
49402,2021,19394,2,1,6,4,66,6,1,1,,1,2,1,1.0,1,99,1,99,1,2.0,1.0,6.0,2.0,2.0,,6,,,6,6,1,2150.09954
49403,2021,19394,3,1,1,1,39,1,1,1,,1,1,99,,3,1,1,2,1,3.0,2.0,1.0,1.0,1.0,1.0,1,-9.0,2.0,6,6,1,2150.09954


In [85]:
df_mhogar.isnull().sum().sort_values(ascending=False)

IMPEXACP       16185
ANOENC             0
PAISPADRE          0
ADULTO             0
HIJODEP            0
NINODEP            0
INTERINP           0
PERCEP             0
JORNADA            0
OCU                0
SITURED            0
SITUACT            0
ESTUDRED           0
ESTUDIOS           0
PAISMADRE          0
NORDENMA           0
NORDENPA           0
NUMERO             0
CONVIVENCIA        0
UNION              0
NORDENCO           0
ECIVILLEGAL        0
SITURES            0
PAISNACION         0
NACIONA            0
PAISNACIM          0
SEXO               0
EDAD               0
RELASP             0
SUSPRIN            0
CATEGMH            0
NORDEN             0
FACTOR             0
dtype: int64

In [86]:
df_mhogar.duplicated().sum()

0

## Temperatura máxima y mínima anual por Comunidad Autónoma

In [1]:
import requests
import pandas as pd

In [2]:
AEMET_API_KEY = "eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYXV1bHJpdmVyb29AZ21haWwuY29tIiwianRpIjoiNWQ4YWQzNjEtNTgzMS00MjA5LWI2MjQtNjk1ODlkMDYzMjdkIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3NDE3ODM2ODIsInVzZXJJZCI6IjVkOGFkMzYxLTU4MzEtNDIwOS1iNjI0LTY5NTg5ZDA2MzI3ZCIsInJvbGUiOiIifQ.emOx3_kTNnTYj1yMo5z5nYjn4xi68S9RknDMyv3YUVo"
BASE_URL = "https://opendata.aemet.es/opendata/api"
ESTACIONES_URL = f"{BASE_URL}/valores/climatologicos/inventarioestaciones/todasestaciones?api_key={AEMET_API_KEY}"

In [3]:

def obtener_datos(url):
    """Realiza una solicitud a la API de AEMET y obtiene los datos JSON."""
    response = requests.get(url)
    if response.status_code == 200:
        data_url = response.json().get("datos")
        if data_url:
            return requests.get(data_url).json()
    return None



In [4]:
estaciones = obtener_datos(ESTACIONES_URL)

In [5]:
estaciones

[{'latitud': '393832N',
  'provincia': 'ILLES BALEARS',
  'altitud': '95',
  'indicativo': 'B236C',
  'nombre': 'PALMA, UNIVERSITAT',
  'indsinop': '',
  'longitud': '023838E'},
 {'latitud': '393339N',
  'provincia': 'BALEARES',
  'altitud': '5',
  'indicativo': 'B278',
  'nombre': 'PALMA DE MALLORCA, AEROPUERTO',
  'indsinop': '08306',
  'longitud': '024412E'},
 {'latitud': '385747N',
  'provincia': 'ILLES BALEARS',
  'altitud': '32',
  'indicativo': 'B925',
  'nombre': 'SANT ANTONI DE PORTMANY',
  'indsinop': '',
  'longitud': '011917E'},
 {'latitud': '393659N',
  'provincia': 'ILLES BALEARS',
  'altitud': '95',
  'indicativo': 'B640X',
  'nombre': 'PETRA',
  'indsinop': '',
  'longitud': '030716E'},
 {'latitud': '394457N',
  'provincia': 'ILLES BALEARS',
  'altitud': '40',
  'indicativo': 'B691Y',
  'nombre': 'SA POBLA',
  'indsinop': '08312',
  'longitud': '030100E'},
 {'latitud': '390808N',
  'provincia': 'ILLES BALEARS',
  'altitud': '165',
  'indicativo': 'B398A',
  'nombre': 'C

In [12]:
df_estaciones = pd.DataFrame(estaciones)

In [43]:
estacion_por_provincia = df_estaciones.groupby("provincia").first().reset_index()


In [44]:
estacion_por_provincia

Unnamed: 0,provincia,latitud,altitud,indicativo,nombre,indsinop,longitud
0,A CORUÑA,434710N,90,1351,ESTACA DE BARES,8004.0,074106W
1,ALBACETE,385757N,905,4007Y,OSSA DE MONTIEL,,024442W
2,ALICANTE,380404N,26,7244X,ORIHUELA,,005853W
3,ALMERIA,375139N,1190,5060X,VÉLEZ BLANCO - TOPARES,,021341W
4,ARABA/ALAVA,430328N,617,1044X,"ARAMAIO, ETXAGUEN",,023523W
5,ASTURIAS,431415N,1236,1178R,"SOTRES, PARQUE NACIONAL PICOS DE EUROPA",,044412W
6,AVILA,403236N,1178,2430Y,MUÑOTELLO,,050239W
7,BADAJOZ,391010N,447,4244X,HERRERA DEL DUQUE,8264.0,050344W
8,BALEARES,393621N,47,B275E,"SON BONET, AEROPUERTO",8302.0,024224E
9,BARCELONA,412501N,632,0061X,PONTONS,,013109E


In [6]:
# Extraer las provincias únicas
provincias = sorted(set(estacion["provincia"] for estacion in estaciones if "provincia" in estacion))

# Mostrar las provincias disponibles en AEMET
print("📍 Provincias disponibles en AEMET:")
for provincia in provincias:
    print(provincia)

📍 Provincias disponibles en AEMET:
A CORUÑA
ALBACETE
ALICANTE
ALMERIA
ARABA/ALAVA
ASTURIAS
AVILA
BADAJOZ
BALEARES
BARCELONA
BIZKAIA
BURGOS
CACERES
CADIZ
CANTABRIA
CASTELLON
CEUTA
CIUDAD REAL
CORDOBA
CUENCA
GIPUZKOA
GIRONA
GRANADA
GUADALAJARA
HUELVA
HUESCA
ILLES BALEARS
JAEN
LA RIOJA
LAS PALMAS
LEON
LLEIDA
LUGO
MADRID
MALAGA
MELILLA
MURCIA
NAVARRA
OURENSE
PALENCIA
PONTEVEDRA
SALAMANCA
SANTA CRUZ DE TENERIFE
SEGOVIA
SEVILLA
SORIA
STA. CRUZ DE TENERIFE
TARRAGONA
TERUEL
TOLEDO
VALENCIA
VALLADOLID
ZAMORA
ZARAGOZA


In [7]:
DATOS_ANUALES_URL = 'https://opendata.aemet.es/opendata/api/valores/climatologicos/mensualesanuales/datos/anioini/{anioIniStr}/aniofin/{anioFinStr}/estacion/{idema}?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYXV1bHJpdmVyb29AZ21haWwuY29tIiwianRpIjoiNWQ4YWQzNjEtNTgzMS00MjA5LWI2MjQtNjk1ODlkMDYzMjdkIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3NDE3ODM2ODIsInVzZXJJZCI6IjVkOGFkMzYxLTU4MzEtNDIwOS1iNjI0LTY5NTg5ZDA2MzI3ZCIsInJvbGUiOiIifQ.emOx3_kTNnTYj1yMo5z5nYjn4xi68S9RknDMyv3YUVo'
AÑOS = list(range(2016, 2024))

In [8]:
import requests
import time
import json

In [9]:

def obtener_datos(url):
    """Realiza la consulta a la API de AEMET y maneja errores 429 con espera de 60 segundos."""
    
    while True:
        try:
            response = requests.get(url, timeout=10)
            print(f"📡 Código de estado: {response.status_code} - {url}")

            if response.status_code == 429:  # Demasiadas solicitudes
                print("⏳ Límite de la API alcanzado. Esperando 60 segundos antes de reintentar...")
                time.sleep(60)  # Espera 60 segundos y reintenta
                continue

            if response.status_code == 200:
                if not response.text.strip():  # Respuesta vacía
                    print("⚠️ Advertencia: Respuesta vacía de la API")
                    return None

                try:
                    json_response = response.json()
                    data_url = json_response.get("datos")

                    # Si "datos" no está en la respuesta, la API no ha devuelto datos útiles
                    if not data_url:
                        print("⚠️ Advertencia: La API devolvió código 200 pero sin datos válidos.")
                        return None

                    # ⏳ Espera breve para evitar bloqueos entre peticiones
                    time.sleep(0.5)

                    datos_response = requests.get(data_url, timeout=10)

                    if not datos_response.text.strip():
                        print("⚠️ Advertencia: Datos vacíos en la URL de datos")
                        return None

                    try:
                        return datos_response.json()
                    except json.JSONDecodeError:
                        print("❌ Error al decodificar JSON en la URL de datos")
                        return None

                except json.JSONDecodeError:
                    print("❌ Error al decodificar JSON en la API")
                    return None

            else:
                print(f"❌ Error en la solicitud HTTP: {response.status_code}")
                return None

        except requests.exceptions.RequestException as e:
            print(f"❌ Error en la conexión con la API: {e}")
            return None


In [10]:
# 🔹 Diccionario para almacenar temperaturas por provincia y año
temperaturas_por_provincia = {}

# 🔹 Conjunto para registrar provincias consultadas en cada año
provincias_consultadas = {año: set() for año in AÑOS}

# 🔹 Iterar por año
for año in AÑOS:
    print(f"\n\n📅 Obteniendo datos del año {año}...\n\n")

    for estacion in estaciones:  # Se itera sobre todas las estaciones disponibles en el JSON
        provincia = estacion["provincia"]
        id_estacion = estacion["indicativo"]

        # Si la provincia ya ha sido consultada en este año, saltamos la iteración
        if provincia in provincias_consultadas[año]:
            continue  # Ya tenemos datos de esta provincia para este año

        # Construir la URL para datos anuales
        url_datos = DATOS_ANUALES_URL.format(anioIniStr=año, anioFinStr=año, idema=id_estacion)
        print(f"🌍 Haciendo consulta a la API: {url_datos}")

        # Obtener datos de la API
        datos_anuales = obtener_datos(url_datos)

        if not datos_anuales:
            print(f"⚠️ No se obtuvieron datos para {provincia} en {año} con estación {id_estacion}")
            continue  # Si esta estación no da datos, probamos con la siguiente

        print(f"📊 Datos obtenidos para {provincia} en {año} con estación {id_estacion}: {len(datos_anuales)} registros")

        max_anual = None
        min_anual = None

        for registro in datos_anuales:
            try:
                tmax = float(registro["ta_max"].split("(")[0]) if registro.get("ta_max") else None
                tmin = float(registro["ta_min"].split("(")[0]) if registro.get("ta_min") else None
            except ValueError:
                print(f"⚠️ Error al convertir valores en {registro}")
                continue

            if tmax is not None:
                max_anual = max(max_anual, tmax) if max_anual is not None else tmax
            if tmin is not None:
                min_anual = min(min_anual, tmin) if min_anual is not None else tmin

        # Si hemos encontrado datos, los guardamos
        if max_anual is not None and min_anual is not None:
            if provincia not in temperaturas_por_provincia:
                temperaturas_por_provincia[provincia] = {}

            temperaturas_por_provincia[provincia][año] = {"max": max_anual, "min": min_anual}

            # Registrar que esta provincia ya tiene datos para este año
            provincias_consultadas[año].add(provincia)

        # Como ya encontramos una estación con datos para esta provincia en este año, pasamos a la siguiente provincia
        if provincia in provincias_consultadas[año]:
            continue

# 🔹 Convertir resultados en un DataFrame para visualización
datos_lista = []
for provincia, años in temperaturas_por_provincia.items():
    for año, valores in años.items():
        datos_lista.append({"Provincia": provincia, "Año": año, "Tmax": valores["max"], "Tmin": valores["min"]})

df = pd.DataFrame(datos_lista)




📅 Obteniendo datos del año 2016...


🌍 Haciendo consulta a la API: https://opendata.aemet.es/opendata/api/valores/climatologicos/mensualesanuales/datos/anioini/2016/aniofin/2016/estacion/B236C?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYXV1bHJpdmVyb29AZ21haWwuY29tIiwianRpIjoiNWQ4YWQzNjEtNTgzMS00MjA5LWI2MjQtNjk1ODlkMDYzMjdkIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3NDE3ODM2ODIsInVzZXJJZCI6IjVkOGFkMzYxLTU4MzEtNDIwOS1iNjI0LTY5NTg5ZDA2MzI3ZCIsInJvbGUiOiIifQ.emOx3_kTNnTYj1yMo5z5nYjn4xi68S9RknDMyv3YUVo
📡 Código de estado: 200 - https://opendata.aemet.es/opendata/api/valores/climatologicos/mensualesanuales/datos/anioini/2016/aniofin/2016/estacion/B236C?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYXV1bHJpdmVyb29AZ21haWwuY29tIiwianRpIjoiNWQ4YWQzNjEtNTgzMS00MjA5LWI2MjQtNjk1ODlkMDYzMjdkIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3NDE3ODM2ODIsInVzZXJJZCI6IjVkOGFkMzYxLTU4MzEtNDIwOS1iNjI0LTY5NTg5ZDA2MzI3ZCIsInJvbGUiOiIifQ.emOx3_kTNnTYj1yMo5z5nYjn4xi68S9RknDMyv3YUVo
📊 Datos obtenidos para ILLES BALEARS en 2016 con estación B23

In [11]:
df

Unnamed: 0,Provincia,Año,Tmax,Tmin
0,ILLES BALEARS,2016,37.0,-0.6
1,ILLES BALEARS,2017,41.7,-0.8
2,ILLES BALEARS,2018,39.4,-2.5
3,ILLES BALEARS,2019,40.4,-2.5
4,ILLES BALEARS,2020,39.8,-1.2
...,...,...,...,...
426,MELILLA,2018,34.1,5.9
427,MELILLA,2019,34.9,6.1
428,MELILLA,2020,39.9,6.4
429,MELILLA,2021,39.7,6.2


In [12]:
df[df['Provincia'] == 'LAS PALMAS']

Unnamed: 0,Provincia,Año,Tmax,Tmin
24,LAS PALMAS,2016,35.4,8.9
25,LAS PALMAS,2017,37.8,7.3
26,LAS PALMAS,2018,32.1,7.9
27,LAS PALMAS,2019,34.0,8.6
28,LAS PALMAS,2020,39.8,7.6
29,LAS PALMAS,2021,35.9,8.8
30,LAS PALMAS,2022,36.9,7.7
31,LAS PALMAS,2023,37.8,7.8


In [None]:
df.to_csv("../data/temperaturas_provincias.csv", sep="\t", index=False, encoding="utf-8")

NameError: name 'df' is not defined

In [None]:
df = pd.read_csv("../data/temperaturas_provincias.csv", sep="\t", encoding="utf-8")

In [19]:
# Diccionario con provincias, su comunidad autónoma y el código de la comunidad
provincias_comunidades = {
    "A CORUÑA": (12, "Galicia"),
    "ALBACETE": (7, "Castilla-La Mancha"),
    "ALICANTE": (10, "Comunidad Valenciana"),
    "ALMERIA": (1, "Andalucía"),
    "ARABA/ALAVA": (16, "País Vasco"),
    "ASTURIAS": (3, "Principado de Asturias"),
    "AVILA": (8, "Castilla y León"),
    "BADAJOZ": (11, "Extremadura"),
    "BALEARES": (4, "Islas Baleares"),
    "BARCELONA": (9, "Cataluña"),
    "BIZKAIA": (16, "País Vasco"),
    "BURGOS": (8, "Castilla y León"),
    "CACERES": (11, "Extremadura"),
    "CADIZ": (1, "Andalucía"),
    "CANTABRIA": (6, "Cantabria"),
    "CASTELLON": (10, "Comunidad Valenciana"),
    "CEUTA": (18, "Ceuta"),
    "CIUDAD REAL": (7, "Castilla-La Mancha"),
    "CORDOBA": (1, "Andalucía"),
    "CUENCA": (7, "Castilla-La Mancha"),
    "GIPUZKOA": (16, "País Vasco"),
    "GIRONA": (9, "Cataluña"),
    "GRANADA": (1, "Andalucía"),
    "GUADALAJARA": (7, "Castilla-La Mancha"),
    "HUELVA": (1, "Andalucía"),
    "HUESCA": (2, "Aragón"),
    "ILLES BALEARS": (4, "Islas Baleares"),
    "JAEN": (1, "Andalucía"),
    "LA RIOJA": (17, "La Rioja"),
    "LAS PALMAS": (5, "Canarias"),
    "LEON": (8, "Castilla y León"),
    "LLEIDA": (9, "Cataluña"),
    "LUGO": (12, "Galicia"),
    "MADRID": (13, "Madrid"),
    "MALAGA": (1, "Andalucía"),
    "MELILLA": (19, "Melilla"),
    "MURCIA": (14, "Murcia"),
    "NAVARRA": (15, "Navarra"),
    "OURENSE": (12, "Galicia"),
    "PALENCIA": (8, "Castilla y León"),
    "PONTEVEDRA": (12, "Galicia"),
    "SALAMANCA": (8, "Castilla y León"),
    "SANTA CRUZ DE TENERIFE": (5, "Canarias"),
    "SEGOVIA": (8, "Castilla y León"),
    "SEVILLA": (1, "Andalucía"),
    "SORIA": (8, "Castilla y León"),
    "STA. CRUZ DE TENERIFE": (5, "Canarias"),  # Puede ser duplicado de "SANTA CRUZ DE TENERIFE"
    "TARRAGONA": (9, "Cataluña"),
    "TERUEL": (2, "Aragón"),
    "TOLEDO": (7, "Castilla-La Mancha"),
    "VALENCIA": (10, "Comunidad Valenciana"),
    "VALLADOLID": (8, "Castilla y León"),
    "ZAMORA": (8, "Castilla y León"),
    "ZARAGOZA": (2, "Aragón")
}

# Lista de comunidades autónomas en España con su código
comunidades_espana = {
    1: "Andalucía", 2: "Aragón", 3: "Asturias", 4: "Islas Baleares",
    5: "Canarias", 6: "Cantabria", 7: "Castilla-La Mancha", 8: "Castilla y León",
    9: "Cataluña", 10: "Comunidad Valenciana", 11: "Extremadura", 12: "Galicia",
    13: "Madrid", 14: "Murcia", 15: "Navarra", 16: "País Vasco",
    17: "La Rioja", 18: "Ceuta", 19: "Melilla"
}


In [21]:

# Asignar comunidad autónoma y código a cada provincia
df["CCAA"] = df["Provincia"].map(lambda x: provincias_comunidades.get(x, (None, None))[0])
df["Comunidad_Autonoma"] = df["Provincia"].map(lambda x: provincias_comunidades.get(x, (None, None))[1])

# Agrupar por comunidad autónoma y año, obteniendo la Tmax y Tmin máxima y mínima
df_comunidades = df.groupby(["CCAA", "Comunidad_Autonoma", "Año"]).agg(
    Tmax_max=("Tmax", "max"),
    Tmin_min=("Tmin", "min")
).reset_index()


In [22]:
df_comunidades

Unnamed: 0,CCAA,Comunidad_Autonoma,Año,Tmax_max,Tmin_min
0,1,Andalucía,2016,44.6,-6.9
1,1,Andalucía,2017,44.4,-7.4
2,1,Andalucía,2018,43.5,-5.1
3,1,Andalucía,2019,40.6,-8.6
4,1,Andalucía,2020,42.9,-8.8
...,...,...,...,...,...
146,19,Melilla,2018,34.1,5.9
147,19,Melilla,2019,34.9,6.1
148,19,Melilla,2020,39.9,6.4
149,19,Melilla,2021,39.7,6.2


In [None]:
csv_filename = "../data/temperaturas_comunidades.csv"
df_comunidades.to_csv(csv_filename, sep="\t", index=False)

## Inflación en España anual de 2016 a 2023 (Comunidades Autónomas y Nacional) 

In [None]:

import pandas as pd

# Crear el diccionario con los datos de inflación por comunidad autónoma y año
data = {
    "Año": [],
    "Comunidad Autónoma": [],
    "Inflación (%)": []
}

# Datos estructurados
datos_inflacion = {
    2016: {"Nacional": 1.6, "Andalucía": 1.6, "Aragón": 1.6, "Asturias, Principado de": 1.6, "Balears, Illes": 1.6, "Canarias": 1.3,
           "Cantabria": 1.5, "Castilla y León": 1.6, "Castilla-La Mancha": 1.6, "Cataluña": 1.9, "Comunitat Valenciana": 1.3,
           "Extremadura": 1.5, "Galicia": 1.6, "Madrid, Comunidad de": 1.4, "Murcia, Región de": 1.6, "Navarra, Comunidad Foral de": 1.8,
           "País Vasco": 1.5, "Rioja, La": 1.5, "Ceuta": 1.1, "Melilla": 1.4},
    
    2017: {"Nacional": 1.1, "Andalucía": 1.1, "Aragón": 0.9, "Asturias, Principado de": 0.9, "Balears, Illes": 1.3, "Canarias": 1.1,
           "Cantabria": 1.2, "Castilla y León": 1.0, "Castilla-La Mancha": 1.1, "Cataluña": 1.2, "Comunitat Valenciana": 1.1,
           "Extremadura": 0.8, "Galicia": 1.2, "Madrid, Comunidad de": 1.2, "Murcia, Región de": 0.6, "Navarra, Comunidad Foral de": 0.6,
           "País Vasco": 1.1, "Rioja, La": 0.6, "Ceuta": 0.6, "Melilla": 1.4},

    2018: {"Nacional": 1.2, "Andalucía": 1.0, "Aragón": 1.2, "Asturias, Principado de": 1.1, "Balears, Illes": 0.7, "Canarias": 1.4,
           "Cantabria": 1.0, "Castilla y León": 1.2, "Castilla-La Mancha": 1.2, "Cataluña": 1.4, "Comunitat Valenciana": 1.1,
           "Extremadura": 1.1, "Galicia": 1.0, "Madrid, Comunidad de": 1.4, "Murcia, Región de": 0.9, "Navarra, Comunidad Foral de": 1.3,
           "País Vasco": 1.0, "Rioja, La": 1.2, "Ceuta": 0.7, "Melilla": -0.3},

    2019: {"Nacional": 0.8, "Andalucía": 0.5, "Aragón": 0.8, "Asturias, Principado de": 0.4, "Balears, Illes": 1.0, "Canarias": 0.4,
           "Cantabria": 0.9, "Castilla y León": 1.0, "Castilla-La Mancha": 0.9, "Cataluña": 0.9, "Comunitat Valenciana": 0.7,
           "Extremadura": 0.7, "Galicia": 0.7, "Madrid, Comunidad de": 0.9, "Murcia, Región de": 0.7, "Navarra, Comunidad Foral de": 1.3,
           "País Vasco": 1.2, "Rioja, La": 1.0, "Ceuta": 0.3, "Melilla": 0.5},

    2020: {"Nacional": -0.5, "Andalucía": -0.3, "Aragón": -0.6, "Asturias, Principado de": -0.6, "Balears, Illes": -0.4, "Canarias": -0.1,
           "Cantabria": -0.5, "Castilla y León": -0.7, "Castilla-La Mancha": -0.9, "Cataluña": -0.6, "Comunitat Valenciana": -0.5,
           "Extremadura": -0.5, "Galicia": -0.4, "Madrid, Comunidad de": -0.8, "Murcia, Región de": -0.4, "Navarra, Comunidad Foral de": -0.6,
           "País Vasco": -0.3, "Rioja, La": -0.8, "Ceuta": -0.4, "Melilla": 0.1},

    2021: {"Nacional": 6.5, "Andalucía": 6.7, "Aragón": 7.2, "Asturias, Principado de": 6.2, "Balears, Illes": 6.5, "Canarias": 5.8,
           "Cantabria": 6.8, "Castilla y León": 7.3, "Castilla-La Mancha": 7.6, "Cataluña": 6.1, "Comunitat Valenciana": 6.8,
           "Extremadura": 7.1, "Galicia": 6.7, "Madrid, Comunidad de": 6.2, "Murcia, Región de": 6.3, "Navarra, Comunidad Foral de": 6.6,
           "País Vasco": 6.4, "Rioja, La": 7.0, "Ceuta": 5.5, "Melilla": 6.9},

    2022: {"Nacional": 5.7, "Andalucía": 6.2, "Aragón": 5.9, "Asturias, Principado de": 5.8, "Balears, Illes": 5.5, "Canarias": 5.8,
           "Cantabria": 5.3, "Castilla y León": 6.5, "Castilla-La Mancha": 6.8, "Cataluña": 5.2, "Comunitat Valenciana": 5.5,
           "Extremadura": 6.5, "Galicia": 6.4, "Madrid, Comunidad de": 4.9, "Murcia, Región de": 6.3, "Navarra, Comunidad Foral de": 6.4,
           "País Vasco": 5.4, "Rioja, La": 5.8, "Ceuta": 6.2, "Melilla": 6.6},

    2023: {"Nacional": 3.1, "Andalucía": 3.3, "Aragón": 2.5, "Asturias, Principado de": 2.9, "Balears, Illes": 3.3, "Canarias": 3.8,
           "Cantabria": 3.3, "Castilla y León": 2.8, "Castilla-La Mancha": 3.4, "Cataluña": 3.2, "Comunitat Valenciana": 3.3,
           "Extremadura": 2.4, "Galicia": 3.2, "Madrid, Comunidad de": 2.7, "Murcia, Región de": 3.0, "Navarra, Comunidad Foral de": 2.9,
           "País Vasco": 3.1, "Rioja, La": 3.1, "Ceuta": 3.3, "Melilla": 3.4}
}

# Transformar los datos en un DataFrame
for año, comunidades in datos_inflacion.items():
    for comunidad, inflacion in comunidades.items():
        data["Año"].append(año)
        data["Comunidad Autónoma"].append(comunidad)
        data["Inflación (%)"].append(inflacion)

df = pd.DataFrame(data)

# Guardar en CSV
df.to_csv("../data/inflacion_espana_2016_2023.csv", index=False, sep="\t", encoding="utf-8")


In [21]:
df

Unnamed: 0,Año,Comunidad Autónoma,Inflación (%)
0,2016,Nacional,1.6
1,2016,Andalucía,1.6
2,2016,Aragón,1.6
3,2016,"Asturias, Principado de",1.6
4,2016,"Balears, Illes",1.6
...,...,...,...
155,2023,"Navarra, Comunidad Foral de",2.9
156,2023,País Vasco,3.1
157,2023,"Rioja, La",3.1
158,2023,Ceuta,3.3


## Tipo de interés del Banco Central Europeo anual

In [3]:
import pandas as pd

In [11]:
tipos_interes_anuales = {
    2016: 0.00,
    2017: 0.00,
    2018: 0.00,
    2019: 0.00,
    2020: 0.00,
    2021: 0.00,
    2022: 2.50,
    2023: 4.50
}

In [None]:
# Crear un DataFrame con los datos del diccionario
df_csv = pd.DataFrame(list(tipos_interes_anuales.items()), columns=["Año", "Tipo_Interes"])

# Guardar el DataFrame como un archivo CSV
csv_filename = "../data/tipos_interes_bce.csv"
df_csv.to_csv(csv_filename, sep="\t", encoding="utf-8", index=False)

# Proporcionar el enlace de descarga
csv_filename


'datos/tipos_interes_bce.csv'

In [13]:
df_csv

Unnamed: 0,Año,Tipo_Interes
0,2016,0.0
1,2017,0.0
2,2018,0.0
3,2019,0.0
4,2020,0.0
5,2021,0.0
6,2022,2.5
7,2023,4.5
