# üìä M√≥dulo 01a - Extracci√≥n y Transformaci√≥n INE

## üéØ Objetivo
Extraer y transformar las **13 tablas del INE** necesarias para el an√°lisis de desigualdad social.

## üìã Tablas procesadas
1. IPC General Nacional (24077)
2. Umbral de Pobreza por Hogar (11205_4)
3. Carencia Material por Decil (9973)
4. AROPE y Componentes (Edad/Sexo: 29287, Hogar: 60259, Laboral: 74862)
5. Desigualdad: Gini y S80/S20 por CCAA (60143)
6. Renta Media por Decil (11106_2)
7. Poblaci√≥n por Edad, Sexo y Nacionalidad (56936)
8. Poblaci√≥n por CCAA, Edad y Sexo (66014)
9. AROPE por CCAA (29288)
10. Gasto Medio por Hogar por Quintil - EPF (24900)
11. IPC Sectorial por Grupos ECOICOP (50902)

## üì§ Output
Genera **14 archivos pickle** en `outputs/pickle_cache/` con todos los DataFrames INE.

---

### 1. Imports y Configuraci√≥n

In [1]:
import requests
import pandas as pd
import re
import pickle
from pathlib import Path
from datetime import datetime

# Crear directorio para cache si no existe
CACHE_DIR = Path('../../outputs/pickle_cache')
CACHE_DIR.mkdir(parents=True, exist_ok=True)

print(f"‚úÖ Imports cargados")
print(f"üìÅ Cache directory: {CACHE_DIR.absolute()}")
print(f"üïí Inicio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

‚úÖ Imports cargados
üìÅ Cache directory: C:\Users\mario\Desktop\Projects\desigualdad_social_etl\notebooks\00_etl\..\..\outputs\pickle_cache
üïí Inicio: 2025-11-16 14:14:34


### üìà 2. IPC General Nacional (INE - Tabla 24077)

**¬øQu√© es?**  
El **√çndice de Precios de Consumo (IPC)** mide c√≥mo cambian los precios de los bienes y servicios.

**Transformaci√≥n:** Datos mensuales ‚Üí Promedio anual ‚Üí C√°lculo de inflaci√≥n (%)

In [2]:

codigo_ipc = "24077"
url_ipc = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{codigo_ipc}"
response_ipc = requests.get(url_ipc)
data_ipc = response_ipc.json()

datos_ipc_limpios = []
df_ipc_raw = pd.DataFrame(data_ipc)

for idx, row in df_ipc_raw.iterrows():
    if isinstance(row['Data'], list):
        for dato in row['Data']:
            datos_ipc_limpios.append({
                'Periodo': dato.get('Anyo', dato.get('NombrePeriodo', None)),
                'IPC_Indice': dato.get('Valor', None)
            })

df_ipc_limpio = pd.DataFrame(datos_ipc_limpios)
df_ipc_limpio['IPC_Indice'] = pd.to_numeric(df_ipc_limpio['IPC_Indice'], errors='coerce')
df_ipc_limpio['Periodo'] = df_ipc_limpio['Periodo'].astype(str)

df_ipc_limpio['A√±o'] = pd.to_numeric(df_ipc_limpio['Periodo'], errors='coerce').astype('Int64')
df_ipc_anual = df_ipc_limpio.groupby('A√±o', as_index=False).agg({
    'IPC_Indice': 'mean'
}).rename(columns={'IPC_Indice': 'IPC_Medio_Anual'})
df_ipc_anual['IPC_Medio_Anual'] = df_ipc_anual['IPC_Medio_Anual'].round(3)

df_ipc_anual['Inflacion_Anual_%'] = df_ipc_anual['IPC_Medio_Anual'].pct_change() * 100
df_ipc_anual['Inflacion_Anual_%'] = df_ipc_anual['Inflacion_Anual_%'].round(2)

print(f"  > Completado. Registros anuales: {len(df_ipc_anual)}")


  > Completado. Registros anuales: 24


### üè† 3. Umbral de Pobreza por Hogar (INE - Tabla 11205_4)

**¬øQu√© es?**  
Umbral de pobreza seg√∫n tipo de hogar (60% mediana nacional).

**Transformaci√≥n:** Datos por hogar ‚Üí Formato largo

In [3]:

ruta_tabla_umbral = "t00/ICV/dim1/l0/11205_4.px"
url_umbral = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{ruta_tabla_umbral}"
response_umbral = requests.get(url_umbral)
data_umbral = response_umbral.json()

datos_limpios_umbral = []
df_umbral_raw = pd.DataFrame(data_umbral)

for idx, row in df_umbral_raw.iterrows():
    tipo_hogar = row['Nombre']
    for dato in row['Data']:
        datos_limpios_umbral.append({
            'Tipo_Hogar': tipo_hogar,
            'A√±o': int(dato['NombrePeriodo']),
            'Umbral_Euros': float(dato['Valor'])
        })

df_umbral_limpio = pd.DataFrame(datos_limpios_umbral)
df_umbral_limpio = df_umbral_limpio.sort_values(['A√±o', 'Tipo_Hogar'], ascending=[False, True])

print(f"  > Completado. Registros: {len(df_umbral_limpio)}")


  > Completado. Registros: 32


### üçΩÔ∏è 4. Carencia Material por Decil (INE - Tabla 9973)

**¬øQu√© es?**  
Porcentaje de personas que NO pueden permitirse bienes/servicios b√°sicos, por decil de renta.

In [4]:

tabla_carencia = "9973"
url_carencia = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_carencia}"
response_carencia = requests.get(url_carencia)
data_carencia = response_carencia.json()

datos_limpios_carencia = []
df_carencia_raw = pd.DataFrame(data_carencia)

for idx, row in df_carencia_raw.iterrows():
    nombre_completo = row.get('Nombre', '')
    
    item_match = re.match(r'^(.+?)\\.\\s*Total Nacional', nombre_completo)
    nombre_item = item_match.group(1).strip() if item_match else nombre_completo
    
    deciles_map = {
        'Primer decil': 'D1', 'Segundo decil': 'D2', 'Tercer decil': 'D3',
        'Cuarto decil': 'D4', 'Quinto decil': 'D5', 'Sexto decil': 'D6',
        'S√©ptimo decil': 'D7', 'Septimo decil': 'D7', 'Octavo decil': 'D8',
        'Noveno decil': 'D9', 'D√©cimo decil': 'D10', 'Decimo decil': 'D10'
    }
    decil = 'Total Nacional'
    for k, v in deciles_map.items():
        if k in nombre_completo:
            decil = v
            break
            
    if isinstance(row['Data'], list):
        for dato in row['Data']:
            datos_limpios_carencia.append({
                'Item': nombre_item,
                'A√±o': dato.get('Anyo', None),
                'Valor': dato.get('Valor', None),
                'Decil': decil
            })

df_carencia_material = pd.DataFrame(datos_limpios_carencia)
df_carencia_material['Valor'] = df_carencia_material['Valor'].astype(str).str.replace(',', '.').astype(float)
df_carencia_material['A√±o'] = pd.to_numeric(df_carencia_material['A√±o'], errors='coerce').astype('Int64')
df_carencia_material = df_carencia_material.dropna(subset=['Valor', 'A√±o'])

print(f"  > Completado. Registros: {len(df_carencia_material)}")


  > Completado. Registros: 1683


### üåç 5. Tasa AROPE y Componentes (INE - 3 tablas)

**AROPE** = At Risk Of Poverty or social Exclusion. Mide exclusi√≥n social usando 3 criterios.

**Tablas:** Edad/Sexo (29287), Hogar (60259), Laboral (74862)

In [5]:


# --- 2.4.1 AROPE por Edad y Sexo (29287) ---
tabla_arope_edad_sexo = "29287"
url_arope_edad_sexo = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_arope_edad_sexo}"
response_arope = requests.get(url_arope_edad_sexo)
data_arope_raw = response_arope.json()

arope_records = []
for record in data_arope_raw:
    nombre = record.get('Nombre', '')
    if 'Data' in record and isinstance(record['Data'], list):
        for data_point in record['Data']:
            year = data_point.get('Anyo')
            valor = data_point.get('Valor')
            if year is not None and valor is not None:
                sexo = 'Hombre' if 'Hombre' in nombre else 'Mujer' if 'Mujer' in nombre else 'Total'
                
                if 'Total' in nombre and not any(x in nombre for x in ['Menos de 16', '16 a 29', '30 a 44', '45 a 64', '65 y m√°s', 'Menos de 18', '18 a 64']):
                    edad = 'Total'
                elif 'Menos de 16' in nombre or 'Menores de 16' in nombre:
                    edad = 'Menores de 16 a√±os'
                elif '16 a 29' in nombre:
                    edad = '16 a 29 a√±os'
                elif '30 a 44' in nombre:
                    edad = '30 a 44 a√±os'
                elif '45 a 64' in nombre:
                    edad = '45 a 64 a√±os'
                elif '65 y m√°s' in nombre or '65 y +' in nombre:
                    edad = '65 y m√°s a√±os'
                elif 'Menos de 18' in nombre or 'Menores de 18' in nombre:
                    edad = 'Menos de 18 a√±os'
                elif '18 a 64' in nombre:
                    edad = '18 a 64 a√±os'
                else:
                    edad = 'Total'
                
                indicador = 'AROP' if 'En riesgo de pobreza' in nombre and 'AROPE' not in nombre else 'Carencia Material Severa' if 'Carencia material' in nombre else 'Baja Intensidad Laboral' if 'Baja intensidad' in nombre else 'AROPE'
                
                arope_records.append({
                    'A√±o': int(year), 'Sexo': sexo, 'Edad': edad,
                    'Indicador': indicador, 'Valor': float(valor)
                })
df_arope_edad_sexo = pd.DataFrame(arope_records)
df_arope_edad_sexo = df_arope_edad_sexo.drop_duplicates(subset=['A√±o', 'Sexo', 'Edad'], keep='first')
print(f"  > AROPE Edad/Sexo: {len(df_arope_edad_sexo)} registros")

# --- 2.4.2 AROPE por Tipo de Hogar (60259) ---
tabla_hogar = "60259"
url_tabla_hogar = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_hogar}"
response_hogar = requests.get(url_tabla_hogar)
data_hogar_raw = response_hogar.json()

hogar_records = []
for record in data_hogar_raw:
    nombre = record.get('Nombre', '')
    
    if 'Total' in nombre and not any(x in nombre for x in ['1 adulto', '2 adultos', 'Otros', 'No consta', 'Hogares de una persona']):
        tipo_hogar = 'Total'
    elif '1 adulto con 1 √≥ m√°s ni√±os dependientes' in nombre or '1 adulto con 1 o m√°s ni√±os dependientes' in nombre:
        tipo_hogar = '1 adulto con 1 o m√°s ni√±os dependientes'
    elif '2 adultos con 1 √≥ m√°s ni√±os dependientes' in nombre or '2 adultos con 1 o m√°s ni√±os dependientes' in nombre:
        tipo_hogar = '2 adultos con 1 o m√°s ni√±os dependientes'
    elif '2 adultos sin ni√±os dependientes' in nombre:
        tipo_hogar = '2 adultos sin ni√±os dependientes'
    elif 'Hogares de una persona' in nombre:
        tipo_hogar = 'Hogares de una persona'
    elif 'Otros hogares con ni√±os dependientes' in nombre:
        tipo_hogar = 'Otros hogares con ni√±os dependientes'
    elif 'Otros hogares sin ni√±os dependientes' in nombre:
        tipo_hogar = 'Otros hogares sin ni√±os dependientes'
    elif 'No consta' in nombre:
        tipo_hogar = 'No consta'
    else:
        tipo_hogar = 'Desconocido'
    
    indicador = 'AROP' if 'En riesgo de pobreza' in nombre and 'exclusi√≥n' not in nombre.lower() else 'Carencia Material Severa' if 'carencia material' in nombre.lower() else 'Baja Intensidad Laboral' if 'baja intensidad' in nombre.lower() else 'AROPE'
    
    if 'Data' in record and isinstance(record['Data'], list):
        for data_point in record['Data']:
            year = data_point.get('Anyo')
            valor = data_point.get('Valor')
            if year is not None and valor is not None:
                hogar_records.append({
                    'A√±o': int(year), 'Tipo_Hogar': tipo_hogar,
                    'Indicador': indicador, 'Valor': float(valor)
                })
df_arope_hogar = pd.DataFrame(hogar_records)
df_arope_hogar = df_arope_hogar[df_arope_hogar['Tipo_Hogar'] != 'No consta'].copy()
print(f"  > AROPE Hogar: {len(df_arope_hogar)} registros (sin 'No consta')")

# --- 2.4.3 AROPE por Situaci√≥n Laboral (74862) ---
tabla_laboral = "74862"
url_tabla_laboral = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_laboral}"
response_laboral = requests.get(url_tabla_laboral)
data_laboral_raw = response_laboral.json()

registros_laboral = []
for record in data_laboral_raw:
    nombre = record.get('Nombre', '')
    nombre_parts = [p.strip() for p in nombre.split('.')]
    
    sexo = nombre_parts[0] if len(nombre_parts) > 0 else 'Total'
    situacion_laboral = nombre_parts[1] if len(nombre_parts) > 1 else 'Total'
    territorio = 'UE-27' if 'UE27' in nombre_parts[2] else 'Espa√±a' if 'Total Nacional' in nombre_parts[2] else nombre_parts[2]
    
    datos_valores = record.get('Data', [])
    if isinstance(datos_valores, list):
        for valor_obj in datos_valores:
            if isinstance(valor_obj, dict):
                anyo = valor_obj.get('Anyo')
                valor = valor_obj.get('Valor')
                if anyo is not None and valor is not None:
                    registros_laboral.append({
                        'Sexo': sexo, 'Situacion_Laboral': situacion_laboral,
                        'Territorio': territorio, 'A√±o': int(anyo), 'AROPE': float(valor)
                    })
df_arope_laboral = pd.DataFrame(registros_laboral)
print(f"  > AROPE Laboral: {len(df_arope_laboral)} registros")


  > AROPE Edad/Sexo: 408 registros
  > AROPE Hogar: 308 registros (sin 'No consta')


  > AROPE Laboral: 152 registros


### ‚öñÔ∏è 7. Desigualdad: Gini y S80/S20 por CCAA (INE - Tabla 60143)

**¬øQu√© es?**  
Dos indicadores clave para medir desigualdad de ingresos:

#### üìä Coeficiente de Gini
- **Rango**: 0 (igualdad perfecta) a 1 (m√°xima desigualdad)
- **Contexto Espa√±a**: T√≠picamente entre 0.30 - 0.35

#### üí∞ Ratio S80/S20
- **C√°lculo**: Renta del 20% m√°s RICO √∑ Renta del 20% m√°s POBRE
- **Ejemplo**: S80/S20 = 6.5 ‚Üí Los ricos ganan 6.5 veces m√°s que los pobres

**Transformaci√≥n:** Datos por CCAA ‚Üí Filtrar Gini y S80/S20 (excluir imputados) ‚Üí Pivotado

In [6]:

tabla_gini = "60143"
url_tabla_gini = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_gini}"
response_gini = requests.get(url_tabla_gini)
data_gini_raw = response_gini.json()

registros_desigualdad = []
for record in data_gini_raw:
    nombre = record.get('Nombre', '')
    nombre_lower = nombre.lower()
    
    indicador = 'Gini' if 'gini' in nombre_lower and 'imputado' not in nombre_lower else 'S80/S20' if 's80' in nombre_lower and 'imputado' not in nombre_lower else None
    if indicador is None: continue
        
    territorio = nombre.split('.')[0].strip()
    
    datos_valores = record.get('Data', [])
    if isinstance(datos_valores, list):
        for valor_obj in datos_valores:
            if isinstance(valor_obj, dict):
                anyo = valor_obj.get('Anyo')
                valor = valor_obj.get('Valor')
                if anyo is not None and valor is not None:
                    registros_desigualdad.append({
                        'Territorio': territorio, 'Indicador': indicador,
                        'A√±o': int(anyo), 'Valor': float(valor)
                    })

df_desigualdad = pd.DataFrame(registros_desigualdad)
df_gini_ccaa = df_desigualdad.pivot_table(
    index=['Territorio', 'A√±o'], columns='Indicador', values='Valor'
).reset_index()

print(f"  > Completado. Registros: {len(df_gini_ccaa)}")


  > Completado. Registros: 340


### üí∞ 8. Renta Media por Decil (INE - Tabla 11106_2)

**¬øQu√© es?**  
Renta media y mediana de la poblaci√≥n dividida en 10 grupos (deciles) del m√°s pobre al m√°s rico.

| Decil | Representa |
|-------|-----------|
| **D1** | 10% m√°s pobre |
| **D2-D9** | Clases medias |
| **D10** | 10% m√°s rico |

**Transformaci√≥n:** Datos por decil ‚Üí Extracci√≥n de indicador y decil ‚Üí Pivotado

In [7]:

ruta_tabla_renta = "t00/ICV/dim1/l0/11106_2.px"
url_renta_decil = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{ruta_tabla_renta}"
response_renta_decil = requests.get(url_renta_decil)
data_renta_decil_raw = response_renta_decil.json()

registros_deciles = []
mapeo_deciles = {
    'Total': 'Total', 'Primer decil': 'D1', 'Segundo decil': 'D2', 'Tercer decil': 'D3',
    'Cuarto decil': 'D4', 'Quinto decil': 'D5', 'Sexto decil': 'D6', 'S√©ptimo decil': 'D7',
    'Octavo decil': 'D8', 'Noveno decil': 'D9', 'D√©cimo decil': 'D10'
}

for record in data_renta_decil_raw:
    nombre = record.get('Nombre', '')
    partes = [p.strip() for p in nombre.split(',')]
    if len(partes) >= 2:
        indicador = partes[0]
        decil_nombre = partes[1]
        decil = mapeo_deciles.get(decil_nombre, decil_nombre)
        
        datos_valores = record.get('Data', [])
        if isinstance(datos_valores, list):
            for valor_obj in datos_valores:
                if isinstance(valor_obj, dict):
                    periodo = valor_obj.get('NombrePeriodo')
                    valor = valor_obj.get('Valor')
                    if periodo is not None and valor is not None:
                        registros_deciles.append({
                            'Indicador': indicador, 'Decil': decil,
                            'A√±o': int(periodo), 'Valor': float(valor)
                        })

df_renta_decil_raw = pd.DataFrame(registros_deciles)
df_renta_decil = df_renta_decil_raw.pivot_table(
    index=['Decil', 'A√±o'], columns='Indicador', values='Valor', aggfunc='first'
).reset_index()
df_renta_decil.columns.name = None

mapeo_columnas = {'Renta media': 'Media', 'Renta mediana': 'Mediana'}
df_renta_decil = df_renta_decil.rename(columns={col: mapeo_columnas.get(col, col) for col in df_renta_decil.columns})

print(f"  > Completado. Registros: {len(df_renta_decil)}")


  > Completado. Registros: 176


### üë• 9. Poblaci√≥n por Edad, Sexo y Nacionalidad (INE - Tabla 56936)

**¬øQu√© es?**  
Datos del Padr√≥n Municipal mostrando poblaci√≥n residente desglosada por edad, sexo y nacionalidad.

**¬øPara qu√© sirve?**  
- Calcular cifras absolutas: Convertir tasas AROPE (%) en n√∫mero real de personas afectadas
- Contextualizar indicadores: "12.4 millones en AROPE" vs "26.5%"

**Transformaci√≥n:** Datos trimestrales ‚Üí Filtrar "Total" nacionalidad ‚Üí Agrupar por a√±o

In [8]:

tabla_poblacion = "56936"
url_tabla_poblacion = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{tabla_poblacion}"
response_poblacion = requests.get(url_tabla_poblacion)

if response_poblacion.status_code != 200:
    print(f"  ‚ùå Error al obtener datos: HTTP {response_poblacion.status_code}")
    df_poblacion = pd.DataFrame(columns=['A√±o', 'Sexo', 'Edad', 'Poblacion'])
else:
    try:
        data_poblacion_raw = response_poblacion.json()
        registros_poblacion = []

        mapeo_edad = {
            'De 0 a 4 a√±os': '0-4', 'De 5 a 9 a√±os': '5-9', 'De 10 a 14 a√±os': '10-14',
            'De 15 a 19 a√±os': '15-19', 'De 20 a 24 a√±os': '20-24', 'De 25 a 29 a√±os': '25-29',
            'De 30 a 34 a√±os': '30-34', 'De 35 a 39 a√±os': '35-39', 'De 40 a 44 a√±os': '40-44',
            'De 45 a 49 a√±os': '45-49', 'De 50 a 54 a√±os': '50-54', 'De 55 a 59 a√±os': '55-59',
            'De 60 a 64 a√±os': '60-64', 'De 65 a 69 a√±os': '65-69', 'De 70 a 74 a√±os': '70-74',
            'De 75 a 79 a√±os': '75-79', 'De 80 a 84 a√±os': '80-84', 'De 85 a 89 a√±os': '85-89',
            'De 90 a 94 a√±os': '90-94', '95 y m√°s a√±os': '95+', '90 y m√°s a√±os': '90+'
        }

        for record in data_poblacion_raw:
            if not isinstance(record, dict): continue
            
            nombre = record.get('Nombre', '')
            partes = [p.strip() for p in nombre.split('.')]
            if len(partes) < 4: continue
            
            nacionalidad_raw = partes[1]
            edad_raw = partes[2]
            sexo_raw = partes[3]
            
            if nacionalidad_raw != 'Total': continue
            
            sexo = 'Hombres' if 'Hombres' in sexo_raw else 'Mujeres' if 'Mujeres' in sexo_raw else 'Total'
            edad = mapeo_edad.get(edad_raw, edad_raw)
            
            datos_valores = record.get('Data', [])
            if isinstance(datos_valores, list):
                for valor_obj in datos_valores:
                    if isinstance(valor_obj, dict):
                        periodo_raw = valor_obj.get('NombrePeriodo', valor_obj.get('Anyo'))
                        valor = valor_obj.get('Valor')
                        
                        if periodo_raw is not None and valor is not None:
                            try:
                                anyo = int(str(periodo_raw).split('T')[0]) if 'T' in str(periodo_raw) else int(periodo_raw)
                            except:
                                continue
                            
                            registros_poblacion.append({
                                'A√±o': anyo, 'Sexo': sexo, 'Edad': edad, 'Poblacion': float(valor)
                            })

        df_poblacion_raw = pd.DataFrame(registros_poblacion)
        if not df_poblacion_raw.empty:
            df_poblacion = df_poblacion_raw.groupby(['A√±o', 'Sexo', 'Edad'], as_index=False)['Poblacion'].mean()
        else:
            df_poblacion = pd.DataFrame(columns=['A√±o', 'Sexo', 'Edad', 'Poblacion'])

        print(f"  > Completado. Registros: {len(df_poblacion)}")
    except Exception as e:
        print(f"  ‚ùå Error procesando datos: {e}")
        df_poblacion = pd.DataFrame(columns=['A√±o', 'Sexo', 'Edad', 'Poblacion'])


  > Completado. Registros: 1380


### üìä 10. Poblaci√≥n por CCAA, Edad y Sexo (INE - Tabla 66014)

**¬øQu√© es?**  
Poblaci√≥n residente por comunidades aut√≥nomas, edad (grupos quinquenales) y sexo.

**¬øPara qu√© sirve?**  
- An√°lisis demogr√°fico regional
- C√°lculo de cifras absolutas de AROPE por CCAA
- Heatmap CCAA √ó Edad

**Transformaci√≥n:** Datos trimestrales ‚Üí Agrupar por a√±o ‚Üí Poblaci√≥n por CCAA/Edad/Sexo

In [9]:

codigo_pob_ccaa = "66014"
url_pob_ccaa = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{codigo_pob_ccaa}"
response_pob_ccaa = requests.get(url_pob_ccaa)

if response_pob_ccaa.status_code != 200:
    print(f"  ‚ùå Error al obtener datos: HTTP {response_pob_ccaa.status_code}")
    df_poblacion_ccaa_edad = pd.DataFrame(columns=['A√±o', 'CCAA', 'Sexo', 'Edad', 'Poblacion'])
else:
    try:
        data_pob_ccaa = response_pob_ccaa.json()
        registros_pob_ccaa = []
        
        ccaa_list = ['Total Nacional', 'Andaluc√≠a', 'Arag√≥n', 'Asturias, Principado de', 
                     'Balears, Illes', 'Canarias', 'Cantabria', 'Castilla y Le√≥n', 
                     'Castilla - La Mancha', 'Catalu√±a', 'Comunitat Valenciana', 
                     'Extremadura', 'Galicia', 'Madrid, Comunidad de', 'Murcia, Regi√≥n de', 
                     'Navarra, Comunidad Foral de', 'Pa√≠s Vasco', 'Rioja, La', 'Ceuta', 'Melilla']
        
        sexo_list = ['Ambos sexos', 'Hombres', 'Mujeres']
        
        for serie in data_pob_ccaa:
            nombre = serie.get('Nombre', '')
            datos = serie.get('Data', [])
            partes = [p.strip() for p in nombre.split('.') if p.strip()]
            
            ccaa = None
            sexo = None
            edad = None
            
            for parte in partes:
                if any(c in parte for c in ccaa_list):
                    ccaa = parte
                elif any(s in parte for s in sexo_list):
                    sexo = parte
                elif 'Personas' not in parte and parte not in ['Total Nacional', 'Ambos sexos', 'Hombres', 'Mujeres']:
                    edad = parte
            
            if ccaa and sexo and edad:
                for punto in datos:
                    anyo_raw = punto.get('Anyo')
                    valor = punto.get('Valor')
                    
                    if anyo_raw and valor:
                        anyo = int(str(anyo_raw)[:4])
                        registros_pob_ccaa.append({
                            'A√±o': anyo, 'CCAA': ccaa, 'Sexo': sexo, 'Edad': edad, 'Poblacion': float(valor) * 1000
                        })

        df_poblacion_ccaa_edad = pd.DataFrame(registros_pob_ccaa)
        print(f"  > Completado. Registros: {len(df_poblacion_ccaa_edad)}")
    except Exception as e:
        print(f"  ‚ùå Error procesando: {e}")
        df_poblacion_ccaa_edad = pd.DataFrame(columns=['A√±o', 'CCAA', 'Sexo', 'Edad', 'Poblacion'])


  > Completado. Registros: 10260


### üìä 11. AROPE por CCAA (INE - Tabla 29288)

**¬øQu√© es?**  
Riesgo de pobreza o exclusi√≥n social por comunidades aut√≥nomas.

**¬øPara qu√© sirve?**  
- Identificar "puntos negros" regionales
- An√°lisis de vulnerabilidad territorial

**Transformaci√≥n:** Datos por CCAA/indicador ‚Üí Filtrado AROPE ‚Üí Tasas por CCAA

In [10]:

codigo_arope_ccaa = "29288"
url_arope_ccaa = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{codigo_arope_ccaa}"
response_arope_ccaa = requests.get(url_arope_ccaa)

if response_arope_ccaa.status_code != 200:
    print(f"  ‚ùå Error al obtener datos: HTTP {response_arope_ccaa.status_code}")
    df_arope_ccaa_filtrado = pd.DataFrame(columns=['A√±o', 'CCAA', 'Indicador', 'Valor'])
else:
    try:
        data_arope_ccaa = response_arope_ccaa.json()
        registros_arope_ccaa = []
        
        for serie in data_arope_ccaa:
            nombre = serie.get('Nombre', '')
            datos = serie.get('Data', [])
            partes = [p.strip() for p in nombre.split('.')]
            
            if len(partes) >= 3:
                ccaa = partes[0]
                indicador = partes[2]
                
                for punto in datos:
                    anyo_raw = punto.get('Anyo')
                    valor = punto.get('Valor')
                    
                    if anyo_raw and valor:
                        anyo = int(str(anyo_raw)[:4])
                        registros_arope_ccaa.append({
                            'A√±o': anyo, 'CCAA': ccaa, 'Indicador': indicador, 'Valor': float(valor)
                        })

        df_arope_ccaa = pd.DataFrame(registros_arope_ccaa)
        
        if not df_arope_ccaa.empty:
            df_arope_ccaa_filtrado = df_arope_ccaa[
                df_arope_ccaa['Indicador'].str.contains('AROPE|riesgo de pobreza|exclusi√≥n social', case=False, na=False)
            ]
            if df_arope_ccaa_filtrado.empty:
                df_arope_ccaa_filtrado = df_arope_ccaa.copy()
        else:
            df_arope_ccaa_filtrado = pd.DataFrame(columns=['A√±o', 'CCAA', 'Indicador', 'Valor'])

        print(f"  > Completado. Registros: {len(df_arope_ccaa_filtrado)}")
    except Exception as e:
        print(f"  ‚ùå Error procesando: {e}")
        df_arope_ccaa_filtrado = pd.DataFrame(columns=['A√±o', 'CCAA', 'Indicador', 'Valor'])


  > Completado. Registros: 680


### üìä 12. Gasto Medio por Hogar por Quintil - EPF (INE - Tabla 24900)

**¬øQu√© es?**  
Gasto medio por hogar y distribuci√≥n del gasto por grupos de gasto y por quintiles.

**Fuente:** Encuesta de Presupuestos Familiares (EPF)

**¬øPara qu√© sirve?**  
- Estructura de gasto por nivel de renta (quintiles)
- Base para an√°lisis de inflaci√≥n diferencial

**Transformaci√≥n:** Datos por quintil/grupo_gasto ‚Üí Porcentajes de gasto ‚Üí EPF estructurada

In [11]:

codigo_epf = "24900"
url_epf = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{codigo_epf}"
response_epf = requests.get(url_epf)

if response_epf.status_code != 200:
    print(f"  ‚ùå Error al obtener datos: HTTP {response_epf.status_code}")
    df_epf_gasto = pd.DataFrame(columns=['A√±o', 'Quintil', 'Grupo_Gasto', 'Tipo_Valor', 'Valor'])
else:
    try:
        data_epf = response_epf.json()
        registros_epf = []
        
        for serie in data_epf:
            nombre = serie.get('Nombre', '')
            datos = serie.get('Data', [])
            
            quintil = 'Total'
            quintil_match = re.search(r'Quintil\s*(\d+)', nombre, re.IGNORECASE)
            if quintil_match:
                quintil = f'Q{quintil_match.group(1)}'
            
            tipo_valor = 'Gasto_Medio'
            if 'Dato base.' in nombre:
                partes_despues = nombre.split('Dato base.')[-1]
                partes_sin_quintil = re.sub(r'Quintil\s*(\d+|Total)\s*\.?\s*$', '', partes_despues).strip()
                
                if 'Gasto medio por hogar' in partes_sin_quintil:
                    tipo_valor = 'Gasto_Hogar'
                elif 'Gasto medio por persona' in partes_sin_quintil:
                    tipo_valor = 'Gasto_Persona'
                elif 'Distribuci√≥n (porcentajes horizontales)' in partes_sin_quintil:
                    tipo_valor = 'Distribucion_H'
                elif 'Distribuci√≥n (porcentajes verticales)' in partes_sin_quintil:
                    tipo_valor = 'Distribucion_V'
            
            grupo_gasto = '√çndice_General'
            if 'Total Nacional.' in nombre and 'Dato base.' in nombre:
                entre_nacional_y_dato = nombre.split('Total Nacional.')[-1].split('Dato base.')[0].strip()
                grupo_gasto = entre_nacional_y_dato.strip().replace(' ', '_')
            
            for punto in datos:
                anyo_raw = punto.get('Anyo')
                valor = punto.get('Valor')
                
                if anyo_raw and valor is not None:
                    anyo = int(str(anyo_raw)[:4])
                    registros_epf.append({
                        'A√±o': anyo, 'Quintil': quintil, 'Grupo_Gasto': grupo_gasto,
                        'Tipo_Valor': tipo_valor, 'Valor': float(valor)
                    })

        df_epf_gasto = pd.DataFrame(registros_epf)
        print(f"  > Completado. Registros: {len(df_epf_gasto)}")
    except Exception as e:
        print(f"  ‚ùå Error procesando: {e}")
        df_epf_gasto = pd.DataFrame(columns=['A√±o', 'Quintil', 'Grupo_Gasto', 'Tipo_Valor', 'Valor'])


  > Completado. Registros: 5616


### üìä 13. IPC Sectorial por Grupos ECOICOP (INE - Tabla 50902)

**¬øQu√© es?**  
√çndices de precios de consumo por grupos ECOICOP (clasificaci√≥n de consumo).

**¬øPara qu√© sirve?**  
- Calcular inflaci√≥n diferencial por quintil de renta
- Cruzar con estructura de gasto de EPF

**Transformaci√≥n:** IPC por grupo ECOICOP ‚Üí Variaci√≥n anual por categor√≠a

In [12]:

codigo_ipc_sect = "50902"
url_ipc_sect = f"https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/{codigo_ipc_sect}"
response_ipc_sect = requests.get(url_ipc_sect)

if response_ipc_sect.status_code != 200:
    print(f"  ‚ùå Error al obtener datos: HTTP {response_ipc_sect.status_code}")
    df_ipc_sectorial_anual = pd.DataFrame(columns=['A√±o', 'Categoria_ECOICOP', 'IPC_Indice', 'Inflacion_Sectorial_%'])
else:
    try:
        data_ipc_sect = response_ipc_sect.json()
        registros_ipc_sect = []
        
        for serie in data_ipc_sect:
            nombre = serie.get('Nombre', '')
            datos = serie.get('Data', [])
            nombre_limpio = nombre.strip()
            
            if nombre_limpio.startswith('Total Nacional. '):
                resto = nombre_limpio.replace('Total Nacional. ', '')
                partes = resto.rsplit('. ', 1)
                
                if len(partes) == 2:
                    categoria = partes[0].strip()
                    tipo_metrica = partes[1].rstrip('. ')
                    
                    for dato in datos:
                        nombre_periodo = dato.get('NombrePeriodo')
                        
                        if nombre_periodo is not None:
                            registros_ipc_sect.append({
                                'A√±o': int(nombre_periodo), 
                                'Categoria_ECOICOP': categoria,
                                'Tipo_Metrica': tipo_metrica,
                                'IPC_Indice': float(dato['Valor'])
                            })
        
        df_ipc_sectorial = pd.DataFrame(registros_ipc_sect)

        if not df_ipc_sectorial.empty:
            df_ipc_sectorial_anual = df_ipc_sectorial.groupby(
                ['A√±o', 'Categoria_ECOICOP', 'Tipo_Metrica'], as_index=False
            )['IPC_Indice'].mean()

            df_ipc_sectorial_anual = df_ipc_sectorial_anual.sort_values(
                by=['Categoria_ECOICOP', 'Tipo_Metrica', 'A√±o']
            )
            
            df_ipc_sectorial_anual['Inflacion_Sectorial_%'] = df_ipc_sectorial_anual.apply(
                lambda row: row['IPC_Indice'] if row['Tipo_Metrica'] == 'Variaci√≥n anual' else pd.NA, axis=1
            )

            print(f"  > Completado. Registros: {len(df_ipc_sectorial_anual)}")
        else:
            df_ipc_sectorial_anual = pd.DataFrame(columns=['A√±o', 'Categoria_ECOICOP', 'IPC_Indice', 'Inflacion_Sectorial_%'])

    except Exception as e:
        print(f"  ‚ùå Error procesando: {e}")
        df_ipc_sectorial_anual = pd.DataFrame(columns=['A√±o', 'Categoria_ECOICOP', 'IPC_Indice', 'Inflacion_Sectorial_%'])


### üíæ 14. Guardar DataFrames en Pickle

Guardado de los 14 DataFrames del INE en archivos pickle para carga posterior en 01c.

In [13]:
print("üíæ Guardando DataFrames INE en pickle...")

dataframes_ine = {
    'df_ipc_anual': df_ipc_anual,
    'df_umbral_limpio': df_umbral_limpio,
    'df_carencia_material': df_carencia_material,
    'df_arope_edad_sexo': df_arope_edad_sexo,
    'df_arope_hogar': df_arope_hogar,
    'df_arope_laboral': df_arope_laboral,
    'df_gini_ccaa': df_gini_ccaa,
    'df_renta_decil': df_renta_decil,
    'df_poblacion': df_poblacion,
    'df_poblacion_ccaa_edad': df_poblacion_ccaa_edad,
    'df_arope_ccaa': df_arope_ccaa_filtrado,
    'df_epf_gasto': df_epf_gasto,
    'df_ipc_sectorial': df_ipc_sectorial_anual
}

for nombre, df in dataframes_ine.items():
    ruta = CACHE_DIR / f'{nombre}.pkl'
    with open(ruta, 'wb') as f:
        pickle.dump(df, f)
    print(f'  ‚úÖ {nombre}: {len(df)} registros ‚Üí {ruta.name}')

print(f'\n‚úÖ Total guardados: {len(dataframes_ine)} pickles INE')
print(f'üïí Fin: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')


üíæ Guardando DataFrames INE en pickle...
  ‚úÖ df_ipc_anual: 24 registros ‚Üí df_ipc_anual.pkl
  ‚úÖ df_umbral_limpio: 32 registros ‚Üí df_umbral_limpio.pkl
  ‚úÖ df_carencia_material: 1683 registros ‚Üí df_carencia_material.pkl
  ‚úÖ df_arope_edad_sexo: 408 registros ‚Üí df_arope_edad_sexo.pkl
  ‚úÖ df_arope_hogar: 308 registros ‚Üí df_arope_hogar.pkl
  ‚úÖ df_arope_laboral: 152 registros ‚Üí df_arope_laboral.pkl
  ‚úÖ df_gini_ccaa: 340 registros ‚Üí df_gini_ccaa.pkl
  ‚úÖ df_renta_decil: 176 registros ‚Üí df_renta_decil.pkl
  ‚úÖ df_poblacion: 1380 registros ‚Üí df_poblacion.pkl
  ‚úÖ df_poblacion_ccaa_edad: 10260 registros ‚Üí df_poblacion_ccaa_edad.pkl
  ‚úÖ df_arope_ccaa: 680 registros ‚Üí df_arope_ccaa.pkl
  ‚úÖ df_epf_gasto: 5616 registros ‚Üí df_epf_gasto.pkl
  ‚úÖ df_ipc_sectorial: 0 registros ‚Üí df_ipc_sectorial.pkl

‚úÖ Total guardados: 13 pickles INE
üïí Fin: 2025-11-16 14:14:43
