In [2]:
from pathlib import Path
import pandas as pd
import sys 

# Definir la ruta base
data_path = Path('..') / 'data' / 'raw'
src_path = Path('..') / 'src' 

sys.path.append(str(src_path))
from data_cleaning_utils import *

# Leer los archivos
# Probar con diferentes separadores y encoding
salario_edad = pd.read_csv(data_path / 'salario_medio bruto_edad.csv', 
                  sep=';',  # Muchos CSVs españoles usan punto y coma
                  encoding='utf-8')

salario_comunidad = pd.read_csv(data_path / 'salario_medio_bruto_comunidad.csv',
                  sep=';',
                  encoding='utf-8')

ipv = pd.read_csv(data_path / 'ipv historico.csv',
                  sep=';',
                  encoding='utf-8')

metros_idealista = pd.read_csv(data_path / 'idealista metros cuadrados.csv',
                  sep=';',
                  encoding='utf-8')

superficie_media = pd.read_csv(data_path / 'superficie util vivienda valor medio del periodo.csv',
                  sep=';',
                  encoding='utf-8')

interes_fijo = pd.read_csv(data_path / 'tipo interes medio inicio hipotecas constituidas fijo o variable.csv',
                  sep=';',
                  encoding='utf-8')


# EXPLORACIÓN INICIAL DE DATASETS PARA ANÁLISIS HIPOTECARIO

In [3]:
# Lista de datasets para iterar
datasets = {
    'Salarios por Edad': salario_edad,
    'Salarios por Comunidad': salario_comunidad, 
    'IPV Histórico': ipv,
    'Metros² Idealista': metros_idealista,
    'Superficie Media': superficie_media,
    'Tipos Interés': interes_fijo
}

In [17]:
# Exploración básica de cada dataset
for name, df in datasets.items():
    print(f"\n📊 DATASET: {name}")
    print(f"Shape: {df.shape}")
    print(f"Columnas: {list(df.columns)}")
    print(f"Primeras 3 filas:")
    print(df.head(3))
    print(f"Tipos de datos:")
    print(df.dtypes)
    print(f"Valores nulos por columna:")
    print(df.isnull().sum())
    print("-" * 60)


📊 DATASET: Salarios por Edad
Shape: (3564, 5)
Columnas: ['Tipo de jornada', 'Grupo de edad', 'Decil', 'Periodo', 'Total']
Primeras 3 filas:
  Tipo de jornada Grupo de edad        Decil  Periodo     Total
0           Total         Total  Total decil     2023  2.273,01
1           Total         Total  Total decil     2022  2.118,79
2           Total         Total  Total decil     2021  2.076,45
Tipos de datos:
Tipo de jornada    object
Grupo de edad      object
Decil              object
Periodo             int64
Total              object
dtype: object
Valores nulos por columna:
Tipo de jornada    0
Grupo de edad      0
Decil              0
Periodo            0
Total              0
dtype: int64
------------------------------------------------------------

📊 DATASET: Salarios por Comunidad
Shape: (11880, 5)
Columnas: ['Tipo de jornada', 'Comunidades y Ciudades Autonómas', 'Decil', 'Periodo', 'Total']
Primeras 3 filas:
  Tipo de jornada Comunidades y Ciudades Autonómas        Decil  Period

# ANÁLISIS ESPECÍFICO POR DATASET

In [None]:
# 1. SALARIOS POR EDAD - buscar grupo 25-34
print("\n🔍 SALARIOS POR EDAD - Grupos disponibles:")
if 'Grupo de edad' in salario_edad.columns:
    print(salario_edad['Grupo de edad'].unique())
elif 'grupo_edad' in salario_edad.columns:  
    print(salario_edad['grupo_edad'].unique())
else:
    print("Revisar nombre de columna de edad:", list(salario_edad.columns))


🔍 SALARIOS POR EDAD - Grupos disponibles:
['Total' 'De 16 a 24 años' 'De 25 a 34 años' 'De 35 a 44 años'
 'De 45 a 54 años' '55 y más años']


In [6]:
# 2. SALARIOS POR COMUNIDAD - CCAA disponibles
print("\n🔍 SALARIOS POR COMUNIDAD - CCAA disponibles:")
comunidad_col = None
for col in salario_comunidad.columns:
    if 'comunidad' in col.lower() or 'ccaa' in col.lower():
        comunidad_col = col
        break
        
if comunidad_col:
    print(f"Columna CCAA: {comunidad_col}")
    print(salario_comunidad[comunidad_col].unique())
else:
    print("Revisar nombres de columnas:", list(salario_comunidad.columns))



🔍 SALARIOS POR COMUNIDAD - CCAA disponibles:
Columna CCAA: Comunidades y Ciudades Autonómas
['Total Nacional' '01 Andalucía' '02 Aragón' '03 Asturias, Principado de'
 '04 Balears, Illes' '05 Canarias' '06 Cantabria' '07 Castilla y León'
 '08 Castilla - La Mancha' '09 Cataluña' '10 Comunitat Valenciana'
 '11 Extremadura' '12 Galicia' '13 Madrid, Comunidad de'
 '14 Murcia, Región de' '15 Navarra, Comunidad Foral de' '16 País Vasco'
 '17 Rioja, La' '18 Ceuta' '19 Melilla']


In [None]:
# 3. PERÍODOS TEMPORALES disponibles
print("\n📅 PERÍODOS TEMPORALES DISPONIBLES:")
for name, df in datasets.items():
    periodo_col = None
    for col in df.columns:
        if 'periodo' in col.lower() or 'año' in col.lower() or 'fecha' in col.lower():
            periodo_col = col
            break

    if periodo_col:
        años_disponibles = df[periodo_col].unique()
        años_recientes = [año for año in años_disponibles if str(año).startswith(('2022', '2023', '2024', '2025'))]
        print(f"{name}: {años_recientes if años_recientes else 'Sin datos recientes'}")
    else:
        print(f"{name}: No se encontró columna de período")



📅 PERÍODOS TEMPORALES DISPONIBLES:
Salarios por Edad: [2023, 2022]
Salarios por Comunidad: [2023, 2022]
IPV Histórico: ['2025T1', '2024T4', '2024T3', '2024T2', '2024T1', '2023T4', '2023T3', '2023T2', '2023T1', '2022T4', '2022T3', '2022T2', '2022T1']
Metros² Idealista: Sin datos recientes
Superficie Media: Sin datos recientes
Tipos Interés: ['2025M03', '2025M02', '2025M01', '2024M12', '2024M11', '2024M10', '2024M09', '2024M08', '2024M07', '2024M06', '2024M05', '2024M04', '2024M03', '2024M02', '2024M01', '2023M12', '2023M11', '2023M10', '2023M09', '2023M08', '2023M07', '2023M06', '2023M05', '2023M04', '2023M03', '2023M02', '2023M01', '2022M12', '2022M11', '2022M10', '2022M09', '2022M08', '2022M07', '2022M06', '2022M05', '2022M04', '2022M03', '2022M02', '2022M01']


Tras este análisis exploratorio nos damos cuenta que debemos realizar una limpieza urgente del formato de ciertos data-sets y tipología de datos. Así como realizar unos cálculos para obtener información de años necesarios. 