# Feature Engineering para Precios Inmobiliarios Dinamarca

**Objetivo**: Transformaci√≥n y construcci√≥n de variables predictivas para el modelado supervisado de precios de vivienda en Dinamarca.

**Contenido**:
1. Carga de datos y configuraci√≥n inicial
2. Pipeline de feature engineering modular
3. Enriquecimiento geogr√°fico
4. Documentaci√≥n de resultados

In [1]:
# Configuraci√≥n y carga de m√≥dulos
import pandas as pd
import warnings
from pathlib import Path
import json
from datetime import datetime
import sys

import setup
setup.set_project_root()

from config import *
from feature_engineering import enhanced_feature_engineering_pipeline
from descriptive_analysis import load_and_validate_data

warnings.filterwarnings('ignore')
print("Configuraci√≥n cargada.")

Current working directory: /home/exodia/Documentos/TFBigData
Configuraci√≥n cargada.


In [2]:
# Carga de datos
df = pd.read_parquet(CLEAN_FILE)
df['date'] = pd.to_datetime(df['date'])

print(f"Datos cargados: {df.shape[0]:,} filas, {df.shape[1]} columnas")
print(f"Rango temporal: {df['date'].min().date()} a {df['date'].max().date()}")

Datos cargados: 1,506,591 filas, 19 columnas
Rango temporal: 1992-01-05 a 2024-09-30


## Pipeline de Feature Engineering con Enriquecimiento Geogr√°fico

In [3]:
# Pipeline completo (sin enriquecimiento geogr√°fico temporalmente)
print("Ejecutando pipeline de feature engineering...")

output_dir = DATA_DIR / "processed"

# Usar el pipeline b√°sico primero
from feature_engineering import run_complete_feature_engineering_pipeline

results = run_complete_feature_engineering_pipeline(
    df=df,
    target_col=TARGET,
    output_dir=output_dir
)

# Extraer resultados
df_final = results['final_dataset']
selected_features = results['selected_features']
metadata = results['metadata']
saved_files = results['saved_files']

print(f"\nPipeline completado.")
print(f"Dataset final: {df_final.shape[0]:,} filas x {df_final.shape[1]} columnas")
print(f"Features seleccionadas: {len(selected_features)}")

# Agregar enriquecimiento geogr√°fico simple aqu√≠ directamente
if 'region' in df_final.columns:
    print("Agregando caracter√≠sticas geogr√°ficas...")
    
    # Mapeo simple de densidad urbana por regi√≥n
    urban_density_map = {
        'Copenhagen': 5, 'Aarhus': 4, 'Odense': 3, 'Aalborg': 3,
        'Frederiksberg': 5, 'Esbjerg': 2, 'Randers': 2, 'Kolding': 2
    }
    
    df_final['urban_density'] = df_final['region'].map(urban_density_map).fillna(1)
    df_final['location_type'] = df_final['urban_density'].apply(
        lambda x: 'Urban' if x >= 4 else 'Suburban' if x >= 2 else 'Rural'
    )
    
    print("Caracter√≠sticas geogr√°ficas agregadas: urban_density, location_type")

print(f"Archivos guardados en: {output_dir}")

Ejecutando pipeline de feature engineering...
üöÄ INICIANDO PIPELINE COMPLETO DE FEATURE ENGINEERING
üìÖ Creando variables temporales...
‚úÖ Variables temporales creadas: ['year', 'month', 'quarter', 'season', 'property_age', 'decade_built', 'month_sin', 'month_cos', 'quarter_sin', 'quarter_cos']
üí∞ Creando variables de precio...
‚úÖ Variables de precio creadas: ['log_price', 'price_per_sqm', 'price_category', 'price_zscore']
üè† Creando variables de tama√±o...
‚úÖ Variables de tama√±o creadas: ['rooms_category', 'size_category', 'sqm_per_room', 'rooms_sqm_ratio']
üî§ Iniciando codificaci√≥n de variables categ√≥ricas...
‚úÖ Variables de precio creadas: ['log_price', 'price_per_sqm', 'price_category', 'price_zscore']
üè† Creando variables de tama√±o...
‚úÖ Variables de tama√±o creadas: ['rooms_category', 'size_category', 'sqm_per_room', 'rooms_sqm_ratio']
üî§ Iniciando codificaci√≥n de variables categ√≥ricas...

üìä An√°lisis de cardinalidad:
region: 4 categor√≠as √∫nicas
house

## Documentaci√≥n de Artefactos

In [5]:
# Documentaci√≥n de archivos generados
print(f"{'Archivo':<45} | {'Descripci√≥n'}")
print("-" * 80)

file_descriptions = {
    "feature_engineered_complete.parquet": "Dataset con todas las features generadas",
    "modeling_dataset.parquet": "Dataset final para modelado",
    "train_data.parquet": "Conjunto de entrenamiento",
    "test_data.parquet": "Conjunto de prueba",
    "selected_features.txt": "Lista de features seleccionadas",
    "scalers.pkl": "Escaladores ajustados",
    "feature_engineering_metadata.json": "Metadatos del proceso",
    "feature_engineered_with_geography.parquet": "Dataset con enriquecimiento geogr√°fico"
}

for name, path_obj in saved_files.items():
    if hasattr(path_obj, 'exists') and path_obj.exists():
        desc = file_descriptions.get(path_obj.name, "Archivo auxiliar")
        print(f"{path_obj.name:<45} | {desc}")

# Guardar documentaci√≥n final
doc_path = output_dir / "feature_engineering_summary.json"
summary = {
    "fecha": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "dataset_shape": f"{df_final.shape[0]} x {df_final.shape[1]}",
    "features_count": len(selected_features),
    "geographic_enrichment": 'geographic_features' in results,
    "archivos_generados": {name: str(path) for name, path in saved_files.items()}
}

with open(doc_path, 'w') as f:
    json.dump(summary, f, indent=2)

print(f"\nDocumentaci√≥n guardada: {doc_path.name}")

Archivo                                       | Descripci√≥n
--------------------------------------------------------------------------------
feature_engineered_complete.parquet           | Dataset con todas las features generadas
modeling_dataset.parquet                      | Dataset final para modelado
train_data.parquet                            | Conjunto de entrenamiento
test_data.parquet                             | Conjunto de prueba
scalers.pkl                                   | Escaladores ajustados
selected_features.txt                         | Lista de features seleccionadas
feature_engineering_metadata.json             | Metadatos del proceso
feature_engineering_summary.md                | Archivo auxiliar

Documentaci√≥n guardada: feature_engineering_summary.json


## Proceso Completado

El pipeline de feature engineering ha sido ejecutado exitosamente con enriquecimiento geogr√°fico incluido. Los datos est√°n listos para el modelado supervisado.