# EDA: Modelo Hedonic MICRO - Gr√†cia

**Issue**: #202 - Fase 2  
**Fecha**: 2025-12-19  
**Objetivo**: An√°lisis exploratorio de datos matched (Catastro + Idealista) para modelo hedonic MICRO

---

## üìä Datasets

- **Catastro**: 731 inmuebles reales de Gr√†cia
- **Idealista**: 100 propiedades mock (simuladas)
- **Matched**: 100 observaciones combinadas

---

## üéØ Objetivos del EDA

1. Visualizar distribuciones de variables clave
2. Analizar correlaciones entre features y precio
3. Identificar outliers y valores at√≠picos
4. Explorar relaciones precio vs caracter√≠sticas
5. Comparar distribuciones por barrio
6. Generar insights para mejorar el modelo


In [1]:
# Imports
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import json
from pathlib import Path

# Configuraci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Rutas
PROJECT_ROOT = Path().resolve().parents[1]
DATA_DIR = PROJECT_ROOT / "spike-data-validation" / "data" / "processed" / "fase2"

print(f"üìÅ Directorio de datos: {DATA_DIR}")


üìÅ Directorio de datos: /Users/adrianiraeguialvear/Projects/barcelona-housing-demographics-analyzer/spike-data-validation/data/processed/fase2


In [2]:
# Cargar datos matched
df_matched = pd.read_csv(DATA_DIR / "catastro_idealista_matched.csv")

print(f"‚úÖ Datos cargados: {len(df_matched)} observaciones")
print(f"\nColumnas disponibles ({len(df_matched.columns)}):")
print(df_matched.columns.tolist())

# Informaci√≥n b√°sica
print(f"\nüìä Informaci√≥n del dataset:")
print(df_matched.info())


‚úÖ Datos cargados: 100 observaciones

Columnas disponibles (42):
['ref_base', 'referencia_catastral_catastro', 'direccion_normalizada', 'superficie_m2', 'ano_construccion', 'plantas', 'lat', 'lon', 'direccion', 'barrio_id_catastro', 'barrio_nombre', 'propertyId', 'url', 'price', 'priceByArea', 'size', 'rooms', 'bathrooms', 'floor', 'exterior', 'elevator', 'parkingSpace', 'condition', 'orientation', 'address', 'district', 'neighborhood', 'latitude', 'longitude', 'yearBuilt', 'description', 'publicationDate', 'operation', 'propertyType', 'referencia_catastral_idealista', 'barrio_id_idealista', 'precio', 'barrio_id', 'habitaciones', 'banos', 'ascensor', 'precio_m2']

üìä Informaci√≥n del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 42 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   ref_base                        100 non-null    object 
 1   ref

## 1. Estad√≠sticas Descriptivas


In [5]:
# Variables clave para an√°lisis
key_vars = ['precio_m2', 'precio', 'superficie_m2', 'ano_construccion', 'plantas', 
            'habitaciones', 'banos', 'barrio_id']

# Filtrar variables disponibles
available_vars = [v for v in key_vars if v in df_matched.columns]

print("üìä Estad√≠sticas descriptivas:")
print(df_matched[available_vars].describe())

import plotly.express as px

def plot_key_var_summaries(df: pd.DataFrame, variables: list) -> None:
    """
    Muestra un gr√°fico de resumen de estad√≠sticas descriptivas para variables clave.

    Args:
        df: DataFrame de datos de matched catastro/idealista.
        variables: Lista de variables num√©ricas a visualizar.
    """
    # Filtrar solo variables num√©ricas v√°lidas
    num_vars = [col for col in variables if pd.api.types.is_numeric_dtype(df[col])]

    # Calcular estad√≠sticas
    desc = df[num_vars].describe().T[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']]
    desc = desc.reset_index().rename(columns={'index': 'Variable'})

    # Redondear para visualizaci√≥n
    desc = desc.round({'mean': 1, 'std': 1, 'min': 1, '25%': 1, '50%': 1, '75%': 1, 'max': 1})

    # Gr√°fico de resumen (heatmap)
    fig = px.imshow(
        desc.set_index('Variable').T,
        text_auto=True,
        color_continuous_scale="Blues",
        aspect="auto",
        title="Resumen Estad√≠stico de Variables Clave"
    )
    fig.update_layout(
        xaxis_title="Variable",
        yaxis_title="Estad√≠stica"
    )
    fig.show()

# Visualizar resumen de variables clave
plot_key_var_summaries(df_matched, available_vars)


üìä Estad√≠sticas descriptivas:
         precio_m2        precio  superficie_m2  ano_construccion     plantas  \
count   100.000000  1.000000e+02      100.00000        100.000000  100.000000   
mean   4678.562650  3.597677e+05       77.81306       1975.030000    1.400000   
std     657.454465  3.276845e+05       72.61428         25.852126    2.441228   
min    3302.416667  1.108000e+04        2.92200       1900.000000   -3.000000   
25%    4179.763644  1.177092e+05       26.50000       1966.000000    0.000000   
50%    4619.989524  3.250750e+05       76.00000       1973.000000    1.000000   
75%    5251.619048  4.671932e+05       97.75000       1983.000000    3.000000   
max    6360.545455  2.107993e+06      473.00000       2017.000000    7.000000   

       habitaciones       banos   barrio_id  
count    100.000000  100.000000  100.000000  
mean       2.440000    1.570000   30.820000  
std        0.856585    0.685418    1.242188  
min        1.000000    1.000000   28.000000  
25%    

## 2. Distribuciones de Variables Clave


In [6]:
# Distribuci√≥n de precio/m¬≤
fig = px.histogram(
    df_matched,
    x='precio_m2',
    nbins=30,
    title='Distribuci√≥n de Precio/m¬≤ (‚Ç¨/m¬≤)',
    labels={'precio_m2': 'Precio por m¬≤ (‚Ç¨/m¬≤)', 'count': 'Frecuencia'}
)
fig.add_vline(
    x=df_matched['precio_m2'].mean(),
    line_dash="dash",
    line_color="red",
    annotation_text=f"Media: {df_matched['precio_m2'].mean():.0f} ‚Ç¨/m¬≤"
)
fig.show()


In [7]:
# Distribuci√≥n de superficie
fig = px.histogram(
    df_matched,
    x='superficie_m2',
    nbins=30,
    title='Distribuci√≥n de Superficie (m¬≤)',
    labels={'superficie_m2': 'Superficie (m¬≤)', 'count': 'Frecuencia'}
)
fig.add_vline(
    x=df_matched['superficie_m2'].mean(),
    line_dash="dash",
    line_color="red",
    annotation_text=f"Media: {df_matched['superficie_m2'].mean():.1f} m¬≤"
)
fig.show()

# Identificar outliers
Q1 = df_matched['superficie_m2'].quantile(0.25)
Q3 = df_matched['superficie_m2'].quantile(0.75)
IQR = Q3 - Q1
outliers = df_matched[(df_matched['superficie_m2'] < Q1 - 1.5*IQR) | 
                      (df_matched['superficie_m2'] > Q3 + 1.5*IQR)]
print(f"\n‚ö†Ô∏è  Outliers en superficie: {len(outliers)} observaciones")
if len(outliers) > 0:
    print(outliers[['superficie_m2', 'precio_m2', 'barrio_id']].head())



‚ö†Ô∏è  Outliers en superficie: 4 observaciones
    superficie_m2    precio_m2  barrio_id
3           324.0  4271.123457         32
28          289.0  4688.404844         32
38          473.0  4456.644820         32
41          380.0  4342.371053         28


In [9]:
# Distribuci√≥n por barrio
if 'barrio_nombre' in df_matched.columns:
    barrio_col = 'barrio_nombre'
elif 'barrio_id' in df_matched.columns:
    # Crear nombres de barrio si no existen
    barrio_map = {
        28: 'Vallcarca i els Penitents',
        29: 'el Coll',
        30: 'la Salut',
        31: 'la Vila de Gr√†cia',
        32: 'el Camp d\'en Grassot i Gr√†cia Nova'
    }
    df_matched['barrio_nombre'] = df_matched['barrio_id'].map(barrio_map)
    barrio_col = 'barrio_nombre'

fig = px.box(
    df_matched,
    x=barrio_col,
    y='precio_m2',
    title='Distribuci√≥n de Precio/m¬≤ por Barrio',
    labels={'precio_m2': 'Precio por m¬≤ (‚Ç¨/m¬≤)', barrio_col: 'Barrio'}
)
fig.update_xaxes(tickangle=45)
fig.show()

# An√°lisis detallado de outliers en superficie
if len(outliers) > 0:
    print("\n" + "="*70)
    print("üîç AN√ÅLISIS DETALLADO DE OUTLIERS EN SUPERFICIE")
    print("="*70)
    
    outlier_cols = ['superficie_m2', 'precio_m2', 'precio', 'habitaciones', 'banos', 
                    'barrio_id', 'ano_construccion', 'plantas']
    outlier_cols = [c for c in outlier_cols if c in outliers.columns]
    
    print("\nüìä Caracter√≠sticas de los outliers:")
    print(outliers[outlier_cols].to_string())
    
    print("\nüìà Comparaci√≥n con el resto del dataset:")
    df_normal = df_matched[~df_matched.index.isin(outliers.index)]
    print(f"  Superficie media (sin outliers): {df_normal['superficie_m2'].mean():.1f} m¬≤")
    print(f"  Superficie media (outliers):     {outliers['superficie_m2'].mean():.1f} m¬≤")
    print(f"  Ratio: {outliers['superficie_m2'].mean() / df_normal['superficie_m2'].mean():.1f}x")
    
    print(f"\n  Precio/m¬≤ medio (sin outliers): {df_normal['precio_m2'].mean():.0f} ‚Ç¨/m¬≤")
    print(f"  Precio/m¬≤ medio (outliers):     {outliers['precio_m2'].mean():.0f} ‚Ç¨/m¬≤")
    
    print("\nüí° Interpretaci√≥n:")
    print("  - Pisos >300 m¬≤ son muy raros en Gr√†cia (t√≠pico: 60-90 m¬≤)")
    print("  - Podr√≠an ser:")
    print("    ‚Ä¢ √Åticos o d√∫plex grandes")
    print("    ‚Ä¢ Errores en datos Catastro (superficie total del edificio)")
    print("    ‚Ä¢ Casos especiales (lofts, naves reconvertidas)")
    print("  - Recomendaci√≥n: Revisar manualmente o filtrar si son errores")



üîç AN√ÅLISIS DETALLADO DE OUTLIERS EN SUPERFICIE

üìä Caracter√≠sticas de los outliers:
    superficie_m2    precio_m2   precio  habitaciones  banos  barrio_id  ano_construccion  plantas
3           324.0  4271.123457  1383844             2      1         32            2017.0        1
28          289.0  4688.404844  1354949             2      1         32            1973.0        0
38          473.0  4456.644820  2107993             4      3         32            1966.0       -1
41          380.0  4342.371053  1650101             2      1         28            1970.0        0

üìà Comparaci√≥n con el resto del dataset:
  Superficie media (sin outliers): 65.8 m¬≤
  Superficie media (outliers):     366.5 m¬≤
  Ratio: 5.6x

  Precio/m¬≤ medio (sin outliers): 4689 ‚Ç¨/m¬≤
  Precio/m¬≤ medio (outliers):     4440 ‚Ç¨/m¬≤

üí° Interpretaci√≥n:
  - Pisos >300 m¬≤ son muy raros en Gr√†cia (t√≠pico: 60-90 m¬≤)
  - Podr√≠an ser:
    ‚Ä¢ √Åticos o d√∫plex grandes
    ‚Ä¢ Errores en datos Cat

## 3. Correlaciones


In [13]:
# Matriz de correlaciones
numeric_cols = [
    'precio_m2', 'precio', 'superficie_m2', 'ano_construccion',
    'plantas', 'habitaciones', 'banos'
]
numeric_cols = [c for c in numeric_cols if c in df_matched.columns]

corr_matrix = df_matched[numeric_cols].corr()

# Mapeo de nombres claros y unidades para los ejes
col_labels = {
    'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)',
    'precio': 'Precio total (‚Ç¨)',
    'superficie_m2': 'Superficie (m¬≤)',
    'ano_construccion': 'A√±o construcci√≥n',
    'plantas': 'Plantas (n¬∫)',
    'habitaciones': 'Habitaciones (n¬∫)',
    'banos': 'Ba√±os (n¬∫)'
}
axis_labels = [col_labels.get(col, col) for col in corr_matrix.columns]
axis_labels_rows = [col_labels.get(row, row) for row in corr_matrix.index]

fig = px.imshow(
    corr_matrix,
    text_auto=".2f",
    aspect="auto",
    title="üîó Matriz de Correlaciones entre Variables Inmobiliarias",
    color_continuous_scale="RdBu",
    zmin=-1,
    zmax=1,
    labels=dict(
        color="Coef. correlaci√≥n"
    ),
    x=axis_labels,
    y=axis_labels_rows
)

fig.update_layout(
    title={
        'text': "üîó Matriz de Correlaciones entre Caracter√≠sticas de Vivienda (con unidades)",
        'x': 0.5,
        'xanchor': 'center'
    },
    xaxis_title="Variables (con unidades)",
    yaxis_title="Variables (con unidades)",
    font=dict(size=13),
    width=940,
    height=650,
    coloraxis_colorbar=dict(
        title="Coef. de<br>correlaci√≥n",
        tickvals=[-1, -0.5, 0, 0.5, 1],
        ticktext=["-1<br>(negativa fuerte)", "-0.5", "0", "0.5", "1<br>(positiva fuerte)"]
    ),
)
fig.update_xaxes(side="bottom", tickangle=45)

fig.show()

print("\nüìä Correlaciones con precio_m2 (Coef. de correlaci√≥n de Pearson):")
corr_with_price = corr_matrix['precio_m2'].sort_values(ascending=False)
for var, corr in corr_with_price.items():
    if var != 'precio_m2':
        nombre = col_labels.get(var, var)
        print(f"  {nombre:30s}: {corr:7.3f}")



üìä Correlaciones con precio_m2 (Coef. de correlaci√≥n de Pearson):
  A√±o construcci√≥n              :   0.212
  Precio total (‚Ç¨)              :   0.038
  Plantas (n¬∫)                  :  -0.053
  Superficie (m¬≤)               :  -0.091
  Ba√±os (n¬∫)                    :  -0.181
  Habitaciones (n¬∫)             :  -0.223


## 4. Relaciones Precio vs Caracter√≠sticas


In [16]:
# ‚ö° Relaci√≥n entre Precio/m¬≤ y Superficie de Vivienda
# Este gr√°fico de dispersi√≥n muestra c√≥mo var√≠a el precio por metro cuadrado (‚Ç¨/m¬≤) 
# en funci√≥n de la superficie del inmueble (m¬≤). Cada punto representa una vivienda.
# Los colores distinguen barrios y el tama√±o del punto (si disponible) refleja el precio total.
# Consejo: Use el hover para ver habitaciones y a√±o de construcci√≥n de cada vivienda.

fig = px.scatter(
    df_matched,
    x='superficie_m2',
    y='precio_m2',
    color='barrio_id' if 'barrio_id' in df_matched.columns else None,
    size='precio' if 'precio' in df_matched.columns else None,
    hover_data=['habitaciones', 'ano_construccion'] if all(
        c in df_matched.columns for c in ['habitaciones', 'ano_construccion']
    ) else None,
    title='Precio/m¬≤ vs Superficie (Cada punto: una vivienda)',
    labels={
        'superficie_m2': 'Superficie (m¬≤)',
        'precio_m2': 'Precio por metro cuadrado (‚Ç¨ / m¬≤)',
        'barrio_id': 'Barrio',
        'precio': 'Precio total (‚Ç¨)',
        'habitaciones': 'Habitaciones',
        'ano_construccion': 'A√±o construcci√≥n'
    }
)
fig.update_traces(marker=dict(sizemin=4, opacity=0.75), selector=dict(mode='markers'))
fig.update_layout(
    xaxis=dict(title='Superficie (m¬≤)'),
    yaxis=dict(title='Precio/m¬≤ (‚Ç¨/m¬≤)'),
    legend_title_text='Barrio',
    hoverlabel=dict(bgcolor='white', font_size=11, font_family='Arial'),
    font=dict(size=13),
    width=850,
    height=500,
    margin=dict(l=60, r=30, t=60, b=60)
)
fig.show()

# Calcular y mostrar la correlaci√≥n entre precio/m2 y superficie, explicando el valor:
if 'superficie_m2' in df_matched.columns:
    corr_sup = df_matched[['precio_m2', 'superficie_m2']].corr().iloc[0, 1]
    print("\nüìà Correlaci√≥n (coeficiente de Pearson) entre precio/m¬≤ y superficie:")
    print(f"   Un valor negativo indica que, en promedio, viviendas m√°s grandes tienden a tener un precio/m¬≤ m√°s bajo.")
    print(f"   Correlaci√≥n precio_m2 vs superficie_m2: {corr_sup:.3f}")



üìà Correlaci√≥n (coeficiente de Pearson) entre precio/m¬≤ y superficie:
   Un valor negativo indica que, en promedio, viviendas m√°s grandes tienden a tener un precio/m¬≤ m√°s bajo.
   Correlaci√≥n precio_m2 vs superficie_m2: -0.091


In [18]:
# Precio vs A√±o construcci√≥n
import plotly.express as px
import pandas as pd

# 1. Preparaci√≥n de datos y filtrado de nulos
cols_interes = ['ano_construccion', 'precio_m2']
df_plot = df_matched.dropna(subset=cols_interes).copy()

if not df_plot.empty:
    # 2. Creaci√≥n del gr√°fico con mejores pr√°cticas
    fig = px.scatter(
        df_plot,
        x='ano_construccion',
        y='precio_m2',
        color='barrio_id' if 'barrio_id' in df_plot.columns else None,
        size='superficie_m2' if 'superficie_m2' in df_plot.columns else None,
        opacity=0.6,
        trendline="ols",  # A√±ade l√≠nea de tendencia lineal
        marginal_x="histogram",  # Distribuci√≥n de a√±os de construcci√≥n
        marginal_y="violin",     # Distribuci√≥n de precios
        template='plotly_white', # Fondo limpio para mejor legibilidad
        title='<b>Relaci√≥n entre Antig√ºedad y Valor de Mercado</b><br><span style="font-size: 12px;">An√°lisis de precio por metro cuadrado vs. a√±o de construcci√≥n (Etiqueta <ACO>)</span>',
        labels={
            'ano_construccion': 'A√±o de Construcci√≥n',
            'precio_m2': 'Precio (‚Ç¨/m¬≤)',
            'barrio_id': 'Identificador de Barrio',
            'superficie_m2': 'Superficie (m¬≤)'
        },
        hover_data=['superficie_m2'] # Datos extra al pasar el rat√≥n
    )

    # 3. Ajustes finos de formato
    fig.update_layout(
        title_font_size=20,
        legend_title_text='Barrios',
        xaxis=dict(gridcolor='lightgrey'),
        yaxis=dict(gridcolor='lightgrey', tickprefix="‚Ç¨")
    )
    
    fig.show()
    
    # 4. C√°lculo de correlaci√≥n de Pearson (r)
    corr_ano = df_plot['precio_m2'].corr(df_plot['ano_construccion'])
    
    print("-" * 50)
    print(f"AN√ÅLISIS ESTAD√çSTICO:")
    print(f"Correlaci√≥n de Pearson (r): {corr_ano:.3f}")
    if abs(corr_ano) < 0.3:
        print("Interpretaci√≥n: Existe una correlaci√≥n d√©bil entre la edad y el precio.")
    else:
        print("Interpretaci√≥n: Existe una correlaci√≥n significativa entre la edad y el precio.")
    print("-" * 50)

--------------------------------------------------
AN√ÅLISIS ESTAD√çSTICO:
Correlaci√≥n de Pearson (r): 0.212
Interpretaci√≥n: Existe una correlaci√≥n d√©bil entre la edad y el precio.
--------------------------------------------------


In [35]:
if 'habitaciones' in df_matched.columns:
    df_plot_hab = df_matched.dropna(subset=['habitaciones', 'precio_m2']).copy()
    habitaciones_sorted = sorted(df_plot_hab['habitaciones'].unique())

    # Calcular la mediana del precio_m2 por n√∫mero de habitaciones
    mediana_por_hab = (
        df_plot_hab.groupby('habitaciones')['precio_m2'].median().round(0)
    )

    # Definir paleta igual que la del gr√°fico (Safe)
    colors_palette = px.colors.qualitative.Safe
    color_map = {hab: colors_palette[i % len(colors_palette)] for i, hab in enumerate(habitaciones_sorted)}

    fig = px.box(
        df_plot_hab,
        x='habitaciones',
        y='precio_m2',
        color='habitaciones',
        points='all',
        category_orders={'habitaciones': habitaciones_sorted},
        color_discrete_sequence=colors_palette,
        title='<b>Distribuci√≥n de Precio/m¬≤ por N√∫mero de Habitaciones</b>',
        labels={'habitaciones': 'Habitaciones', 'precio_m2': 'Precio/m¬≤ (‚Ç¨)'}
    )

    # Ajustes visuales generales
    fig.update_layout(
        template="plotly_white",
        height=650,
        margin=dict(t=140, b=80, l=80, r=320),  # margen derecho extra para leyenda personalizada
        title=dict(y=0.92, x=0.05, xanchor='left'),
        showlegend=False,
        xaxis=dict(
            title_standoff=30,
            tickfont=dict(size=12),
            showgrid=True,
            gridcolor="lightgrey",
            gridwidth=1,
            zeroline=False
        ),
        yaxis=dict(
            title_standoff=30,
            tickprefix='‚Ç¨',
            tickfont=dict(size=12),
            showgrid=True,
            gridcolor="lightgrey",
            gridwidth=1,
            zeroline=False
        )
    )

    # Anotaci√≥n general superior
    fig.add_annotation(
        text=(
            "<b>An√°lisis de Segmentos:</b> Cada caja representa un grupo de inmuebles.<br>"
            "Observe c√≥mo las muescas indican la confianza en la mediana del valor."
        ),
        xref="paper", yref="paper",
        x=1.2, y=1.2,
        showarrow=False,
        align="left",
        bgcolor="rgba(255, 255, 255, 0.9)",
        bordercolor="lightgray",
        borderwidth=1,
    )

    # Preparar texto/leyenda de medianas para cada cluster (habitaciones)
    leyenda_texto = "<b>Precio/m¬≤ mediano por grupo:</b><br>"
    for i, hab in enumerate(habitaciones_sorted):
        valor_mediana = mediana_por_hab[hab]
        color_celda = color_map[hab]
        leyenda_texto += (
            f"<span style='display:inline-block;width:13px;height:13px;"
            f"background:{color_celda};margin-right:6px;border-radius:2px;'>&nbsp;</span>"
            f"<span style='font-weight:bold;'>{hab} hab.</span>: "
            f"<span style='color:{color_celda};'>‚Ç¨{valor_mediana:,.0f}</span><br>"
        )

    # A√±adir la "leyenda" como anotaci√≥n fija al margen derecho fuera de la zona del gr√°fico
    fig.add_annotation(
        text=leyenda_texto,
        xref="paper", yref="paper",
        x=1.25, y=0.5,  # fuera del eje derecho, centrado vertical
        showarrow=False,
        align="left",
        bordercolor="lightgray",
        borderwidth=1,
        bgcolor="rgba(255,255,255,0.92)",
        font=dict(size=13),
    )

    fig.update_traces(jitter=0.4, marker_size=4)
    fig.show()

## 5. An√°lisis por Barrio


In [38]:
# Estad√≠sticas por barrio (con visualizaci√≥n horizontal mejorada y anotaciones)
if 'barrio_id' in df_matched.columns and barrio_col in df_matched.columns:
    import plotly.graph_objects as go
    import numpy as np

    # Calcular estad√≠sticas por barrio
    stats_barrio = (
        df_matched.groupby(['barrio_id', barrio_col])  # Mantener id y nombre
        .agg(
            precio_m2_mean=('precio_m2', 'mean'),
            precio_m2_std=('precio_m2', 'std'),
            n=('precio_m2', 'count'),
            superficie_m2_mean=('superficie_m2', 'mean') if 'superficie_m2' in df_matched.columns else ('precio_m2', 'count'),  # fallback
            precio_mean=('precio', 'mean') if 'precio' in df_matched.columns else ('precio_m2', 'count')
        )
        .reset_index()
        .round(2)
    )

    print("üìä Estad√≠sticas por barrio:")
    print(stats_barrio)

    # Ordenar barrios por precio_m2 descendente
    stats_barrio = stats_barrio.sort_values('precio_m2_mean', ascending=False)

    # Preparar nombres con (n=XX)
    stats_barrio['barrio_label'] = stats_barrio[barrio_col] + " (n=" + stats_barrio['n'].astype(str) + ")"

    # Precio medio para l√≠nea de referencia (sobre todas las muestras)
    precio_medio_bcna = np.round(df_matched['precio_m2'].mean(), 2)

    # Construir gr√°fico horizontal
    fig = go.Figure()

    fig.add_trace(go.Bar(
        y=stats_barrio['barrio_label'],
        x=stats_barrio['precio_m2_mean'],
        orientation='h',
        marker=dict(color='rgba(44, 160, 101, 0.85)'),
        hovertemplate="<b>%{y}</b><br>Precio/m¬≤: %{x:.0f} ‚Ç¨<br>Muestra: %{y}<extra></extra>"
    ))

    # A√±adir etiquetas con precio exacto al final de cada barra
    for idx, row in stats_barrio.iterrows():
        fig.add_annotation(
            x=row['precio_m2_mean'],
            y=row['barrio_label'],
            text=f"{row['precio_m2_mean']:,.0f} ‚Ç¨/m¬≤",
            showarrow=False,
            xanchor="left",
            yanchor="middle",
            align="left",
            font=dict(size=13, color="rgb(44, 44, 44)"),
            bgcolor="rgba(255,255,255,0.0)",
            xshift=8
        )

    # L√≠nea de referencia de precio medio general
    fig.add_vline(
        x=precio_medio_bcna,
        line_dash="dash",
        line_color="crimson",
        annotation_text=f"Media BCN: {precio_medio_bcna:,.0f} ‚Ç¨/m¬≤",
        annotation_position="top right",
        annotation_font_color="crimson"
    )

    # Limpiar est√©tica: ejes y cuadr√≠cula
    fig.update_layout(
        title="Precio/m¬≤ Medio por Barrio<br><sup>Con tama√±o de muestra (catastro: LBI) y referencia municipal</sup>",
        xaxis=dict(
            title="Precio/m¬≤ Medio (‚Ç¨/m¬≤)",
            gridcolor="rgba(0,0,0,0)",
            zeroline=True, rangemode="tozero"
        ),
        yaxis=dict(
            title="Barrio",
            gridcolor="rgba(0,0,0,0)",
            automargin=True
        ),
        plot_bgcolor="white",
        height=100 + 28 * len(stats_barrio),  # Ajuste din√°mico
        margin=dict(l=220, r=70, t=70, b=30),
        showlegend=False
    )

    # Asegurar escala real: eje X inicia en 0, sin gridlines molestos
    max_precio = int((stats_barrio['precio_m2_mean'].max() // 500 + 2) * 500)
    fig.update_xaxes(range=[0, max_precio], showgrid=False, zeroline=True, dtick=500)
    fig.update_yaxes(showgrid=False)

    fig.show()


üìä Estad√≠sticas por barrio:
   barrio_id                       barrio_nombre  precio_m2_mean  \
0         28           Vallcarca i els Penitents         4391.39   
1         29                             el Coll         4041.53   
2         30                            la Salut         4610.62   
3         31                   la Vila de Gr√†cia         5122.56   
4         32  el Camp d'en Grassot i Gr√†cia Nova         4756.39   

   precio_m2_std   n  superficie_m2_mean  precio_mean  
0         707.28   5               90.88    392085.40  
1         620.66  10               84.40    348475.40  
2         585.74  27               49.22    219833.26  
3         747.92  14               57.14    289592.64  
4         560.53  44               98.95    466858.89  


## 6. Visualizaci√≥n Espacial (Mapa)


In [43]:
import plotly.express as px
import plotly.graph_objects as go

# 1. Filtrar y limpiar datos solo de Gr√†cia y superficies > 20 m¬≤
cols_mapa = ['latitude', 'longitude', 'precio_m2', 'barrio_nombre']
if all(col in df_matched.columns for col in cols_mapa):
    # Mantener solo registros del barrio de Gr√†cia, superficie m√≠nima y sin nulos clave
    df_map = df_matched.dropna(subset=cols_mapa).copy()
    # Normaliza y filtra a Gr√†cia
    mask_gracia = df_map['barrio_nombre'].str.lower().str.contains("gr√†cia")
    df_map = df_map[mask_gracia]
    if 'superficie_m2' in df_map.columns:
        df_map = df_map[df_map['superficie_m2'] > 20]
    else:
        df_map['superficie_m2'] = None  # asegura columna aunque sea None

    if len(df_map) > 0:
        # Definir centro geogr√°fico medio para Gr√†cia (m√°s robusto si hay dispersi√≥n)
        lat_center = df_map['latitude'].mean()
        lon_center = df_map['longitude'].mean()
        
        # --- AMPLIAR RADIO DE LOS PUNTOS EN EL MAPA ---
        # Por defecto, size_max=18 es bajo para aparentar menor muestra. Lo elevamos a mejorar visibilidad.
        size_max_mapa = 52  # Puede ajustarse (20-40) seg√∫n densidad/zoom

        fig = px.scatter_mapbox(
            df_map,
            lat='latitude',
            lon='longitude',
            color='precio_m2',
            size='superficie_m2',
            color_continuous_scale='Viridis',
            size_max=size_max_mapa,  # Radio de punto ampliado
            zoom=14.2,
            center=dict(lat=lat_center, lon=lon_center),  # Centro din√°mico en Gr√†cia
            mapbox_style='carto-positron',
            custom_data=['barrio_nombre', 'direccion', 'habitaciones', 'superficie_m2', 'precio', 'precio_m2'],
            labels={
                'precio_m2': 'Precio (‚Ç¨/m¬≤)', 
                'superficie_m2': 'Superficie (m¬≤)'
            },
            title=None  # Sin t√≠tulo aqu√≠, se a√±ade con fig.update_layout
        )

        # Personalizaci√≥n del hover: muestra direcci√≥n si existe y datos relevantes
        fig.update_traces(
            hovertemplate=(
                "<b>Barrio:</b> %{customdata[0]}<br>"
                "<b>Direcci√≥n:</b> %{customdata[1]}<br>"
                "<b>Precio total:</b> %{customdata[4]:,.0f} ‚Ç¨<br>"
                "<b>Precio/m¬≤:</b> %{customdata[5]:,.0f} ‚Ç¨/m¬≤<br>"
                "<b>Hab:</b> %{customdata[2]}<br>"
                "<b>Superficie:</b> %{customdata[3]} m¬≤"
                "<extra></extra>"
            )
        )

        fig.update_layout(
            height=max(600, min(1200, 34 * len(df_map))),  # Escala din√°mica para no saturar
            margin=dict(t=120, b=30, l=16, r=16),
            mapbox=dict(
                bearing=10,  # Peque√±o tilt para dar sensaci√≥n 3D
                pitch=15
            ),
            title=dict(
                text=(
                    "<b>Mapa de Precios (<i>‚Ç¨/m¬≤</i>) en Barcelona: Barrio de Gr√†cia (>20 m¬≤)</b><br>"
                    "<span style='font-size:14px'>"
                    "Cada punto corresponde a una vivienda geolocalizada. "
                    "Color = Precio por metro cuadrado. Tama√±o = Superficie.<br>"
                    "Interact√∫e para detalle y zoom.</span>"
                ),
                font=dict(size=22),
                y=0.98, x=0.01, xanchor='left'
            ),
            coloraxis_colorbar=dict(
                title="‚Ç¨/m¬≤",
                title_side="top",
                thickness=17,
                lenmode="fraction", len=0.7,
                yanchor="middle", y=0.5,
                outlinewidth=1,
                xpad=18
            )
        )

        # A√±adir anotaci√≥n de contexto (puede colocarse sobre el mapa)
        fig.add_annotation(
            text=(
                "<b>üí° Nota:</b> Solo visualiza inmuebles con superficie √∫til &gt; 20m¬≤ en Gr√†cia.<br>"
                "<i>Colores oscuros ‚Üí valores superiores.</i>"
            ),
            xref="paper", yref="paper", x=0.01, y=0.005,
            showarrow=False, align="left",
            font=dict(size=13),
            bgcolor="rgba(255,255,255,0.95)",
            bordercolor="gray", borderwidth=1,
        )

        # A√±adir escala de zoom m√≠nima y m√°xima ajustada
        fig.update_mapboxes(
            bearing=0,
            pitch=10,
            zoom=14.2,
            center=dict(lat=lat_center, lon=lon_center)
        )

        # Mejorar contraste para usuarios con daltonismo
        fig.update_layout(
            coloraxis_colorscale="Viridis",
        )

        fig.show()
    else:
        import logging
        logging.getLogger(__name__).warning(
            "No hay datos v√°lidos para generar el mapa de Gr√†cia con superficie mayor a 20 m¬≤."
        )


*scatter_mapbox* is deprecated! Use *scatter_map* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/



## 7. An√°lisis de Outliers


In [64]:
from typing import Tuple
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import logging

logger = logging.getLogger(__name__)

def detect_outliers_iqr(df: pd.DataFrame, column: str) -> Tuple[pd.DataFrame, float, float]:
    """
    Detecta outliers usando el m√©todo IQR.
    
    Args:
        df: DataFrame con los datos.
        column: Nombre de la columna num√©rica a analizar.
    
    Returns:
        outliers: DataFrame con registros outlier seg√∫n IQR.
        lower_bound: L√≠mite inferior.
        upper_bound: L√≠mite superior.
    """
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# Outliers en precio_m2
outliers_precio, lb_precio, ub_precio = detect_outliers_iqr(df_matched, 'precio_m2')
print(f"‚ö†Ô∏è  Outliers en precio_m2: {len(outliers_precio)} observaciones")
print(f"   Rango normal esperado: [{lb_precio:.2f}, {ub_precio:.2f}] ‚Ç¨/m¬≤")

# Outliers en superficie
if 'superficie_m2' in df_matched.columns:
    outliers_sup, lb_sup, ub_sup = detect_outliers_iqr(df_matched, 'superficie_m2')
    print(f"\n‚ö†Ô∏è  Outliers en superficie_m2: {len(outliers_sup)} observaciones")
    print(f"   Rango normal esperado: [{lb_sup:.2f}, {ub_sup:.2f}] m¬≤")
    
    if len(outliers_sup) > 0:
        # Crear columna 'es_outlier' de forma segura
        df_matched = df_matched.copy()
        df_matched['es_outlier'] = df_matched.index.isin(outliers_sup.index)

        # --- REESCRITURA: Mejorar visualizaci√≥n para evitar solapamiento y ampliar eje y ---
        # Ajustar tama√±o de marcador y opacidad para evitar superposici√≥n excesiva
        size_col = 'precio' if 'precio' in df_matched.columns else None
        marker_kwargs = {
            'size_max': 18,            # limitar el tama√±o m√°ximo
            'opacity': 0.6,            # a√±adir opacidad
        }
        # reducci√≥n del tama√±o base marca
        custom_marker = dict(size=8, opacity=0.6, line=dict(width=0.7, color='rgba(100,100,100,0.2)'))

        fig = px.scatter(
            df_matched,
            x='superficie_m2',
            y='precio_m2',
            color='es_outlier',
            size=size_col,
            hover_data=['barrio_id', 'habitaciones', 'ano_construccion'] if all(
                c in df_matched.columns for c in ['barrio_id', 'habitaciones', 'ano_construccion']
            ) else None,
            title=(
                "üî¥ <b>¬øExcepciones o errores? Outliers en Superficie frente a Precio/m¬≤</b><br>"
                "<span style='font-size:13px'>Observa que los puntos rojos quedan fuera del rango "
                "normal para la superficie construida.<br>"
              
            ),
            labels={
                'superficie_m2': 'Superficie (m¬≤)', 
                'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)', 
                'es_outlier': 'Es outlier'
            },
            color_discrete_map={True: '#d62728', False: '#1f77b4'},
            **marker_kwargs if size_col is None else {}
        )

        # Reducir el tama√±o de los puntos por defecto para ambos grupos
        fig.update_traces(
            marker=custom_marker,
            selector=dict(mode='markers'),
        )

        # Mejorar la superposici√≥n: cuando hay muchos valores similares, se puede usar jitter.
        # Jitter solo sobre x o y si la distribuci√≥n es muy apretada
        # --- Jitter manual al eje x e y ---
        import numpy as np
        jitter_strength = 0.4  # metros cuadrados (x)
        jitter_y_strength = 0.06 * df_matched['precio_m2'].std()  # ‚Ç¨/m2 (y)

        np.random.seed(42)
        jitter_x = np.random.uniform(-jitter_strength, jitter_strength, df_matched.shape[0])
        jitter_y = np.random.uniform(-jitter_y_strength, jitter_y_strength, df_matched.shape[0])

        fig.data[0].x = df_matched['superficie_m2'] + jitter_x
        fig.data[0].y = df_matched['precio_m2'] + jitter_y

        if len(fig.data) > 1:
            fig.data[1].x = df_matched['superficie_m2'][df_matched['es_outlier']] + jitter_x[df_matched['es_outlier']]
            fig.data[1].y = df_matched['precio_m2'][df_matched['es_outlier']] + jitter_y[df_matched['es_outlier']]

        # --- FIN jitter manual ---

        # Determinar rango custom de y para dejar margen visual arriba (para leyenda/anotacion)
        y_min = max(0, df_matched['precio_m2'].min() - 0.02 * df_matched['precio_m2'].std())
        y_max = df_matched['precio_m2'].max() + 0.13 * df_matched['precio_m2'].std()  # ampliar margen superior

        fig.add_vrect(
            x0=lb_sup, x1=ub_sup, fillcolor="rgba(0,200,80,0.08)", line_width=0,
            annotation_text="Zona normal", annotation_position="top left"
        )
        fig.add_vline(
            x=lb_sup, line_dash="dash", line_color="orange",
            annotation_text=f"L√≠mite inferior ({lb_sup:.0f} m¬≤)", 
            annotation_position="top left",
            annotation_font_color="orange"
        )
        fig.add_vline(
            x=ub_sup, line_dash="dash", line_color="orange",
            annotation_text=f"L√≠mite superior ({ub_sup:.0f} m¬≤)",
            annotation_position="top right",
            annotation_font_color="orange"
        )
        fig.update_layout(
            legend_title_text='Es outlier',
            legend=dict(
                yanchor="top", y=0.96,
                xanchor="left", x=0.01,
                title_font=dict(size=14),
                font=dict(size=13),
                bgcolor="rgba(255,255,255,0.95)",
                bordercolor="gray",
                borderwidth=1,
            ),
            xaxis=dict(
                tickformat=",d",
                gridcolor='rgba(200,200,200,0.15)',
                title_font=dict(size=16, color='gray'),
            ),
            yaxis=dict(
                gridcolor='rgba(200,200,200,0.10)',
                title_font=dict(size=16, color='gray'),
                range=[y_min, y_max]
            ),
            margin=dict(l=60, r=30, t=90, b=80),  # espacio mayor abajo al eje y
            plot_bgcolor="#fff",
            height=600  # aumentar altura del plot
        )

        # Ajustar separaci√≥n de anotaciones respecto al eje x/y para mejor visibilidad
        # Ajustar el texto al ancho del contenedor (width) usando saltos de l√≠nea HTML <br>
        # y limitando el ancho visual (530 px). No se debe usar 'wrap', ya que Plotly no lo soporta.
        # Si el texto es demasiado largo, forzar saltos l√≥gicos para mejorar legibilidad.
        texto_anotacion = (
            "üîé <b>Outliers:</b> puntos rojos fuera del rango normal."
            f"<b>{len(outliers_sup)} de {len(df_matched)}</b> inmuebles <br> est√°n en esta categor√≠a."
            "<span style='color:#555'>"
            "Revisa el tooltip para detalles (barrio, a√±o, m¬≤...)</span>"
        )
        fig.add_annotation(
            text=texto_anotacion,
            showarrow=False, align="left",
            xref="paper", yref="paper", x=0.02, y=-0.15,
            width=530, 
            bgcolor="white", bordercolor="gray", borderwidth=1,
            font=dict(size=13, color="black")
            # 'wrap' no est√° soportado en Plotly, se ignora
        )
        fig.show()
        
        # Mostrar tabla ordenada y legible
        print("\nüìã Detalles de outliers en superficie (ordenados por tama√±o descendente):")
        outlier_cols = [
            'superficie_m2', 'precio_m2', 'precio', 'habitaciones', 'banos',
            'barrio_id', 'ano_construccion'
        ]
        outlier_cols = [c for c in outlier_cols if c in outliers_sup.columns]
        if outlier_cols:
            print(outliers_sup[outlier_cols].sort_values("superficie_m2", ascending=False).to_string(index=False))
        else:
            print("No se encontraron columnas relevantes para mostrar detalles.")
        
        # An√°lisis de impacto resumido y gr√°fico gauge
        print("\nüìä Impacto de outliers en el dataset:")
        outlier_pct = len(outliers_sup) / len(df_matched) * 100
        sup_outliers = outliers_sup['superficie_m2'].sum()
        sup_total = df_matched['superficie_m2'].sum()
        pct_sup = sup_outliers / sup_total * 100 if sup_total > 0 else 0
        print(f"  Representan {outlier_pct:.1f}% del dataset")
        print(f"  Superficie total outliers: {sup_outliers:.0f} m¬≤ / {sup_total:.0f} m¬≤ "
              f"({pct_sup:.1f}%)")

        # Visual gauge de % outliers para reforzar narrativa
        gauge_fig = go.Figure(go.Indicator(
            mode="gauge+number",
            value=outlier_pct,
            number={'suffix': "%", 'font': {'size': 26}},
            title={
                'text': (
                    "Porcentaje de outliers<br>"
                    "<span style='font-size:14px; color:#2294a8'>vs. total registros</span>"
                ),
                'font': {'size': 14, 'color': '#7A3E65'}  # Fuente m√°s peque√±a y color distinto para el t√≠tulo principal
            },
            gauge={
                'axis': {'range': [None, 20], 'tickwidth': 1, 'tickcolor': "gray"},
                'bar': {'color': "#d62728"},
                'bgcolor': "white",
                'steps': [
                    {'range': [0, 5], 'color': '#e7f6e7'},
                    {'range': [5, 10], 'color': '#fff4b3'},
                    {'range': [10, 20], 'color': '#fad8d9'}
                ],
                'threshold': {
                    'line': {'color': "orange", 'width': 3},
                    'thickness': 0.75,
                    'value': outlier_pct
                }
            }))
        gauge_fig.update_layout(margin=dict(l=40, r=40, t=70, b=30))
        gauge_fig.show()

        # Recomendaci√≥n expl√≠cita basada en perfil de outliers
        print("\nüí° Recomendaci√≥n para tratamiento de outliers:")
        if outliers_sup['superficie_m2'].min() > 200:
            print("  - Todos los outliers son >200 m¬≤ (muy grandes para pisos t√≠picos en BCN).")
            print("  - Analizar si son errores de alta en Catastro (ver casos duplicados).")
            print("  - Si son reales (√°ticos, d√∫plex, locales rehabilitados), filtrar solo si afectan el modelo o considerar transformaci√≥n logar√≠tmica para mitigarlos.")
        else:
            print("  - Hay mezcla de outliers peque√±os y grandes.")
            print("  - Recomendada revisi√≥n manual y an√°lisis caso por caso previo a filtrar o imputar.")
            print("  - Considera crear una variable dummy de outlier para control en modelos de regresi√≥n.")


‚ö†Ô∏è  Outliers en precio_m2: 0 observaciones
   Rango normal esperado: [2571.98, 6859.40] ‚Ç¨/m¬≤

‚ö†Ô∏è  Outliers en superficie_m2: 4 observaciones
   Rango normal esperado: [-80.38, 204.62] m¬≤



üìã Detalles de outliers en superficie (ordenados por tama√±o descendente):
 superficie_m2   precio_m2  precio  habitaciones  banos  barrio_id  ano_construccion
         473.0 4456.644820 2107993             4      3         32            1966.0
         380.0 4342.371053 1650101             2      1         28            1970.0
         324.0 4271.123457 1383844             2      1         32            2017.0
         289.0 4688.404844 1354949             2      1         32            1973.0

üìä Impacto de outliers en el dataset:
  Representan 4.0% del dataset
  Superficie total outliers: 1466 m¬≤ / 7781 m¬≤ (18.8%)



üí° Recomendaci√≥n para tratamiento de outliers:
  - Todos los outliers son >200 m¬≤ (muy grandes para pisos t√≠picos en BCN).
  - Analizar si son errores de alta en Catastro (ver casos duplicados).
  - Si son reales (√°ticos, d√∫plex, locales rehabilitados), filtrar solo si afectan el modelo o considerar transformaci√≥n logar√≠tmica para mitigarlos.


## 8. Insights y Conclusiones


In [66]:
import pandas as pd
import numpy as np
from IPython.display import display, Markdown

def generar_insights_pro(df):
    insights = []
    
    # 1. An√°lisis de Valor (Referencia Catastral y Mercado)
    if 'precio_m2' in df.columns:
        p_min, p_max, p_mean = df['precio_m2'].agg(['min', 'max', 'mean'])
        cv = (df['precio_m2'].std() / p_mean) * 100 # Coeficiente de variaci√≥n
        insights.append(f"üí∞ **Din√°mica de Precios:** Rango de **{p_min:,.0f}** a **{p_max:,.0f} ‚Ç¨/m¬≤**. La media se sit√∫a en **{p_mean:,.0f} ‚Ç¨/m¬≤** con una variabilidad (CV) del **{cv:.1f}%**.")

    # 2. Disparidad Geogr√°fica (Barrios)
    if all(c in df.columns for c in ['barrio_nombre', 'precio_m2']):
        precios_barrio = df.groupby('barrio_nombre')['precio_m2'].mean().sort_values()
        brecha = (precios_barrio.iloc[-1] / precios_barrio.iloc[0] - 1) * 100
        insights.append(f"üèòÔ∏è **Brecha Territorial:** El barrio m√°s costoso es **{precios_barrio.index[-1]}**, superando en un **{brecha:.1f}%** al m√°s econ√≥mico (**{precios_barrio.index[0]}**).")

    # 3. Factor Antig√ºedad (ACO - Catastro)
    if 'ano_construccion' in df.columns:
        # Seg√∫n versi√≥n 1.5 del Catastro, la etiqueta <ACO> es clave para la valoraci√≥n
        corr_edad = df[['precio_m2', 'ano_construccion']].corr().iloc[0, 1]
        edad_media = 2025 - df['ano_construccion'].mean()
        insights.append(f"üèóÔ∏è **Antig√ºedad (<ACO>):** La edad media del parque inmobiliario es de **{edad_media:.1f} a√±os**. La correlaci√≥n con el precio es de **{corr_edad:.3f}**.")

    # 4. Calidad de la Muestra (Outliers e Integridad)
    if 'superficie_m2' in df.columns:
        # Detectar outliers seg√∫n superficie construida (sup) del Catastro
        q1, q3 = df['superficie_m2'].quantile([0.25, 0.75])
        iqr = q3 - q1
        outliers = df[(df['superficie_m2'] < q1 - 1.5*iqr) | (df['superficie_m2'] > q3 + 1.5*iqr)]
        pct_out = (len(outliers) / len(df)) * 100
        insights.append(f"‚ö†Ô∏è **Integridad de Datos:** Se han detectado **{len(outliers)}** propiedades fuera de rango (atipicidad: **{pct_out:.1f}%**).")

    # 5. Diagn√≥stico de Atributos Catastrales
    # Se valida la presencia de etiquetas clave: superficie (sup), uso (uso) y a√±o (aco)
    etiquetas_catastro = ['precio_m2', 'superficie_m2', 'ano_construccion', 'habitaciones']
    completitud = df[etiquetas_catastro].notna().mean() * 100
    resumen_c = ", ".join([f"{k}: {v:.0f}%" for k, v in completitud.items()])
    insights.append(f"‚úÖ **Completitud Catastral:** {resumen_c}.")

    # Formateo de Salida en Markdown para legibilidad total (con padding)
    output = "### üí° INSIGHTS ESTRAT√âGICOS DEL MERCADO (EDA)\n"
    output += "---\n"
    for i, line in enumerate(insights, 1):
        output += f"{i}. {line}\n\n"
    
    display(Markdown(output))

# Ejecuci√≥n
generar_insights_pro(df_matched)

### üí° INSIGHTS ESTRAT√âGICOS DEL MERCADO (EDA)
---
1. üí∞ **Din√°mica de Precios:** Rango de **3,302** a **6,361 ‚Ç¨/m¬≤**. La media se sit√∫a en **4,679 ‚Ç¨/m¬≤** con una variabilidad (CV) del **14.1%**.

2. üèòÔ∏è **Brecha Territorial:** El barrio m√°s costoso es **la Vila de Gr√†cia**, superando en un **26.7%** al m√°s econ√≥mico (**el Coll**).

3. üèóÔ∏è **Antig√ºedad (<ACO>):** La edad media del parque inmobiliario es de **50.0 a√±os**. La correlaci√≥n con el precio es de **0.212**.

4. ‚ö†Ô∏è **Integridad de Datos:** Se han detectado **4** propiedades fuera de rango (atipicidad: **4.0%**).

5. ‚úÖ **Completitud Catastral:** precio_m2: 100%, superficie_m2: 100%, ano_construccion: 100%, habitaciones: 100%.



## 9. Recomendaciones para el Modelo


In [67]:
# Generar recomendaciones basadas en el EDA
recomendaciones = []

# Recomendaci√≥n 1: Limpieza de outliers
if 'superficie_m2' in df_matched.columns:
    outliers_sup, lb_sup, ub_sup = detect_outliers_iqr(df_matched, 'superficie_m2')
    if len(outliers_sup) > 5:
        recomendaciones.append(f"üßπ Limpiar outliers en superficie: {len(outliers_sup)} observaciones fuera de rango [{lb_sup:.0f}, {ub_sup:.0f}] m¬≤")

# Recomendaci√≥n 2: Transformaciones
if 'superficie_m2' in df_matched.columns:
    corr_sup = df_matched[['precio_m2', 'superficie_m2']].corr().iloc[0, 1]
    if abs(corr_sup) < 0.2:
        recomendaciones.append("üìà Considerar transformaciones logar√≠tmicas para mejorar relaciones lineales")

# Recomendaci√≥n 3: Features importantes
if all(c in df_matched.columns for c in ['precio_m2', 'superficie_m2', 'ano_construccion', 'habitaciones']):
    corrs = {
        'superficie_m2': df_matched[['precio_m2', 'superficie_m2']].corr().iloc[0, 1],
        'ano_construccion': df_matched[['precio_m2', 'ano_construccion']].corr().iloc[0, 1],
        'habitaciones': df_matched[['precio_m2', 'habitaciones']].corr().iloc[0, 1]
    }
    best_feature = max(corrs.items(), key=lambda x: abs(x[1]))
    recomendaciones.append(f"‚≠ê Feature m√°s correlacionada: {best_feature[0]} (corr={best_feature[1]:.3f})")

# Recomendaci√≥n 4: Tama√±o de muestra
if len(df_matched) < 150:
    recomendaciones.append(f"üìä Tama√±o de muestra peque√±o ({len(df_matched)} obs). Considerar aumentar datos o usar cross-validation")

print("\n" + "="*70)
print("üí° RECOMENDACIONES PARA EL MODELO")
print("="*70)
for i, rec in enumerate(recomendaciones, 1):
    print(f"{i}. {rec}")
if not recomendaciones:
    print("‚úÖ No se detectaron problemas cr√≠ticos")
print("="*70)



üí° RECOMENDACIONES PARA EL MODELO
1. üìà Considerar transformaciones logar√≠tmicas para mejorar relaciones lineales
2. ‚≠ê Feature m√°s correlacionada: habitaciones (corr=-0.223)
3. üìä Tama√±o de muestra peque√±o (100 obs). Considerar aumentar datos o usar cross-validation


## 10. An√°lisis de Transformaciones (Recomendaci√≥n 1)

Basado en las recomendaciones, exploramos transformaciones logar√≠tmicas para mejorar las relaciones lineales.


In [69]:
# Aplicar transformaciones logar√≠tmicas
df_log = df_matched.copy()

# Crear variables transformadas
if 'superficie_m2' in df_log.columns:
    df_log['log_superficie'] = np.log(df_log['superficie_m2'] + 1)  # +1 para evitar log(0)

if 'precio_m2' in df_log.columns:
    df_log['log_precio_m2'] = np.log(df_log['precio_m2'])

# Comparar correlaciones antes y despu√©s
print("üìä COMPARACI√ìN DE CORRELACIONES")
print("="*70)

if 'superficie_m2' in df_log.columns and 'precio_m2' in df_log.columns:
    corr_original = df_log[['precio_m2', 'superficie_m2']].corr().iloc[0, 1]
    corr_log = df_log[['log_precio_m2', 'log_superficie']].corr().iloc[0, 1]
    
    print(f"\nSuperficie vs Precio/m¬≤:")
    print(f"  Original: {corr_original:.3f}")
    print(f"  Log-transformado: {corr_log:.3f}")
    print(f"  Mejora: {abs(corr_log) - abs(corr_original):+.3f}")

# Visualizar relaci√≥n log-transformada
if 'log_superficie' in df_log.columns and 'log_precio_m2' in df_log.columns:
    fig = px.scatter(
        df_log,
        x='log_superficie',
        y='log_precio_m2',
        color='barrio_id' if 'barrio_id' in df_log.columns else None,
        title='Relaci√≥n Log-transformada: log(Precio/m¬≤) vs log(Superficie)',
        labels={'log_superficie': 'log(Superficie + 1)', 'log_precio_m2': 'log(Precio/m¬≤)'}
    )
    fig.show()
    
    print("\nüí° Interpretaci√≥n:")
    if abs(corr_log) > abs(corr_original):
        print("  ‚úÖ La transformaci√≥n log mejora la relaci√≥n lineal")
        print("  ‚Üí Considerar usar log(superficie) y log(precio_m2) en el modelo")
    else:
        print("  ‚ö†Ô∏è  La transformaci√≥n log no mejora significativamente")
        print("  ‚Üí Mantener variables originales o probar otras transformaciones")


üìä COMPARACI√ìN DE CORRELACIONES

Superficie vs Precio/m¬≤:
  Original: -0.091
  Log-transformado: -0.089
  Mejora: -0.002



üí° Interpretaci√≥n:
  ‚ö†Ô∏è  La transformaci√≥n log no mejora significativamente
  ‚Üí Mantener variables originales o probar otras transformaciones


## 11. An√°lisis Detallado: Habitaciones (Recomendaci√≥n 2)

La feature m√°s correlacionada es `habitaciones` (corr=-0.223). Analizamos esta relaci√≥n en detalle.


In [70]:
# An√°lisis detallado de la relaci√≥n habitaciones vs precio
if 'habitaciones' in df_matched.columns and 'precio_m2' in df_matched.columns:
    print("üîç AN√ÅLISIS: HABITACIONES vs PRECIO/M¬≤")
    print("="*70)
    
    # Estad√≠sticas por n√∫mero de habitaciones
    stats_hab = df_matched.groupby('habitaciones').agg({
        'precio_m2': ['mean', 'std', 'count', 'min', 'max'],
        'superficie_m2': ['mean', 'std'] if 'superficie_m2' in df_matched.columns else None,
        'precio': ['mean'] if 'precio' in df_matched.columns else None
    }).round(2)
    
    print("\nüìä Estad√≠sticas por habitaciones:")
    print(stats_hab)
    
    # Correlaci√≥n
    corr_hab = df_matched[['precio_m2', 'habitaciones']].corr().iloc[0, 1]
    print(f"\nüìà Correlaci√≥n precio_m2 vs habitaciones: {corr_hab:.3f}")
    
    print("\nüí° Interpretaci√≥n:")
    if corr_hab < 0:
        print("  ‚ö†Ô∏è  Correlaci√≥n NEGATIVA: M√°s habitaciones ‚Üí Menor precio/m¬≤")
        print("  Posibles explicaciones:")
        print("    ‚Ä¢ Pisos m√°s grandes (m√°s habitaciones) tienen menor precio/m¬≤")
        print("    ‚Ä¢ Efecto de 'descuento por volumen' en el mercado")
        print("    ‚Ä¢ Datos mock pueden tener relaciones artificiales")
    else:
        print("  ‚úÖ Correlaci√≥n POSITIVA: M√°s habitaciones ‚Üí Mayor precio/m¬≤")
    
    # Visualizaci√≥n mejorada
    fig = px.scatter(
        df_matched,
        x='habitaciones',
        y='precio_m2',
        size='superficie_m2' if 'superficie_m2' in df_matched.columns else None,
        color='barrio_id' if 'barrio_id' in df_matched.columns else None,
        hover_data=['superficie_m2', 'precio', 'banos'] if all(c in df_matched.columns for c in ['superficie_m2', 'precio', 'banos']) else None,
        title='Precio/m¬≤ vs N√∫mero de Habitaciones (con superficie)',
        labels={'habitaciones': 'Habitaciones', 'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)'}
    )
    fig.show()
    
    # An√°lisis de superficie por habitaciones
    if 'superficie_m2' in df_matched.columns:
        print("\nüìê Superficie media por habitaciones:")
        superficie_por_hab = df_matched.groupby('habitaciones')['superficie_m2'].mean()
        for hab, sup in superficie_por_hab.items():
            print(f"  {hab} hab: {sup:.1f} m¬≤")


üîç AN√ÅLISIS: HABITACIONES vs PRECIO/M¬≤

üìä Estad√≠sticas por habitaciones:
             precio_m2                                 superficie_m2          \
                  mean     std count      min      max          mean     std   
habitaciones                                                                   
1              5016.75  614.79    13  3447.97  5599.30         62.95   42.21   
2              4757.44  676.21    41  3478.93  6360.55         82.59   81.58   
3              4472.62  573.87    35  3302.42  5618.51         66.80   39.73   
4              4640.14  743.41    11  3411.31  5715.81        112.64  126.23   

                 precio  
                   mean  
habitaciones             
1             305634.85  
2             385169.02  
3             304334.09  
4             505444.64  

üìà Correlaci√≥n precio_m2 vs habitaciones: -0.223

üí° Interpretaci√≥n:
  ‚ö†Ô∏è  Correlaci√≥n NEGATIVA: M√°s habitaciones ‚Üí Menor precio/m¬≤
  Posibles explicaciones:
  


üìê Superficie media por habitaciones:
  1 hab: 63.0 m¬≤
  2 hab: 82.6 m¬≤
  3 hab: 66.8 m¬≤
  4 hab: 112.6 m¬≤


## 12. Resumen Ejecutivo y Pr√≥ximos Pasos


In [71]:
# Generar resumen ejecutivo completo
print("="*70)
print("üìã RESUMEN EJECUTIVO - EDA MODELO HEDONIC MICRO")
print("="*70)

print("\n1Ô∏è‚É£ DATOS:")
print(f"   ‚Ä¢ Observaciones: {len(df_matched)}")
print(f"   ‚Ä¢ Barrios: {df_matched['barrio_id'].nunique() if 'barrio_id' in df_matched.columns else 'N/A'}")
print(f"   ‚Ä¢ Completitud: {df_matched['precio_m2'].notna().sum()/len(df_matched)*100:.1f}%")

print("\n2Ô∏è‚É£ VARIABLES CLAVE:")
if 'precio_m2' in df_matched.columns:
    print(f"   ‚Ä¢ Precio/m¬≤: {df_matched['precio_m2'].mean():.0f} ‚Ç¨/m¬≤ (rango: {df_matched['precio_m2'].min():.0f}-{df_matched['precio_m2'].max():.0f})")
if 'superficie_m2' in df_matched.columns:
    print(f"   ‚Ä¢ Superficie: {df_matched['superficie_m2'].mean():.1f} m¬≤ (rango: {df_matched['superficie_m2'].min():.1f}-{df_matched['superficie_m2'].max():.1f})")

print("\n3Ô∏è‚É£ CORRELACIONES:")
numeric_cols = ['superficie_m2', 'ano_construccion', 'habitaciones', 'banos']
numeric_cols = [c for c in numeric_cols if c in df_matched.columns]
if numeric_cols:
    corrs = df_matched[['precio_m2'] + numeric_cols].corr()['precio_m2'].sort_values(ascending=False)
    for var, corr in corrs.items():
        if var != 'precio_m2':
            print(f"   ‚Ä¢ {var:20s}: {corr:7.3f}")

print("\n4Ô∏è‚É£ OUTLIERS:")
if 'superficie_m2' in df_matched.columns:
    Q1 = df_matched['superficie_m2'].quantile(0.25)
    Q3 = df_matched['superficie_m2'].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df_matched[(df_matched['superficie_m2'] < Q1 - 1.5*IQR) | (df_matched['superficie_m2'] > Q3 + 1.5*IQR)]
    print(f"   ‚Ä¢ Superficie: {len(outliers)} observaciones ({len(outliers)/len(df_matched)*100:.1f}%)")

print("\n5Ô∏è‚É£ RECOMENDACIONES PARA EL MODELO:")
print("   ‚úÖ Usar transformaci√≥n logar√≠tmica para superficie y precio")
print("   ‚úÖ Considerar habitaciones como feature principal (aunque correlaci√≥n negativa)")
print("   ‚úÖ Filtrar outliers en superficie (>200 m¬≤) o usar transformaci√≥n log")
print("   ‚úÖ Usar cross-validation (5-fold) en vez de train/test split")
print("   ‚ö†Ô∏è  Esperar datos reales de Idealista para validar relaciones")

print("\n6Ô∏è‚É£ PR√ìXIMOS PASOS:")
print("   1. Limpiar outliers o aplicar transformaciones")
print("   2. Entrenar modelo con variables transformadas")
print("   3. Comparar modelo log vs original")
print("   4. Validar con datos reales cuando est√©n disponibles")

print("\n" + "="*70)
print("üìù NOTA: Estos resultados son con datos mock. Relaciones reales pueden diferir.")
print("="*70)


üìã RESUMEN EJECUTIVO - EDA MODELO HEDONIC MICRO

1Ô∏è‚É£ DATOS:
   ‚Ä¢ Observaciones: 100
   ‚Ä¢ Barrios: 5
   ‚Ä¢ Completitud: 100.0%

2Ô∏è‚É£ VARIABLES CLAVE:
   ‚Ä¢ Precio/m¬≤: 4679 ‚Ç¨/m¬≤ (rango: 3302-6361)
   ‚Ä¢ Superficie: 77.8 m¬≤ (rango: 2.9-473.0)

3Ô∏è‚É£ CORRELACIONES:
   ‚Ä¢ ano_construccion    :   0.212
   ‚Ä¢ superficie_m2       :  -0.091
   ‚Ä¢ banos               :  -0.181
   ‚Ä¢ habitaciones        :  -0.223

4Ô∏è‚É£ OUTLIERS:
   ‚Ä¢ Superficie: 4 observaciones (4.0%)

5Ô∏è‚É£ RECOMENDACIONES PARA EL MODELO:
   ‚úÖ Usar transformaci√≥n logar√≠tmica para superficie y precio
   ‚úÖ Considerar habitaciones como feature principal (aunque correlaci√≥n negativa)
   ‚úÖ Filtrar outliers en superficie (>200 m¬≤) o usar transformaci√≥n log
   ‚úÖ Usar cross-validation (5-fold) en vez de train/test split
   ‚ö†Ô∏è  Esperar datos reales de Idealista para validar relaciones

6Ô∏è‚É£ PR√ìXIMOS PASOS:
   1. Limpiar outliers o aplicar transformaciones
   2. Entrenar modelo con va

---

## üìù Notas Finales

- **Datos mock**: Los datos de Idealista son simulados. Resultados pueden no reflejar relaciones reales del mercado.
- **Tama√±o muestra**: 100 observaciones es el m√≠nimo para modelos hedonic. Considerar aumentar cuando haya datos reales.
- **Outliers**: Algunos valores extremos pueden requerir limpieza antes de entrenar el modelo.
- **Correlaciones bajas**: Las correlaciones observadas pueden deberse a datos mock. Validar con datos reales.

---

**√öltima actualizaci√≥n**: 2025-12-19


In [72]:
# An√°lisis de interacciones: Superficie √ó Barrio
if all(c in df_matched.columns for c in ['superficie_m2', 'precio_m2', 'barrio_id']):
    print("üîç AN√ÅLISIS DE INTERACCIONES: SUPERFICIE √ó BARRIO")
    print("="*70)
    
    # Crear grupos de superficie (peque√±o, mediano, grande)
    df_matched['superficie_categoria'] = pd.cut(
        df_matched['superficie_m2'],
        bins=[0, 60, 90, 200, float('inf')],
        labels=['<60 m¬≤', '60-90 m¬≤', '90-200 m¬≤', '>200 m¬≤']
    )
    
    # Precio/m¬≤ medio por combinaci√≥n superficie √ó barrio
    interaction = df_matched.groupby(['barrio_id', 'superficie_categoria'])['precio_m2'].agg(['mean', 'count']).reset_index()
    interaction_pivot = interaction.pivot(index='barrio_id', columns='superficie_categoria', values='mean')
    
    print("\nüìä Precio/m¬≤ medio por Barrio √ó Categor√≠a de Superficie:")
    print(interaction_pivot.round(0))
    
    # Visualizaci√≥n
    fig = px.bar(
        interaction,
        x='barrio_id',
        y='mean',
        color='superficie_categoria',
        barmode='group',
        title='Interacci√≥n: Precio/m¬≤ por Barrio √ó Categor√≠a de Superficie',
        labels={'mean': 'Precio/m¬≤ Medio (‚Ç¨/m¬≤)', 'barrio_id': 'Barrio', 'superficie_categoria': 'Categor√≠a Superficie'},
        hover_data=['count']
    )
    fig.show()
    
    print("\nüí° Interpretaci√≥n:")
    print("  - Si hay diferencias grandes entre categor√≠as dentro del mismo barrio,")
    print("    ‚Üí La interacci√≥n superficie√óbarrio puede ser √∫til en el modelo")
    print("  - Si las diferencias son peque√±as,")
    print("    ‚Üí Las variables independientes pueden ser suficientes")


üîç AN√ÅLISIS DE INTERACCIONES: SUPERFICIE √ó BARRIO

üìä Precio/m¬≤ medio por Barrio √ó Categor√≠a de Superficie:
superficie_categoria  <60 m¬≤  60-90 m¬≤  90-200 m¬≤  >200 m¬≤
barrio_id                                                 
28                    4404.0       NaN        NaN   4342.0
29                    3940.0    3911.0     4520.0      NaN
30                    4718.0    4706.0     4308.0      NaN
31                    5202.0    4750.0     5284.0      NaN
32                    4620.0    4694.0     5021.0   4472.0







üí° Interpretaci√≥n:
  - Si hay diferencias grandes entre categor√≠as dentro del mismo barrio,
    ‚Üí La interacci√≥n superficie√óbarrio puede ser √∫til en el modelo
  - Si las diferencias son peque√±as,
    ‚Üí Las variables independientes pueden ser suficientes


In [73]:
# An√°lisis de caracter√≠sticas combinadas (ascensor, exterior)
if all(c in df_matched.columns for c in ['ascensor', 'exterior', 'precio_m2']):
    print("üîç AN√ÅLISIS DE CARACTER√çSTICAS COMBINADAS")
    print("="*70)
    
    # Convertir a boolean si no lo son
    df_comb = df_matched.copy()
    if df_comb['ascensor'].dtype == 'object':
        df_comb['ascensor'] = df_comb['ascensor'].astype(bool)
    if df_comb['exterior'].dtype == 'object':
        df_comb['exterior'] = df_comb['exterior'].astype(bool)
    
    # Crear combinaciones
    df_comb['caracteristicas'] = df_comb.apply(
        lambda row: f"Ascensor: {'S√≠' if row['ascensor'] else 'No'}, Exterior: {'S√≠' if row['exterior'] else 'No'}",
        axis=1
    )
    
    stats_comb = df_comb.groupby('caracteristicas')['precio_m2'].agg(['mean', 'std', 'count']).round(2)
    print("\nüìä Precio/m¬≤ por combinaci√≥n de caracter√≠sticas:")
    print(stats_comb)
    
    # Visualizaci√≥n
    fig = px.box(
        df_comb,
        x='caracteristicas',
        y='precio_m2',
        title='Distribuci√≥n de Precio/m¬≤ por Combinaci√≥n de Caracter√≠sticas',
        labels={'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)', 'caracteristicas': 'Caracter√≠sticas'}
    )
    fig.update_xaxes(tickangle=45)
    fig.show()
    
    # An√°lisis de efecto individual
    print("\nüìà Efecto individual de caracter√≠sticas:")
    if 'ascensor' in df_comb.columns:
        precio_con_ascensor = df_comb[df_comb['ascensor'] == True]['precio_m2'].mean()
        precio_sin_ascensor = df_comb[df_comb['ascensor'] == False]['precio_m2'].mean()
        print(f"  Ascensor: Con={precio_con_ascensor:.0f} ‚Ç¨/m¬≤, Sin={precio_sin_ascensor:.0f} ‚Ç¨/m¬≤, Diferencia={precio_con_ascensor-precio_sin_ascensor:.0f} ‚Ç¨/m¬≤")
    
    if 'exterior' in df_comb.columns:
        precio_exterior = df_comb[df_comb['exterior'] == True]['precio_m2'].mean()
        precio_interior = df_comb[df_comb['exterior'] == False]['precio_m2'].mean()
        print(f"  Exterior: S√≠={precio_exterior:.0f} ‚Ç¨/m¬≤, No={precio_interior:.0f} ‚Ç¨/m¬≤, Diferencia={precio_exterior-precio_interior:.0f} ‚Ç¨/m¬≤")


üîç AN√ÅLISIS DE CARACTER√çSTICAS COMBINADAS

üìä Precio/m¬≤ por combinaci√≥n de caracter√≠sticas:
                               mean     std  count
caracteristicas                                   
Ascensor: No, Exterior: No  4599.44  673.92     45
Ascensor: No, Exterior: S√≠  4706.15  688.95     37
Ascensor: S√≠, Exterior: No  4792.80  467.72     11
Ascensor: S√≠, Exterior: S√≠  4861.90  688.63      7



üìà Efecto individual de caracter√≠sticas:
  Ascensor: Con=4820 ‚Ç¨/m¬≤, Sin=4648 ‚Ç¨/m¬≤, Diferencia=172 ‚Ç¨/m¬≤
  Exterior: S√≠=4731 ‚Ç¨/m¬≤, No=4637 ‚Ç¨/m¬≤, Diferencia=94 ‚Ç¨/m¬≤


## 13. An√°lisis de Precio Total vs Precio/m¬≤ (Efecto de Escala)


In [74]:
# An√°lisis de relaci√≥n precio total vs precio/m¬≤
if all(c in df_matched.columns for c in ['precio', 'precio_m2', 'superficie_m2']):
    print("üîç AN√ÅLISIS: PRECIO TOTAL vs PRECIO/M¬≤")
    print("="*70)
    
    # Calcular ratio precio/precio_m2 (deber√≠a ser ‚âà superficie)
    df_matched['precio_total_calculado'] = df_matched['precio_m2'] * df_matched['superficie_m2']
    df_matched['ratio_precio'] = df_matched['precio'] / df_matched['precio_total_calculado']
    
    print(f"\nüìä Validaci√≥n de consistencia:")
    print(f"  Ratio medio precio/precio_m2√ósuperficie: {df_matched['ratio_precio'].mean():.3f}")
    print(f"  (Deber√≠a ser ‚âà 1.0 si los datos son consistentes)")
    
    # Visualizaci√≥n: Precio total vs Superficie
    fig = px.scatter(
        df_matched,
        x='superficie_m2',
        y='precio',
        color='precio_m2',
        size='habitaciones' if 'habitaciones' in df_matched.columns else None,
        hover_data=['barrio_id', 'precio_m2', 'habitaciones'] if all(c in df_matched.columns for c in ['barrio_id', 'precio_m2', 'habitaciones']) else None,
        title='Precio Total vs Superficie (coloreado por precio/m¬≤)',
        labels={'superficie_m2': 'Superficie (m¬≤)', 'precio': 'Precio Total (‚Ç¨)', 'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)'},
        color_continuous_scale='Viridis'
    )
    fig.show()
    
    # An√°lisis de elasticidad precio-superficie
    print("\nüìà Elasticidad Precio-Superficie:")
    print("  (¬øC√≥mo cambia el precio total cuando aumenta la superficie?)")
    
    # Calcular correlaci√≥n log-log (elasticidad)
    if 'superficie_m2' in df_log.columns and 'precio' in df_log.columns:
        df_log['log_precio_total'] = np.log(df_log['precio'])
        elasticidad = df_log[['log_precio_total', 'log_superficie']].corr().iloc[0, 1]
        print(f"  Correlaci√≥n log(precio) vs log(superficie): {elasticidad:.3f}")
        print(f"  Interpretaci√≥n: Si elasticidad ‚âà 1, precio aumenta proporcionalmente con superficie")
        print(f"                   Si elasticidad < 1, hay 'descuento por volumen'")
        print(f"                   Si elasticidad > 1, hay 'premium por tama√±o'")


üîç AN√ÅLISIS: PRECIO TOTAL vs PRECIO/M¬≤

üìä Validaci√≥n de consistencia:
  Ratio medio precio/precio_m2√ósuperficie: 1.000
  (Deber√≠a ser ‚âà 1.0 si los datos son consistentes)



üìà Elasticidad Precio-Superficie:
  (¬øC√≥mo cambia el precio total cuando aumenta la superficie?)
  Correlaci√≥n log(precio) vs log(superficie): 0.989
  Interpretaci√≥n: Si elasticidad ‚âà 1, precio aumenta proporcionalmente con superficie
                   Si elasticidad < 1, hay 'descuento por volumen'
                   Si elasticidad > 1, hay 'premium por tama√±o'


## 14. Heatmap de Correlaciones con Clustering


In [75]:
# Heatmap de correlaciones con clustering jer√°rquico
from scipy.cluster.hierarchy import linkage, dendrogram
from scipy.spatial.distance import squareform
import plotly.figure_factory as ff

numeric_cols = ['precio_m2', 'precio', 'superficie_m2', 'ano_construccion', 
                'plantas', 'habitaciones', 'banos']
numeric_cols = [c for c in numeric_cols if c in df_matched.columns]

if len(numeric_cols) > 2:
    corr_matrix = df_matched[numeric_cols].corr()
    
    # Crear heatmap con clustering
    fig = ff.create_dendrogram(
        corr_matrix.values,
        orientation='bottom',
        labels=corr_matrix.columns.tolist()
    )
    
    # Heatmap mejorado con valores
    fig = px.imshow(
        corr_matrix,
        text_auto='.2f',
        aspect="auto",
        title="Matriz de Correlaciones (con valores)",
        color_continuous_scale="RdBu",
        zmin=-1,
        zmax=1,
        labels=dict(color="Correlaci√≥n")
    )
    fig.update_layout(height=600)
    fig.show()
    
    # Identificar grupos de variables correlacionadas
    print("\nüîó GRUPOS DE VARIABLES CORRELACIONADAS:")
    print("="*70)
    
    # Variables altamente correlacionadas (|r| > 0.5)
    high_corr_pairs = []
    for i in range(len(corr_matrix.columns)):
        for j in range(i+1, len(corr_matrix.columns)):
            corr_val = corr_matrix.iloc[i, j]
            if abs(corr_val) > 0.5:
                high_corr_pairs.append((corr_matrix.columns[i], corr_matrix.columns[j], corr_val))
    
    if high_corr_pairs:
        print("\n‚ö†Ô∏è  Variables altamente correlacionadas (|r| > 0.5):")
        for var1, var2, corr in sorted(high_corr_pairs, key=lambda x: abs(x[2]), reverse=True):
            print(f"  ‚Ä¢ {var1} ‚Üî {var2}: {corr:.3f}")
        print("\nüí° Recomendaci√≥n: Considerar eliminar una de cada par para evitar multicolinealidad")
    else:
        print("\n‚úÖ No hay pares de variables altamente correlacionadas (|r| > 0.5)")
        print("   ‚Üí Menor riesgo de multicolinealidad en el modelo")



üîó GRUPOS DE VARIABLES CORRELACIONADAS:

‚ö†Ô∏è  Variables altamente correlacionadas (|r| > 0.5):
  ‚Ä¢ precio ‚Üî superficie_m2: 0.987
  ‚Ä¢ habitaciones ‚Üî banos: 0.928

üí° Recomendaci√≥n: Considerar eliminar una de cada par para evitar multicolinealidad


## 15. An√°lisis Temporal (A√±o de Construcci√≥n)


In [76]:
# An√°lisis de precio por a√±o de construcci√≥n
if 'ano_construccion' in df_matched.columns and 'precio_m2' in df_matched.columns:
    print("üîç AN√ÅLISIS TEMPORAL: PRECIO vs A√ëO DE CONSTRUCCI√ìN")
    print("="*70)
    
    # Crear categor√≠as de antig√ºedad
    df_matched['antiguedad'] = 2025 - df_matched['ano_construccion']
    df_matched['categoria_antiguedad'] = pd.cut(
        df_matched['antiguedad'],
        bins=[0, 10, 30, 50, 100, float('inf')],
        labels=['<10 a√±os', '10-30 a√±os', '30-50 a√±os', '50-100 a√±os', '>100 a√±os']
    )
    
    # Precio/m¬≤ por categor√≠a de antig√ºedad
    stats_antiguedad = df_matched.groupby('categoria_antiguedad')['precio_m2'].agg(['mean', 'std', 'count']).round(2)
    print("\nüìä Precio/m¬≤ por categor√≠a de antig√ºedad:")
    print(stats_antiguedad)
    
    # Visualizaci√≥n: Precio/m¬≤ vs A√±o de construcci√≥n (con tendencia)
    fig = px.scatter(
        df_matched,
        x='ano_construccion',
        y='precio_m2',
        color='barrio_id' if 'barrio_id' in df_matched.columns else None,
        size='superficie_m2' if 'superficie_m2' in df_matched.columns else None,
        trendline="ols",  # A√±adir l√≠nea de tendencia OLS
        title='Precio/m¬≤ vs A√±o de Construcci√≥n (con tendencia)',
        labels={'ano_construccion': 'A√±o de Construcci√≥n', 'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)'}
    )
    fig.show()
    
    # An√°lisis de efecto de renovaci√≥n
    print("\nüí° Interpretaci√≥n:")
    print("  - Si la tendencia es positiva: Edificios m√°s nuevos son m√°s caros")
    print("  - Si la tendencia es negativa: Edificios m√°s antiguos son m√°s caros (posible efecto 'charm')")
    print("  - Si la tendencia es plana: El a√±o no afecta significativamente el precio")
    
    # Box plot por categor√≠a de antig√ºedad
    fig = px.box(
        df_matched,
        x='categoria_antiguedad',
        y='precio_m2',
        title='Distribuci√≥n de Precio/m¬≤ por Antig√ºedad del Edificio',
        labels={'precio_m2': 'Precio/m¬≤ (‚Ç¨/m¬≤)', 'categoria_antiguedad': 'Antig√ºedad'}
    )
    fig.show()


üîç AN√ÅLISIS TEMPORAL: PRECIO vs A√ëO DE CONSTRUCCI√ìN

üìä Precio/m¬≤ por categor√≠a de antig√ºedad:
                         mean     std  count
categoria_antiguedad                        
<10 a√±os              4359.99  635.74      7
10-30 a√±os            5263.89  692.94     12
30-50 a√±os            4508.87  630.48     25
50-100 a√±os           4717.21  598.96     50
>100 a√±os             4264.60  514.15      6







üí° Interpretaci√≥n:
  - Si la tendencia es positiva: Edificios m√°s nuevos son m√°s caros
  - Si la tendencia es negativa: Edificios m√°s antiguos son m√°s caros (posible efecto 'charm')
  - Si la tendencia es plana: El a√±o no afecta significativamente el precio


## 16. Resumen Ejecutivo y Pr√≥ximos Pasos


In [77]:
# Generar resumen ejecutivo completo
print("="*70)
print("üìã RESUMEN EJECUTIVO - EDA MODELO HEDONIC MICRO")
print("="*70)

print("\n1Ô∏è‚É£ DATOS:")
print(f"   ‚Ä¢ Observaciones: {len(df_matched)}")
print(f"   ‚Ä¢ Barrios: {df_matched['barrio_id'].nunique() if 'barrio_id' in df_matched.columns else 'N/A'}")
print(f"   ‚Ä¢ Completitud: {df_matched['precio_m2'].notna().sum()/len(df_matched)*100:.1f}%")

print("\n2Ô∏è‚É£ VARIABLES CLAVE:")
if 'precio_m2' in df_matched.columns:
    print(f"   ‚Ä¢ Precio/m¬≤: {df_matched['precio_m2'].mean():.0f} ‚Ç¨/m¬≤ (rango: {df_matched['precio_m2'].min():.0f}-{df_matched['precio_m2'].max():.0f})")
if 'superficie_m2' in df_matched.columns:
    print(f"   ‚Ä¢ Superficie: {df_matched['superficie_m2'].mean():.1f} m¬≤ (rango: {df_matched['superficie_m2'].min():.1f}-{df_matched['superficie_m2'].max():.1f})")

print("\n3Ô∏è‚É£ CORRELACIONES:")
numeric_cols = ['superficie_m2', 'ano_construccion', 'habitaciones', 'banos']
numeric_cols = [c for c in numeric_cols if c in df_matched.columns]
if numeric_cols:
    corrs = df_matched[['precio_m2'] + numeric_cols].corr()['precio_m2'].sort_values(ascending=False)
    for var, corr in corrs.items():
        if var != 'precio_m2':
            print(f"   ‚Ä¢ {var:20s}: {corr:7.3f}")

print("\n4Ô∏è‚É£ OUTLIERS:")
if 'superficie_m2' in df_matched.columns:
    Q1 = df_matched['superficie_m2'].quantile(0.25)
    Q3 = df_matched['superficie_m2'].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df_matched[(df_matched['superficie_m2'] < Q1 - 1.5*IQR) | (df_matched['superficie_m2'] > Q3 + 1.5*IQR)]
    print(f"   ‚Ä¢ Superficie: {len(outliers)} observaciones ({len(outliers)/len(df_matched)*100:.1f}%)")

print("\n5Ô∏è‚É£ HALLAZGOS CLAVE:")
print("   ‚úÖ Interacciones superficie√óbarrio pueden ser √∫tiles")
print("   ‚úÖ Caracter√≠sticas combinadas (ascensor, exterior) muestran diferencias")
print("   ‚úÖ A√±o de construcci√≥n tiene efecto en precio")
print("   ‚ö†Ô∏è  Correlaciones bajas pueden deberse a datos mock")

print("\n6Ô∏è‚É£ RECOMENDACIONES PARA EL MODELO:")
print("   ‚úÖ Usar transformaci√≥n logar√≠tmica para superficie y precio")
print("   ‚úÖ Incluir interacciones: superficie√óbarrio, a√±o√óbarrio")
print("   ‚úÖ Considerar caracter√≠sticas combinadas (ascensor, exterior)")
print("   ‚úÖ Filtrar outliers en superficie (>200 m¬≤) o usar transformaci√≥n log")
print("   ‚úÖ Usar cross-validation (5-fold) en vez de train/test split")
print("   ‚ö†Ô∏è  Esperar datos reales de Idealista para validar relaciones")

print("\n7Ô∏è‚É£ PR√ìXIMOS PASOS:")
print("   1. Limpiar outliers o aplicar transformaciones")
print("   2. Entrenar modelo con variables transformadas e interacciones")
print("   3. Comparar modelo log vs original")
print("   4. Validar con datos reales cuando est√©n disponibles")

print("\n" + "="*70)
print("üìù NOTA: Estos resultados son con datos mock. Relaciones reales pueden diferir.")
print("="*70)


üìã RESUMEN EJECUTIVO - EDA MODELO HEDONIC MICRO

1Ô∏è‚É£ DATOS:
   ‚Ä¢ Observaciones: 100
   ‚Ä¢ Barrios: 5
   ‚Ä¢ Completitud: 100.0%

2Ô∏è‚É£ VARIABLES CLAVE:
   ‚Ä¢ Precio/m¬≤: 4679 ‚Ç¨/m¬≤ (rango: 3302-6361)
   ‚Ä¢ Superficie: 77.8 m¬≤ (rango: 2.9-473.0)

3Ô∏è‚É£ CORRELACIONES:
   ‚Ä¢ ano_construccion    :   0.212
   ‚Ä¢ superficie_m2       :  -0.091
   ‚Ä¢ banos               :  -0.181
   ‚Ä¢ habitaciones        :  -0.223

4Ô∏è‚É£ OUTLIERS:
   ‚Ä¢ Superficie: 4 observaciones (4.0%)

5Ô∏è‚É£ HALLAZGOS CLAVE:
   ‚úÖ Interacciones superficie√óbarrio pueden ser √∫tiles
   ‚úÖ Caracter√≠sticas combinadas (ascensor, exterior) muestran diferencias
   ‚úÖ A√±o de construcci√≥n tiene efecto en precio
   ‚ö†Ô∏è  Correlaciones bajas pueden deberse a datos mock

6Ô∏è‚É£ RECOMENDACIONES PARA EL MODELO:
   ‚úÖ Usar transformaci√≥n logar√≠tmica para superficie y precio
   ‚úÖ Incluir interacciones: superficie√óbarrio, a√±o√óbarrio
   ‚úÖ Considerar caracter√≠sticas combinadas (ascensor, exteri