In [None]:
# importamos las librer√≠as que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Imputaci√≥n de nulos usando m√©todos avanzados estad√≠sticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librer√≠as de visualizaci√≥n
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuraci√≥n
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

### Fase 3: An√°lisis y Visualizaci√≥n.

##### El objetivo de esta fase es generar un informe visual que permita comprender mejor el comportamiento de los alojamientos de Airbnb en la ciudad analizada.
#### 3.1 üí∞ An√°lisis de precios


In [None]:
df = pd.read_csv('df_clean.csv')

df.head(2)

In [None]:
def analisis_precio(df):
    
    print('=========== AN√ÅLISIS DE PRECIO ===============')

    print('\n¬øCu√°l es el precio medio y mediano de los alojamientos?\n')
    print('='*40)
    print(df['price'].agg(['mean', 'median', 'std', 'max', 'min']))
    print('\nDebido a la presencia de valores extremos que distorsionan la visualizaci√≥n, para algunos an√°lisis gr√°ficos se excluir√°n outliers \nmediante el rango intercuart√≠lico (IQR), lo que permite una comparaci√≥n m√°s representativa de los precios t√≠picos entre categor√≠as.')

    print('________________________________')

    print('\n¬øC√≥mo var√≠a el precio seg√∫n el tipo de alojamiento?')
    print('='*40)
    # Rango Intercuart√≠lico (IQR) global para filtrar outliers
    Q1 = df['price'].quantile(0.25)
    Q3 = df['price'].quantile(0.75)
    IQR = Q3 - Q1

    limite_inf = Q1 - 1.5 * IQR
    limite_sup = Q3 + 1.5 * IQR

    limite_inf, limite_sup

    # Dataset sin outliers (solo para an√°lisis/visualizaci√≥n)
    df_iqr = df[(df['price'] >= limite_inf) & (df['price'] <= limite_sup)].copy()

    # Resumen por tipo de alojamiento: mediana, Q1, Q3 e IQR
    resumen_iqr = (df_iqr.groupby('room_type')['price'].agg(mediana='median',Q1=lambda x: x.quantile(0.25),Q3=lambda x: x.quantile(0.75)))
    resumen_iqr['IQR'] = resumen_iqr['Q3'] - resumen_iqr['Q1']

    print(resumen_iqr)

    # Gr√°fico del precio t√≠pico por tipo de alojamiento (sin outliers)
    plt.figure()
    resumen_iqr['mediana'].plot(kind='bar')
    plt.ylabel('Precio mediano (‚Ç¨)')
    plt.title('Precio t√≠pico por tipo de alojamiento (sin outliers)')
    plt.xticks(rotation=0)
    plt.show()

    print('\nEl precio del alojamiento var√≠a significativamente seg√∫n el tipo de habitaci√≥n, \nsiendo los alojamientos completos los m√°s caros y los compartidos los m√°s econ√≥micos. \nLa presencia de valores at√≠picos, especialmente en apartamentos completos y habitaciones privadas, \nprovoca que la media sea superior a la mediana, por lo que esta √∫ltima resulta una medida m√°s representativa del precio t√≠pico.')

    # Gr√°fico del IQR por tipo de alojamiento
    plt.figure()
    resumen_iqr['IQR'].sort_values(ascending=False).plot(kind='bar')
    plt.ylabel('IQR (‚Ç¨)')
    plt.title('Dispersi√≥n del precio (IQR) por tipo de alojamiento (sin outliers)')
    plt.xticks(rotation=0)
    plt.show()

    print('\nEl an√°lisis del rango intercuart√≠lico (IQR) del precio por tipo de alojamiento muestra que los alojamientos completos y \nlas habitaciones de hotel presentan la mayor dispersi√≥n de precios, lo que indica una elevada heterogeneidad dentro de estos segmentos. \nPor el contrario, las habitaciones compartidas exhiben una variabilidad muy reducida, reflejando precios m√°s homog√©neos y predecibles.')

    # Gr√°fico de la relaci√≥n entre precio mediano y dispersi√≥n
    plt.figure()
    plt.scatter(resumen_iqr['mediana'], resumen_iqr['IQR'])

    for room_type, row in resumen_iqr.iterrows():
        plt.text(row['mediana'], row['IQR'], room_type, ha='left', va='bottom')

    plt.xlabel('Precio mediano (‚Ç¨)')
    plt.ylabel('Dispersi√≥n (IQR ‚Ç¨)')
    plt.title('Relaci√≥n entre precio mediano y dispersi√≥n (sin outliers)')
    plt.show()

    print('\nEl an√°lisis conjunto del precio mediano y el rango intercuart√≠lico muestra una relaci√≥n positiva entre nivel de precio y dispersi√≥n. \nLos tipos de alojamiento m√°s caros presentan mayor variabilidad, mientras que los m√°s econ√≥micos muestran precios m√°s estables y predecibles.')
    print('\n________________________________')


    print('¬øExisten diferencias significativas de precio entre barrios?')
    print('='* 40)

    # Mediana del precio por distrito y barrio
    precio_barrio = (df_iqr.groupby(['neighbourhood_group', 'neighbourhood'])['price'].median().reset_index())

    distritos = precio_barrio['neighbourhood_group'].unique()
    n = len(distritos)

    cols = 4
    rows = math.ceil(n / cols)

    fig, axes = plt.subplots(rows, cols, figsize=(25, 4 * rows))
    axes = axes.flatten()

    for i, distrito in enumerate(distritos):
        df_distrito = (precio_barrio[precio_barrio['neighbourhood_group'] == distrito].sort_values('price', ascending=False))
        axes[i].bar(df_distrito['neighbourhood'], df_distrito['price'])
        axes[i].set_title(distrito)
        axes[i].tick_params(axis='x', rotation=90)
        axes[i].set_ylabel('‚Ç¨')

    # Eliminar ejes vac√≠os
    for j in range(i + 1, len(axes)):
        fig.delaxes(axes[j])

    plt.suptitle('Precio mediano por barrio y distrito (sin outliers)', fontsize=16)
    plt.tight_layout()
    plt.show()

    print('\nLa comparaci√≥n del precio mediano por barrio dentro de cada distrito muestra una notable heterogeneidad interna: \nincluso en distritos con precios elevados, coexisten barrios con niveles de precio sensiblemente distintos, \nlo que confirma que el barrio introduce diferencias relevantes en el precio del alojamiento m√°s all√° del distrito al que pertenece.')
    print('\n________________________________')


    print('¬øQu√© barrios presentan los precios m√°s altos y cu√°les los m√°s bajos?')
    print('='* 40)
    #Calculamos la mediana del precio por barrio
    precio_barrio = df_iqr.groupby(['neighbourhood', 'neighbourhood_group'], as_index=False)['price'].median().rename(columns={'price':'price_median'})

    # Seleccionamos extremos
    barrios_mas_baratos = precio_barrio.nsmallest(5,'price_median')
    barrios_mas_caros = precio_barrio.nlargest(5, 'price_median')

    # Unimos
    extremos = pd.concat([barrios_mas_baratos, barrios_mas_caros])

    plt.figure()

    sns.barplot(data=extremos,x='neighbourhood',y='price_median',hue='neighbourhood_group')

    plt.xticks(rotation=90)
    plt.xlabel('Barrio')
    plt.ylabel('Precio mediano (‚Ç¨)')
    plt.title('Barrios con precios m√°s bajos y m√°s altos (precio mediano)')
    plt.show()
    print('La comparaci√≥n del precio mediano por barrio evidencia una clara brecha territorial en el mercado del alojamiento: \nlos barrios perif√©ricos, como Vinateros, Arcos, Campamento, Fontarr√≥n y Los √Ångeles, presentan los precios medianos m√°s bajos, \nmientras que los barrios centrales y de mayor renta ‚Äîespecialmente Castellana, Recoletos, Lista, Ni√±o Jes√∫s y Sol‚Äî \nconcentran los precios medianos m√°s elevados, confirmando la fuerte influencia de la localizaci√≥n en el nivel de precios del alojamiento.\n')

    print(df.groupby(['neighbourhood_group', 'neighbourhood'])['price'].agg(['min', 'max']).sort_values('max', ascending=False))

    print('Los precios m√°s altos se concentran en barrios c√©ntricos como Sol y Universidad, donde aparecen valores extremos muy elevados. \nEn contraste, los barrios perif√©ricos como Horcajo, Cuatro Vientos o Santa Eugenia presentan precios notablemente m√°s bajos \ny rangos m√°s homog√©neos, lo que indica mercados m√°s estables y sin presencia de outliers significativos.')
    print('\n________________________________')

    print('\n¬øQu√© tipo de alojamiento ofrece la mejor relaci√≥n entre precio y valoraci√≥n?')
    print('='* 40)
    res = df.groupby('room_type')[['price','number_of_reviews_ltm']].median()
    res['reviews_por_euro'] = res['number_of_reviews_ltm'] / res['price']
    print(res.sort_values('reviews_por_euro', ascending=False))
    print('Los alojamientos compartidos ofrecen la mejor relaci√≥n entre precio y valoraci√≥n, al presentar el mayor n√∫mero de rese√±as \npor euro pagado. A medida que aumenta el nivel de privacidad y el precio del alojamiento, esta relaci√≥n disminuye, \nsiendo las habitaciones de hotel las menos eficientes en t√©rminos de valoraci√≥n por coste.')

    # Correlaci√≥n

    print('CORRELACI√ìN DE KENDALL')

    corr_kendall_room = (
        df
        .groupby('room_type')[['price', 'number_of_reviews']]
        .corr(method='kendall')
        .iloc[0::2, -1]
    )

    print(corr_kendall_room)

    print('\nEl an√°lisis de correlaci√≥n de Kendall entre el precio y el n√∫mero de rese√±as, realizado por tipo de alojamiento y excluyendo valores at√≠picos, \nmuestra una relaci√≥n d√©bil y predominantemente negativa en todos los tipos de alojamiento. \nEsto indica que, aunque el precio influye en la actividad de valoraci√≥n, su efecto es limitado y no estrictamente lineal.') 

    plt.figure(figsize=(6,4))
    sns.heatmap(
        corr_kendall_room.to_frame(),
        annot=True,
        cmap='coolwarm',
        center=0,
        cbar_kws={'label': 'Kendall œÑ'}
    )
    plt.title('Correlaci√≥n Kendall entre precio y rese√±as\npor tipo de alojamiento')
    plt.xlabel('Variable')
    plt.ylabel('Tipo de alojamiento')
    plt.tight_layout()
    plt.show() 
    print('\n________________________________')


    print('¬øExisten alojamientos con precios extremadamente altos o bajos? ¬øA qu√© podr√≠an deberse?') 
    print('='* 40)

    # Media y desviaci√≥n est√°ndar
    media = df['price'].mean()
    std = df['price'].std()

    # L√≠mites de la regla emp√≠rica
    limite_inf_emp = media - 3 * std
    limite_sup_emp = media + 3 * std

    # M√°scara de outliers seg√∫n la regla emp√≠rica
    mask_empirica = (df['price'] < limite_inf_emp) | (df['price'] > limite_sup_emp)

    # DataFrames resultantes
    df_empirica = df[~mask_empirica]     # sin outliers
    df_outliers_emp = df[mask_empirica]  # solo outliers

    print("Outliers detectados:", df_outliers_emp.shape[0])

    df_outliers_emp['price'].agg(['max', 'min'])

    print('La aplicaci√≥n de la regla emp√≠rica (media ¬± 3 desviaciones est√°ndar) identifica un n√∫mero reducido de valores at√≠picos, \nconcentrados exclusivamente en el extremo superior de la distribuci√≥n del precio. Aunque el l√≠mite inferior resulta negativo \n‚Äîy por tanto no interpretable en t√©rminos de precio‚Äî, los outliers detectados corresponden a alojamientos con precios excepcionalmente elevados, \nque alcanzan valores m√°ximos muy superiores al rango habitual del mercado. \nEstos precios extremos pueden deberse a alojamientos de caracter√≠sticas singulares, estrategias de fijaci√≥n de precios at√≠picas \no posibles errores en el registro de los datos.')

In [None]:

def analisis_disponibilidad(df):
    """
    Disponibilidad y comportamiento de la oferta
    - Distribuci√≥n de availability_365
    - Barrios con mayor disponibilidad media
    - Tipo de alojamiento con mayor disponibilidad
    - Relaci√≥n disponibilidad vs precio y vs demanda (rese√±as LTM)
    """
    
    print("\nDISPONIBILIDAD Y COMPORTAMIENTO DE LA OFERTA")
    print("=" * 55)

    # --- 1) Distribuci√≥n de la disponibilidad anual ---
    print("\n¬øC√≥mo se distribuye la disponibilidad anual de los alojamientos?")
    print("-" * 55)
    print(df['availability_365'].describe())

    plt.figure()
    df['availability_365'].plot(kind='hist', bins=30)
    plt.xlabel('Disponibilidad anual (d√≠as)')
    plt.ylabel('Frecuencia')
    plt.title('Distribuci√≥n de availability_365')
    plt.show()

    # --- 2) Barrios con mayor disponibilidad media ---
    print("\n¬øExisten barrios con mayor disponibilidad media?")
    print("-" * 55)
    disp_barrio = (df.groupby(['neighbourhood_group', 'neighbourhood'])['availability_365'].mean().sort_values(ascending=False))
    print(disp_barrio.head(15))

    # Barplot Top 15 barrios por disponibilidad media
    top_disp = disp_barrio.head(15).reset_index()
    top_disp.columns = ['neighbourhood_group', 'neighbourhood', 'availability_mean']

    plt.figure()
    plt.bar(top_disp['neighbourhood'], top_disp['availability_mean'])
    plt.xticks(rotation=90)
    plt.xlabel('Barrio')
    plt.ylabel('Disponibilidad media (d√≠as)')
    plt.title('Top 15 barrios con mayor disponibilidad media')
    plt.show()

    # --- 3) Tipo de alojamiento con mayor disponibilidad ---
    print("\n¬øQu√© tipo de alojamiento tiende a tener mayor disponibilidad?")
    print("-" * 55)
    disp_room = df.groupby('room_type')['availability_365'].mean().sort_values(ascending=False)
    print(disp_room)

    plt.figure()
    disp_room.plot(kind='bar')
    plt.xticks(rotation=0)
    plt.xlabel('Tipo de alojamiento')
    plt.ylabel('Disponibilidad media (d√≠as)')
    plt.title('Disponibilidad media por tipo de alojamiento')
    plt.show()

    # --- 4) Relaci√≥n con precio y demanda (rese√±as LTM si existe) ---
    print("\n¬øPuede la disponibilidad estar relacionada con el precio o la demanda?")
    print("-" * 55)

    cols = ['availability_365', 'price']
    if 'number_of_reviews_ltm' in df.columns:
        cols.append('number_of_reviews_ltm')
    elif 'number_of_reviews' in df.columns:
        cols.append('number_of_reviews')

    # Correlaci√≥n Spearman (robusta para no-linealidad)
    corr = df[cols].corr(method='spearman')
    print("\nCorrelaci√≥n (Spearman):")
    print(corr)

    # Scatter disponibilidad vs precio
    plt.figure()
    plt.scatter(df['availability_365'], df['price'], alpha=0.35)
    plt.xlabel('Disponibilidad anual (d√≠as)')
    plt.ylabel('Precio (‚Ç¨)')
    plt.title('Disponibilidad vs Precio')
    plt.show()

    # Scatter disponibilidad vs demanda (si hay columna)
    if 'number_of_reviews_ltm' in df.columns:
        demanda_col = 'number_of_reviews_ltm'
        plt.figure()
        plt.scatter(df['availability_365'], df[demanda_col], alpha=0.35)
        plt.xlabel('Disponibilidad anual (d√≠as)')
        plt.ylabel('Rese√±as (LTM)')
        plt.title('Disponibilidad vs Demanda (Rese√±as LTM)')
        plt.show()
    elif 'number_of_reviews' in df.columns:
        demanda_col = 'number_of_reviews'
        plt.figure()
        plt.scatter(df['availability_365'], df[demanda_col], alpha=0.35)
        plt.xlabel('Disponibilidad anual (d√≠as)')
        plt.ylabel('N√∫mero de rese√±as')
        plt.title('Disponibilidad vs Demanda (Rese√±as)')
        plt.show()

    print("\n________________________________")
