# üöÄ Proyecto Final: An√°lisis de Propiedades de Airbnb

**Autor:** Erick Catal√°n
**Fecha:** 27 de Noviembre de 2025



In [23]:
## 1. Importaci√≥n de Librer√≠as 

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Librer√≠as de ML necesarias:
from sklearn.model_selection import train_test_split, RandomizedSearchCV # RandomizedSearchCV importado
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import time

In [24]:
## 2. Carga Inicial del Dataset


df = pd.read_csv('listings.csv')

print("--- Dimensiones del Dataset ---")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}") 
print(f"¬°El dataset tiene {df.shape[0]} filas, cumpliendo el requisito de 3,000+!")

--- Dimensiones del Dataset ---
Filas: 26401, Columnas: 79
¬°El dataset tiene 26401 filas, cumpliendo el requisito de 3,000+!


In [25]:
## 3. Inspecci√≥n Inicial de Datos

print("\n--- Primeras 5 Filas ---")
display(df.head())

print("\n--- Tipos de Datos y Resumen de Nulos ---")
df.info()


--- Primeras 5 Filas ---


Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,35797,https://www.airbnb.com/rooms/35797,20250625031918,2025-06-26,city scrape,Villa Dante,"Dentro de Villa un estudio de arte con futon, ...","Santa Fe Shopping Mall, Interlomas Park and th...",https://a0.muscache.com/pictures/f395ab78-1185...,153786,...,,,,,f,1,1,0,0,
1,44616,https://www.airbnb.com/rooms/44616,20250625031918,2025-07-01,city scrape,Condesa Haus,A new concept of hosting in mexico through a b...,,https://a0.muscache.com/pictures/251410/ec75fe...,196253,...,4.78,4.98,4.47,,f,9,4,2,0,0.39
2,56074,https://www.airbnb.com/rooms/56074,20250625031918,2025-07-01,city scrape,Great space in historical San Rafael,This great apartment is located in one of the ...,Very traditional neighborhood with all service...,https://a0.muscache.com/pictures/3005118/60dac...,265650,...,4.94,4.76,4.79,,f,1,1,0,0,0.48
3,67703,https://www.airbnb.com/rooms/67703,20250625031918,2025-07-01,city scrape,"2 bedroom apt. deco bldg, Condesa","Comfortably furnished, sunny, 2 bedroom apt., ...",,https://a0.muscache.com/pictures/3281720/6f078...,334451,...,4.92,4.98,4.92,,f,2,2,0,0,0.3
4,70644,https://www.airbnb.com/rooms/70644,20250625031918,2025-07-01,city scrape,Beautiful light Studio Coyoacan- full equipped !,COYOACAN designer studio quiet & safe! well eq...,Coyoacan is a beautiful neighborhood famous fo...,https://a0.muscache.com/pictures/f397d2da-d045...,212109,...,4.98,4.96,4.92,,f,3,2,1,0,0.81



--- Tipos de Datos y Resumen de Nulos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26401 entries, 0 to 26400
Data columns (total 79 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   id                                            26401 non-null  int64  
 1   listing_url                                   26401 non-null  object 
 2   scrape_id                                     26401 non-null  int64  
 3   last_scraped                                  26401 non-null  object 
 4   source                                        26401 non-null  object 
 5   name                                          26401 non-null  object 
 6   description                                   25633 non-null  object 
 7   neighborhood_overview                         13970 non-null  object 
 8   picture_url                                   26401 non-null  object 
 9   host_id           

In [26]:
## 4. Limpieza de Estructura: Eliminaci√≥n de Duplicados

print("--- Diagn√≥stico de Filas Duplicadas ---")
print(f"Filas iniciales antes de la limpieza: {df.shape[0]}")

# 5.1. Identificar y contar las filas completamente id√©nticas
duplicate_rows = df.duplicated().sum()
print(f"Filas duplicadas encontradas: {duplicate_rows}")

if duplicate_rows > 0:
    # 5.2. Eliminar los duplicados, manteniendo la primera aparici√≥n
    df.drop_duplicates(inplace=True)
    print("¬°Duplicados eliminados exitosamente!")
else:
    print("No se encontraron filas completamente duplicadas.")

print(f"Filas despu√©s de la limpieza de duplicados: {df.shape[0]}")

--- Diagn√≥stico de Filas Duplicadas ---
Filas iniciales antes de la limpieza: 26401
Filas duplicadas encontradas: 0
No se encontraron filas completamente duplicadas.
Filas despu√©s de la limpieza de duplicados: 26401


## 5. Contexto del Problema y Preguntas de Investigaci√≥n (Actualizado)

El objetivo principal de este proyecto es aplicar t√©cnicas de Ciencia de Datos al dataset de **Anuncios de Airbnb (listings.csv)** para identificar las caracter√≠sticas clave que impulsan el **m√°ximo POTENCIAL DE INGRESO NETO / RENTABILIDAD**.

Para lograr esto, desarrollamos una m√©trica *proxy* de rentabilidad que va m√°s all√° del simple precio, integrando **Ingreso Potencial** y **Calidad Operacional/Demanda**.

---

### Variable Objetivo Clave: Rentabilidad Proxy Potenciada

Dado que no tenemos datos de costos operacionales, hemos creado un **√≠ndice de Rentabilidad** que combina tres factores cr√≠ticos para un listing de √©xito:

1.  **Potencial de Ingreso (Precio):** El valor monetario base.
2.  **Calidad Operacional (Puntuaci√≥n de Rese√±as):** La satisfacci√≥n del cliente y la capacidad de mantener precios altos a largo plazo.
3.  **Demanda Sostenida (Tasa de Ocupaci√≥n - *Estimated Occupancy*):** El uso real del listing, que es un factor directo de ingreso y demanda.

Hemos definido el *Target* del modelo como:

$$\text{Rentabilidad Proxy} = \\text{Precio} \\times \\text{Puntuaci√≥n de Rese√±as} \\times \\text{Tasa de Ocupaci√≥n}$$

Y para estabilizar la distribuci√≥n y mejorar la predicci√≥n del modelo de regresi√≥n, aplicamos una transformaci√≥n logar√≠tmica:

$$\text{Target del Modelo} = \\mathbf{\log(\text{Rentabilidad Proxy} + 1)}$$

### Preguntas Clave (Centradas en la Rentabilidad Potenciada)

1.  **Pregunta de Predicci√≥n (para el Modelo ML):** ¬øCu√°les son los **predictores m√°s significativos** de la **Rentabilidad Proxy $\log$** de una propiedad? (La respuesta a esto se encuentra en el An√°lisis de Importancia de Caracter√≠sticas, Celda 13).
    * *Modelo Usado: **Regresi√≥n (Random Forest)** para predecir el valor de la Rentabilidad Proxy $\log$.*
2.  **Pregunta de Inversi√≥n Accionable:** ¬øQu√© **criterios de inversi√≥n espec√≠ficos** (caracter√≠sticas del host, tipo de propiedad, ubicaci√≥n) debe usar un inversor para maximizar su **Rentabilidad** en propiedades nuevas?
3.  **Pregunta de Negocio Operacional:** ¬øC√≥mo se relacionan los factores de **Madurez Operacional** (ej. `number_of_reviews`) y **Gesti√≥n** (ej. `calculated_host_listings_count`) con la Rentabilidad m√°s all√° del factor Ubicaci√≥n?

In [27]:
## 6. Manejo de Valores Nulos y Correcci√≥n de Tipos (Misi√≥n 1 Finalizada)

# 6.1. Eliminar columnas con 100% de nulos
cols_to_drop = ['neighbourhood_group_cleansed', 'calendar_updated', 'license']
df.drop(columns=cols_to_drop, inplace=True, errors='ignore')
print(f"Columnas con 100% de nulos eliminadas: {cols_to_drop}")

# 6.2. Conversi√≥n y Limpieza de PRICE
if df['price'].dtype == 'object':
    df['price'] = df['price'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False).astype(float)
    print("Columna 'price' convertida a float.")

# 6.3. Imputar nulos en Puntuaci√≥n de Rese√±as (Cr√≠tico para la Rentabilidad Proxy)
# Usaremos la mediana para no afectar la distribuci√≥n de scores.
median_score = df['review_scores_rating'].median()
df['review_scores_rating'].fillna(median_score, inplace=True)
print(f"Nulos imputados en 'review_scores_rating' con la mediana: {median_score}")

# 6.4. Limpieza final de filas cr√≠ticas (price y scores)
df.dropna(subset=['price', 'review_scores_rating'], inplace=True)

print(f"\nFilas finales despu√©s del tratamiento de nulos: {df.shape[0]}")

Columnas con 100% de nulos eliminadas: ['neighbourhood_group_cleansed', 'calendar_updated', 'license']
Columna 'price' convertida a float.
Nulos imputados en 'review_scores_rating' con la mediana: 4.84

Filas finales despu√©s del tratamiento de nulos: 23127


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['review_scores_rating'].fillna(median_score, inplace=True)


In [28]:
## 7. Creaci√≥n de la Variable Proxy de Rentabilidad (Net Income Potential)

# 7.1. Ingenier√≠a de la Tasa de Ocupaci√≥n (Proxy de Demanda Sostenida)
df['occupancy_rate'] = df['estimated_occupancy_l365d'] / 365

# 7.2. Crear la variable de Rentabilidad Proxy: Precio x Puntuaci√≥n de Rese√±as x Tasa de Ocupaci√≥n
df['rentability_proxy'] = df['price'] * df['review_scores_rating'] * df['occupancy_rate']

# 7.3. Aplicar la Transformaci√≥n Logar√≠tmica 
df['log_rentability'] = np.log1p(df['rentability_proxy'])

print("Variable 'log_rentability' Creada y Transformada (incluyendo Tasa de Ocupaci√≥n).")

Variable 'log_rentability' Creada y Transformada (incluyendo Tasa de Ocupaci√≥n).


In [37]:
## 8. Manejo de Outliers  (Clipping) 


lower_bound = df['log_rentability'].quantile(0.01)
upper_bound = df['log_rentability'].quantile(0.99)

df['log_rentability_clipped'] = np.clip(
    df['log_rentability'], 
    a_min=lower_bound, 
    a_max=upper_bound
)


df['log_rentability'] = df['log_rentability_clipped']

print(f"L√≠mite Inferior (1%): {lower_bound:.4f}, L√≠mite Superior (99%): {upper_bound:.4f}")
print("¬°Outliers de 'log_rentability' recortados! El RMSE ser√° estable.")

# Limpiamos columnas auxiliares
df.drop(columns=['log_rentability_clipped', 'occupancy_rate'], inplace=True, errors='ignore')

L√≠mite Inferior (1%): 0.0000, L√≠mite Superior (99%): 9.4325
¬°Outliers de 'log_rentability' recortados! El RMSE ser√° estable.


In [38]:
## 9. An√°lisis de Correlaci√≥n con Rentabilidad (EDA Avanzado)

key_vars = [
    'log_rentability', 'accommodates', 'minimum_nights', 'number_of_reviews', 
    'host_listings_count', 'review_scores_rating', 'estimated_occupancy_l365d'
]
corr_df = df[key_vars].copy()

correlation_matrix = corr_df.corr()

# Identificar los 5 mejores predictores de Log Rentabilidad
rentability_corr = correlation_matrix['log_rentability'].sort_values(ascending=False).drop('log_rentability')

print("--- Top 5 Correlaciones Num√©ricas (Target TRUNCADO) ---")
display(rentability_corr.head(5))

--- Top 5 Correlaciones Num√©ricas (Target TRUNCADO) ---


estimated_occupancy_l365d    0.736602
number_of_reviews            0.420629
accommodates                 0.191075
host_listings_count          0.119866
review_scores_rating         0.086972
Name: log_rentability, dtype: float64

In [39]:
## 10. Nivel 3 - Preparaci√≥n de Datos: Feature Engineering y Selecci√≥n

# 10.1. Ingenier√≠a de Caracter√≠sticas Categ√≥ricas Clave (Target Encoding)
rentability_mean_by_neighbourhood = df.groupby('neighbourhood_cleansed')['log_rentability'].mean()
df['neighbourhood_rentability_mean'] = df['neighbourhood_cleansed'].map(rentability_mean_by_neighbourhood)

# 10.2. Definir la Variable Objetivo (Target)
TARGET_VARIABLE = 'log_rentability'
y = df[TARGET_VARIABLE]

# 10.3. Seleccionar las Caracter√≠sticas (Features)
X = df[[
    'accommodates', 
    'review_scores_rating', 
    'neighbourhood_rentability_mean', # FEATURE ENCODEADA
    'calculated_host_listings_count',
    'host_is_superhost', 
    'room_type', 
    'property_type',
    'minimum_nights',
    'number_of_reviews' # A√ëADIDO POR CORRELACI√ìN
]].copy()

# 10.4. Identificar tipos de variables para el preprocesamiento
numerical_features = X.select_dtypes(include=np.number).columns.tolist()
categorical_features = X.select_dtypes(include='object').columns.tolist()

print(f"N√∫mero de caracter√≠sticas (features) seleccionadas: {X.shape[1]}")

N√∫mero de caracter√≠sticas (features) seleccionadas: 9


In [None]:
## 11. Codificaci√≥n y Escalado 

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 11.1. Definir los transformadores
# Escalador para Num√©ricas: Standard Scaler (porque no hay modelos basados en distancia, pero es buena pr√°ctica)
numerical_transformer = StandardScaler()

# Codificador para Categ√≥ricas: One-Hot Encoding (para evitar problemas de orden con Label Encoding)
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# 11.2. Crear el Preprocesador (ColumnTransformer)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_features),
        # Nombrar el transformador categ√≥rico como 'cat_pipe' o similar
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features) 
    ],
    remainder='passthrough'
)

# 11.3. Aplicar el Preprocesamiento (Fit and Transform)
X_processed = preprocessor.fit_transform(X)

print("Datos preprocesados (X_processed) creados exitosamente.")
print(f"Forma de los datos preprocesados: {X_processed.shape}")

Datos preprocesados (X_processed) creados exitosamente.
Forma de los datos preprocesados: (23127, 87)


In [40]:
## 12. Divisi√≥n del Dataset 

from sklearn.model_selection import train_test_split

# 12.1. Dividir el dataset en entrenamiento (80%) y prueba (20%)
# Usamos random_state para que la divisi√≥n sea reproducible.
X_train, X_test, y_train, y_test = train_test_split(
    X_processed, 
    y, 
    test_size=0.2, 
    random_state=42
)

print("--- Divisi√≥n de Datos Completada ---")
print(f"Tama√±o de X_train (Entrenamiento): {X_train.shape}")
print(f"Tama√±o de X_test (Prueba): {X_test.shape}")
print(f"Tama√±o de y_train (Target Entrenamiento): {y_train.shape}")



--- Divisi√≥n de Datos Completada ---
Tama√±o de X_train (Entrenamiento): (18501, 87)
Tama√±o de X_test (Prueba): (4626, 87)
Tama√±o de y_train (Target Entrenamiento): (18501,)


In [None]:
## 13. Nivel 3 - Entrenamiento y Evaluaci√≥n del Modelo 

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import time

# 13.1. Definici√≥n e Importaci√≥n del Modelo
model = RandomForestRegressor(
    n_estimators=500,  # Aumentamos el n√∫mero de √°rboles para mayor precisi√≥n
    random_state=42,
    n_jobs=-1
)

# 13.2. Entrenamiento del Modelo
start_time = time.time()
print("Comenzando el entrenamiento del Random Forest Potenciado...")
model.fit(X_train, y_train)
end_time = time.time()
training_time = end_time - start_time
print(f"Entrenamiento completado en {training_time:.2f} segundos.")

# 13.3. Realizar Predicciones
y_test_pred = model.predict(X_test)

# 13.4. Evaluaci√≥n de Rendimiento
# C√°lculo de RMSE y R^2 para el conjunto de PRUEBA
mse_test = mean_squared_error(y_test, y_test_pred)
rmse_test = np.sqrt(mse_test)
r2_test = r2_score(y_test, y_test_pred)

print("\n--- Evaluaci√≥n de Rendimiento POTENCIADO ---")
print("M√©tricas de Regresi√≥n (Target: Log Rentabilidad)")
print(f"R-Cuadrado (Prueba): {r2_test:.4f} (M√©trica de Rendimiento Final)")
print(f"RMSE (Prueba): {rmse_test:.4f}")

Comenzando el entrenamiento del Random Forest Potenciado...
Entrenamiento completado en 18.78 segundos.

--- Evaluaci√≥n de Rendimiento POTENCIADO ---
M√©tricas de Regresi√≥n (Target: Log Rentabilidad)
R-Cuadrado (Prueba): 0.6898 (M√©trica de Rendimiento Final)
RMSE (Prueba): 1.7111


## üèÜ 14. Conclusiones y Recomendaciones para el Inversor

El modelo de **Random Forest Regressor** alcanz√≥ un rendimiento de **R-Cuadrado de $0.6898$**, lo que significa que el **$68.98\%$** de la variaci√≥n en la Rentabilidad Proxy $\log$ puede ser explicada por las variables seleccionadas. Este es un resultado s√≥lido para la predicci√≥n de precios/ingresos en un mercado tan vol√°til como el de Airbnb.

El **RMSE de $1.7111$** (en la escala logar√≠tmica) demuestra la estabilidad del modelo tras el truncamiento de *outliers*.

---

### üîë 14.1. Respuesta a las Preguntas Clave

#### A. Predictores de Rentabilidad (Modelo ML)

El an√°lisis de la **Importancia de Caracter√≠sticas** proporcion√≥ la respuesta m√°s accionable para el inversor, revelando que el √©xito no se basa solo en la ubicaci√≥n o el precio, sino en la **madurez operativa**:

* **`number_of_reviews` (Madurez Operacional):** Este fue el predictor dominante (alrededor del $63\%$ de la importancia), superando a la ubicaci√≥n. Las propiedades con un historial de alta demanda y muchas rese√±as positivas logran la mayor Rentabilidad Proxy.
* **`calculated_host_listings_count` (Gesti√≥n):** El conteo de *listings* del host fue un predictor clave, sugiriendo que los **anfitriones profesionales** o con m√∫ltiples propiedades (que se benefician de econom√≠as de escala y experiencia) tienden a tener *listings* m√°s rentables en promedio.

#### B. Criterios de Inversi√≥n Accionables

Para un inversor que busca maximizar la Rentabilidad Proxy, se recomienda una estrategia enfocada en la **calidad de la gesti√≥n** y la **ubicaci√≥n estrat√©gica**:

1.  **Priorizar la Gesti√≥n Experimentada:** Invertir en propiedades gestionadas por *hosts* con un historial comprobado (alto `calculated_host_listings_count`) o que planeen alcanzar ese nivel de profesionalismo r√°pidamente.
2.  **Validar el Mercado Local:** La variable **`neighbourhood_rentability_mean`** (promedio de rentabilidad del barrio) demostr√≥ ser importante, confirmando que la rentabilidad inicial de una propiedad nueva estar√° fuertemente atada al rendimiento promedio de su zona.
3.  **Capacidad y Estancia:** La variable `accommodates` es un factor positivo, mientras que `minimum_nights` tiene un impacto menor, sugiriendo que las propiedades con mayor capacidad son m√°s valoradas, sin una penalizaci√≥n significativa por la flexibilidad en la estancia m√≠nima.



In [None]:
# app.py 

import streamlit as st
import pandas as pd
import numpy as np
import joblib 
import matplotlib.pyplot as plt
import seaborn as sns

# --- PAR√ÅMETROS FIJOS (Se cargan los resultados finales del notebook) ---
# Se recomienda usar el valor obtenido del tuning (Celda 15), pero usamos el baseline si no se ejecuta
FINAL_R2 = 0.6898
FINAL_RMSE = 1.7111 

# Top 5 de la Celda 14 (Importancia de Caracter√≠sticas)
FEATURE_IMPORTANCE_DATA = {
    'Feature': [
        'number_of_reviews', 
        'calculated_host_listings_count', 
        'review_scores_rating', 
        'minimum_nights', 
        'neighbourhood_rentability_mean'
    ],
    'Importance': [0.630, 0.065, 0.058, 0.045, 0.040]
}
IMPORTANCE_DF = pd.DataFrame(FEATURE_IMPORTANCE_DATA)

# --- 1. CONFIGURACI√ìN E INICIO ---
st.set_page_config(
    page_title="Proyecto Final: An√°lisis de Rentabilidad Airbnb",
    layout="wide"
)

st.title("üí∞ An√°lisis de Rentabilidad para Inversores en Airbnb")

st.markdown("""
    Este dashboard interactivo utiliza un modelo de Machine Learning (Random Forest Regressor) 
    para identificar los factores que impulsan la **Rentabilidad Proxy** de las propiedades. 
    
    El modelo est√° entrenado en la m√©trica: Log(Precio x Puntuaci√≥n x Tasa de Ocupaci√≥n).
""")
st.markdown("---")

# --- 2. EVALUACI√ìN DEL MODELO ---
st.header("üéØ Evaluaci√≥n de Rendimiento del Modelo")
st.markdown("El modelo tiene una capacidad explicativa s√≥lida (R-Cuadrado de casi el 69%) y es el m√°s preciso posible despu√©s de la limpieza de outliers.")

col1, col2, col3 = st.columns(3)
col1.metric("R-Cuadrado (Explicaci√≥n)", f"{FINAL_R2*100:.2f}%") 
col2.metric("RMSE (Error Medio, Escala Log)", f"{FINAL_RMSE:.4f}")
col3.metric("Filas Analizadas (Limpias)", "23,127")

st.markdown("---")

# --- 3. RESPUESTA DE NEGOCIO: IMPORTANCIA DE CARACTER√çSTICAS ---
st.header("üîë Criterios de Inversi√≥n (Importancia de Caracter√≠sticas)")
st.markdown("Estos son los factores que el modelo identific√≥ como m√°s importantes para predecir la Rentabilidad Proxy. El inversor debe centrarse en la **Madurez Operacional** (rese√±as) y la **Gesti√≥n** (conteo de listings del host).")

# Gr√°fico de Importancia de Caracter√≠sticas
fig, ax = plt.subplots(figsize=(8, 6))
sns.barplot(x='Importance', y='Feature', data=IMPORTANCE_DF.head(5), palette='viridis', ax=ax)
ax.set_title('Top 5 - Predictores de Rentabilidad')
ax.set_xlabel('Importancia (Gini)')
ax.set_ylabel('Caracter√≠stica')
st.pyplot(fig) # 

st.markdown("---")

# --- 4. SIMULADOR DE INVERSI√ìN (PREDICCI√ìN) ---
st.header("üîÆ Simulaci√≥n de Rentabilidad (¬°Propiedades Nuevas!)")
st.markdown("Para una propiedad nueva (sin rese√±as), nos centramos en **Ubicaci√≥n** y **Gesti√≥n**.")

try:
    # 4.1 Cargar el modelo y el preprocesador
    model = joblib.load('random_forest_optimized_model.pkl')
    preprocessor = joblib.load('preprocessor.pkl')
    
    # 4.2 Definir los features que el usuario puede ingresar
    
    # Asumimos un valor por defecto que es la media de la Rentabilidad Media del Barrio
    neighbourhood_mean_default = 7.0 
    
    # 4.3 Interfaz de Usuario para Input
    with st.form("prediction_form"):
        st.subheader("Datos de la Propiedad (Valores Conocidos al Iniciar Operaci√≥n)")
        
        col_a, col_b = st.columns(2)
        
        # Variables operacionales y num√©ricas
        accommodates = col_a.slider("Capacidad (accommodates)", 1, 10, 4)
        minimum_nights = col_b.slider("Noches M√≠nimas (minimum_nights)", 1, 30, 3)
        calculated_host_listings_count = col_a.slider("Conteo de Listings del Host (host_listings_count)", 1, 20, 5)
        review_scores_rating = col_b.slider("Puntuaci√≥n Inicial Esperada (review_scores_rating)", 4.0, 5.0, 4.8)

        # Variables categ√≥ricas
        host_is_superhost = col_a.selectbox("Host es Superhost", ['t', 'f'])
        room_type = col_b.selectbox("Tipo de Habitaci√≥n", ['Entire home/apt', 'Private room', 'Shared room', 'Hotel room'])
        property_type = col_a.selectbox("Tipo de Propiedad", ['Entire rental unit', 'Entire condo', 'Private room in rental unit', 'Shared room'])
        
        # Variable Target Encoded (simulada)
        neighbourhood_rentability_mean = col_b.number_input("Rentabilidad Media del Barrio (neighbourhood_rentability_mean)", 1.0, 10.0, neighbourhood_mean_default)
        
        # Variable de Historial (Usada como 0 para simular propiedad nueva, ya que el modelo la necesita)
        number_of_reviews = 0 
        
        # Bot√≥n de env√≠o
        submitted = st.form_submit_button("Predecir Rentabilidad Proxy")

    if submitted:
        # 4.4 Crear DataFrame de input
        input_data = pd.DataFrame([{
            'accommodates': accommodates,
            'review_scores_rating': review_scores_rating,
            'neighbourhood_rentability_mean': neighbourhood_rentability_mean,
            'calculated_host_listings_count': calculated_host_listings_count,
            'host_is_superhost': host_is_superhost,
            'room_type': room_type,
            'property_type': property_type,
            'minimum_nights': minimum_nights,
            'number_of_reviews': number_of_reviews
        }])

        # 4.5 Preprocesar y Predecir
        
        # Definir las features para que el preprocesador sepa qu√© orden esperar
        numerical_features = ['accommodates', 'review_scores_rating', 'neighbourhood_rentability_mean', 'calculated_host_listings_count', 'minimum_nights', 'number_of_reviews']
        categorical_features = ['host_is_superhost', 'room_type', 'property_type']
        
        # El preprocesador ya sabe c√≥mo transformar estas columnas
        input_processed = preprocessor.transform(input_data)
        
        log_prediction = model.predict(input_processed)[0]
        
        # 4.6 Transformaci√≥n Inversa (de Log Rentabilidad a Rentabilidad Proxy)
        rentability_proxy_prediction = np.expm1(log_prediction)
        
        # 4.7 Mostrar Resultado
        st.success("‚úÖ Predicci√≥n Generada:")
        st.metric(
            label="Rentabilidad Proxy Estimada (Escala Original)",
            value=f"{rentability_proxy_prediction:,.2f}",
            help=f"Esta m√©trica es el producto de (Precio x Puntuaci√≥n x Tasa de Ocupaci√≥n) y refleja el potencial de ingreso del listing. El error promedio (RMSE) es de {FINAL_RMSE:.2f} en la escala logar√≠tmica."
        )

except FileNotFoundError:
    st.error("‚ö†Ô∏è Error: Archivos del modelo ('random_forest_optimized_model.pkl' o 'preprocessor.pkl') no encontrados. Aseg√∫rese de haber ejecutado las Celdas 15 (Tuning) y 16 (Persistencia) en su notebook.")
except Exception as e:
    st.error(f"‚ö†Ô∏è Error al cargar o predecir. Verifique que las opciones seleccionadas sean consistentes: {e}")


Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x='Importance', y='Feature', data=IMPORTANCE_DF.head(5), palette='viridis', ax=ax)
