In [1]:
# ==============================
# 1️⃣ Instalar librerías necesarias
# ==============================
!pip install pandas matplotlib seaborn plotly openpyxl

# ==============================
# 2️⃣ Importar librerías
# ==============================
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# ==============================
# 3️⃣ Cargar el archivo
# ==============================
file_path = "/content/inmobiliaria_dirty.xlsx"  # ⚠️ Subir archivo a Colab antes de ejecutar
barrios_df = pd.read_excel(file_path, sheet_name="barrios")
usuarios_df = pd.read_excel(file_path, sheet_name="usuarios_inversionistas")
propiedades_df = pd.read_excel(file_path, sheet_name="propiedades")

# ==============================
# 4️⃣ Limpieza de datos
# ==============================

# --- Verificar nulos iniciales
print("🔍 Valores nulos por columna antes de limpiar:\n", propiedades_df.isnull().sum())

# --- Eliminar duplicados
propiedades_df = propiedades_df.drop_duplicates()

# --- Conversión de tipos
propiedades_df["fecha_publicacion"] = pd.to_datetime(
    propiedades_df["fecha_publicacion"], errors="coerce"
)

# --- Reemplazar nulos con el promedio (versión compatible con pandas 3+)
for col in ["precio_total", "area_m2"]:
    if col in propiedades_df.columns:
        propiedades_df[col] = propiedades_df[col].fillna(propiedades_df[col].mean())

# --- Detección y eliminación de outliers en precio usando IQR
q1 = propiedades_df["precio_total"].quantile(0.25)
q3 = propiedades_df["precio_total"].quantile(0.75)
iqr = q3 - q1
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

propiedades_df = propiedades_df[
    (propiedades_df["precio_total"] >= limite_inferior) &
    (propiedades_df["precio_total"] <= limite_superior)
]

# --- Verificar nulos después de imputar
print("\n🔎 Valores nulos por columna después de limpiar:\n", propiedades_df.isnull().sum())
print("\n✅ Datos limpios. Número de registros:", propiedades_df.shape[0])


🔍 Valores nulos por columna antes de limpiar:
 id_propiedad         0
tipo_propiedad       0
id_barrio            0
direccion            0
area_m2              0
precio_total         1
precio_m2            0
habitaciones         0
banos                0
parqueaderos         0
anio_construccion    0
estado_inmueble      0
estrato              0
disponibilidad       0
fecha_publicacion    0
agente               0
id_usuario           0
dtype: int64

🔎 Valores nulos por columna después de limpiar:
 id_propiedad         0
tipo_propiedad       0
id_barrio            0
direccion            0
area_m2              0
precio_total         0
precio_m2            0
habitaciones         0
banos                0
parqueaderos         0
anio_construccion    0
estado_inmueble      0
estrato              0
disponibilidad       0
fecha_publicacion    1
agente               0
id_usuario           0
dtype: int64

✅ Datos limpios. Número de registros: 199
