In [1]:
!pip install -qq pandas

# Objetivo 

Conocer el dataset, evaluar la calidad de los datos, analizar la distribución de variables, detectar patrones interesantes y formular hipótesis para guiar los siguientes pasos.

Insights:

* Muchas columnas tienen valores faltantes y la forma en cómo se van a imputar es llenándolas con la mediana de la colonia a la que pertenece el edificio. 
* Muchas columnas tienen outliers tambien, por lo que se les hará un tratamiento para normalizarlas o limitar sus rangos.

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("../data/raw/cuahutemoc_properties.csv")

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4513 entries, 0 to 4512
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   property_id           4513 non-null   object 
 1   listing_type          4513 non-null   object 
 2   property_type         4513 non-null   object 
 3   url_ad                4513 non-null   object 
 4   price                 4513 non-null   float64
 5   terrain_surface       396 non-null    float64
 6   construction_surface  4502 non-null   float64
 7   num_bathrooms         4436 non-null   float64
 8   num_parking_lots      3647 non-null   float64
 9   num_bedrooms          4422 non-null   float64
 10  built_year            3983 non-null   float64
 11  conservation_status   3841 non-null   float64
 12  latitude              4513 non-null   float64
 13  longitude             4513 non-null   float64
 14  id_neighborhood       4513 non-null   int64  
 15  neighborhood         

In [9]:
df.shape

(4513, 18)

In [5]:
df.head(5)

Unnamed: 0,property_id,listing_type,property_type,url_ad,price,terrain_surface,construction_surface,num_bathrooms,num_parking_lots,num_bedrooms,built_year,conservation_status,latitude,longitude,id_neighborhood,neighborhood,has_garden,has_gym
0,5ae456983ab717ec68e1ff2e0689c5d8,for-sale,apartment,https://rentahouse.com.mx/departamento_en_vent...,9348347.0,,96.0,2.0,,1.0,2024.0,0.98951,19.430419,-99.163761,11817,CUAUHTEMOC,1.0,
1,fff8db1482a59a1c9093f9ab3ac50ddf,for-sale,apartment,https://www.easybroker.com/mx/listings/departa...,16200000.0,,90.0,2.0,1.0,2.0,2025.0,0.981774,19.425804,-99.167429,11818,JUAREZ,,1.0
2,7f0478d4f668aaf45ed3511523746fce,for-sale,apartment,https://www.vivanuncios.com.mx/a-venta-departa...,5400000.0,,110.0,1.0,,2.0,1999.0,0.916711,19.426753,-99.161845,11818,JUAREZ,,
3,4a0034cf7bfdd9b610bcb4a2e5096cf0,for-sale,apartment,https://www.clau.com/propiedades/3pm-departame...,6700000.0,,79.0,2.0,0.0,2.0,2000.0,0.873144,19.422017,-99.164724,11819,ROMA NORTE,,
4,afdc70d7a521ba91cc026062653fe841,for-sale,apartment,https://degohouse.com.mx/apartamento-venta-non...,3778408.0,,67.0,2.0,1.0,2.0,2019.0,0.98856,19.432608,-99.133208,11800,CENTRO,,


In [11]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
price,4513.0,7142255.0,6278022.0,850000.0,3500000.0,5500000.0,8350000.0,85000000.0
terrain_surface,396.0,224.5202,144.7109,32.0,132.0,191.0,273.5,822.0
construction_surface,4502.0,112.1617,93.71629,25.0,60.0,86.0,128.0,1124.0
num_bathrooms,4436.0,1.749549,0.7977914,1.0,1.0,2.0,2.0,9.0
num_parking_lots,3647.0,1.298053,0.8381038,0.0,1.0,1.0,2.0,10.0
num_bedrooms,4422.0,2.085256,0.9508218,0.0,2.0,2.0,2.0,9.0
built_year,3983.0,2013.244,17.40734,1950.0,2009.0,2023.0,2025.0,2028.0
conservation_status,3841.0,0.8762451,0.1364496,0.248026,0.8357713,0.9385427,0.9704696,0.9924964
latitude,4513.0,19.42436,0.01467602,19.4,19.41242,19.4214,19.43443,19.46461
longitude,4513.0,-99.15953,0.01246362,-99.183556,-99.16855,-99.16163,-99.15367,-99.1231


Observations:

*  Precio: Hay una gran asimetría a la derecha (precios muy altos que elevan el promedio). El 75% de las propiedades valen menos de $8.35 millones, pero el valor máximo ($85M) sugiere la presencia de outliers (propiedades de lujo o muy comerciales).

* Terreno: Solo hay 396 registros (de 4513), es decir, muchos datos faltantes (~91% de los datos tienen terreno desconocido).

* Construcción: La mayoría de las propiedades parecen ser departamentos o casas medianas, pero el valor máximo es muy alto (posiblemente edificios).

* Muchas propiedades tienen pocos baños y cuartos → departamentos en zonas urbanas 

* La mayoría de las propiedades son nuevas o recientes. Hay propiedades desde 1950, pero la mediana sugiere que al menos la mitad son muy nuevas

In [12]:
df.describe(include='object')

Unnamed: 0,property_id,listing_type,property_type,url_ad,neighborhood
count,4513,4513,4513,4513,4513
unique,4513,1,2,4513,34
top,5ae456983ab717ec68e1ff2e0689c5d8,for-sale,apartment,https://rentahouse.com.mx/departamento_en_vent...,ROMA NORTE
freq,1,4513,4067,1,824


Observations: 

* Cada propiedad tiene un ID único, no hay duplicados

* Todas las propiedades son ventas (for-sale)

* Predominan los departamentos, con una minoría de casas u otro tipo de inmueble (446 unidades restantes ≈ 10%) → En línea con el insight anterior sobre construcciones pequeñas y urbanas.

* Cada propiedad tiene su URL única → Puedo usar esta columna para web scraping, análisis de imágenes, o inspección manual

* Hay 34 colonias, pero Roma Norte concentra el 18% de las propiedades. Otras colonias tendrán muchas menos propiedades por lo que puede causar desequilibrio en modelos o análisis de localización.



In [10]:
df.listing_type.unique()

array(['for-sale'], dtype=object)

In [7]:
df.property_type.unique()

array(['apartment', 'house'], dtype=object)

In [8]:
df.neighborhood.unique()

array(['CUAUHTEMOC', 'JUAREZ', 'ROMA NORTE', 'CENTRO', 'DOCTORES',
       'CONDESA', 'HIPODROMO', 'SAN RAFAEL', 'SANTA MARIA LA RIBERA',
       'SAN SIMON TOLNAHUAC', 'GUERRERO', 'PERALVILLO', 'MORELOS',
       'HIPODROMO DE LA CONDESA', 'VISTA ALEGRE', 'TABACALERA',
       'ROMA SUR', 'BUENOS AIRES', 'AMPL ASTURIAS',
       'UNIDAD HAB NONOALCO TLATELOLCO', 'ASTURIAS', 'ATLAMPA',
       'PAULINO NAVARRO', 'BUENAVISTA', 'ALGARIN',
       'CENTRO URBANO BENITO JUAREZ', 'VALLE GOMEZ', 'OBRERA',
       'ESPERANZA', 'TRANSITO', 'EX HIPODROMO DE PERALVILLO',
       'FELIPE PESCADOR', 'SANTA MARIA INSURGENTES', 'MAZA'], dtype=object)

### Conclusiones clave

1. Outliers en price (hasta 85M): normalizar o limitar el rango para evitar comparaciones distorsionadas.

2. Predominan departamentos (~90%): comparar propiedades del mismo tipo (property_type).

3. Colonias muy desbalanceadas: ROMA NORTE domina. Comparar solo dentro de la misma colonia o vecinas.

4. Recámaras, baños y estacionamientos están centrados en 2-2-1: estas variables son útiles para filtrar propiedades similares.

5. Año de construcción promedio reciente (~2013): usarlo para comparar propiedades de edad similar.

6. Muchos valores faltantes en terrain_surface y amenidades: priorizar construction_surface para comparabilidad.