# <span style="color:mediumvioletred"> **Informe Final**</span>
### **Proyecto de Ciencia de Datos**
- Aissa Berenice Gonzalez Fosado 752224
- Clara Paola Aguilar Casillas
- Daniela de la Torre Gallo


<img src="https://oci02.img.iteso.mx/Identidades-De-Instancia/ITESO/Logos%20ITESO/Logo-ITESO-Principal-Gris.png"  width="300">

## Contenido
1. **Introducción**
2. **Antecedentes**
3. **Objetivos** (general y específicos)
4. **Planteamiento del problema**
5. **EDA — resumen narrativo**
   - Hallazgos clave, gráficas seleccionadas, riesgos detectados.
   - Referencia al cuaderno `01_eda_inicial.ipynb`.
6. **Data Wrangling — resumen narrativo**
   - Reglas de limpieza aplicadas, ejemplos antes/después.
   - Referencia al cuaderno `02_data_wrangling.ipynb`.
7. **Conclusiones parciales y próximos pasos**
8. **Referencias**

## **Introducción**
El análisis de datos en el mercado inmobiliario de alquiler es fundamental en la industria de bienes raíces, ya que influye en las decisiones de arrendadores, inquilinos, inversores y autoridades urbanas.

El conjunto de datos “Apartment for Rent Classified” proviene del repositorio UCI Machine Learning y contiene anuncios clasificados de apartamentos en alquiler en Estados Unidos, con atributos como precio, área (pies cuadrados), amenidades (p. ej., internet, piscina) y ubicación geográfica.

Consta de 10.000 registros y 22 columnas, admitiendo tareas de clasificación, regresión y agrupamiento

Estas son las variables:

| Campo          | Descripción                                                                                                        |
| -------------- | ------------------------------------------------------------------------------------------------------------------ |
| d              | identificador único del apartamento                                                                                |
| category       | categoría del anuncio                                                                                              |
| title          | título del apartamento                                                                                             |
| body           | descripción del apartamento                                                                                        |
| amenities      | comodidades (ej. aire acondicionado, cancha de básquetbol, cable, gimnasio, internet, alberca, refrigerador, etc.) |
| bathrooms      | número de baños                                                                                                    |
| bedrooms       | número de recámaras                                                                                                |
| currency       | moneda del precio                                                                                                  |
| fee            | cuota / comisión                                                                                                   |
| has\_photo     | indica si el apartamento tiene foto                                                                                |
| pets\_allowed  | qué mascotas están permitidas (perros, gatos, etc.)                                                                |
| price          | precio de renta del apartamento                                                                                    |
| price\_display | precio convertido en un formato para mostrar al lector                                                             |
| price\_type    | precio en USD                                                                                                      |
| square\_feet   | tamaño del apartamento (en pies cuadrados)                                                                         |
| address        | dirección del apartamento                                                                                          |
| cityname       | ciudad donde se ubica el apartamento                                                                               |
| state          | estado donde se ubica el apartamento                                                                               |
| latitude       | latitud donde se ubica el apartamento                                                                              |
| longitude      | longitud donde se ubica el apartamento                                                                             |
| source         | origen del anuncio                                                                                                 |
| time           | fecha de creación del anuncio                                                                                      |


## **Antecedentes**

**Cao et al. (2023)**: Construyeron un dataset de ~140,000 anuncios de alquiler de Pekín y aplicaron modelos de ML (KNN, Random Forest, XGBoost) para predecir el precio. Encontraron que Random Forest obtuvo el mejor desempeño en las métricas evaluadas

**Chan (2024)**: Comparó XGBoost, LightGBM, Random Forest y ensamblajes (stacked generalization) para predecir precios de renta en California y Texas. Logró que un modelo ensamblado obtuvo R²≈0.8858 en California, mientras que Random Forest rindió mejor en Texas (R²≈0.7992)

Nuestro enfoque incorporará estas buenas prácticas (comparar múltiples algoritmos y realizar limpieza exhaustiva) e investigaremos el mejor modelo para trabajar.


## Objetivos
Objetivo general: Desarrollar y evaluar modelos de aprendizaje automático para predecir el precio de alquiler de apartamentos usando el dataset “Apartment for Rent Classified”, cuantificando el desempeño con métricas estándar.
Objetivos específicos:
Evaluar la calidad y estructura del dataset (tipos de variables, valores faltantes, duplicados) mediante análisis exploratorio.
Proponer y aplicar procedimientos de limpieza y transformación de datos, incluyendo conversión de formatos (p. ej. eliminar símbolos de moneda en price) y extracción de atributos relevantes (codificación de amenities, creación de regiones geográficas).
Realizar un análisis exploratorio descriptivo de variables clave (distribuciones de precios, correlaciones entre price y atributos, segmentación espacial) para identificar patrones iniciales.
Entrenar y comparar modelos básicos de ML (por ejemplo: regresión lineal, regresión de árbol, Random Forest, XGBoost) para predecir el precio de alquiler (y opcionalmente clasificar atributos categóricos), estableciendo métricas base de desempeño (R², RMSE, precisión, etc.).

## **Planteamiento del problema**

Pregunta de negocio: predecir el precio de alquiler de un apartamento usando atributos del anuncio (ubicación, tamaño, recámaras/baños, amenidades, etc.) y, de forma complementaria, clasificar anuncios (ej. rango de precios o tipo de pago).

Variables clave: entradas como bedrooms, bathrooms, square_feet, amenities, cityname, state, pets_allowed; variable objetivo principal: price (USD). Tareas adicionales: clasificación con price_type o pets_allowed.

Impacto esperado: facilitar precios justos, ayudar a inquilinos y dueños en la toma de decisiones, y aportar insights sobre tendencias de mercado y asequibilidad.

Sesgo de muestreo: los datos provienen de anuncios en portales específicos, por lo que pueden no reflejar todo el mercado (ejemplo: ausencia de zonas rurales o precios atípicos).

Variables textuales complejas: atributos como amenities, title o body contienen muchos valores posibles, lo que dificulta su codificación sin pérdida de información.

Data leakage: se deben excluir variables redundantes, como price_display (derivada directamente de price), para evitar filtrar la respuesta.

Distribuciones sesgadas: es probable encontrar outliers de precio asociados a ciertas zonas o amenidades, lo que requerirá normalización o modelos robustos.

Limitaciones temporales: aunque existe la variable de fecha de publicación, en esta etapa no se abordarán dinámicas temporales avanzadas (forecasting).

Calidad de datos: pese a que no hay valores faltantes, pueden presentarse inconsistencias de formato (ejemplo: símbolos o comas en los precios) que requerirán limpieza.


##  **Data Wrangling**
- Reglas aplicadas por tema: nulos, duplicados, outliers, casting/encoding, reglas de negocio.
- Mini-evidencias **antes/después** (tabla/figura).
- Estado del dataset limpio (ruta en `data/processed/` y esquema final).

## **EDA**
- Qué se exploró y por qué (criterio).
- Hallazgos principales (distribuciones, nulos, duplicados, rangos, outliers).
- 1–2 visualizaciones representativas (pegadas en el informe).
- Riesgos y decisiones tempranas derivadas del EDA.

## 7) Conclusiones parciales y próximos pasos
- Qué quedó listo en esta entrega.
- Limitaciones vigentes.
- Roadmap inmediato (feature engineering, particiones, métricas objetivo, baselines).


## 8) Referencias
- Lista estandarizada (papers, blogs técnicos, documentación oficial).