## 🏗️ Ingeniería de Características: Selección de Variables Predictoras para el Precio de las Casas


<small>

##### Disclaimer: No se creó un dataser de test basado en el CSV de train, debido a que la fuente donde se nos proporcionaron los datos ya se encontraba un CSV para test específicamente, entonces al consultar con el catedrático se nos dijo que podíamos utilizar ambos dataset de train.csv y test.csv para utilizarlos en el Proyecto 2, únicamente tendríamos que aclarar que esa fue la convención que usamos para los datasets para entrenar y testear los modelos, el cuál es el propósito de este disclaimer.

</small>


<small>

## 1️⃣ Objetivo

El objetivo de la ingeniería de características es seleccionar aquellas variables que tienen mayor **influencia directa** sobre el precio de una vivienda (SalePrice). Al seleccionar correctamente las variables, el modelo predictivo será más eficiente, robusto y explicativo.

</small>


<small>

## 2️⃣ Análisis inicial de las variables disponibles

El dataset original de **House Prices: Advanced Regression Techniques** contenía 81 variables. Estas incluyen:

- Características físicas (tamaño del lote, área de construcción, número de habitaciones)
- Calidad y condición (OverallQual, OverallCond)
- Antigüedad (YearBuilt, YearRemodAdd)
- Amenidades (chimeneas, decks, piscinas)
- Aspectos temporales (mes y año de venta)

<small>


<small>

## 3️⃣ Variables seleccionadas como mejores predictoras

### 🔥 Variables clave seleccionadas

| Variable         | Justificación                                                                                  |
| ---------------- | ---------------------------------------------------------------------------------------------- |
| **OverallQual**  | Refleja la **calidad general** de la construcción y es altamente correlacionada con el precio. |
| **GrLivArea**    | Área habitable sobre el suelo (metros cuadrados), fuerte relación con el precio.               |
| **GarageCars**   | Número de espacios de garaje, muy relevante en zonas suburbanas.                               |
| **TotalBsmtSF**  | Superficie total del sótano, indicador clave de espacio útil adicional.                        |
| **FullBath**     | Número de baños completos, importante en la percepción de comodidad y valor.                   |
| **YearBuilt**    | Año de construcción, captura el impacto de la antigüedad de la vivienda.                       |
| **Neighborhood** | Ubicación, un factor determinante en el valor de las propiedades.                              |
| **LotFrontage**  | Ancho frontal del lote, influye en el valor según el atractivo externo y tamaño del terreno.   |
| **KitchenAbvGr** | Calidad de la cocina, muy relevante para compradores potenciales.                              |
| **Fireplaces**   | Presencia de chimenea, un atributo asociado a mayor confort y lujo.                            |

</small>


---
<small>

## 📋 Variables clave y su justificación

### 📊 OverallQual
- **Correlación con SalePrice**: 0.79 (muy alta).
- **Carga en PCA**: Aparece como una de las variables con mayor carga en **PC1**.
- **Importancia de negocio**: La **calidad general de la construcción** es un factor crítico en la tasación inmobiliaria.
- **Respaldo teórico**: En estudios académicos sobre regresión inmobiliaria, OverallQual es consistentemente una de las variables más relevantes.
✅ Selección evidente como predictor clave.

---

### 📊 GrLivArea

- **Correlación con SalePrice**: 0.71 (alta).
- **Carga en PCA**: Destaca también en **PC1**.
- **Importancia de negocio**: El **área habitable total** es uno de los factores de precio más directos en el sector inmobiliario.
- **Respaldo teórico**: Estudios previos sobre precios de vivienda casi siempre colocan GrLivArea como uno de los top predictivos.
  ✅ Seleccionada por fuerte relación tamaño-precio.

---

### 📊 GarageCars

- **Correlación con SalePrice**: 0.64 (alta).
- **Carga en PCA**: Aparece con alta carga en **PC1**.
- **Importancia de negocio**: La **capacidad del garaje** es un valor agregado importante en propiedades residenciales.
- **Respaldo teórico**: En datasets inmobiliarios, la presencia de garaje es predictor fuerte especialmente en viviendas suburbanas.
  ✅ Elegida por su relevancia funcional y valor percibido.

---

### 📊 TotalBsmtSF

- **Correlación con SalePrice**: 0.61 (alta).
- **Carga en PCA**: Sobresale en **PC1**.
- **Importancia de negocio**: **El área total del sótano** agrega espacio habitable y funcional, afectando directamente el valor.
- **Respaldo teórico**: Considerada en múltiples modelos inmobiliarios históricos.
  ✅ Incluida por representar espacio útil adicional.

---

### 📊 1stFlrSF

- **Correlación con SalePrice**: 0.61.
- **Carga en PCA**: Alta carga en **PC1**.
- **Importancia de negocio**: El área del **primer nivel** es esencial para estimar valor, ya que es la parte más accesible.
- **Respaldo teórico**: Variable común en modelos de precios residenciales.
  ✅ Elegida por ser una métrica de tamaño clave.

---

### 📊 FullBath

- **Correlación con SalePrice**: 0.56.
- **Carga en PCA**: Aparece en **PC1**.
- **Importancia de negocio**: El **número de baños completos** es un fuerte determinante del valor, especialmente para familias.
- **Respaldo teórico**: En literatura es una de las variables funcionales más usadas.
  ✅ Seleccionada por fuerte vínculo con comodidad y funcionalidad.

---

### 📊 YearBuilt

- **Correlación con SalePrice**: 0.52.
- **Carga en PCA**: Destaca en **PC1** y **PC4**.
- **Importancia de negocio**: El **año de construcción** refleja modernidad y nivel de mantenimiento requerido.
- **Respaldo teórico**: Variable estructural clave en modelos históricos.
  ✅ Incluida por su peso temporal y relación con calidad constructiva.

---

### 📊 KitchenAbvGr

- **Correlación con SalePrice**: 0.51.
- **Carga en PCA**: Aparece en **PC2** y **PC7**.
- **Importancia de negocio**: La calidad de la cocina es un **factor crítico para compradores**, ya que es una de las áreas más valoradas.
- **Respaldo teórico**: En bienes raíces, cocinas modernas y bien equipadas son atractivos clave.
  ✅ Selección clave por impacto directo en la percepción de valor.

---

### 📊 TotRmsAbvGrd

- **Correlación con SalePrice**: 0.50.
- **Carga en PCA**: Destaca en **PC1** y **PC2**.
- **Importancia de negocio**: El **número total de habitaciones** es un reflejo directo del tamaño funcional.
- **Respaldo teórico**: Presente en casi todos los modelos inmobiliarios.
  ✅ Elegida por representar la funcionalidad y capacidad familiar de la vivienda.

---

### 📊 Fireplaces

- **Correlación con SalePrice**: 0.48.
- **Carga en PCA**: Aparece en **PC1** y **PC6**.
- **Importancia de negocio**: Las chimeneas agregan **valor estético y funcional**, siendo un diferenciador clave en climas fríos.
- **Respaldo teórico**: Valor agregado premium comúnmente identificado en propiedades de gama alta.
  ✅ Incluida por ser un atractivo adicional valorizable.

---

## En forma de tabla:

| Variable     | Correlación con SalePrice | Presencia en PCA | Importancia de negocio            | Respaldo teórico |
| ------------ | ------------------------- | ---------------- | --------------------------------- | ---------------- |
| OverallQual  | 0.79                      | PC1              | Calidad general                   | Alta             |
| GrLivArea    | 0.71                      | PC1              | Tamaño habitable                  | Alta             |
| GarageCars   | 0.64                      | PC1              | Espacio de estacionamiento        | Alta             |
| TotalBsmtSF  | 0.61                      | PC1              | Espacio utilizable adicional      | Alta             |
| 1stFlrSF     | 0.61                      | PC1              | Tamaño clave                      | Alta             |
| FullBath     | 0.56                      | PC1              | Funcionalidad                     | Alta             |
| YearBuilt    | 0.52                      | PC1, PC4         | Modernidad y conservación         | Alta             |
| KitchenAbvGr | 0.51                      | PC2, PC7         | Comodidad y percepción de calidad | Alta             |
| TotRmsAbvGrd | 0.50                      | PC1, PC2         | Funcionalidad y tamaño            | Alta             |
| Fireplaces   | 0.48                      | PC1, PC6         | Comodidad y lujo                  | Alta             |

</small>


<small>

## 4️⃣ Justificación de la selección

La selección de estas variables se basó en:

✅ **Análisis de correlación**: Durante el análisis exploratorio, se observó que estas variables tienen alta correlación positiva con el precio (SalePrice), especialmente OverallQual y GrLivArea.

✅ **Revisión de literatura y sentido común inmobiliario**: En estudios previos y análisis del mercado, estas variables son reconocidas como determinantes clave del valor de las viviendas.

✅ **Análisis de componentes principales (PCA)**: En el análisis PCA, las primeras componentes principales estuvieron fuertemente cargadas por estas variables, lo que indica que son altamente representativas de la variabilidad general.

✅ **Experiencia del negocio**: InmoValor S.A., al ser una empresa inmobiliaria, reconoce que calidad, tamaño, ubicación y amenidades son variables con mayor peso en la decisión de compra.

</small>


<small>

## 5️⃣ Variables descartadas

| Variable                | Razón de descarte                                                                                                                                                                                                  |
| ----------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **MiscVal**             | Representa el valor de objetos adicionales o mejoras extra (como sheds o pequeñas estructuras), es altamente variable y tiene **muy baja correlación** con el precio final. Aporta más ruido que valor predictivo. |
| **MoSold** y **YrSold** | Aunque reflejan temporalidad, su **correlación directa con el precio es extremadamente baja** (cercana a cero). Son más útiles en análisis de tendencias de mercado que en predicción directa de precio.           |
| **PoolArea**            | Aunque tener piscina puede incrementar el valor de la propiedad, **menos del 1% de las casas** tienen piscina en este dataset. Su rareza la convierte en un predictor irrelevante para el modelo general.          |
| **3SsnPorch**           | Similar al caso anterior, **muy pocas casas tienen este tipo de porche** (porche de 3 estaciones), por lo que no aporta valor significativo a la predicción global.                                                |
| **LowQualFinSF**        | Representa área de baja calidad terminada, es **muy poco común** y además muestra **baja correlación con el precio**. En términos de negocio, los compradores valoran más áreas bien terminadas.                   |
| **BsmtHalfBath**        | Baños medios en el sótano son **poco frecuentes** y tienen **bajo impacto** en el precio final. Otras variables relacionadas al sótano, como TotalBsmtSF o BsmtFullBath, ya cubren mejor ese efecto.               |
| **ScreenPorch**         | Porche con mosquitero, tiene **baja frecuencia** en el dataset y **baja correlación** con el precio. Como variable aislada, no aporta suficiente valor predictivo.                                                 |
| **EnclosedPorch**       | Similar al ScreenPorch, los **porches cerrados** son menos relevantes que áreas primarias como la sala o cocina. Su impacto sobre el precio es menor.                                                              |
| **Alley**               | Esta variable indica si hay un callejón trasero. Más del 90% de los registros no tienen esta característica, por lo que es una variable de **baja variabilidad** y escaso valor predictivo.                        |
| **LandSlope**           | Inclinación del terreno, con **baja correlación** con el precio. Aunque en ciertas zonas esto podría importar, en general es irrelevante para la mayoría de propiedades.                                           |
| **Condition2**          | Describe proximidad a una segunda característica como vía férrea o arroyo. La **mayoría de las casas tienen un valor neutro** (poca variación), por lo que aporta poco al modelo.                                  |
| **Utilities**           | Casi todas las propiedades tienen los mismos servicios (agua, luz, drenaje), por lo que no es discriminante.                                                                                                       |
| **RoofMatl**            | Tipo de material de techo. En este dataset, casi todas las propiedades usan **los mismos 2-3 materiales**, así que tiene **baja variabilidad** y nulo poder predictivo.                                            |
| **Heating**             | Similar al techo, **casi todas las casas usan el mismo tipo de calefacción**. No es una variable diferenciadora.                                                                                                   |
| **MiscFeature**         | Características extra variadas (ascensores, cobertizos). Tiene **demasiadas categorías únicas**, lo que la vuelve ruido más que señal.                                                                             |
| **Street**              | Casi todas las casas están sobre calles pavimentadas, por lo que **carece de variabilidad**. No aporta valor predictivo.                                                                                           |

</small>


<small>

## 6️⃣ Criterios usados para seleccionar las variables predictoras clave

| Criterio                                                          | Descripción                                                                                                                                                                                                                                | Ejemplo de variables seleccionadas    |
| ----------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------- |
| **Análisis de correlación**                                       | Se revisó la **matriz de correlación** entre cada variable y el precio (SalePrice). Aquellas con correlación alta (positiva o negativa) fueron candidatas.                                                                                 | OverallQual, GrLivArea, GarageCars    |
| **Cargas de PCA**                                                 | En el análisis de componentes principales (PCA), observamos qué variables tuvieron las **cargas más altas** en los primeros componentes (los más explicativos). Esto indica qué variables son estructurales para explicar la variabilidad. | OverallQual, TotRmsAbvGrd, FullBath   |
| **Conocimiento de negocio**                                       | En bienes raíces, variables como **calidad, tamaño y ubicación** son universalmente conocidas como determinantes del precio. Se usó este **conocimiento experto** para priorizar algunas variables.                                        | YearBuilt, Neighborhood, KitchenAbvGr |
| **Relevancia inmobiliaria**                                       | Algunas variables tienen sentido específico en el mercado de viviendas: número de baños, presencia de garaje, calidad de la cocina, etc. Se priorizaron variables **entendibles por el negocio**.                                          | FullBath, KitchenAbvGr, Fireplaces    |
| **Revisión de literatura y estudios previos**                     | En datasets similares o estudios académicos sobre predicción de precios inmobiliarios, las variables seleccionadas suelen aparecer con **alta importancia**.                                                                               | OverallQual, GrLivArea, GarageCars    |
| **Eliminación de ruido o variables con muchos valores faltantes** | Algunas variables, como **PoolArea** o **MiscVal**, tienen mucha información faltante o son poco frecuentes, por lo que **no son predictoras robustas**.                                                                                   | PoolArea, MiscVal, 3SsnPorch          |

## 🔗 Conexión con el proceso previo

Este es el flujo lógico que se siguió:

1. **Análisis exploratorio**: Revisión de valores nulos, distribución, correlaciones.
2. **Matriz de correlación**: Identificación de las variables con mayor correlación directa al precio.
3. **PCA**: Observación de qué variables cargan fuertemente en los primeros componentes.
4. **Conocimiento inmobiliario**: Aplicación de sentido común y conocimiento de expertos sobre qué factores afectan el precio de una casa.
5. **Selección final**: Se eligieron variables que cumplen al menos **3 de los criterios anteriores**, para asegurar que son relevantes tanto estadísticamente como para el negocio.

---

</small>
