#Taller Evaluativo: Predicción de Precios de Vivienda con Redes Neuronales

Este cuaderno constituye una evaluación práctica en la que deberás aplicar técnicas de preprocesamiento de datos y construir un modelo de red neuronal para predecir precios de vivienda.

El objetivo principal es que, además de preparar los datos adecuadamente, implementes y optimices un modelo de red neuronal explorando varios hiperparámetros, para identificar la configuración que mejor se ajuste al problema.

## **Aspectos a desarrollar**
**1. Preprocesamiento de los datos**

Análisis exploratorio de datos (EDA)

Explora la distribución de las variables.

Identifica patrones, correlaciones y relaciones relevantes con el precio de la vivienda.

Imputación de valores nulos

Analiza qué variables presentan datos faltantes.

Aplica estrategias apropiadas (media, mediana, moda, interpolación, etc.).

Tratamiento de valores atípicos (outliers)

Detecta outliers en variables clave.

Decide si eliminarlos o transformarlos, justificando tu elección.

Escalado de variables

Normaliza o estandariza las variables según corresponda.

Explica la importancia de escalar antes de entrenar la red neuronal.

División en conjuntos de entrenamiento y prueba

Reserva una parte de los datos para evaluar el desempeño del modelo.

Justifica el porcentaje usado (ej. 70%-30%, 80%-20%).

**2. Modelado con redes neuronales**

Implementación del modelo

Usa Keras (TensorFlow) para construir un modelo Secuencial.

Incluye capas densas (Dense) con activación ReLU en las capas ocultas.

La capa de salida será lineal (para regresión).

Exploración de hiperparámetros
Considera las siguientes combinaciones:

Learning rate: entre 0.001 y 0.1, con incrementos de 0.03.

Número de capas ocultas: 1, 2 o 3.

Número de neuronas por capa: 16, 32 o 64.

Epocas 50 y 100

Batch Size de 64 y 32

**Optimización de hiperparámetros**

Configura una función que pruebe todas las combinaciones posibles.

Entrena cada modelo y guarda las métricas de desempeño (ej. MSE, MAE).

Evalúa cuál combinación produce el menor error en el conjunto de validación.

**3. Informe y conclusiones**

Después de cada bloque de código, incluye una celda de texto con tus conclusiones:

Describe los hallazgos del preprocesamiento.

Analiza cómo afectaron los valores nulos, outliers y el escalado al modelo.

Resume los resultados de la búsqueda de hiperparámetros.

Preguntas guía para el informe final:

¿Qué combinación de hiperparámetros dio el mejor resultado?

¿Cómo afectó el número de capas y neuronas al desempeño del modelo?

¿Qué tan sensible fue el modelo al learning rate?

¿Hubo algún patrón interesante entre las variables y el precio de la vivienda que afectó la predicción?

# <center> ★ Neural Network - Predicción del precio de la vivienda  ★

#### <center> ***Area: Sector Inmobiliario***

---

<center><img src="https://raw.githubusercontent.com/Masterx-AI/Project_Housing_Price_Prediction_/main/hs.jpg" style="width: 700px;"/>

---

---

# <center>1. Data Exploration

### Tarea: Importing the basic librarires

In [None]:

import os
import math
import numpy as np
import pandas as pd
import seaborn as sns
from datetime import datetime
from IPython.display import display

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import ColumnTransformer
import joblib


import itertools
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, TensorBoard
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error


from sklearn.model_selection import KFold
from datetime import datetime
import os

import matplotlib.pyplot as plt
import seaborn as sns


import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [10,6]

import warnings
warnings.filterwarnings('ignore')

**Conclusión:** Describe aquí tu interpretación del resultado.

###  Tarea: Cargar el dataset y mostra las primeras muestras

In [None]:

df = pd.read_csv('https://raw.githubusercontent.com/adiacla/vivienda/refs/heads/main/vivienda_NN.csv')

display(df.head())

###Tarea: Liste las columnas

### Tarea: Número de filas y columnas en el DataFrame

### Tarea: Verificando los tipos de datos de todas las columnas

### Tarea: Eliminación de filas duplicadas (si existen)

- Guardamos las dimensiones originales del DataFrame
- Eliminamos duplicados directamente en el DataFrame
- Verificamos si hubo cambios

###  Tarea: Análisis de valores nulos en el DataFrame

- Verificar el número total de valores nulos por columna
- Verificar el porcentaje de valores nulos por columna
- Visualizar los valores nulos con un gráfico de calor con mapa de calor

**Conclusión:** Describe aquí tu interpretación del resultado.

###  Tarea: Mostrar un resumen estadístico de las variables numéricas del DataFrame

**Conclusión:** Describe aquí tu interpretación del resultado.

###Tarea determine la cardinalidad de cada una de las características

**Conclusión:** Describe aquí tu interpretación del resultado.

###  Tarea: Mostar la cantidad de datos o frecuencia en cada uno de los valores del dataset
- Mostrar la distribución de frecuencias de cada columna seleccionada

**Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea: Mapa de correlación de todas las variables numéricas

- Calcular la matriz de correlación
- Configurar el tamaño de la figura
- Crear el mapa de calor Título del gráfico


**Conclusión:** Describe aquí tu interpretación del resultado.

# Analisis de normalidad de la variable dependiente para regresion---

### Tarea:  Analizar la distribución de la variable objetivo con 30 bins usado curva de densidad
Histograma con curva de densidad

 **Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea: Genera un Q-Q plot (Quantile-Quantile plot) de la variable precio
El Q-Q plot compara los cuantiles de los datos reales (tu variable precio) con los cuantiles de una distribución normal teórica.

Si los puntos se alinean aproximadamente sobre la diagonal, significa que la distribución de precio se acerca a la normalidad.

Si los puntos se desvían mucho, entonces precio no sigue una distribución normal.

###Tarea: Ejecuta el test de Shapiro-Wilk para comprobar si la variable precio sigue una distribución normal:

stats.shapiro() aplica el test de Shapiro-Wilk.

Usamos sample(min(len(df['precio']), 5000)) porque este test solo acepta hasta 5000 observaciones, así que si tu dataset es más grande, se toma una muestra aleatoria.

El resultado nos da:

estadístico W (cercano a 1 indica normalidad),

p-valor (probabilidad de que los datos provengan de una distribución normal).

### Tarea : Ejecuta el test de Kolmogorov-Smirnov (K-S) para comparar la distribución de precio con una distribución normal:

###  Tarea: Calcular el sesgo (skewness) de la variable 'precio'

###  Tarea:  Calcular la curtosis (kurtosis) de la variable 'precio'


 **Conclusión:** Haga Una conclusión con respecto a la normalidad.

###  Tarea:   Diagramas de caja y bigotes (3 por fila) excluyendo variables binarias
- Variables a excluir Seleccionar solo columnas numéricas, excluyendo las binarias
- Definir número de columnas en la cuadrícula
- Crear subplots Graficar cada boxplot
- Eliminar ejes vacíos

 **Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea: Eliminar outliers en la variable 'precio' usando IQR
- Calcular Q1 y Q3 Definir límite superior
- Filtrar filas (mantener solo precios dentro del rango aceptable)

 **Conclusión:** Describe aquí tu interpretación del resultado.

###  Tarea: Boxplot de la variable 'precio'

###Tarea: Nuevamente verifiquemos cómo quedó la distribución de frecuencia de la variable 'precio'

**Conclusión:** Describe aquí tu interpretación del resultado.

 **Conclusión:** Describe aquí tu interpretación del resultado.

# <center> 4. Data Manipulation

###  Tarea: División del dataset en conjuntos de entrenamiento y prueba

- Reemplazar espacios en los nombres de columnas por "_"
- Separar variables predictoras (X) y variable objetivo (Y)
- Dividir los datos (80% entrenamiento, 20% prueba)

 **Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea:  Escalado de características (Estandarización)
- Inicializamos el escalador
- Estandarización del conjunto de entrenamiento
- Estandarización del conjunto de prueba ----

 **Conclusión:** Describe aquí tu interpretación del resultado.

### Tarea:   Guardar y cargar el modelo de normalización
- Guardar el modelo entrenado de StandardScaler

**Conclusión:** Describe aquí tu interpretación del resultado.

## Tarea: Definir la función para crear el modelo keras

Crear una función que construya un modelo de red neuronal con la arquitectura especificada (capas densas con activación ReLU) y compile el modelo con un optimizador y métricas. Esta función tomará hiperparámetros como argumentos.
Configure de forma automática el número de capas ocultas y de neuronas por capa según el valor de n_layers:

Si n_layers = 1 → una capa con 32 neuronas.

Si n_layers = 2 → dos capas con 32 y 16 neuronas.

Si n_layers = 3 → tres capas con 64, 32 y 16 neuronas.

**Conclusión**:




###Tarea: Configura los callbacks que te ayudarán a mejorar el entrenamiento:

EarlyStopping: detiene el entrenamiento si la pérdida en validación (val_loss) deja de mejorar después de varios intentos.

TensorBoard: guarda registros de entrenamiento para visualizarlos en TensorBoard.

## Tarea: Definir el espacio de hiperparámetros


*Definir hiperparámetros:*
Antes de entrenar una red neuronal, debemos decidir valores como el número de capas, tasa de aprendizaje (learning_rate), tamaño de lote (batch_size) y número de épocas (epochs).

Como no sabemos cuáles son los mejores, usamos una rejilla de búsqueda (grid search) con diferentes combinaciones.

**Recorrer las combinaciones:**
Usaremos itertools.product para iterar sobre todas las combinaciones posibles en param_grid.

**Entrenar y evaluar cada combinación:**

- onstruimos el modelo con build_model.

- Entrenamos con fit, usando EarlyStopping y TensorBoard si queremos.

- Evaluamos el desempeño en los datos de validación.

- Guardamos los resultados para comparar después.

**Elegir la mejor combinación:**

Comparamos las métricas de error (ejemplo: val_loss o val_mae) y seleccionamos los hiperparámetros que den el mejor rendimiento.

**Objetivo:** Definir un conjunto de hiperparámetros para explorar diferentes configuraciones de tu red neuronal de regresión. Los hiperparámetros son valores que controlan la arquitectura y el entrenamiento del modelo, y no se aprenden directamente de los datos.

**Qué hacer:**

Crear un diccionario llamado param_grid.

Dentro de este diccionario, definir las siguientes claves y sus posibles valores:

- "n_layers": número de capas ocultas de la red. Por ejemplo, [1, 2, 3].

- "learning_rate": tasa de aprendizaje para el optimizador, como [0.001, 0.1, 0.3].

- "batch_size": tamaño del lote de entrenamiento, como [32, 64].

- "epochs": número de épocas para entrenar cada modelo, como [50, 100].

###Tarea Guardar resultados de entrenamiento

Objetivo: Durante la exploración de diferentes combinaciones de hiperparámetros, necesitamos guardar los resultados de cada modelo para compararlos después y elegir el mejor.


Crear una lista vacía llamada resultados antes de iniciar los bucles de entrenamiento.

Iterar sobre combinaciones de hiperparámetros

Objetivo: Queremos probar todas las combinaciones posibles de hiperparámetros definidos en param_grid para encontrar la configuración que produzca el mejor desempeño de nuestra red neuronal.

Qué hacer:

Usar itertools.product para generar todas las combinaciones posibles de:

Número de capas (n_layers)

Tasa de aprendizaje (learning_rate)

Tamaño de lote (batch_size)

Número de épocas (epochs)

Crear un bucle for que recorra cada combinación.

Dentro del bucle, puedes entrenar tu modelo con esa combinación y guardar los resultados.

### Tarea Entrenamiento y evaluación de modelos con todas las combinaciones de hiperparámetros

**Objetivo:**
Entrenar la red neuronal para todas las combinaciones posibles de hiperparámetros definidas en param_grid y evaluar su desempeño en entrenamiento y validación.

Pasos a seguir:
**bold text**
Iterar sobre todas las combinaciones de hiperparámetros usando itertools.product:

- Número de capas (n_layers)

- Tasa de aprendizaje (learning_rate)

- Tamaño de lote (batch_size)

- Número de épocas (epochs)

- Construir el modelo con la función build_model pasando el número de capas y la tasa de aprendizaje correspondiente.

**Entrenar el modelo usando model.fit:**

- Dividir los datos en entrenamiento y validación con validation_split=0.2.

- Usar early_stopping para detener el entrenamiento si la validación deja de mejorar.

- Guardar el historial de métricas para extraer posteriormente el MSE y MAE.

**Extraer métricas finales:**

- train_mse → error cuadrático medio en entrenamiento.

- val_mse → error cuadrático medio en validación.

- val_mae → error absoluto medio en validación.

- Mostrar estas métricas para cada combinación.

Guardar los resultados en la lista resultados para poder comparar todas las combinaciones y seleccionar la mejor.

###Tarea Seleccionar el mejor modelo según el MSE de validación

**Objetivo:**
Identificar la combinación de hiperparámetros que minimiza el error cuadrático medio (MSE) en los datos de validación para garantizar un modelo que generalice bien.

### Tarea: Seleccione el mejor modelo y reentrene con los parametros

###Tarea mostrar gráficas del loss y del MSE
Durante el entrenamiento y la validación, puedes usar matplotlib y los datos almacenados en history.history de Keras.

###Tarea: Guardar el mejor modelo (persistencia)