# Hoja de trabajo 9 Redes Neuronales Artificiales

repo: https://github.com/Diegoval-Dev/DM-HDT9
- Gerson Ramirez - 22281
- Diego Valenzuela - 22309

## Introducción: Preparación del conjunto de datos y definición de variable respuesta

En esta primera sección, trabajaremos con el mismo conjunto de datos de entrenamiento y prueba utilizado en las entregas anteriores, correspondiente al proyecto de predicción de precios de viviendas para InmoValor S.A. 

Seleccionaremos como variable objetivo la clasificación categórica del precio de las casas, que agrupa las propiedades en tres categorías: "Barata", "Media" y "Cara". Esta variable fue creada previamente a partir del precio de venta (`SalePrice`) y será utilizada en la construcción de modelos de redes neuronales para tareas de clasificación.

Esta fase de preparación es fundamental, ya que asegura la coherencia y comparabilidad de resultados con los modelos previamente desarrollados como árboles de decisión, KNN, Naive Bayes, SVM, entre otros. 
La correcta definición de la variable respuesta permitirá evaluar adecuadamente el desempeño de las redes neuronales en relación con otros algoritmos explorados anteriormente.

En el siguiente bloque de código cargaremos los datos procesados y seleccionaremos las variables correspondientes para iniciar la modelación.


In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv("processed_data.csv")

print(f"Dimensiones del dataset: {df.shape}")
df.head()

X = df.drop(columns=['SalePrice', 'PriceCategory'])
y = df['PriceCategory']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Dimensiones del conjunto de entrenamiento: {X_train.shape}")
print(f"Dimensiones del conjunto de prueba: {X_test.shape}")
y_train.value_counts(normalize=True), y_test.value_counts(normalize=True)



Dimensiones del dataset: (1460, 77)
Dimensiones del conjunto de entrenamiento: (1168, 75)
Dimensiones del conjunto de prueba: (292, 75)


(Intermedia    0.335616
 Economica     0.333904
 Cara          0.330479
 Name: PriceCategory, dtype: float64,
 Intermedia    0.335616
 Cara          0.332192
 Economica     0.332192
 Name: PriceCategory, dtype: float64)

## Análisis de la Preparación de Datos

Para iniciar el modelado de redes neuronales, se cargó el conjunto de datos procesados, compuesto por 1460 registros y 77 variables. Se seleccionó como variable respuesta `PriceCategory`, que clasifica las viviendas en tres categorías: "Económica", "Intermedia" y "Cara". 

La variable de precio (`SalePrice`) y la categorización (`PriceCategory`) se eliminaron de las variables predictoras para evitar fuga de información.

El conjunto de datos se dividió en un 80% para entrenamiento (1168 registros) y un 20% para prueba (292 registros), manteniendo la proporción de clases en ambos subconjuntos mediante estratificación. La distribución de clases resultante es equilibrada, con aproximadamente un 33% de registros en cada categoría, tanto en entrenamiento como en prueba.

Esta preparación asegura que los modelos de redes neuronales se entrenen y evalúen en condiciones consistentes y comparables con los algoritmos implementados en entregas anteriores.
