# Creación de Variables

En este notebook, creamos nuevas variables a partir de las existentes en el dataset `House Prices: Advanced Regression Techniques`.

## Objetivos
- Identificar variables existentes que se pueden combinar o transformar para crear nuevas variables significativas.
- Crear y documentar nuevas variables.
- Guardar el dataset con las nuevas variables.


## Carga del Dataset Limpio


In [6]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

train_df = pd.read_csv('data/processed/train_clean.csv')


## Creación de Nuevas Variables

Identificamos y creamos nuevas variables a partir de las existentes.


In [8]:
train_df['Age'] = 2024 - train_df['YearBuilt']
train_df['TotalSF'] = train_df['TotalBsmtSF'] + train_df['1stFlrSF'] + train_df['2ndFlrSF']

print(train_df[['Age', 'TotalSF']].head())


   Age  TotalSF
0   21     2566
1   48     2524
2   23     2706
3  109     2473
4   24     3343


## Justificación de las Nuevas Variables

1. **Age**: La edad de la casa es una variable importante ya que las casas más antiguas pueden necesitar más mantenimiento y renovaciones, lo cual puede afectar su valor de mercado.
2. **TotalSF**: El espacio total en pies cuadrados es una medida clave del tamaño de la casa, que es uno de los factores más importantes que los compradores consideran al evaluar el valor de una propiedad.


## Guardado del Dataset con Nuevas Variables

Guardamos el dataset con las nuevas variables para su uso en análisis posteriores.


In [9]:
train_df.to_csv('data/processed/train_enriched.csv', index=False)
