# Feature Engineering para Precios de Vivienda

### Introducción

En este notebook se implementan las transformaciones identificadas durante el Análisis Exploratorio de Datos (EDA) para preparar los datos para el modelado predictivo. La ingeniería de características (feature engineering) constituye una etapa crítica del proceso donde se realizan las siguientes acciones:

1. **Implementación de estrategias de imputación**: Se aplican los métodos identificados previamente para manejar los valores faltantes en el dataset.

2. **Transformación de variables numéricas**: Se normalizan y transforman las variables cuantitativas según lo determinado en el análisis exploratorio.

3. **Optimización de variables categóricas**: Se procesan las variables cualitativas mediante técnicas de codificación adecuadas para su uso en modelos de machine learning.

4. **Preparación para algoritmos ML**: Se escalan y transforman los datos para cumplir con los requerimientos de los diferentes algoritmos de aprendizaje automático que se implementarán posteriormente.

Este proceso sistemático de transformación busca maximizar la calidad de los datos de entrada para los modelos, preservando al mismo tiempo las relaciones fundamentales entre las variables predictoras y la variable objetivo (`SalePrice`).

# Librerias

In [1]:
import pandas as pd

# Datos

In [2]:
data_train = pd.read_csv('../data/train.csv')
data_train.head(3)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500


# Feacture Engineering

## Eliminación de Variables

> Tras un análisis exhaustivo, se procedió a eliminar aquellas variables que presentaban más del 20% de datos faltantes o distribuciones problemáticas, como categorías extremadamente desbalanceadas (con más del 95% de los registros concentrados en una sola clase) o patrones uniformes sin capacidad predictiva. Esta decisión **basada en principios de parsimonia y calidad estadística** permitió optimizar el conjunto de datos, eliminando ruido y reduciendo la dimensionalidad sin perder información relevante. 

In [3]:
data_train.shape

(1460, 81)

In [4]:
col_a_eliminar = ['Id', 'Alley', 'Utilities', 'Condition2', 'RoofMatl'
                ,'MasVnrType', 'Heating', 'LowQualFinSF', 'KitchenAbvGr'
                ,'3SsnPorch', 'PoolArea', 'PoolQC', 'Fence', 'MiscFeature'
                ,'MiscVal', 'FireplaceQu']

In [5]:
data_train = data_train.drop(columns=col_a_eliminar)

In [6]:
data_train.shape

(1460, 65)

## Categorización de Variables Numéricas Discretas

> En esta sección, se transforman las variables numéricas discretas (como conteos o clasificaciones ordinales) a tipo categórico, ya que por su naturaleza y valores, son más adecuadas como variables categóricas.

In [7]:
data_train.select_dtypes(include=['object'])

Unnamed: 0,MSZoning,Street,LotShape,LandContour,LotConfig,LandSlope,Neighborhood,Condition1,BldgType,HouseStyle,...,Electrical,KitchenQual,Functional,GarageType,GarageFinish,GarageQual,GarageCond,PavedDrive,SaleType,SaleCondition
0,RL,Pave,Reg,Lvl,Inside,Gtl,CollgCr,Norm,1Fam,2Story,...,SBrkr,Gd,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
1,RL,Pave,Reg,Lvl,FR2,Gtl,Veenker,Feedr,1Fam,1Story,...,SBrkr,TA,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
2,RL,Pave,IR1,Lvl,Inside,Gtl,CollgCr,Norm,1Fam,2Story,...,SBrkr,Gd,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
3,RL,Pave,IR1,Lvl,Corner,Gtl,Crawfor,Norm,1Fam,2Story,...,SBrkr,Gd,Typ,Detchd,Unf,TA,TA,Y,WD,Abnorml
4,RL,Pave,IR1,Lvl,FR2,Gtl,NoRidge,Norm,1Fam,2Story,...,SBrkr,Gd,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,RL,Pave,Reg,Lvl,Inside,Gtl,Gilbert,Norm,1Fam,2Story,...,SBrkr,TA,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
1456,RL,Pave,Reg,Lvl,Inside,Gtl,NWAmes,Norm,1Fam,1Story,...,SBrkr,TA,Min1,Attchd,Unf,TA,TA,Y,WD,Normal
1457,RL,Pave,Reg,Lvl,Inside,Gtl,Crawfor,Norm,1Fam,2Story,...,SBrkr,Gd,Typ,Attchd,RFn,TA,TA,Y,WD,Normal
1458,RL,Pave,Reg,Lvl,Inside,Gtl,NAmes,Norm,1Fam,1Story,...,FuseA,Gd,Typ,Attchd,Unf,TA,TA,Y,WD,Normal


In [8]:
col_a_categorizar = ['MSSubClass', 'OverallQual', 'OverallCond'
                , 'LowQualFinSF','BsmtFullBath','BsmtHalfBath'
                ,'FullBath','HalfBath','BedroomAbvGr'
                ,'KitchenAbvGr','TotRmsAbvGrd','Fireplaces'
                ,'GarageCars','3SsnPorch','ScreenPorch'
                ,'PoolArea','MiscVal','MoSold']

In [9]:
for columna in col_a_categorizar:
    if columna in data_train.columns:
        data_train[columna] = data_train[columna].astype('object')
    else:
        print(f"Advertencia: La columna {columna} no existe en el DataFrame")

Advertencia: La columna LowQualFinSF no existe en el DataFrame
Advertencia: La columna KitchenAbvGr no existe en el DataFrame
Advertencia: La columna 3SsnPorch no existe en el DataFrame
Advertencia: La columna PoolArea no existe en el DataFrame
Advertencia: La columna MiscVal no existe en el DataFrame


In [10]:
data_train.select_dtypes(include=['object'])

Unnamed: 0,MSSubClass,MSZoning,Street,LotShape,LandContour,LotConfig,LandSlope,Neighborhood,Condition1,BldgType,...,GarageType,GarageFinish,GarageCars,GarageQual,GarageCond,PavedDrive,ScreenPorch,MoSold,SaleType,SaleCondition
0,60,RL,Pave,Reg,Lvl,Inside,Gtl,CollgCr,Norm,1Fam,...,Attchd,RFn,2,TA,TA,Y,0,2,WD,Normal
1,20,RL,Pave,Reg,Lvl,FR2,Gtl,Veenker,Feedr,1Fam,...,Attchd,RFn,2,TA,TA,Y,0,5,WD,Normal
2,60,RL,Pave,IR1,Lvl,Inside,Gtl,CollgCr,Norm,1Fam,...,Attchd,RFn,2,TA,TA,Y,0,9,WD,Normal
3,70,RL,Pave,IR1,Lvl,Corner,Gtl,Crawfor,Norm,1Fam,...,Detchd,Unf,3,TA,TA,Y,0,2,WD,Abnorml
4,60,RL,Pave,IR1,Lvl,FR2,Gtl,NoRidge,Norm,1Fam,...,Attchd,RFn,3,TA,TA,Y,0,12,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,60,RL,Pave,Reg,Lvl,Inside,Gtl,Gilbert,Norm,1Fam,...,Attchd,RFn,2,TA,TA,Y,0,8,WD,Normal
1456,20,RL,Pave,Reg,Lvl,Inside,Gtl,NWAmes,Norm,1Fam,...,Attchd,Unf,2,TA,TA,Y,0,2,WD,Normal
1457,70,RL,Pave,Reg,Lvl,Inside,Gtl,Crawfor,Norm,1Fam,...,Attchd,RFn,1,TA,TA,Y,0,5,WD,Normal
1458,20,RL,Pave,Reg,Lvl,Inside,Gtl,NAmes,Norm,1Fam,...,Attchd,Unf,1,TA,TA,Y,0,4,WD,Normal


## Imputación de Valores Faltantes

> En esta sección se procederá a realizar la imputación de los datos faltantes en las variables correspondientes.

In [11]:
col_a_imputar = ['LotFrontage', 'GarageType', 'GarageYrBlt', 'GarageFinish', 
                'GarageQual', 'GarageCond', 'BsmtFinType2', 'BsmtExposure',
                'BsmtFinType1', 'BsmtCond', 'BsmtQual', 'MasVnrArea', 'Electrical']

In [13]:
numericas = []
categoricas = []

for col in col_a_imputar:
    if pd.api.types.is_numeric_dtype(data_train[col]):
        numericas.append(col)
    else:
        categoricas.append(col)

print("Variables numéricas:", numericas)
print("Variables categóricas:", categoricas)

Variables numéricas: ['LotFrontage', 'GarageYrBlt', 'MasVnrArea']
Variables categóricas: ['GarageType', 'GarageFinish', 'GarageQual', 'GarageCond', 'BsmtFinType2', 'BsmtExposure', 'BsmtFinType1', 'BsmtCond', 'BsmtQual', 'Electrical']


### Variables Numéricas

False


### Variables Categóricas

### Validación Post-Imputación 

> Verificación de distribuciones pre/post imputación 

por hacer
* variable a eliminar
* categorizacion de las variables
* imputaciones de los datos faltantes
* transformacion de las variables numericas
* reduccion de categorias
* PCA