# Transformaciones de Variables (Core)
Descripción
Ingeniería de Características: Transformaciones de Variables (Core)

 Descripción:

En esta actividad, aplicarás diversas técnicas de transformación de variables para mejorar la calidad de los datos en el dataset «House Prices – Advanced Regression Techniques» disponible en Kaggle. Aprenderás a realizar transformaciones logarítmicas, escalado y creación de variables polinómicas para mejorar el rendimiento de los modelos predictivos.

Enlace al dataset: https://www.kaggle.com/c/house-prices-advanced-regression-techniques



Objetivo:

El objetivo es realizar transformaciones de las variables en el dataset para mejorar la distribución de los datos y su relación con la variable objetivo (el precio de las casas). Estas transformaciones son clave para mejorar la precisión de los modelos de regresión y reducir sesgos en los datos.



Instrucciones:

1. Carga de datos:
- Descarga el dataset «House Prices» de Kaggle. Realiza una exploración inicial de las variables numéricas y categóricas, prestando especial atención a aquellas que están relacionadas con el tamaño de la casa, el número de habitaciones y la calidad general.
- Revisa la distribución de la variable objetivo (precio de la casa) y observa si tiene algún sesgo.

2. Exploración y preprocesamiento de datos:
- Antes de aplicar las transformaciones, realiza un análisis de las variables con distribuciones asimétricas o que contengan outliers. Estos son buenos candidatos para transformaciones logarítmicas o polinómicas.
- También identifica variables que estén en escalas diferentes para aplicar técnicas de normalización o estandarización.

3. Transformaciones de variables:
- Aplica transformaciones logarítmicas a variables sesgadas como el «SalePrice» y otras variables numéricas que tengan una distribución sesgada.
- Crea variables polinómicas a partir de las variables numéricas, como el tamaño total de la casa. Por ej}emplo, agrega el cuadrado o el cubo de estas variables como nuevas características para capturar posibles relaciones no lineales.
- Estandariza las variables numéricas para que todas tengan la misma escala, lo cual es útil cuando se entrenan modelos de regresión o algoritmos basados en distancia como KNN.

4. Evaluación de las transformaciones:
- Aplica un modelo de regresión antes y después de las transformaciones para evaluar su impacto en el rendimiento del modelo.
- Compara métricas como el RMSE (Root Mean Squared Error) y el R-squared para ver si las transformaciones logarítmicas y polinómicas han mejorado la predicción del precio de las casas.

5. Interpretación de los resultados:
- Analiza cuáles de las transformaciones aplicadas tuvieron un mayor impacto en la mejora del modelo. Discute cómo las transformaciones logarítmicas ayudan a manejar el sesgo en los datos y cómo las variables polinómicas capturan relaciones más complejas.
- Reflexiona sobre la importancia de transformar variables antes de aplicar modelos de machine learning.



Análisis de Resultados:

- El análisis debe centrarse en cómo las diferentes transformaciones afectaron la distribución de las variables y cómo esto influyó en la precisión del modelo predictivo. Discute las ventajas y desventajas de las transformaciones aplicadas y su relevancia en problemas de regresión.

In [2]:
import pandas as pd
df = pd.read_csv('/Users/mathiorti/Desktop/Me/Cursos/Data Analisis and Machine Learning/Data Sets/train_house_prices.csv')
print(df.head())

   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

In [3]:
#Como son muchas columnas no puedo ir visualizando 1 por uno
#Puedo hacer uso de Skewness que es una medida de la asimetria de una distribucion
#Puedo identificar los outliers con el rango intercuartilico (IQR)

numeric_features = df.select_dtypes(include=['number'])

skewness = numeric_features.apply(lambda x: x.skew()) #Forma de calcular las asimetrias

#Función para calcular los outliers
def calculate_outliers(x):
    Q1 = x.quantile(0.25)
    Q3 = x.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return len(x[(x < lower_bound) | (x > upper_bound)])

outliers = numeric_features.apply(calculate_outliers)

#Combino skewness y outliers en un DataFrame
analysis = pd.DataFrame({'Skewness': skewness, 'Outliers': outliers})

#Lo que haré ahora es filtrar los que son relevantes
candidates = analysis[(analysis['Skewness'].abs() > 1) | (analysis['Outliers'] > 0)]

#Imprimo esto
print('Variables candidatas para transformaciones:')
print(candidates)

Variables candidatas para transformaciones:
                Skewness  Outliers
MSSubClass      1.407657       103
LotFrontage     2.163569        88
LotArea        12.207688        69
OverallQual     0.216944         2
OverallCond     0.693067       125
YearBuilt      -0.613461         7
MasVnrArea      2.669084        96
BsmtFinSF1      1.685503         7
BsmtFinSF2      4.255261       167
BsmtUnfSF       0.920268        29
TotalBsmtSF     1.524255        61
1stFlrSF        1.376757        20
2ndFlrSF        0.813030         2
LowQualFinSF    9.011341        26
GrLivArea       1.366560        31
BsmtFullBath    0.596067         1
BsmtHalfBath    4.103403        82
BedroomAbvGr    0.211790        35
KitchenAbvGr    4.488397        68
TotRmsAbvGrd    0.676341        30
Fireplaces      0.649565         5
GarageCars     -0.342549         5
GarageArea      0.179981        21
WoodDeckSF      1.541376        32
OpenPorchSF     2.364342        77
EnclosedPorch   3.089872       208
3SsnPorch  

In [None]:
import numpy as np

# Variables a transformar
log_transform_vars = [
    'MSSubClass', 'LotFrontage', 'LotArea', 'MasVnrArea', 'BsmtFinSF1',
    'BsmtFinSF2', 'TotalBsmtSF', '1stFlrSF', 'LowQualFinSF', 'GrLivArea',
    'BsmtHalfBath', 'KitchenAbvGr', 'WoodDeckSF', 'OpenPorchSF',
    'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal', 'SalePrice'
]

# Aplico la transformación logarítmica
for col in log_transform_vars:
    if col in df.columns:
        df[col] = np.log1p(df[col])  # Logaritmo natural log(x + 1), asegura que no haya problemas con 0

In [10]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, PolynomialFeatures

# Identificar solo las columnas numéricas
num_columns = df.select_dtypes(include=['float64', 'int64']).columns

# Preprocesamiento para datos numéricos
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Imputación de valores faltantes
    ('scaler', StandardScaler())  # Escalado estándar
])

# Ahora hago el preprocesamiento solo para las columnas numéricas
data_processed = numeric_transformer.fit_transform(df[num_columns])

# Generar características polinómicas
poly = PolynomialFeatures(degree=2, include_bias=False)

# Aplico PolynomialFeatures a las columnas numéricas procesadas
data_poly = poly.fit_transform(data_processed)

# Convertir a DataFrame con nombres de las nuevas características
poly_feature_names = poly.get_feature_names_out(num_columns)
data_poly_df = pd.DataFrame(data_poly, columns=poly_feature_names)

# Agregar características polinómicas al DataFrame original
data_final = pd.concat([df.reset_index(drop=True), data_poly_df.reset_index(drop=True)], axis=1)

# Agregar características combinadas adicionales
data_final['TotalSF'] = df['1stFlrSF'] + df['2ndFlrSF'] + df['TotalBsmtSF']  # Tamaño total de la casa
data_final['Ratio_LotArea_GrLivArea'] = df['LotArea'] / df['GrLivArea']  # Relación entre área del terreno y área habitable
data_final['Product_Bedroom_Bathroom'] = df['BedroomAbvGr'] * df['FullBath']  # Interacción entre habitaciones y baños

# Verificar el resultado
print(data_final.head())


   Id  MSSubClass MSZoning  LotFrontage   LotArea Street Alley LotShape  \
0   1    4.110874       RL     4.189655  9.042040   Pave   NaN      Reg   
1   2    3.044522       RL     4.394449  9.169623   Pave   NaN      Reg   
2   3    4.110874       RL     4.234107  9.328212   Pave   NaN      IR1   
3   4    4.262680       RL     4.110874  9.164401   Pave   NaN      IR1   
4   5    4.110874       RL     4.442651  9.565284   Pave   NaN      IR1   

  LandContour Utilities  ... MiscVal SalePrice  MoSold^2 MoSold YrSold  \
0         Lvl    AllPub  ...         -0.106682  2.557156     -0.221921   
1         Lvl    AllPub  ...         -0.040527  0.239229      0.300528   
2         Lvl    AllPub  ...         -0.139822  0.981866      0.137513   
3         Lvl    AllPub  ...          0.083313  2.557156      2.187032   
4         Lvl    AllPub  ...         -0.193272  4.413749      0.291557   

  MoSold SalePrice  YrSold^2 YrSold SalePrice SalePrice^2      TotalSF  \
0        -0.895609  0.019259  

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Elimino las columnas duplicadas
data_final = data_final.loc[:, ~data_final.columns.duplicated()]

# Selecciono la variable objetivo y la separo
X = data_final.drop('SalePrice', axis=1)  # Seleccionar todas las columnas excepto SalePrice
y = data_final['SalePrice']  # Columna objetivo

# Divido los conjuntos de entrenamiento y de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Identifico las columnas categoricas y numéricas
num_columns = X.select_dtypes(include=['float64', 'int64']).columns
cat_columns = X.select_dtypes(include=['object', 'bool']).columns

# Preprocesadores para columnas numéricas y categóricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

#Pipeline completo
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_columns),
        ('cat', categorical_transformer, cat_columns)
    ]
)

In [14]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Creo el pipeline completo con regresión lineal
pipeline_LR = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Llamar al preprocesador definido arriba
    ('regressor', LinearRegression())  # Modelo de regresión lineal
])

# Entreno el modelo
pipeline_LR.fit(X_train, y_train)

# Hago las predicciones
y_pred_LR = pipeline_LR.predict(X_test)

# Evaluación del modelo
mse = mean_squared_error(y_test, y_pred_LR)
r2 = r2_score(y_test, y_pred_LR)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

Mean Squared Error: 2.173828541934324
R^2 Score: -10.648984651818619


In [15]:
#Ahora hago sin todo el arreglo que para ver si hay alguna diferencia
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

data2 = pd.read_csv('/Users/mathiorti/Desktop/Me/Cursos/Data Analisis and Machine Learning/Data Sets/train_house_prices.csv')

# Selecciono la variable objetivo y la separo
X = data2.drop('SalePrice', axis=1)  # Seleccionar todas las columnas excepto SalePrice
y = data2['SalePrice']  # Columna objetivo

# Divido los conjuntos de entrenamiento y de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Identifico las columnas categoricas y numéricas
num_columns = X.select_dtypes(include=['float64', 'int64']).columns
cat_columns = X.select_dtypes(include=['object', 'bool']).columns

# Preprocesadores para columnas numéricas y categóricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

#Pipeline completo
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_columns),
        ('cat', categorical_transformer, cat_columns)
    ]
)

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Creo el pipeline completo con regresión lineal
pipeline_LR = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Llamar al preprocesador definido arriba
    ('regressor', LinearRegression())  # Modelo de regresión lineal
])

# Entreno el modelo
pipeline_LR.fit(X_train, y_train)

# Hago las predicciones
y_pred_LR = pipeline_LR.predict(X_test)

# Evaluación del modelo
mse = mean_squared_error(y_test, y_pred_LR)
r2 = r2_score(y_test, y_pred_LR)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")


Mean Squared Error: 868875243.3319571
R^2 Score: 0.8867225174181226


In [16]:
# Lo que puedo observar es que en este caso obtengo mejores resultados sin modificar