# Preparación de Datos e Ingeniería de Características (Feature Engineering)

En este notebook, exploramos los fundamentos de la extracción, limpieza, exploración y preparación de datos utilizando diferentes fuentes de datos

## Introducción a Kaggle

Aprendamos qué es Kaggle y por qué es una de las plataformas más populares para los científicos de datos.

Kaggle es una plataforma de comunidad on line para científicos de datos y entusiastas del aprendizaje automático. Kaggle permite a los usuarios colaborar con otros usuarios, encontrar y publicar conjuntos de datos, usar notebooks integrados con GPU y competir con otros científicos de datos para resolver desafíos de ciencia de datos. El objetivo de esta plataforma en línea (fundada en 2010 por Anthony Goldbloom y Jeremy Howard y adquirida por Google en 2017) es ayudar a los profesionales y estudiantes a alcanzar sus objetivos en su viaje de ciencia de datos con las poderosas herramientas y recursos que proporciona. A partir de hoy (2021), hay más de 8 millones de usuarios registrados en Kaggle.

Kaggle ofrece una plataforma de IPython Notebooks para cada usuario de forma gratuita. En los notebooks de Kaggle, puede activar una GPU en cualquier momento. Se le permite usar la GPU activamente durante un máximo de 30 horas por semana. La GPU proporcionada por Kaggle es una GPU Nvidia Tesla P100 con 16 GB de memoria.

## EXERCICIO 1

Usemos la API de Kaggle.

Creamos una cuenta en [Kaggle](https://www.kaggle.com/) y genere una clave API para conectarse programáticamente.

La [Kaggle API](https://www.kaggle.com/general/74235) se puede usar muy fácilmente en Colab u otros entornos. En Colab, las bibliotecas de Kaggle para usar la API ya están instaladas

In [None]:
#! pip install -q kaggle #installation is not needed in colab

In [None]:
#!pip show kaggle  #installation is not needed in colab

In [None]:
#another way of uploading files in Colab
from google.colab import files
files.upload();

In [None]:
#follow instructions in the url above to use the kaggle credentials file
!mkdir ~/.kaggle    #make a dir
!cp kaggle.json ~/.kaggle/   #cp file
!chmod 600 ~/.kaggle/kaggle.json #change permisssions
!ls ~/ -a #list all dirs in ~/

In [None]:
!kaggle competitions list #download -c house-prices-advanced-regression-techniques

## Cargar datos de Kaggle

Usamos la interfaz API para cargar los datos de [House Prices - Advanced Regression Techniques](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques).

In [None]:
!kaggle competitions download -c house-prices-advanced-regression-techniques

In [None]:
#unzip the files
!unzip house-prices-advanced-regression-techniques.zip

## EXERCICE 2

Explore los datos que hemos descargado.

Cargue los  `train.csv`, `test.csv` y `sample_submission.csv` en data frames y explórelos mostrando `.head()` y `.columns`

In [6]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
#Read the train data
train = #your code

# Read the test data
test = #your code
# Print train and test columns
print('Train columns:', #your code)
print('Test columns:', #your code)

In [None]:
# Show the number of data samples or rows and features in each data sample
num_registros, num_vars = #your code

print(f"Count of data samples: {num_registros}")
print(f"Count of features: {num_vars}")

In [None]:
# Read the sample submission file
sample_submission = #your code

# Look at the head() of the sample submission
#your code

## Entender los datos

Se requiere un análisis exploratorio de datos (EDA) para comprender los datos y prepararse para la ingeniería de características.

Primero identificamos los diferentes tipos de datos.

Después de eso, los exploramos aplicando diferentes estrategias:

- Para las características numéricas, exploramos su distribución estadística y su relación con la variable objetivo.

- Para las características categóricas, exploramos sus recuentos de muestras y la relación con los valores objetivo para cada categoría.

In [None]:
train.info()

### Exploración de características numéricas

Normalmente exploramos las características numéricas que mostramos:

El histograma (normal o acumulativo) para comprender la distribución de valores en el conjunto de datos.
El diagrama de dispersión de la característica y la variable objetivo, para comparar la relación entre ellas.


In [None]:
### HISTOGRAMS to undestand the distribution of values in the data set
# Generate interface for a graph
plt.figure()

# Draw histogram with the distribution of the variable  -> GrLivArea: habitable surface
plt.hist(train["GrLivArea"], bins=30)
plt.xlabel("GrLivArea")

In [None]:
# Generate interface for a graph
plt.figure()

# Draw histogram with the cumulative distribution of the variable -> GrLivArea: habitable surface
plt.hist(train["GrLivArea"], bins=20, cumulative=True)
plt.xlabel("GrLivArea")

In [None]:
#### SCATTER PLOT with target, to compare the relationship between them
# Generate interface for a graph
plt.figure()
plt.title(f"Sale price with respect to the habitable surface")

# Draw the scatter plot of the variable -> GrLivArea: habitable surface and the target  SalePrice: price, target variable for prediction
plt.scatter(train["GrLivArea"], train["SalePrice"], s=20)  #s size of the marker
plt.xlabel("GrLivArea")
plt.ylabel("SalePrice")


## EXERCICIO 3

Dibuja el histograma y los diagramas de dispersión para todas las variables numéricas.

Recomendación: haga un diagrama con dos subtramas en una fila y dos columnas para cada característica.

In [None]:
# Identification of numeric columns
num_features = train.columns[train.dtypes != "object"]
print(num_features)

In [None]:
# Interaction variable definition
target = "SalePrice"
y = train[target]

# For each numeric variable...
for col in num_features:

    # Determine data to focus on
    x = train[col]

    # Generate interface for two graphs
    fig, axs = plt.subplots(1, 2, figsize=(12, 4))
    fig.suptitle(col)

    # Draw on the left the histogram with the distribution of the variable
    axs[0].hist(x, bins=20)
    axs[0].set_xlabel(col)

    # Draw the scatterplot on the right with the interaction between the variable of interest and the response variable
    #your code

    # show visualization
    #your code

## EJERCICIO 4

Utilice el método `.describe()`  para ver la descripción estadística de las características numéricas del DataFrame de `train.csv`


In [None]:
#your code

### Exploración de características categóricas

Normalmente exploramos las características categóricas que mostramos:

- El gráfico de barras de los recuentos de muestras en cada categoría, para ver si el conjunto de datos está equilibrado en todas las categorías.

- El gráfico de barras de los valores objetivo para cada categoría, para ver cómo varía el objetivo con respecto a las categorías.

In [None]:
# Determine data to focus on  -> BldgType:Type of dwelling
df_counts = train.groupby("BldgType")['Id'].count()
x = df_counts.index.tolist()
h = df_counts.values.tolist()
print(x)
print(h)

In [None]:
# Generate interface for a graph
plt.figure()

# Draw the bar chart with counts on the left
plt.bar(x, h)
plt.xlabel('BldgType')
plt.ylabel('Num cases')

In [None]:
# Determine data to focus on -> Mean price per BldgType:Type of dwelling
df_mean_target = train.groupby("BldgType")['SalePrice'].mean()
x = df_mean_target.index.tolist()
h = df_mean_target.values.tolist()

# Get data deviation (standard deviation)
df_std_target = train.groupby("BldgType")['SalePrice'].std()
errbar = df_std_target.values.tolist()

print(x)
print(h)
print(errbar)

In [None]:
# Generate interface for a graph
plt.figure()

# Draw the bar chart with interaction between categories and average target with standard deviation information
plt.bar(x, h, yerr=errbar)
plt.xlabel("BldgType")
plt.ylabel("Mean SalePrice")


## EJERCICIO 5

Dibuja en gráficos de barras el recuento de muestras y de valores objetivo para todas las variables categóricas.

Recomendación: haga un grafico con dos subplots en una fila y dos columnas para cada característica.

In [None]:
# Identification of categoric columns
cat_features = train.columns[train.dtypes == "object"]
print(cat_features)

In [None]:
# Interaction variable definition
target = "SalePrice"

# Iterate through each categorical variable...
for col in cat_features:

    # Determine data to focus on
    df_counts = train.groupby(col)['Id'].count()
    df_mean_target = train.groupby(col)['SalePrice'].mean()
    df_std_target = train.groupby(col)['SalePrice'].std()

    # Generate interface for two graphs
    fig, axs = plt.subplots(1, 2, figsize=(12, 4))
    fig.suptitle(col)

    # Draw the bar chart with counts on the left
    #your code

    # Draw on the right the bar chart with interaction between categories and average response
    #your code

## EJERCICIO 6

Utilice el método `.describe()` para ver la descripción estadística de las características categóricas del DataFrame de `train.csv`


In [None]:
#your code

## Ingeniería de características (Feature Engineering)

Aquí estaríamos buscando valores nulos y duplicados, seleccionando características, codificando características y creando nuevas características.

En los siguientes ejemplos, vemos diferentes estrategias de ingeniería de software que podemos aplicar a este conjunto de datos. Se pueden aplicar muchas más.

#### Numerical Features

In [None]:
# Change numerical features that are categories to categorical values
train['MSSubClass'] = train['MSSubClass'].astype(str)
test['MSSubClass'] = test['MSSubClass'].astype(str)
train['MoSold'] = train['MoSold'].astype(str)
test['MoSold'] = test['MoSold'].astype(str)

In [None]:
train[['MSSubClass','MoSold']].info()

In [26]:
# correction of outliers
train.loc[(train["GarageYrBlt"]==2207), "GarageYrBlt"] = 2007

## EJERCICIO 7

Cuente el número de valores nulos en las características numéricas y sustituya estos valores con el valor medio de la característica.

Nota: Realiza esta substitución para los DataFrames del conjunto de datos de entrenamiento y test

In [None]:
# Datos de entrenamiento
nulls_df = train.isnull().sum()
nulls_df.sort_values(ascending = False).head(20)

En "GarageType" tenemos algunas casas sin información, vamos a codificar estos valores nulos como una nueva categoría de "No Garage".

In [28]:
# the missing values ​​are changed to the value "No_Garage"
train["GarageType"] = #your code
test["GarageType"] = #your code

En "LotFrontage" tenemos algunos valores sin información, vamos a asignarles la media de los valores de la característica.

In [None]:
# Replace null values ​​with the mean of the entire column
train["LotFrontage"] =#your code

#important!! apply the transformations  learnt from the train set to the test set
test["LotFrontage"] = #your code      

En "GarageYrBlt" tenemos algunos valores nulos y vamos a rellenarlos con el año de construcción del edificio.

In [None]:
# Replace null values ​​with the year of construction of the house 'YearBuilt' 
train["GarageYrBlt"] = #your code
test["GarageYrBlt"] = #your code

Podemos medir la correlación de las características numéricas y los precios objetivo, y las características con bajas correlaciones pueden excluirse del modelo, ya que son menos significativas.

In [None]:
#get the numerical features after last changes, some columns have changed
num_features = train.columns[train.dtypes != "object"]
df_num=train[num_features]

# A dictionary is created with the correlations between the independent variables and the objective variable
dict_corr = {}
for x in num_features:
    corr = df_num[x].corr(df_num['SalePrice'])
    dict_corr[x] = corr

#sort and display dict
dict_corr = sorted(dict_corr.items(), key=lambda x: x[1], reverse=True)
dict_corr

Podemos crear nuevas variables, combinar algunas de ellas mediante diferentes operaciones.

Por ejemplo, calcular una nueva columna llamada `SqFtPerRoom` con los valores de superficie habitable por habitación (como `GrLivArea/(TotRmsAbvGrd+FullBath+HalfBath+KitchenAbvGr` )) y comprobar la correlación con el objetivo.

In [None]:
# Se crea una nueva variable
train["SqFtPerRoom"] = #your code
test["SqFtPerRoom"] = #your code


print(train["SqFtPerRoom"].corr(train['SalePrice']))

También podemos transformar las características, escalando o transformando las características numéricas y utilizando la codificación one-hot para los valores categóricos que no son ordinales.

## EJERCICIO 8

Transforme la característica `OverallQual` con los escaladores`StandardScaler(), RobustScaler(), MinMaxScaler()`  y compruebe si la correlación con el objetivo mejora.

In [None]:
print('Correlation: ', train['OverallQual']. corr (train['SalePrice']))

In [None]:
from sklearn.preprocessing import StandardScaler,RobustScaler,MinMaxScaler

scalers = [StandardScaler(), RobustScaler(),MinMaxScaler()]

#your code

Haz lo mismo para los transformadores `'PowerTransform\n(box-cox)', 'PowerTransform\n(yeo-johnson)', 'QuantileTransformer'`

In [None]:
import numpy as np
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import QuantileTransformer

scalers = ['PowerTransform (box-cox)','PowerTransform (yeo-johnson)', 'QuantileTransformer']

#your code

#### Características categóricas

Codifique una característica categórica con información ordinal en números.

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
# ExterQual: Evaluates the quality of the material on the exterior
ExterQual = {}
ExterQual['Ex'] = 5 #'Excellent'
ExterQual['Gd'] = 4 #'Good'
ExterQual['TA'] = 3 #'Average/Typical'
ExterQual['Fa'] = 2 #'Fair'
ExterQual['Po'] = 1 #'Poor'
ExterQual['NA'] = 0 #'NA'

train.ExterQual = train.ExterQual.map(ExterQual)
test.ExterQual = test.ExterQual.map(ExterQual)
print('train', train['ExterQual'].unique())
print('test', test['ExterQual'].unique())

Podemos codificar variables categóricas que son ordinales y medir su correlación con la variable objetivo. Las características categóricas con bajas correlaciones pueden excluirse del modelo, ya que son menos significativas.

In [None]:
print('Correlation: ', train['ExterQual'].corr(train['SalePrice']))
fig, ax = plt.subplots(1, 2)
fig.set_size_inches(10, 4)
train["ExterQual"].value_counts().rename("").plot.pie(autopct='%.2f', ax=ax[0], title="ExterQual")
test["ExterQual"].value_counts().rename("").plot.pie(autopct='%.2f', ax=ax[1], title="ExterQual_test")

Codifique un valor categórico `BsmtFinType1` que no sea ordinal con el método de codificación one-hot.

In [None]:
train.groupby('BsmtFinType1').groups.keys()

In [None]:
train[['BsmtFinType1']]

In [None]:
#creating the encoder
pt = OneHotEncoder()
# transforming
transformed = pt.fit_transform(train[['BsmtFinType1']]).toarray()
df_transformed=pd.DataFrame(transformed, columns=['ALQ', 'BLQ', 'GLQ', 'LwQ', 'Rec', 'Unf','NA'])  #a dummy column is created for all categories are 0.0 this is 1.0, we can drop it
display(df_transformed)
#transformed.shape
df_transformed.drop('NA', axis=1)

## Entrenar un modelo

Para predecir una variable continua con un conjunto de datos etiquetado, podemos utilizar un modelo de regresión.

Tomemos algunas características numéricas, las que tienen mayor correlación:

```
 ('OverallQual', 0.7909816005838044),
 ('GrLivArea', 0.7086244776126523),
 ('GarageCars', 0.6404091972583529),
 ('GarageArea', 0.6234314389183618),
 ('TotalBsmtSF', 0.6135805515591956),
 ('1stFlrSF', 0.6058521846919147),
 ('FullBath', 0.5606637627484449),
```



In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor

# Read the train data
train = pd.read_csv('train.csv')

# Create a Random Forest object
rf = RandomForestRegressor()

features=['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 'TotalBsmtSF', '1stFlrSF', 'FullBath']
# Train a model
rf.fit(X=train[features], y=train['SalePrice'])

## Preparar una presentación

Lea los datos de prueba, haga predicciones y guárdelas en el formato especificado en el archivo "sample_submission.csv".

In [None]:
# Read test and sample submission data
test = pd.read_csv('test.csv')
sample_submission = pd.read_csv('sample_submission.csv')

# Show the head() of the sample_submission
print(sample_submission.head())

## EJERCICIO 9

Prepare un archivo de presentación llamado `kaggle_submission.csv` con las predicciones del modelo.

Utilice el método `.predict()` del modelo para generar las predicciones.

In [None]:
# Get predictions for the test set
predict_df=test[features].fillna(0.0)  #in case there are some null values
test['SalePrice'] = #your code

# Write test predictions using the sample_submission format
#your code

#your code

## Hacer una presentación

En el panel de Kaggle se puede ver el resultado de la presentación.

## EJERCICIO 10

Haga su propia presentación y compruebe su posición en la tabla de clasificación.

In [None]:
!kaggle competitions submit -c house-prices-advanced-regression-techniques -f kaggle_submission.csv -m "today 2025-10-21 submission - model0"