# Cargar bibliotecas

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# Cargar el dataset

Con la ayuda de pandas cargamos el archivo CSV.

In [2]:
df = pd.read_csv("AmesHousing_raw_data.csv")

# Eliminación de columnas

Después de analizar el dataset, hemos tomado la decisión de eliminar las columnas 'Order', 'PID' (Número de Identificación de Parcela) y 'Garage Yr Blt' (Año de Construcción del Garaje). Estas columnas se han excluido por las siguientes razones:

-'Order' se considera redundante, ya que su función se superpone con la del identificador único 'id'.

-La columna 'PID' proporciona un número de identificación de la parcela, pero no se utilizará en el modelo, por lo que se ha eliminado.

-'Garage Year Built' se ha descartado debido a la presencia de valores faltantes. Además, su naturaleza ordinal se vería comprometida si intentáramos completar los datos, ya que algunos de ellos son incorrectos o carecen de especificaciones.

Esta acción de eliminación de columnas se ha tomado como parte del proceso de preparación de datos para asegurar la calidad y relevancia de las variables que se utilizarán en nuestro modelo.

In [3]:
# Eliminar Order, PID (Parcel Identification Number), Garage Yr Blt
df.drop(columns=["Order", "PID", "Garage Yr Blt"], inplace=True)
df

Unnamed: 0,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,Utilities,Lot Config,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
0,20,RL,141.0,31770,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,5,2010,WD,Normal,215000
1,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
2,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
3,20,RL,93.0,11160,Pave,,Reg,Lvl,AllPub,Corner,...,0,,,,0,4,2010,WD,Normal,244000
4,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,Inside,...,0,,MnPrv,,0,3,2010,WD,Normal,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,80,RL,37.0,7937,Pave,,IR1,Lvl,AllPub,CulDSac,...,0,,GdPrv,,0,3,2006,WD,Normal,142500
2926,20,RL,,8885,Pave,,IR1,Low,AllPub,Inside,...,0,,MnPrv,,0,6,2006,WD,Normal,131000
2927,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,Shed,700,7,2006,WD,Normal,132000
2928,20,RL,77.0,10010,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,4,2006,WD,Normal,170000


Hemos renombrado las columnas utilizando la convención Snake Case para facilitar la gestión de las mismas. Esta notación, que consiste en escribir las palabras en minúsculas y separadas por guiones bajos, nos permite trabajar de manera más eficiente con las columnas.

In [4]:
# Cambiar los nombres de las columnas a snake_case
df.columns = df.columns.str.replace(" ", "_").str.replace("-", "_").str.lower()
df

Unnamed: 0,ms_subclass,ms_zoning,lot_frontage,lot_area,street,alley,lot_shape,land_contour,utilities,lot_config,...,pool_area,pool_qc,fence,misc_feature,misc_val,mo_sold,yr_sold,sale_type,sale_condition,saleprice
0,20,RL,141.0,31770,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,5,2010,WD,Normal,215000
1,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
2,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
3,20,RL,93.0,11160,Pave,,Reg,Lvl,AllPub,Corner,...,0,,,,0,4,2010,WD,Normal,244000
4,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,Inside,...,0,,MnPrv,,0,3,2010,WD,Normal,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,80,RL,37.0,7937,Pave,,IR1,Lvl,AllPub,CulDSac,...,0,,GdPrv,,0,3,2006,WD,Normal,142500
2926,20,RL,,8885,Pave,,IR1,Low,AllPub,Inside,...,0,,MnPrv,,0,6,2006,WD,Normal,131000
2927,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,Shed,700,7,2006,WD,Normal,132000
2928,20,RL,77.0,10010,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,4,2006,WD,Normal,170000


In [5]:
# Cambiar "SalePrice" a "sale_Price"
df.rename(columns={"saleprice": "sale_price"}, inplace=True)
df

Unnamed: 0,ms_subclass,ms_zoning,lot_frontage,lot_area,street,alley,lot_shape,land_contour,utilities,lot_config,...,pool_area,pool_qc,fence,misc_feature,misc_val,mo_sold,yr_sold,sale_type,sale_condition,sale_price
0,20,RL,141.0,31770,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,5,2010,WD,Normal,215000
1,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
2,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
3,20,RL,93.0,11160,Pave,,Reg,Lvl,AllPub,Corner,...,0,,,,0,4,2010,WD,Normal,244000
4,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,Inside,...,0,,MnPrv,,0,3,2010,WD,Normal,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,80,RL,37.0,7937,Pave,,IR1,Lvl,AllPub,CulDSac,...,0,,GdPrv,,0,3,2006,WD,Normal,142500
2926,20,RL,,8885,Pave,,IR1,Low,AllPub,Inside,...,0,,MnPrv,,0,6,2006,WD,Normal,131000
2927,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,Shed,700,7,2006,WD,Normal,132000
2928,20,RL,77.0,10010,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,4,2006,WD,Normal,170000


# Localización de datos faltantes y conteo.

Utilizamos el comando isna().sum() para contar los datos faltantes en las columnas y, además, mostramos los resultados para identificar las columnas que requerían atención.

In [6]:
# Contar la cantidad de datos faltantes en cada columna
missing_data_count = df.isna().sum()

# Filtrar y mostrar solo las columnas que tienen datos faltantes
missing_data_count = missing_data_count[missing_data_count > 0]

print("Cantidad de datos faltantes por columna:")
print(missing_data_count)

Cantidad de datos faltantes por columna:
lot_frontage       490
alley             2732
mas_vnr_type      1775
mas_vnr_area        23
bsmt_qual           80
bsmt_cond           80
bsmt_exposure       83
bsmtfin_type_1      80
bsmtfin_sf_1         1
bsmtfin_type_2      81
bsmtfin_sf_2         1
bsmt_unf_sf          1
total_bsmt_sf        1
electrical           1
bsmt_full_bath       2
bsmt_half_bath       2
fireplace_qu      1422
garage_type        157
garage_finish      159
garage_cars          1
garage_area          1
garage_qual        159
garage_cond        159
pool_qc           2917
fence             2358
misc_feature      2824
dtype: int64


# Gestión de datos faltantes.

Al revisar las columnas 'alley', 'mas_vnr_type', 'fireplace_qu', 'pool_qc', 'fence' y 'misc_feature', notamos que los datos faltantes indican que no se dispone de alguno de los elementos específicos mencionados, como piscina, chimenea, cerca, tipo de mampostería o alguna característica adicional.

In [7]:
# Lista de columnas con más de mil valores faltantes
columns_to_replace = [
    "alley",
    "mas_vnr_type",
    "fireplace_qu",
    "pool_qc",
    "fence",
    "misc_feature",
]

# Reemplazar los valores faltantes en las columnas seleccionadas
for column in columns_to_replace:
    df[column].fillna(f"no_{column}", inplace=True)

In [8]:
# Impresión de los valores que modificamos para verificar los datos
columns_to_replace = [
    "alley",
    "mas_vnr_type",
    "fireplace_qu",
    "pool_qc",
    "fence",
    "misc_feature",
]

for column in columns_to_replace:
    print(df[column].value_counts())
    print("-------------------------------------------")

alley
no_alley    2732
Grvl         120
Pave          78
Name: count, dtype: int64
-------------------------------------------
mas_vnr_type
no_mas_vnr_type    1775
BrkFace             880
Stone               249
BrkCmn               25
CBlock                1
Name: count, dtype: int64
-------------------------------------------
fireplace_qu
no_fireplace_qu    1422
Gd                  744
TA                  600
Fa                   75
Po                   46
Ex                   43
Name: count, dtype: int64
-------------------------------------------
pool_qc
no_pool_qc    2917
Ex               4
Gd               4
TA               3
Fa               2
Name: count, dtype: int64
-------------------------------------------
fence
no_fence    2358
MnPrv        330
GdPrv        118
GdWo         112
MnWw          12
Name: count, dtype: int64
-------------------------------------------
misc_feature
no_misc_feature    2824
Shed                 95
Gar2                  5
Othr                  4


# Identificar columnas con valores nulos

Volvemos a revisar cuales columnas tienen valores nulos.

In [9]:
# Contar la cantidad de datos faltantes en cada columna
missing_data_count = df.isna().sum()

# Filtrar y mostrar solo las columnas que tienen datos faltantes
missing_data_count = missing_data_count[missing_data_count > 0]

print("Cantidad de datos faltantes por columna:")
print(missing_data_count)

Cantidad de datos faltantes por columna:
lot_frontage      490
mas_vnr_area       23
bsmt_qual          80
bsmt_cond          80
bsmt_exposure      83
bsmtfin_type_1     80
bsmtfin_sf_1        1
bsmtfin_type_2     81
bsmtfin_sf_2        1
bsmt_unf_sf         1
total_bsmt_sf       1
electrical          1
bsmt_full_bath      2
bsmt_half_bath      2
garage_type       157
garage_finish     159
garage_cars         1
garage_area         1
garage_qual       159
garage_cond       159
dtype: int64


# Identificar el tipo de dato correspondiente a cada columna con valores nulos

In [10]:
# Lista de columnas
columns_to_check = [
    "lot_frontage",
    "mas_vnr_area",
    "bsmt_qual",
    "bsmt_cond",
    "bsmt_exposure",
    "bsmtfin_type_1",
    "bsmtfin_sf_1",
    "bsmtfin_type_2",
    "bsmtfin_sf_2",
    "bsmt_unf_sf",
    "total_bsmt_sf",
    "electrical",
    "bsmt_full_bath",
    "bsmt_half_bath",
    "garage_type",
    "garage_finish",
    "garage_cars",
    "garage_area",
    "garage_qual",
    "garage_cond",
]

# Verificar el tipo de dato de cada columna
column_data_types = df[columns_to_check].dtypes

# Imprimir los resultados
print(column_data_types)

lot_frontage      float64
mas_vnr_area      float64
bsmt_qual          object
bsmt_cond          object
bsmt_exposure      object
bsmtfin_type_1     object
bsmtfin_sf_1      float64
bsmtfin_type_2     object
bsmtfin_sf_2      float64
bsmt_unf_sf       float64
total_bsmt_sf     float64
electrical         object
bsmt_full_bath    float64
bsmt_half_bath    float64
garage_type        object
garage_finish      object
garage_cars       float64
garage_area       float64
garage_qual        object
garage_cond        object
dtype: object


Son 10 columnas de tipo objeto y 11 de tipo float64.

In [11]:
df["electrical"].replace(np.nan, "unknown", inplace=True)

In [12]:
# Lista de columnas relacionadas con el garage
garage_columns = ["garage_type", "garage_finish", "garage_qual", "garage_cond"]
# Reemplazar los valores faltantes en las columnas del garaje con 'no_garage'
for column in garage_columns:
    df[column].replace(np.nan, "no_garage", inplace=True)

In [13]:
# Lista de columnas relacionadas con el sótano
basement_columns = [
    "bsmt_qual",
    "bsmt_cond",
    "bsmt_exposure",
    "bsmtfin_type_1",
    "bsmtfin_type_2",
]
# Reemplazar los valores faltantes en las columnas del sótano con 'no_basement'
for column in basement_columns:
    df[column].replace(np.nan, "no_basement", inplace=True)

In [14]:
columns_to_fill_with_zeros = [
    "lot_frontage",
    "mas_vnr_area",
    "bsmtfin_sf_1",
    "bsmtfin_sf_2",
    "bsmt_unf_sf",
    "total_bsmt_sf",
    "bsmt_full_bath",
    "bsmt_half_bath",
    "garage_cars",
    "garage_area",
]

df[columns_to_fill_with_zeros] = df[columns_to_fill_with_zeros].fillna(0)

In [15]:
# Contar la cantidad de datos faltantes en cada columna
missing_data_count = df.isna().sum()

# Filtrar y mostrar solo las columnas que tienen datos faltantes
missing_data_count = missing_data_count[missing_data_count > 0]

print("Cantidad de datos faltantes por columna:")
print(missing_data_count)

Cantidad de datos faltantes por columna:
Series([], dtype: int64)


# Label encoding

In [16]:
from sklearn.preprocessing import LabelEncoder

# Identificar las columnas de tipo objeto
object_columns = df.select_dtypes(include=["object"]).columns

# Inicializar el LabelEncoder
label_encoder = LabelEncoder()

# Aplicar Label Encoding a cada columna de tipo objeto
for col in object_columns:
    df[col] = label_encoder.fit_transform(df[col])

# Escalamiento de datos

Dado que usaremos parámetros de regularización, es neceario que el los datos X estén escalados. Sin embargo, no es necesario que la variable objetivo esté escalada.

Solo se escalarán las variables numéricas. No se escalarán las variables categóricas dado que se perdería la información de las mismas.

In [17]:
# Inicializar el StandardScaler
scaler = StandardScaler()

# Seleccionar todas las columnas excepto 'sale_price' y columnas en 'object_columns'
cols_to_scale = [
    col for col in df.columns if col not in ["sale_price"] + list(object_columns)
]

# Ajustar y transformar las columnas seleccionadas
df[cols_to_scale] = scaler.fit_transform(df[cols_to_scale])

In [18]:
df

Unnamed: 0,ms_subclass,ms_zoning,lot_frontage,lot_area,street,alley,lot_shape,land_contour,utilities,lot_config,...,pool_area,pool_qc,fence,misc_feature,misc_val,mo_sold,yr_sold,sale_type,sale_condition,sale_price
0,-0.877005,5,2.488592,2.744381,1,2,0,3,0,0,...,-0.063031,4,4,5,-0.089422,-0.448057,1.678499,9,4,215000
1,-0.877005,4,0.667355,0.187097,1,2,3,3,0,4,...,-0.063031,4,2,5,-0.089422,-0.079602,1.678499,9,4,105000
2,-0.877005,5,0.697212,0.522814,1,2,0,3,0,0,...,-0.063031,4,4,1,21.985725,-0.079602,1.678499,9,4,172000
3,-0.877005,5,1.055488,0.128458,1,2,3,3,0,0,...,-0.063031,4,4,5,-0.089422,-0.816513,1.678499,9,4,244000
4,0.061285,5,0.488217,0.467348,1,2,0,3,0,4,...,-0.063031,4,2,5,-0.089422,-1.184969,1.678499,9,4,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,0.530430,5,-0.616467,-0.280621,1,2,0,3,0,1,...,-0.063031,4,0,5,-0.089422,-1.184969,-1.360118,9,4,142500
2926,-0.877005,5,-1.721152,-0.160296,1,2,0,2,0,4,...,-0.063031,4,2,5,-0.089422,-0.079602,-1.360118,9,4,131000
2927,0.647716,5,0.129941,0.037199,1,2,3,3,0,4,...,-0.063031,4,2,3,1.146786,0.288854,-1.360118,9,4,132000
2928,-0.877005,5,0.577786,-0.017506,1,2,3,3,0,4,...,-0.063031,4,4,5,-0.089422,-0.816513,-1.360118,9,4,170000


In [19]:
df.to_csv("AmesHousing_processed_data.csv", index=False)