# Modelos de Regresión Lineal

## Análisis Exploratorio de Datos 

### Carga del dataset

In [2]:
import pandas as pd
train_file_path = "data/train_set.csv"
df_train = pd.read_csv(train_file_path)

In [3]:
df_train.head()

Unnamed: 0,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,20,RL,70.0,8400,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,6,2010,WD,Normal,145000
1,60,RL,59.0,7837,Pave,,IR1,Lvl,AllPub,Inside,...,0,,,,0,5,2009,WD,Normal,178000
2,30,RL,67.0,8777,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,5,2008,WD,Normal,85000
3,50,RL,60.0,7200,Pave,,Reg,Lvl,AllPub,Corner,...,0,,MnPrv,,0,6,2007,WD,Normal,175000
4,50,RL,50.0,5000,Pave,Pave,Reg,Lvl,AllPub,Inside,...,0,,,,0,5,2010,WD,Normal,127000


### Limpieza de datos

Manejo de Valores Nulos - Se  obtienen la cantidad de valores nulos y el porcentaje para determinar que datos se pueden eliminar y como manejar aquellos que representan una gran porcion de los datos

In [13]:
def relevant_null_value_percentage(df, umbral):
    na_not_missing = [
        "Alley", "BsmtQual", "BsmtCond", "BsmtExposure", "BsmtFinType1", "BsmtFinType2",
        "FireplaceQu", "GarageType", "GarageFinish", "GarageQual", "GarageCond",
        "PoolQC", "Fence", "MiscFeature"
    ]
    df_cleaning = df.isnull().sum().reset_index()
    df_cleaning.columns = ["Columnas", "Valores Nulos"]
    df_cleaning["Porcentaje de Valores Nulos"] = (df_cleaning["Valores Nulos"] / len(df)) * 100
    df_cleaning["Tipo de Nulo"] = df_cleaning["Columnas"].apply(
        lambda x: "No Aplica" if x in na_not_missing else "Dato Faltante"
    )
    df_cleaning = df_cleaning[df_cleaning["Porcentaje de Valores Nulos"] > umbral]
    df_cleaning = df_cleaning.sort_values(by="Porcentaje de Valores Nulos", ascending=False)

    return df_cleaning

In [18]:
df_nulos = relevant_null_value_percentage(df_train, 0)
print(df_nulos)

        Columnas  Valores Nulos  Porcentaje de Valores Nulos   Tipo de Nulo
71        PoolQC           1162                    99.486301      No Aplica
73   MiscFeature           1122                    96.061644      No Aplica
5          Alley           1094                    93.664384      No Aplica
72         Fence            935                    80.051370      No Aplica
24    MasVnrType            683                    58.476027  Dato Faltante
56   FireplaceQu            547                    46.832192      No Aplica
2    LotFrontage            217                    18.578767  Dato Faltante
57    GarageType             64                     5.479452      No Aplica
58   GarageYrBlt             64                     5.479452  Dato Faltante
59  GarageFinish             64                     5.479452      No Aplica
62    GarageQual             64                     5.479452      No Aplica
63    GarageCond             64                     5.479452      No Aplica
30      Bsmt

Para los columnas que presenten un porcentaje a 5% se deben trabajar los datos y para aquellas con un porcentaje menor a 5% se pueden eliminar esas filas con los datos nulos.

In [21]:
df_train_cleaned = df_train.copy()
# 1. Manejo de valores en MasVnrType con la moda (valor más frecuente)
mode_masvnrtype = df_train_cleaned["MasVnrType"].mode()[0]  # Obtener la moda
df_train_cleaned.loc[:, "MasVnrType"] = df_train_cleaned["MasVnrType"].fillna(mode_masvnrtype)

# 2. Manejo de  valores en LotFrontage con la mediana por Neighborhood
df_train_cleaned.loc[:, "LotFrontage"] = df_train_cleaned.groupby("Neighborhood")["LotFrontage"].transform(
    lambda x: x.fillna(x.median())
)

# 3. Imputar valores en GarageYrBlt con YearBuilt
df_train_cleaned.loc[:, "GarageYrBlt"] = df_train_cleaned["GarageYrBlt"].fillna(df_train_cleaned["YearBuilt"])

missing_after_imputation = df_train_cleaned[["MasVnrType", "LotFrontage", "GarageYrBlt"]].isnull().sum()

In [22]:
print("Valores nulos después de la imputación:")
print(missing_after_imputation)

Valores nulos después de la imputación:
MasVnrType     0
LotFrontage    0
GarageYrBlt    0
dtype: int64


Eliminar filas con valores null (menores al 5%)

In [23]:
df_train_cleaned = df_train_cleaned.dropna()
missing_after_drop = df_train_cleaned.isnull().sum()

In [24]:
print("Valores nulos después de eliminar filas con datos faltantes:")
print(missing_after_drop)

Valores nulos después de eliminar filas con datos faltantes:
MSSubClass       0
MSZoning         0
LotFrontage      0
LotArea          0
Street           0
                ..
MoSold           0
YrSold           0
SaleType         0
SaleCondition    0
SalePrice        0
Length: 80, dtype: int64


### Análisis descriptivo

### Visualización de datos

### Pruebas de normalidad y correlación

### Análisis de agrupamiento

## Ingeniería de Características

### Selección de variables relevantes

### Creación de nuevas características

### Análisis de multicolinealidad