In [1]:
import pandas as pd

### ELT para manipular nuevos datos de entrada y que puedan ser consumidos correctamente por el modelo desplegado

In [3]:
file_path = r"C:\Users\franc\Desktop\ML_IoT\test.csv"
df_test = pd.read_csv(file_path)


# Guardar el ID antes de modificar el dataset
df_test_ids = df_test[['Id']]

# Seleccionar solo las columnas que espera el modelo
columns_needed = ['OverallQual', 'GrLivArea', 'TotalBsmtSF', '1stFlrSF',
                  'BsmtFinSF1', '2ndFlrSF', 'GarageCars', 'YearBuilt', 'GarageArea']


# Verificar si faltan columnas en test.csv
missing_cols = [col for col in columns_needed if col not in df_test.columns]
if missing_cols:
    raise ValueError(f"Faltan las siguientes columnas en test.csv: {missing_cols}")

# Filtrar solo las columnas necesarias
df_test_filtered = df_test[columns_needed]



### **Imputación de valores nulos según EDA**

In [22]:
imputation_rules = {
    "TotalBsmtSF": 0,  # Si falta, asumimos que no tiene sótano
    "BsmtFinSF1": 0,  # Si falta, asumimos que no tiene sótano terminado
    "2ndFlrSF": 0,  # Si falta, asumimos que no tiene segundo piso
    "GarageCars": 0,  # Si falta, asumimos que no tiene garaje
    "GarageArea": 0,  # Si falta, asumimos que no tiene garaje
    "GrLivArea": df_test_filtered["GrLivArea"].median(),  # Imputar con la mediana
    "OverallQual": df_test_filtered["OverallQual"].median(),  # Imputar con la mediana
    "1stFlrSF": df_test_filtered["1stFlrSF"].median(),  # Imputar con la mediana
    "YearBuilt": df_test_filtered["YearBuilt"].median(),  # Imputar con la mediana
}

# Aplicar la imputación
df_test_filtered.fillna(imputation_rules, inplace=True)

df_test_final = pd.concat([df_test_ids, df_test_filtered], axis=1)

# Guardar el archivo transformado para predicción
output_path = r"C:\Users\franc\Desktop\ML_IoT\Nuevos_datos_preparados.csv"
df_test_final.to_csv(output_path, index=False)

print(f"Archivo transformado guardado como {output_path}")


Archivo transformado guardado como C:\Users\franc\Desktop\ML_IoT\Nuevos_datos_preparados.csv


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test_filtered.fillna(imputation_rules, inplace=True)


In [24]:
df_test_final

Unnamed: 0,Id,OverallQual,GrLivArea,TotalBsmtSF,1stFlrSF,BsmtFinSF1,2ndFlrSF,GarageCars,YearBuilt,GarageArea
0,1461,5,896,882.0,896,468.0,0,1.0,1961,730.0
1,1462,6,1329,1329.0,1329,923.0,0,1.0,1958,312.0
2,1463,5,1629,928.0,928,791.0,701,2.0,1997,482.0
3,1464,6,1604,926.0,926,602.0,678,2.0,1998,470.0
4,1465,8,1280,1280.0,1280,263.0,0,2.0,1992,506.0
...,...,...,...,...,...,...,...,...,...,...
1454,2915,4,1092,546.0,546,0.0,546,0.0,1970,0.0
1455,2916,4,1092,546.0,546,252.0,546,1.0,1970,286.0
1456,2917,5,1224,1224.0,1224,1224.0,0,2.0,1960,576.0
1457,2918,5,970,912.0,970,337.0,0,0.0,1992,0.0
