In [4]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, StandardScaler
import joblib

def process_data(file_path):
    # Cargar el dataset
    data = pd.read_csv(file_path)
    
    # Eliminar columnas irrelevantes
    data = data.drop(['date', 'street', 'country'], axis=1)
    
    # Codificar variables categóricas (city, statezip)
    encoder = OneHotEncoder(sparse_output=False)
    categorical_cols = ['city', 'statezip']
    encoded_cats = pd.DataFrame(encoder.fit_transform(data[categorical_cols]), columns=encoder.get_feature_names_out(categorical_cols))
    
    # Guardar el encoder para usarlo más tarde en la inferencia
    joblib.dump(encoder, 'encoder.pkl')
    
    # Normalizar las columnas numéricas
    numerical_cols = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'waterfront', 'view', 
                      'condition', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated']
    scaler = StandardScaler()
    scaled_nums = pd.DataFrame(scaler.fit_transform(data[numerical_cols]), columns=numerical_cols)
    
    # Guardar el scaler para usarlo más tarde en la inferencia
    joblib.dump(scaler, 'scaler.pkl')
    
    # Concatenar las columnas numéricas y categóricas procesadas
    features = pd.concat([scaled_nums, encoded_cats], axis=1)
    targets = data['price']
    
    return features, targets

# Procesar y guardar las características
features, targets = process_data('USA Housing Dataset.csv')
features.to_csv('processed_features.csv', index=False)
targets.to_csv('processed_targets.csv', index=False)
