In [13]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [22]:
#datos de ejemplo (ubicacion codificada como valores numéricos)
data = pd.DataFrame({
    'Location': [1, 2, 3, 4, 5],  # 1: Downtown, 2: Suburb, etc.
    'Size': [1200, 1800, 2400, 1500, 2000],
    'Bedrooms': [3, 4, 5, 3, 4],
    'Age': [10, 5, 15, 7, 8],
    'Price': [350000, 420000, 300000, 375000, 450000]
})

# generar datos sinteticos añadiendo variaciones aleatorias
synthetic_data = [] # se usa una lista para guardar nuevas caracteriristicas

for i in range(100):  # se crean 100 nuevas caracteristicas
    new_sample = {
        'Location': np.random.choice([1, 2, 3, 4, 5]),  # ubicacion aleatoria
        'Size': np.random.uniform(1000, 2500),  # tamaño aleatorio en un rango
        'Bedrooms': np.random.randint(2, 6),  # Numero aleatorio de habitaciones
        'Age': np.random.randint(1, 20),  # antiguedad aleatoria en un rango
        'Price': np.random.uniform(300000, 500000)  # precio aleatorio
    }
    synthetic_data.append(new_sample) # añadir a la lista

# se convierte la lista de diccionarios en un DataFrame
synthetic_data = pd.DataFrame(synthetic_data)
# combinar los datos originales con los sinteticos
data = pd.concat([data, synthetic_data], ignore_index=True)

# se separan características (X) y precio (y)
X = data[['Location', 'Size', 'Bedrooms', 'Age']]
y = data['Price']

# se dividen los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# crear modelo de regresión lineal
model = LinearRegression()

# se entrena el modelo
model.fit(X_train, y_train)

# se hacen predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# se evalua el modelo
mae = mean_absolute_error(y_test, y_pred)
# MAE: mide el error absoluto promedio entre las predicciones y los valores reales
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
# RMSE: penaliza mas los errores grandes, midiendo que tan lejos estan las predicciones en promedio

# resultados
print(f"Error Absoluto Medio (MAE): {mae}")
print(f"Error Cuadrático Medio (RMSE): {rmse}")

# solicitar caracteristicas de la casa al usuario
location = int(input("Ingrese la ubicación (1: Downtown, 2: Suburb, 3: Rural, etc.): "))
size = float(input("Ingrese el tamaño en sqft: "))
bedrooms = int(input("Ingrese el número de habitaciones: "))
age = int(input("Ingrese la antigüedad en años: "))


user_input = np.array([[location, size, bedrooms, age]])# se convierten las caracteristicas del usuario a un formato adecuado para el modelo
prediction = model.predict(user_input)# se hace una predicción con el modelo entrenado
# el modelo predice el precio de la casa en función de las caracteristicas ingresadas
print(f"El precio estimado para la casa es: ${prediction[0]:.2f}")


Error Absoluto Medio (MAE): 51096.94305222634
Error Cuadrático Medio (RMSE): 60160.86422972776
Ingrese la ubicación (1: Downtown, 2: Suburb, 3: Rural, etc.): 5
Ingrese el tamaño en sqft: 2500
Ingrese el número de habitaciones: 5
Ingrese la antigüedad en años: 3
El precio estimado para la casa es: $403315.20


