# REGRESIÓN NO LINEAL (MÚLTIPLE)

## Estudiante: Gorky Palacios Mutis

## Descripción:
Desarrollo de un programa en Python para aplicar Regresión Múltiple.

## Información adicional:

Buscar un set de datos en otras fuentes de libre acceso: Kaggle, INEC, Git Hub, etc.

El archivo que se obtenga de la fuente de datos debería al menos tener 100 registros.

El archivo que se obtenga de la fuente de datos debería tener la posibilidad de aplicar el Algoritmo de Regresión Múltiple.

Se espera un análisis técnico y estadístico de los resultados obtenidos.

### DATASET SELECCIONADO

https://www.kaggle.com/datasets/fratzcan/usa-house-prices

Se escogió el dataset USA House Prices porque cuenta con más de 21,000 registros y contiene variables numéricas adecuadas para aplicar regresión múltiple. Algunas de estas variables son bedrooms, bathrooms, sqft_living, floors, view y condition, las cuales permiten analizar su influencia en el precio final de una vivienda.

In [27]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

In [28]:
df = pd.read_csv("USA Housing Dataset.csv")
print(df.columns)

Index(['date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'street', 'city',
       'statezip', 'country'],
      dtype='object')


In [29]:
# Seleccionar variables independientes (X) y dependiente (y)
X = df[['bedrooms', 'bathrooms', 'sqft_living', 'floors', 'view', 'condition', 'sqft_above', 'yr_built']]
y = df['price']

In [30]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [31]:
# Crear y entrenar modelo
model = LinearRegression()
model.fit(X_train, y_train)

In [32]:
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

In [33]:
# Evaluar
print("Puntaje R²:", r2_score(y_test, y_pred))  # Cuán bien se ajusta el modelo a los datos
print("Error Cuadrático Medio (MSE):", mse)  # Promedio de los errores al cuadrado
print("RMSE:", rmse)  # Raíz del error cuadrático medio
print("Intercepto:", model.intercept_)  # Valor del intercepto (ordenada al origen) del modelo
print("Coeficientes:", model.coef_)  # Coeficientes (pendientes) asociados a cada variable independiente
print(f"MAE: {mae}") # Error absoluto medio


Puntaje R²: 0.483005769588448
Error Cuadrático Medio (MSE): 74949726817.07118
RMSE: 273769.47751177667
Intercepto: 3853975.4460571012
Coeficientes: [-6.29892708e+04  6.91223246e+04  2.29819452e+02  2.22126048e+04
  5.63088580e+04  2.87860909e+04  2.18976595e+01 -1.98421175e+03]
MAE: 165617.92204534175


# **Análisis técnico y estadístico del modelo de Regresión Múltiple**

Este modelo de regresión múltiple se ha aplicó un modelo de **regresión lineal múltiple** con el objetivo de predecir el **precio de viviendas** en Estados Unidos utilizando variables cuantitativas relacionadas a las características físicas y estructurales de las propiedades.

## **1. Puntaje R² (R-Squared)**  
**Valor:** 0.483

El R² indica qué tan bien el modelo logra explicar la variación del precio de las casas. En este caso, el valor es aproximadamente 0.48, lo que significa que el modelo explica el **48.3% de la variación** del precio. Esto nos da a entender que el modelo tiene una capacidad moderada de predicción, pero hay espacio para mejora. El resto de la variabilidad (51.7%) se debe a otras variables que no estamos considerando.

## **2. Error Cuadrático Medio (MSE)**  
**Valor:** 74,949,726,817.07

El MSE mide el promedio de los errores al cuadrado entre los valores reales y los predichos. Aunque el valor absoluto es alto (por la escala de los precios), lo más útil es calcular el RMSE para tener una mejor interpretación.

## **3. Raíz del Error Cuadrático Medio (RMSE)**  
**Valor:** 273,769.48

Este valor representa, en promedio, cuántas unidades monetarias (en este caso dólares) se está equivocando el modelo por cada predicción. Un RMSE de aproximadamente 274 mil indica que, en promedio, el modelo tiene una desviación de ese monto con respecto al precio real de las casas.

## **4. Error Absoluto Medio (MAE)**  
**Valor:** 165,617.92

El MAE muestra el error promedio sin elevar al cuadrado. Nos indica que, en promedio, el modelo se equivoca por unos 165 mil dólares en cada predicción.

## **5. Intercepto**  
**Valor:** 3,853,975.45

El intercepto representa el valor predicho del precio de la casa cuando todas las variables independientes son cero. 

## **6. Coeficientes por variable**

Estos son los pesos asignados a cada variable independiente en el modelo. Indican cuánto cambia el precio de la casa por cada unidad de cambio en la variable correspondiente, manteniendo las otras constantes.

| Variable        | Coeficiente        | Interpretación básica                                      |
|-----------------|--------------------|-------------------------------------------------------------|
| `bedrooms`      | -62,989.27         | A más dormitorios, el precio disminuye |
| `bathrooms`     | 69,122.32          | A más baños, el precio sube                                  |
| `sqft_living`   | 229.82             | Cada metro cuadrado adicional sube ligeramente el precio     |
| `floors`        | 22,212.60          | Tener más pisos aumenta el precio                            |
| `view`          | 56,308.86          | Mejor vista, mayor precio                                    |
| `condition`     | 28,786.09          | Mejor condición de la casa, más alto el precio               |
| `sqft_above`    | 21.90              | Más área sobre el suelo, más alto el precio                  |
| `yr_built`      | -1,984.21          | Casas más nuevas tienden a valer menos en este modelo        |

## **Conclusión**

El modelo tiene un porcentaje aceptable, pero no excelente. Aunque logra mostrar parte de la relación entre las variables y el precio de las casas, aún hay un margen de error alto. Para mejorar el modelo, se podrían probar nuevas variables, realizar una limpieza más profunda de los datos para alcanzar un porcentaje de aceptación más adecuado.


