**Regresión polinomial.**

*Uso de la validación cruzada (método del gradiente).*

Hello, I'm Go1234550

Realizaremos una regresión lineal múltiple para predecir el precio de una casa haciendo uso de las siguientes variables:

* sqft_living(pies cuadrados de área habitable): Indica el área total, en pies cuadrados, de la superficie habitable de una vivienda.

* bedrooms: Numero de cuartos que cuenta la vivienda.

Se consideran estas variables ya que son las que tienen mayor influencia para la determinación del precio de una propiedad.

Dataset utilizado: https://www.kaggle.com/code/laeclover/predicci-n-de-venta-de-casa/notebook

**Importamos las librerías.**

In [3]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import pandas as pd
import random as rd

**Creamos la regresión múltiple.**

Definimos la clase de nuestra regresión múltiple junto a sus métodos.

In [2]:
class MultipleRegression:
    def __init__(self, learning_rate=0.01, n_iter=1000):
        self.learning_rate = learning_rate
        self.n_iter = n_iter
        self.coef_ = None
        self.intercept_ = None

    def fit(self, X, y):
        # Add a column of ones to X to account for the intercept
        x_with_intercept = np.column_stack((np.ones(len(X)), X))

        # Initialize the random coefficients
        self.coef_ = np.random.rand(x_with_intercept.shape[1])

        # Gradient descent
        for _ in range(self.n_iter):
            gradient = -2 * x_with_intercept.T @ (y - x_with_intercept @ self.coef_)
            self.coef_ -= self.learning_rate * gradient

        # The first coefficient is the intercept
        self.intercept_ = self.coef_[0]
        self.coef_ = self.coef_[1:]

    def predict(self, X):
        # Add a column of ones to X to account for the intercept
        x_with_intercept = np.column_stack((np.ones(len(X)), X))
        return x_with_intercept @ np.concatenate(([self.intercept_], self.coef_))


**Realizamos el Train-Test Split**

Extraemos los datos que utilizaremos, considerando un 60% para el conjunto de entrenamiento y 40% para el de pruebas.

In [5]:
# Use the CSV file to read the data
#sqft_living = column 5
x1 = pd.read_csv('kc_house_data.csv', usecols=[5])
#bedrooms = column 3
x2 = pd.read_csv('kc_house_data.csv', usecols=[3])
#price = column 2
y = pd.read_csv('kc_house_data.csv', usecols=[2])

# Convert the data to numpy arrays
x1 = x1.to_numpy()
x2 = x2.to_numpy()
y = y.to_numpy()

# Determinate the size of the training set(60%) and the test set(40%)
training_set_size = int(0.6 * len(x1)) #x1 because it has the same length as x2 and y
test_set_size = len(x1) - training_set_size


**Implementación de la validación cruzada.**

Realizamos la validación cruzada, seleccionando aleatoriamente los datos de entrenamiento y prueba

In [None]:
#Cross validation
#Shuffle the data
data = list(zip(x1, x2, y))
rd.shuffle(data)
x1, x2, y = zip(*data)

#Split the data into training set
x1_train = np.array(x1[:training_set_size])
x2_train = np.array(x2[:training_set_size])
y_train = np.array(y[:training_set_size])

#Split the data into test set
x1_test = np.array(x1[training_set_size:])
x2_test = np.array(x2[training_set_size:])
y_test = np.array(y[training_set_size:])

**Entrenamiento del modelo.**

In [None]:
# Create the model
model = MultipleRegression(learning_rate=0.001, n_iter=10000)

# Train the model
model.fit(np.column_stack((x1_train, x2_train)), y_train)

# Make predictions
y_pred = model.predict(np.column_stack((x1_test, x2_test)))