# Predicción de precios de automóviles

In [2]:
import pandas as pd
import numpy as np

## Regresión lineal y polinomial

Primero se creará la clase de regresión lineal.

In [3]:
class RegresionLineal:
    def __init__(self):
        self.theta = np.empty((1)) # vector de thetas
    
    ## Recibe la matriz de X's y el vector de y's para entrenar el modelo
    # Presupone que la primera columna de las x's tiene puros 1's.
    def entrena(self, X, y):
        self.theta = np.linalg.inv(X.T @ X) @ (X.T @ y)
    
    ## Recibe el vector x y predice el valor de y, dado que ya se tienen las thetas.
    def predice(self, x):
        return np.dot(x, theta) # producto punto

Ahora se creará la clase de regresión polinomial.

In [6]:
class RegresionPolinomial:
    def __init__(self, deg):
        self.theta = np.empty((1)) # vector de thetas
        self.grado = deg
        self.rl = RegresionLineal()
    
    ## Realiza la expansión polinomial de un vector x.
    def expande(self, x):
        salida1 = []
        for variable in x:
            vector = []
            for i in range(1, self.grado+1):
                vector.append(variable ** i)
            salida1.append(vector)
        salida2 = [1] # El vector x siempre tiene un 1 al inicio
        for fila in salida1:
            salida2.extend(fila)
        return salida2
    
    ## Entrena el modelo, dadas las x's y las y's.
    def entrena(self, X, y):
        X2 = [] # Matriz que contiene la expansión polinomial de cada x en X
        for x in X:
            X2.append(expande(self, x))
        self.theta = rl.entrena(X2, y)
        
    ## Predice el valor de y dado x.
    def predice(self, x):
        x2 = expande(x)
        return rl.predice(x2)
    
    ## Predice los valores de y's dadas las x's
    def predice2(self, X):
        y = np.zeros(X.shape[0])
        for fila in range(X.shape[0]):
            y[fila] = predice(self, X[fila])
        return y

Ahora se define la función de error cuadrático medio.

In [7]:
def error_cm(y1, y2):
    suma = ((y1 - y2)**2).sum()
    return suma/y1.shape[0]

## Validación cruzada

Se definirá una función que calcula el error cuadrático medio en validación cruzada con $k$ particiones y $r$ repeticiones. Recibe un modelo de regresión polinomial cuyo grado ya está definido. Recibe los valores de $x$ y $y$.

In [8]:
## Parte los datasets X y y, donde se tendrán k particiones de validación.
def parte(X, y, k, indice):
    tam_val = X.shape[0] // k # Tamaño de la partición
    X_ent = []
    X_val = []
    y_ent = []
    y_val = []
    for i in range(X.shape):
        if tam_val*indice <= i and i < tam_val*(indice+1):
            X_val.append(X[i])
            y_val.append(y[i])
        else:
            X_ent.append(X[i])
            y_ent.append(y[i])
    return (np.array(X_ent), np.array(X_val), np.array(y_ent), np.array(y_val))

In [9]:
## Realiza validación cruzada con k particiones y r repeticiones.
# @param k particiones
# @param r repeticiones
# @param X matriz con valores de x
# @param y vector con valores de y
# @param rp modelo de regresión polinomial
# @return errores cuadráticos medios, para entrenamiento y validación
def validacion_cruzada_kr(k, r, X, y, rp):
    suma_errores_ent = 0
    suma_errores_val = 0
    for i in range(r):
        perms = np.random.permutation(X.shape[0])
        Xperm = X[perms]
        yperm = y[perms]
        for j in range(k):
            X_ent, X_val, y_ent, y_val = parte(Xperm, yperm, k, j)
            rp.entrena(X_ent, y_ent)
            y_pred_ent = rp.predice2(X_ent)
            y_pred_val = rp.predice2(X_val)
            suma_errores_ent += error_cm(y_ent, y_pred_ent)
            suma_errores_val += error_cm(y_val, y_pred_val)
    # Al final se saca el promedio de cada uno
    pecm_ent = suma_errores_ent / (r*k)
    pecm_val = suma_errores_val / (r*k)
    return (pecm_ent, pecm_val)

Para probar diferentes modelos se realizará regresión polinomial con diferentes grados de polinomio. (Inciso a, problema 1).