## Transformaciones Inciales

In [5]:
pip install pandas


Note: you may need to restart the kernel to use updated packages.


In [4]:
pip install matplotlib

Collecting matplotlib
  Using cached matplotlib-3.3.4-cp37-cp37m-macosx_10_9_x86_64.whl (8.5 MB)
Collecting kiwisolver>=1.0.1
  Using cached kiwisolver-1.3.1-cp37-cp37m-macosx_10_9_x86_64.whl (61 kB)
Collecting cycler>=0.10
  Using cached cycler-0.10.0-py2.py3-none-any.whl (6.5 kB)
Collecting pillow>=6.2.0
  Using cached Pillow-8.1.2-cp37-cp37m-macosx_10_10_x86_64.whl (2.2 MB)
Installing collected packages: pillow, kiwisolver, cycler, matplotlib
Successfully installed cycler-0.10.0 kiwisolver-1.3.1 matplotlib-3.3.4 pillow-8.1.2
Note: you may need to restart the kernel to use updated packages.


In [188]:
import pandas as pd 
import numpy as np

In [189]:
df = pd.read_csv('dat.csv')

In [190]:
df.head(3)

Unnamed: 0,0.9317189805776385,50.94283197947629,2596.040230347921
0,0.796997,50.312938,2532.026902
1,1.115603,50.156194,2516.888332
2,1.064629,50.774814,2579.21519


In [191]:
df.columns

Index(['0.9317189805776385', ' 50.94283197947629', ' 2596.040230347921'], dtype='object')

In [192]:
y = df[[' 2596.040230347921']].to_numpy()

In [193]:
df['cons'] = 1

In [194]:
X = df[['cons','0.9317189805776385', ' 50.94283197947629']].to_numpy()

In [195]:
print(y.shape,X.shape)

(159999, 1) (159999, 3)


# Creando Funciones de Costo

In [196]:
def linear_cost(X, y, theta): 
    h = X @ theta
    return ((y-h)**2).sum() / (2 * len(X)) 

In [197]:
def linear_cost_gradient(X, y, theta, lambda_p = 10): 
    h = X @ theta
    lambda_f = (lambda_p/(2*len(X))) * (theta**2).sum()
    return (X.T @ (h-y))/ len(X) + lambda_f

In [198]:
def gradient_descent(
X,y,theta_0,linear_cost,linear_cost_gradient,
    learning_rate = 0.0001, threshold=0.001, max_iter=10000,lambda_p = 10): 
    
    theta = theta_0
    iteration = 0 
    costs = []
    thetas = []
    
    while np.linalg.norm(linear_cost_gradient(X,y,theta)) > threshold and iteration < max_iter:
        iteration += 1 
        theta = theta - (learning_rate * linear_cost_gradient(X,y,theta) + lambda_p * theta)
        costs.append(linear_cost(X,y,theta))
        thetas.append(theta.copy())
        
    return theta, costs, thetas

## Thetas iniciales

In [199]:
m, n = X.shape

In [200]:
theta_0 = np.random.rand(n,1)

In [201]:
print(theta_0.shape)

(3, 1)


## Shuffle Inicial 

In [202]:
np.random.shuffle(X)

In [203]:
np.random.shuffle(y)

In [204]:
X_train = X[:96000]
X_cv = X[96001:128000]
X_test = X[128001:159999]

In [205]:
print(X_train.shape,X_cv.shape,X_test.shape)

(96000, 3) (31999, 3) (31998, 3)


In [206]:
y_train = y[:96000]
y_cv = y[96001:128000]
y_test = y[128001:159999]

In [207]:
print(y_train.shape,y_cv.shape,y_test.shape)

(96000, 1) (31999, 1) (31998, 1)


# Corriendo regresión Polinomio Grado 1

In [208]:
theta, costs, thetas = gradient_descent(X_train,y_train,theta_0,linear_cost,linear_cost_gradient,0.0000001,0.001,10000,2)

In [209]:
len(costs)

10000

In [210]:
print(costs[len(costs)-1])

8.894738081096136e+20


El costo es pequeño en esta regresión pero comprobaremos con una regresión grado 3 en base a nuestra primera fila. Este es el mejor modelo que logramos encontrar en un polinomio de grado 1 con una regulariazión de 2 de labda tenemos un costo bastante bajo, sin embargo si reducimos el lambda a 0 nuestro costo aumenta considerablemente. por lo que tratare de hacer la regresión con un polinomio de grado 3. Ya que con un lambda de 0 podemos decir que teniamos bastante varianza en el modelo y solo regularizando los thetas pudimos obtener un modelo just right si lo vemos de esta manera.

## Corriendo regresión Polinomio Grado 3

In [211]:
df['0.9317189805776385_2'] = df['0.9317189805776385'] ** 2
df['0.9317189805776385_3'] = df['0.9317189805776385'] ** 3

In [212]:
y2 = df[[' 2596.040230347921']].to_numpy()
X2 = df[['cons','0.9317189805776385','0.9317189805776385_2', '0.9317189805776385_3',' 50.94283197947629']].to_numpy()

In [213]:
print(y2.shape,X2.shape)

(159999, 1) (159999, 5)


In [214]:
m, n = X2.shape

In [215]:
theta_0_2 = np.random.rand(n,1)

In [216]:
print(theta_0_2.shape)

(5, 1)


In [217]:
np.random.shuffle(X2)
np.random.shuffle(y2)

In [218]:
X2_train = X2[:96000]
X2_cv = X2[96001:128000]
X2_test = X2[128001:159999]
y2_train = y2[:96000]
y2_cv = y2[96001:128000]
y2_test = y2[128001:159999]

In [219]:
print(X2_train.shape,X2_cv.shape,X2_test.shape)

(96000, 5) (31999, 5) (31998, 5)


In [220]:
print(y2_train.shape,y2_cv.shape,y2_test.shape)

(96000, 1) (31999, 1) (31998, 1)


In [221]:
theta2, costs2, thetas2 = gradient_descent(X2_train,y2_train,theta_0_2,linear_cost,linear_cost_gradient,0.00000000000001,0.001,10000,2)

In [222]:
len(costs2)

10000

In [223]:
print(costs2[len(costs2)-1])

1.8870741626530675e+23


Como podemos observar nuestro costo es muy cercano a 0 en una regresión polinomial de grado 3 y con un regularizador de 2. Este podriamos decir que es un buen modelo a simple vista pero debemos de analizar como queda un modelo de grado 2. para ver si no es un mejor modelo y este valor bajo solo lleve a que este valor suba.

# Corriendo Regresión de grado 2

In [224]:
y3 = df[[' 2596.040230347921']].to_numpy()
X3 = df[['cons','0.9317189805776385','0.9317189805776385_2', ' 50.94283197947629']].to_numpy()

In [225]:
print(y3.shape,X3.shape)

(159999, 1) (159999, 4)


In [226]:
m, n = X3.shape

In [227]:
theta_0_3 = np.random.rand(n,1)

In [228]:
print(theta_0_3.shape)

(4, 1)


In [229]:
np.random.shuffle(X3)
np.random.shuffle(y3)

In [230]:
X3_train = X3[:96000]
X3_cv = X3[96001:128000]
X3_test = X3[128001:159999]
y3_train = y3[:96000]
y3_cv = y3[96001:128000]
y3_test = y3[128001:159999]

In [231]:
print(X3_train.shape,X3_cv.shape,X3_test.shape)

(96000, 4) (31999, 4) (31998, 4)


In [232]:
print(y3_train.shape,y3_cv.shape,y3_test.shape)

(96000, 1) (31999, 1) (31998, 1)


In [233]:
theta3, costs3, thetas3 = gradient_descent(X3_train,y3_train,theta_0_3,linear_cost,linear_cost_gradient,0.0000000001,0.001,10000,2)

In [234]:
len(costs3)

10000

In [235]:
print(costs3[len(costs3)-1])

6.909701847864607e+24


Nos damos cuenta que con una regresión de grado 2 y con dos puntos de regularización llegamos a tener un costo menor al de grado 1 pero no menor al de grado 3. por lo tanto considerando por estas primeras pruebas realizaramos los análsisi de cross validation para el polinomio de grado 3. con un regularizador de 2. 

## Cross Validation Polinomio Grado 3

In [237]:
cv_cost = linear_cost(X2_cv,y2_cv, theta2)

In [238]:
cv_cost

1.8903568156636853e+23

Como vemos en este modelo con las thetas que encontramos del polinomio de grado 3 y la prueba del costo con los datos de cross validation vemos que tenemos un costo bastante bajo y muy parecido al que encontramos en el training set. esto nos da un buen aproach a la capacidad de generalización que tiene nuestro modelo. Pero para comprobar esto haremos la misma prueba pero con el test set

In [239]:
test_train = linear_cost(X2_test, y2_test, theta2)

In [240]:
test_train

1.8829755065728597e+23

Como podemos ver en el resultado del test set el costo se mantiene de una manera bastante buena. Lo que nos índica que el polinomio de grado 3 con un alpha de regulariazción de 2 grados es un buen modelo para nuestra variable objetivo. Con una capacidad de regularización muy buena.