In [None]:

#Se importa numpy para facilitar las operaciones con matrices
import random
import math
import numpy as np

#Descenso estocástico de gradiente para regresión lineal.
#training_data_X es una matriz que representa el conjunto de x_i's
#training_data_y es una matriz que representa el conjunto de y_i's. Esta matriz tiene únicamente una 
#Pre: training_data_X  y training_data_y deben tener el mismo orden, es decir, para todo elemento X_i 
# de la matriz training_data_X, y_i en la matriz training_data_y debe ser su respectiva pareja.
# ejemplo, la fila 0 de training_data_X tiene como respectivo valor y el que está dado por 
# la fila 0 de training_data_y
def sgd(training_data_X, training_data_y,learning_rate= 0.001, max_iterations = 10000):
    
    #Para evitar que la embarre y ponga un learning rate demasiado alto que lleve a que el método no converja 
    if(learning_rate > 0.0001):
        learning_rate = 0.0001
    
    #Se inicializa W en ceros, de dimensión (columnas X, 1).
    #Se hace así para que no se tenga que transponer W.
    W = np.zeros(shape = (1, len(training_data_X[0])))
    
    iterations = 0
    no_improv_it = 0
    last_error = 0
    new_error = 0
    
    #Se estimará el gradiente a partir, únicamente, de uno de los datos
    while iterations < max_iterations and no_improv_it < 100 :
        
        #Seleccionar un dato al azar.
        i = math.floor(random.random()*len(training_data_X))
    
        #Calcular error del dato seleccionado al azar.
        e = np.dot(training_data_X[i], W.transpose())[0] - training_data_y[i]
        #Estimar gradiente con el error anterior
        estimated_grad = np.multiply(e, training_data_X[i])
        
        W = W - np.multiply(learning_rate, estimated_grad)
        
        new_error = residual_sum_of_squares(W,training_data_X, training_data_y)
    
        #Si no hubo una mejora en el error cuadrático, reducir tasa de aprendizaje (puede que se esté "saltando" el punto óptimo)
        if last_error < new_error:
            learning_rate*=0.9
            no_improv_it = 0
        elif last_error == new_error:
            no_improv_it += 1
        else:
            no_improv_it = 0
        
        last_error = new_error
        iterations += 1        
    
    print("----------------------------------------------")
    print("SDG finished, best residual_sum_of_squares %s" % last_error)
    print("W found: %s" % W)
    print(" R^2 found for the model: %s" % rcuadrado(W, training_data_X, training_data_y))
                                                     
def rcuadrado(W, training_data_X, training_data_y):
    
    residual_sum = residual_sum_of_squares(W, training_data_X, training_data_y)
    
    mean = np.mean(training_data_y)
        
    total_sum_squares = 0
    for i in range(0, len(training_data_y)):
        total_sum_squares +=  math.pow(training_data_y[i] - mean,2)
    
    print(residual_sum)
    print(total_sum_squares)

    
    return 1 - residual_sum/total_sum_squares

    
        
#Calcula el error de la función, se usa sólo una vez por iteración.
def residual_sum_of_squares(W, training_data_X, training_data_y):
    
    sum = 0
    for i in range(0, len(training_data_X)):
        sum+= math.pow(training_data_y[i] - np.dot(training_data_X[i] , W.transpose())[0],2)
    
    return 0.5 * sum

**Pruebas rápidas del método:**

In [250]:
import numpy as np

data_matrix = np.loadtxt(open("./WineQuality/winequality-white.csv", "rb"), delimiter=";", skiprows=1)
print("Filas de la matriz: " + str(len(data_matrix)))
print("Columnas de la matriz: " + str(len(data_matrix[0])))

X = np.resize(data_matrix, (len(data_matrix), len(data_matrix[0])-1))
y = data_matrix[:,11]

print(X)
print(y)

Filas de la matriz: 4898
Columnas de la matriz: 12
[[ 7.       0.27     0.36    ...  3.       0.45     8.8    ]
 [ 6.       6.3      0.3     ...  0.994    3.3      0.49   ]
 [ 9.5      6.       8.1     ... 97.       0.9951   3.26   ]
 ...
 [ 0.13     0.28     0.9     ...  0.52    11.2      6.     ]
 [ 6.7      0.48     0.49    ...  3.13     0.4     13.     ]
 [ 6.       6.7      0.48    ...  0.98926  3.13     0.4    ]]
[6. 6. 6. ... 6. 7. 6.]


In [266]:
sgd(X, y)

----------------------------------------------
SDG finished, best residual_sum_of_squares 14751.788946528515
W found: [[0.030339   0.0216037  0.03865635 0.01092129 0.03939777 0.03601374
  0.02318518 0.03935858 0.03481843 0.03139065 0.0354199 ]]
14751.788946528515
3840.989791751859
 R^2 found for the model: -2.840621752811347


**Pruebas con un set de datos que sé que sí sirve para regresión lineal**

In [None]:
import mglearn
X, y = mglearn.datasets.make_wave(n_samples=5000)
sgd(X, y)