In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
plt.style.use("ggplot")
%matplotlib inline

In [2]:
datos = pd.read_csv("./data/02_intermidiate.csv")
datos.head()

Unnamed: 0.1,Unnamed: 0,score-1,score_2,label
0,0,34.62366,78.024693,0
1,1,30.286711,43.894998,0
2,2,35.847409,72.902198,0
3,3,60.182599,86.308552,1
4,4,79.032736,75.344376,1


In [3]:
datos = datos.rename(columns = {'score-1':'score_1','score-2':'score_2'})

In [4]:
puntuaciones = datos[['score_1', 'score_2']].values
resultado = datos['label'].values

In [None]:
def logistic_function(x):    
    return 1/ (1 + np.exp(-x))

In [None]:
def funcion_de_coste(theta, x, y):
    m = len(y) # numero de observaciones
    y_pred = logistic_function(np.dot(x , theta)) 
    # Devuelve una matriz fruto del producto de X y theta empleando la regresión logística
    error = (y * np.log(y_pred)) + ((1 - y) * np.log(1 - y_pred)) # termino error
    cost = -1 / m * sum(error) # función del coste para theta
    gradient = 1 / m * np.dot(x.transpose(), (y_pred - y)) # la formula que representa el coste de la función del gradiente
    return cost[0] , gradient # devuelve el resultado de la función coste y del gradiente

In [None]:
media_puntuaciones = np.mean(puntuaciones, axis=0)
desv_tipica_puntuaciones = np.std(puntuaciones, axis=0)
puntuaciones_estandarizadas = (puntuaciones - media_puntuaciones) / desv_tipica_puntuaciones # Estandardizacion

filas = puntuaciones_estandarizadas.shape[0] # numero de filas
columnas = puntuaciones_estandarizadas.shape[1] # numero de columnas

X = np.append(np.ones((filas, 1)), puntuaciones_estandarizadas, axis=1) # Matriz de las filas + una nueva columna de 1 (filas con 1)
y = resultado.reshape(filas, 1) # vector de label

theta_0 = np.zeros((columnas + 1, 1)) # matriz de thetas segun el numero de variables (con valor 0)
coste, gradiente = funcion_de_coste(theta_0, X, y) # se obtiene el coste para theta = 0 y los gradientes

print("Cost at initialization", coste)
print("Gradient at initialization:", gradiente)

In [None]:
def funcion_descenso_gradiente(X, y, theta, tasa_de_aprendizaje, iteraciones):
    costes = [] # coste para cada iteracion
    for i in range(iteraciones): # para cada iteracion
        coste, gradiente = funcion_de_coste(theta, X, y) # calcula su coste y matriz theta 
        theta -= (tasa_de_aprendizaje * gradiente) 
        # la nueva matriz theta cpn cada iteración vendrá dada por el producto entre el gradiente y la tasa de aprendizaje
        costes.append(coste) # agrega los elementos de coste a costes
    return theta, costes 

In [None]:
learning_rate = 0.02 # ratio de aprendizaje
numero_de_iteraciones = 100
X = np.append(np.ones((filas, 1)), puntuaciones_estandarizadas, axis=1) 
y = resultado.reshape(filas, 1)

theta_0 = np.zeros((columnas + 1, 1))

theta, costes = funcion_descenso_gradiente(X, y, theta_0, learning_rate, numero_de_iteraciones)

print(theta)
print(costes[-1])

plt.plot(costes, 'b.')
plt.xlabel("Iteraciones")
plt.ylabel("Theta");

In [None]:
learning_rate = 1 # ratio de aprendizaje
numero_de_iteraciones = 100
X = np.append(np.ones((filas, 1)), puntuaciones_estandarizadas, axis=1) 
y = resultado.reshape(filas, 1)

theta_0 = np.zeros((columnas + 1, 1))

theta, costes = funcion_descenso_gradiente(X, y, theta_0, learning_rate, numero_de_iteraciones)

print(theta)
print(costes[-1])

plt.plot(costes, 'b.')
plt.xlabel("Iteraciones")
plt.ylabel("Theta");

In [None]:
learning_rate = 0.02 # ratio de aprendizaje
numero_de_iteraciones = 500
X = np.append(np.ones((filas, 1)), puntuaciones_estandarizadas, axis=1) 
y = resultado.reshape(filas, 1)

theta_0 = np.zeros((columnas + 1, 1))

theta, costes = funcion_descenso_gradiente(X, y, theta_0, learning_rate, numero_de_iteraciones)

print(theta)
print(costes[-1])

plt.plot(costes, 'b.')
plt.xlabel("Iteraciones")
plt.ylabel("Theta");

In [None]:
learning_rate = 0.5 # ratio de aprendizaje
numero_de_iteraciones = 1000
X = np.append(np.ones((filas, 1)), puntuaciones_estandarizadas, axis=1) 
y = resultado.reshape(filas, 1)

theta_0 = np.zeros((columnas + 1, 1))

theta, costes = funcion_descenso_gradiente(X, y, theta_0, learning_rate, numero_de_iteraciones)

print(theta)
print(costes[-1])

plt.plot(costes, 'b.')
plt.xlabel("Iteraciones")
plt.ylabel("Theta");