<font color="#CA3532"><h1 align="left">Inteligencia Artificial Aplicada a la Bolsa (MIAX-11)</h1></font>
<font color="#5b5a59"><h2 align="left">Extensión del modelo de regresión logística a una dimensión arbitraria</h2></font>

In [None]:
import numpy as np
import matplotlib.pyplot as plt

Definición de la función sigmoide:

In [None]:
def sigmoid(z):
    return 1.0/(1.0 + np.exp(-z))

Cross-entropy loss:

In [None]:
def cross_entropy(y, t):
    loss = np.mean(-t*np.log(y) - (1.-t)*np.log(1.-y))
    return loss

Cross-entropy loss, from logits:

In [None]:
def cross_entropy_from_logits(z, t):
    a = np.log(1. + np.exp(-z))
    loss = np.mean(a + z - t*z)
    return loss

Precisión:

In [None]:
def accuracy(y, t):
    pred = y > 0.5
    return np.mean(pred == t)

Generación de los datos del problema:

In [None]:
# Parametros:
d = 5 # Dimension del problema
w = np.random.randn(d, 1)
b = 0.0
xmin = -10.0
xmax = 10.0
noise = 1.0
n = 1000

# Datos del problema generados al azar:
x = xmin + np.random.rand(d, n)*(xmax - xmin)
z = np.dot(w.T, x) + b 
zmin = np.min(z)
zmax = np.max(z)
t0 = sigmoid(z)
t = 1*(t0 > np.random.rand(n))

# Distribucion de las dos primeras variables:
plt.figure(figsize=(12,6))
plt.subplot(121)
plt.plot(x[0,:], x[1,:], 'o')
plt.grid(True)
plt.xlabel("x1")
plt.ylabel("x2")
plt.subplot(122)

# Grafica de t frente a z:
zrange = np.arange(zmin, zmax, 0.1)
plt.plot(z[0], t[0], 'o', label='data points')
plt.plot(zrange, sigmoid(zrange), 'r-', label='true prob $P(t = 1 | x)$')
plt.grid(True)
plt.xlabel("z")
plt.ylabel("t")
plt.legend()
plt.show()

# Coste esperado:
loss = cross_entropy(t0, t)
print("Cross-entropy esperada = %f" % loss)
loss = cross_entropy_from_logits(z, t)
print("Cross-entropy esperada (logits) = %f" % loss)

# Accuracy:
acc = accuracy(t0, t)
print("Accuracy esperada = %f" % acc)

Forma de los vectores:

In [None]:
print(x.shape)
print(t.shape)

Modelo de regresión logística con los parámetros inicializados al azar:

In [None]:
w = np.random.randn(d, 1)
b = np.random.randn()

# Aplico el modelo a los datos y comparo la prediccion y con el objetivo t:
z = np.dot(w.T, x) + b
zmin = np.min(z)
zmax = np.max(z)
y = sigmoid(z)

# Grafica de y frente a z:
zrange = np.arange(zmin, zmax, 0.1)
plt.plot(z[0], t[0], 'o', label='data points')
plt.plot(zrange, sigmoid(zrange), 'r-', label='model')
plt.grid(True)
plt.xlabel("z")
plt.ylabel("t")
plt.legend()
plt.show()

# Coste:
loss = cross_entropy_from_logits(z, t)
print("Cross-entropy = %f" % loss)

# Accuracy:
acc = accuracy(y, t)
print("Accuracy = %f" % acc)

Entrenamiento del modelo:

In [None]:
nepocas = 64
eta = 0.0001

plt.figure(figsize=(16,16))

k = 1
loss = []
acc = []
for i in range(nepocas):
    z = np.dot(w.T, x) + b
    zmin = np.min(z)
    zmax = np.max(z)
    y = sigmoid(z)

    #----------------------------------------------------------
    # TO-DO: Calcula el coste cross-entropy y la precision (acc), 
    # y añadelos a las listas loss y acc:
    loss.append(e)
    acc.append(a)
    #----------------------------------------------------------

    if i%4 == 0:
        zrange = np.arange(zmin, zmax, 0.1)
        plt.subplot(4, 4, k)
        plt.plot(z[0], t[0], 'o')
        plt.plot(zrange, sigmoid(zrange), 'r-')
        plt.grid(True)
        plt.title("epoca = %d, loss = %.2f" % (i, loss[-1]))
        k += 1

    #----------------------------------------------------------
    # TO-DO: Calcula los gradientes y actualiza los parametros:
    b -= eta*db
    w -= eta*dw
    #----------------------------------------------------------

plt.show()

Cross-entropy y accuracy frente a número de épocas:

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1,2,1)
plt.plot(range(nepocas), loss)
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc)
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.show()

In [None]:
loss[-1]

In [None]:
acc[-1]

# Breast Cancer Wisconsin

In [None]:
from sklearn.datasets import load_breast_cancer

In [None]:
data = load_breast_cancer()

In [None]:
x = data.data
t = data.target[:, None]

print(x.shape)
print(t.shape)

La clase $t$ toma dos posibles valores (0 y 1):

In [None]:
print(np.unique(t))
print(np.sum(t == 0))
print(np.sum(t == 1))

Vamos a construir un modelo de regresión logística para predecir la variable $t$ a partir de los atributos $x$.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Particion entrenamiento-test:
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.33, random_state=42)
x_train = x_train
x_test = x_test
t_train = t_train
t_test = t_test

In [None]:
print(x_train.shape)
print(x_test.shape)
print(t_train.shape)
print(t_test.shape)

In [None]:
print(np.mean(x_train), np.std(x_train))
print(np.mean(x_test), np.std(x_test))

In [None]:
# Estandarizar los datos
media = x_train.mean(axis=0, keepdims=True)
std = x_train.std(axis=0, keepdims=True)

x_train = (x_train - media) / std
x_test = (x_test - media) / std # Se estandariza con la media y std de training

In [None]:
print(np.mean(x_train), np.std(x_train))
print(np.mean(x_test), np.std(x_test))

In [None]:
# Entrenamiento del modelo:

d = x_train.shape[1]

w = np.random.randn(d, 1)
b = np.random.randn()

nepocas = 400
eta = 0.0001

k = 1
loss_train = []
acc_train = []
loss_test = []
acc_test = []
for i in range(nepocas):
    # TO-DO Calcula cross-entropy y accuracy en training
    loss_train.append(e_train)
    acc_train.append(a_train)

    # TO-DO Calcula cross-entropy y accuracy en test
    loss_test.append(e_test)
    acc_test.append(a_test)

    # TO-DO Calcula los gradientes y actualiza los parametros
    b -= eta*db
    w -= eta*dw

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

## Reducción de dimensionalidad con PCA

Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad reduciendo la dimensión de un problema mediante un método lineal.

In [None]:
from sklearn.decomposition import PCA

Primero podemos analizar la información que se pierde al transformar el conjunto de datos a un espacio de menor dimensión. Para ello creamos un PCA y analizamos su ratio de varianza explicada.

In [None]:
pca = PCA()
pca.fit(x_train)
plt.plot(1 - pca.explained_variance_ratio_)
plt.show()

Se ajusta la transformación indicando el número de dimensiones a la que queremos reducir. Usamos el parámetro *n_components*.

In [None]:
pca = PCA(n_components=10)
pca.fit(x_train)
print(1 - pca.explained_variance_ratio_[-1]) # Con 10 dimensiones tenemos un 98.78% de la información

Transformamos los datos de training y test a las 10 dimensiones.

In [None]:
x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

Entrenamos el modelo.

In [None]:
# Entrenamiento del modelo:

d = x_train_pca.shape[1]

w = np.random.randn(d, 1)
b = np.random.randn()

nepocas = 400
eta = 0.0001

k = 1
loss_train = []
acc_train = []
loss_test = []
acc_test = []
for i in range(nepocas):
    # TO-DO Calcula cross-entropy y accuracy en training
    loss_train.append(e_train)
    acc_train.append(a_train)

    # TO-DO Calcula cross-entropy y accuracy en test
    loss_test.append(e_test)
    acc_test.append(a_test)

    # Calcula los gradientes y actualiza los parametros
    b -= eta*db
    w -= eta*dw

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

## Extraer la frontera de decisión de un modelo en 2D

En este caso, vamos a reducir mediante PCA la dimensión de los datos a 2D para dibujar la frontera de decisión del modelo.

In [None]:
pca = PCA(n_components=2)
pca.fit(x_train)
print(1 - pca.explained_variance_ratio_[-1]) # Con 2 dimensiones tenemos un 80.15% de la información

Transformamos los datos de training y test a 2D.

In [None]:
x_train_pca = pca.transform(x_train)
x_test_pca = pca.transform(x_test)

Entrenamos el modelo.

In [None]:
# Entrenamiento del modelo:

d = x_train_pca.shape[1]

w = np.random.randn(d, 1)
b = np.random.randn()

nepocas = 400
eta = 0.0001

k = 1
loss_train = []
acc_train = []
loss_test = []
acc_test = []
for i in range(nepocas):
    # TO-DO Calcula cross-entropy y accuracy en training
    loss_train.append(e_train)
    acc_train.append(a_train)

    # TO-DO Calcula cross-entropy y accuracy en test
    loss_test.append(e_test)
    acc_test.append(a_test)

    # Calcula los gradientes y actualiza los parametros
    b -= eta*db
    w -= eta*dw

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

Para dibujar la frontera de decisión en 2D, se calcula una malla con la función *meshgrid* de numpy. Esta función de da los pares de puntos a imprimir en un plot con la función *contourf*. Además, hay que calcular el valor de cada punto, por lo que hay que procesarlos con el modelo ya entrenado.

In [None]:
xx, yy = np.meshgrid(np.arange(x_train_pca[:, 0].min()-1, x_train_pca[:, 0].max()+1, 0.1), 
                     np.arange(x_train_pca[:, 1].min()-1, x_train_pca[:, 1].max()+1, 0.1))
xy = np.concatenate([xx.reshape([1, -1]), yy.reshape([1, -1])],axis=0).T
xy.shape

In [None]:
z = sigmoid(xy @ w + b)
z.shape

In [None]:
plt.figure(figsize=(8, 4))

plt.contourf(xx, yy, z[:, 0].reshape(xx.shape), 100, cmap="bwr", alpha=0.4, vmin=0.0, vmax=1.0)

plt.plot(x_train_pca[t_train.ravel()==0, 0], x_train_pca[t_train.ravel()==0, 1], 'o', label="Clase 0", color='blue')
plt.plot(x_train_pca[t_train.ravel()==1, 0], x_train_pca[t_train.ravel()==1, 1], 'o', label="Clase 1", color='red')

plt.title("Probabilidad de Clase 1")
plt.xlabel("PCA-1")
plt.ylabel("PCA-2")
plt.grid(True)     
plt.legend(loc=2)
plt.colorbar()
plt.show()

# Iris dataset

Este problema sencillo que ya conocéis consiste en clasificar plantas de la especie Iris en tres subespecies: virgínica, setosa y versicolor. Los atributos que describen cada planta son las dimensiones (longitud y anchura) del pétalo y sépalo.

En este enlace tenéis una descripción de los datos:
https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-plants-dataset

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

Preparación de los datos considerando exclusivamente las dos últimas dimensiones del problema (longitud y anchura del pétalo). Esto nos permite visualizar el modelo en 2D.

In [None]:
x = iris.data[:, -2:]
t = iris.target
[n, d] = x.shape

Los datos del problema están ordenados. Para evitar sesgos conviene desordenarlos.

In [None]:
p = np.random.permutation(n)
x = x[p, :]
t = t[p]
t = t[:, None]
print(x.shape, t.shape)

Ahora imprimimos los datos en 2D. Se puede ver que los dos atributos seleccionados distinguen relativamente bien las tres clases.

In [None]:
plt.figure(figsize=(5, 5))

plt.plot(x[t.ravel()==0, 0], x[t.ravel()==0, 1], 'o', label=iris.target_names[0], color='#993300')
plt.plot(x[t.ravel()==1, 0], x[t.ravel()==1, 1], 'o', label=iris.target_names[1], color='#009933')
plt.plot(x[t.ravel()==2, 0], x[t.ravel()==2, 1], 'o', label=iris.target_names[2], color='#000099')

plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)
      
plt.legend(loc=2)
plt.show()

Separamos el dataset en training-test para preparar los datos de los ejercicios:

In [None]:
# Particion entrenamiento-test:
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.33, random_state=42)
x_train = x_train
x_test = x_test
t_train = t_train
t_test = t_test

In [None]:
print(x_train.shape)
print(x_test.shape)
print(t_train.shape)
print(t_test.shape)

## Ejercicio 1

1.1. Crear un modelo de regresión logística que aprenda a diferenciar la subespecie setosa de las demás subespecies del dataset.

1.2. Visualizar la frontera de decisión del modelo.


In [None]:
clase_setosa = np.where(iris.target_names == 'setosa')[0][0]
clase_setosa

In [None]:
x_train_e1 = x_train
x_test_e1 = x_test

# Tenemos que quedarnos con la clase setosa como clase target (1) y el resto reetiquetarlas como no-target (0).
t_train_e1 = (t_train == clase_setosa) * 1
t_test_e1 = (t_test == clase_setosa) * 1

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1,2,1)
plt.title("Training", size=18)
plt.plot(x_train_e1[(t_train_e1==1)[:, 0], 0], x_train_e1[(t_train_e1==1)[:, 0], 1], 'o', label=iris.target_names[0], color='red')
plt.plot(x_train_e1[(t_train_e1==0)[:, 0], 0], x_train_e1[(t_train_e1==0)[:, 0], 1], 'o', label="others", color='blue')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)
plt.legend(loc=2)

plt.subplot(1,2,2)
plt.title("Test", size=18)
plt.plot(x_test_e1[(t_test_e1==1)[:, 0], 0], x_test_e1[(t_test_e1==1)[:, 0], 1], 'o', label=iris.target_names[0], color='red')
plt.plot(x_test_e1[(t_test_e1==0)[:, 0], 0], x_test_e1[(t_test_e1==0)[:, 0], 1], 'o', label="others", color='blue')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)
plt.legend(loc=2)
plt.show()

In [None]:
# TO-DO Entrenamiento del modelo:


In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

In [None]:
xx, yy = np.meshgrid(np.arange(x_train_e1[:, 0].min()-1, x_train_e1[:, 0].max()+1, 0.1), 
                     np.arange(x_train_e1[:, 1].min()-1, x_train_e1[:, 1].max()+1, 0.1))
xy = np.concatenate([xx.reshape([1, -1]), yy.reshape([1, -1])],axis=0).T
xy.shape

In [None]:
z = sigmoid(xy @ w + b)
z.shape

In [None]:
plt.figure(figsize=(8, 4))

plt.contourf(xx, yy, z[:, 0].reshape(xx.shape), 100, cmap="bwr", alpha=0.4, vmin=0.0, vmax=1.0)

plt.plot(x_test_e1[t_test_e1.ravel()==0, 0], x_test_e1[t_test_e1.ravel()==0, 1], 'o', label="others", color='blue')
plt.plot(x_test_e1[t_test_e1.ravel()!=0, 0], x_test_e1[t_test_e1.ravel()!=0, 1], 'o', label='setosa', color='red')

plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)     
plt.legend(loc=2)
plt.colorbar()
plt.show()

## Ejercicio 2

2.1. Crear un modelo de regresión logística (sin modificar los dos atributos de entrada) que aprenda a diferenciar la subespecie versicolor de las demás subespecies del dataset.

2.2. Visualizar la frontera de decisión del modelo.

In [None]:
clase_versicolor = np.where(iris.target_names == 'versicolor')[0][0]
clase_versicolor

In [None]:
x_train_e2 = x_train
x_test_e2 = x_test

# Tenemos que quedarnos con la clase versicolor como clase target (1) y el resto reetiquetarlas como no-target (0).
t_train_e2 = (t_train == clase_versicolor) * 1
t_test_e2 = (t_test == clase_versicolor) * 1

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1,2,1)
plt.title("Training", size=18)
plt.plot(x_train_e2[(t_train_e2==1)[:, 0], 0], x_train_e2[(t_train_e2==1)[:, 0], 1], 'o', label=iris.target_names[0], color='red')
plt.plot(x_train_e2[(t_train_e2==0)[:, 0], 0], x_train_e2[(t_train_e2==0)[:, 0], 1], 'o', label="others", color='blue')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)
plt.legend(loc=2)

plt.subplot(1,2,2)
plt.title("Test", size=18)
plt.plot(x_test_e2[(t_test_e2==1)[:, 0], 0], x_test_e2[(t_test_e2==1)[:, 0], 1], 'o', label=iris.target_names[0], color='red')
plt.plot(x_test_e2[(t_test_e2==0)[:, 0], 0], x_test_e2[(t_test_e2==0)[:, 0], 1], 'o', label="others", color='blue')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)
plt.legend(loc=2)
plt.show()

In [None]:
# TO-DO Entrenamiento del modelo:

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

In [None]:
xx, yy = np.meshgrid(np.arange(x_train_e2[:, 0].min()-1, x_train_e2[:, 0].max()+1, 0.1), 
                     np.arange(x_train_e2[:, 1].min()-1, x_train_e2[:, 1].max()+1, 0.1))
xy = np.concatenate([xx.reshape([1, -1]), yy.reshape([1, -1])],axis=0).T
xy.shape

In [None]:
z = sigmoid(xy @ w + b)
z.shape

In [None]:
plt.figure(figsize=(8, 4))

plt.contourf(xx, yy, z[:, 0].reshape(xx.shape), 100, cmap="bwr", alpha=0.4, vmin=0.0, vmax=1.0)

plt.plot(x_test_e2[t_test_e2.ravel()==0, 0], x_test_e2[t_test_e2.ravel()==0, 1], 'o', label="others", color='blue')
plt.plot(x_test_e2[t_test_e2.ravel()!=0, 0], x_test_e2[t_test_e2.ravel()!=0, 1], 'o', label="versicolor", color='red')

plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.grid(True)     
plt.legend(loc=2)
plt.colorbar()
plt.show()

## Ejercicio 3

3.1. Modificando los atributos de entrada, crear un modelo de regresión logística que aprenda a diferenciar la subespecie versicolor de las demás subespecies del dataset.

3.2. Visualizar la frontera de decisión del modelo.

In [None]:
clase_versicolor = np.where(iris.target_names == 'versicolor')[0][0]
clase_versicolor

In [None]:
# TO-DO Modifica los datos de entrada para conseguir que sea separable linealmente 

In [None]:
# TO-DO Entrenamiento del modelo:

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(range(nepocas), loss_train, label="train")
plt.plot(range(nepocas), loss_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("loss")
plt.legend()

plt.subplot(1,2,2)
plt.plot(range(nepocas), acc_train, label="train")
plt.plot(range(nepocas), acc_test, label="test")
plt.grid(True)
plt.xlabel("epoch")
plt.ylabel("acc")
plt.legend()
plt.show()

In [None]:
acc_test[-1]

In [None]:
# TO-DO Visualiza la frontera de decisión de la transformación no lineal en el espacio original