# Laboratorio Redes Neuronales


##### Antonio Reyes #17273

Proporcione un modelo de redes neuronales del tipo feed
forward fully connected que prediga el tipo de prenda de vestir es, esto usando todas las
features que considere necesarias

In [1]:
# Importando paquetes
import numpy as np
import pandas as pd
from functools import reduce
from scipy import optimize as op
import pickle
import math

- numpy se utiliza para el manejo de matrices
- pandas se utiliza para la lectura de la base de datos (que se encuentra en un docuemtno .csv
- reduce se utiliza en la función flatten_list_of_arrays para aplanar la matriz con valores theta
- pickle es una librería que se encarga de encriptar un documento texto, se utiliza luego de realizar las iteraciones de back propagation con op (importado de scipy)


In [2]:
#obtener datos de csv
dataset = pd.read_csv('fashion-mnist_train.csv')
X = dataset.iloc[:60000, 1:].values
np.asarray(X)

# tamaño para el dato inicial de las 3 capas de la red neuronal
m,n = X.shape

In [3]:
# valores esperados
Y = np.asarray(dataset.iloc[:60000, 0])

#### X son pixel 1 - 784
#### Y son los valores esperados

In [4]:
Y

array([2, 9, 6, ..., 8, 8, 7], dtype=int64)

In [5]:
# reshape y conversion a int
Y = Y.reshape(m,1)

Y = (Y == np.array(range(10))).astype(int)

In [6]:
Y

array([[0, 0, 1, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 1],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 1, 0, 0]])

#### Por la capacidad de la computadora, la capa por la que pasarán los datos de entrada tendrán 80 neuronas, por lo tanto lo valores de la matriz theta1 será (80,785)

#### La tercera capa será (10,81) y en ese orden para no utilizar la transpuesta

In [7]:
# random thetas
# theta1
theta1 = np.random.rand(80,785)
theta1 = theta1 / 1000
theta1

array([[7.29059943e-04, 9.96002212e-04, 4.14679019e-04, ...,
        6.29368536e-04, 3.34362812e-04, 9.73995426e-04],
       [3.38367730e-04, 4.68810874e-04, 3.33299048e-04, ...,
        7.48274993e-04, 7.18590241e-04, 2.18231984e-04],
       [2.07336738e-04, 2.30224095e-04, 3.86932338e-04, ...,
        2.43285783e-04, 1.71182824e-04, 3.34129839e-04],
       ...,
       [6.48918992e-04, 6.78701094e-04, 1.04703594e-04, ...,
        2.91033822e-04, 5.11035006e-04, 5.52074958e-04],
       [9.96665839e-04, 8.37066265e-04, 8.47018370e-04, ...,
        1.45748869e-04, 1.57039107e-05, 5.98187729e-04],
       [6.50114823e-04, 3.02486610e-04, 6.72931007e-04, ...,
        4.66084832e-04, 1.77707655e-04, 1.30603135e-04]])

In [8]:
# theta2
theta2 = np.random.rand(10, 81)
theta2 = theta2 / 1000
theta2

array([[3.05202293e-04, 1.98042601e-04, 4.28201768e-04, 1.53077061e-04,
        7.27550938e-04, 7.71363906e-04, 7.42586404e-04, 3.13258620e-05,
        3.68556639e-04, 5.92132028e-04, 2.23400388e-05, 7.58197952e-04,
        1.30154191e-04, 2.96744755e-04, 8.14777545e-04, 6.49331038e-05,
        2.05595648e-04, 7.71372187e-04, 4.53664182e-04, 4.29583436e-04,
        9.79749975e-04, 8.15933721e-04, 1.48866801e-04, 6.51442542e-05,
        3.34106530e-04, 5.53335676e-04, 4.37344723e-04, 5.78027694e-04,
        2.41606726e-04, 5.41373664e-04, 7.19142145e-04, 4.43954959e-04,
        4.50374180e-04, 8.33574843e-04, 2.70805470e-04, 6.22970842e-04,
        5.43381416e-04, 6.38901039e-04, 4.08794736e-04, 4.34928682e-04,
        2.23148594e-04, 1.66667922e-04, 3.58277909e-04, 3.44549105e-04,
        1.90101051e-04, 4.35102385e-04, 5.11138652e-05, 4.96567040e-05,
        6.05846218e-04, 8.17169935e-04, 7.87278671e-04, 3.42174907e-04,
        2.52016161e-04, 3.85574439e-04, 4.75867499e-04, 7.476089

#### Se realizó la división de 1000 de los valores de theta ya que al relizar las iteraciones de optimización se quedaba en la iteración 15

In [9]:
flatten_list_of_arrays = lambda list_of_arrays: reduce(
    lambda acc, v: np.array([*acc.flatten(), *v.flatten()]),
    list_of_arrays
)

In [10]:
def cost_function(flat_thetas, shapes, X, Y):
    a = feed_forward(
        inflate_matrixes(flat_thetas, shapes),
        X
    )
    
    return -(Y * np.log(a[-1]) + (1 - Y) * np.log(1 - a[-1])).sum() / len(X)

La sigmoide es la función de activación de "z" hacia "a"

In [11]:
def sigmoind(A):
    for cell in np.nditer(A, op_flags=['readwrite']):
        cell[...] = 1.0 / (1.0 + 2.718281828459045**(-1.0 * cell))
    return A

#### Feed forward, incluye la agregacion de la columna de unos en X y las dos transformaciones de a. Es el calculo hacia adelante de las "z" y "a" de 1 a la L


In [12]:
def feed_forward(thetas, X):
    a = [X]
    for i in range(len(thetas)):
        a.append(
            sigmoind(
                np.matmul(
                    np.hstack((
                        np.ones(len(X)).reshape(len(X), 1),
                        a[i]
                    )),
                    thetas[i].T
                )
            )
        )
    return a


Calculamos delta super L. 

Ahora vamos a calcuar delta L para las capas (sin incluir la capa de entrada y final).

In [13]:
def inflate_matrixes(flat_thetas, shapes):
    layers = len(shapes) + 1
    sizes = [shape[0] * shape[1] for shape in shapes]
    steps = np.zeros(layers, dtype=int)

     
    for i in range(layers - 1):
        steps[i + 1] = steps[i] + sizes[i]

    return [
        flat_thetas[steps[i]: steps[i + 1]].reshape(*shapes[i])
        for i in range(layers - 1)
    ]

In [14]:
def back_propagation(flat_thetas, shapes, X, Y):
    m, layers = len(X), len(shapes) + 1
    thetas = inflate_matrixes(flat_thetas, shapes)
    a = feed_forward(thetas, X)
    deltas = [*range(layers - 1), a[-1] - Y]

    # 2.4
    # se mueve desde L-1 porque no se debe tomar la ultima capa
    # tampoco se toma en cuenta la primera capa porque es la capa de entrada
    # no se toma la capa 1 ni 3, solo la 2
    for i in range(layers - 2, 0, -1):
        # NO TOMAR EN CUENTA LA PRIMERA COLUMNA de la matriz thetas[i] por bias.
        bias = np.delete(thetas[i], 0, 1)
        # se multiplica el producto de theta de la capa i por el error de la siguiente capa y el proucto de la salida de la capa i (a[i])  por 1 - a[i]
        deltas[i] = deltas[i + 1] @ bias * ( a[i] * ( 1-a[i]) )
    
    # se entrega una lista de los vectores columnas
    matrices_de_error = []

    # se está en 2.5
    # se mueve de 0 a L - 1
    for i in range(layers - 1):
        a[i] = np.hstack((np.ones(len(a[i])).reshape(len(a[i]), 1), a[i]))
        matrices_de_error.append(
            (deltas[i + 1].T @ a[i])/m
        )
    
    # regresa los theta aplastados para utilizarse en la optimizacion, esta concatenada de forma plana
    return flatten_list_of_arrays(np.asarray(matrices_de_error))

#### Agregar el theta1 (80,785) y theta2 (10,81) a una lista, esta se aplanará y se utilizará en el descenso de gradiente

In [15]:
arreglo_c = []
arreglo_c.append(theta1)
arreglo_c.append(theta2)

# flat_theta
flat_theta = flatten_list_of_arrays(arreglo_c)
flat_theta

array([0.00072906, 0.000996  , 0.00041468, ..., 0.00030978, 0.00093602,
       0.00096204])

In [16]:
# separar en shapes
NETWORK_ARCHITECTURE = np.array([
    n,
    80,
    10
])

theta_shapes = np.hstack((
    NETWORK_ARCHITECTURE[1:].reshape(len(NETWORK_ARCHITECTURE) - 1, 1),
    (NETWORK_ARCHITECTURE[:-1] + 1).reshape(len(NETWORK_ARCHITECTURE) - 1, 1)
))

# Optimizar theta
# NO CORRER !!

In [17]:
print("OPTIMIZING...")
result = op.minimize(
    fun = cost_function,
    x0 = flat_theta,
    args = (theta_shapes, X, Y),
    method = 'L-BFGS-B',
    jac = back_propagation,
    options = {'disp': True, 'maxiter': 100}
)
print("OPTIMIZED")
print(result.x)

'print("OPTIMIZING...")\nresult = op.minimize(\n    fun = cost_function,\n    x0 = flat_theta,\n    args = (theta_shapes, X, Y),\n    method = \'L-BFGS-B\',\n    jac = back_propagation,\n    options = {\'disp\': True, \'maxiter\': 100}\n)\nprint("OPTIMIZED")\nprint(result.x)'

# NO CORRER !!

In [18]:
#se guarda y encripta el archivo en un .txt, en caso de que se haya corrido esta area y la previa, 
# no se va a guardar el resultado donde se guardó la el optimizado con 3000 iteraciones.
outfile = open("thetaOptimizado.txt", "wb")
pickle.dump(result.x, outfile)
outfile.close()

'outfile = open("thetaOptimizado.txt", "wb")\npickle.dump(result.x, outfile)\noutfile.close()'

Se realizó el método de optimización con 3000 iteraciones y se guardó en un archivo .txt, adjunto se encuentra un screenshot de cuando se terminó la optimización

<img src="screenshot.jpg"/>

In [22]:
# funcion de costo para el theta optimizado
def cost_functionO(flat_thetas, shapes, X, Y):
    a = feed_forward(
        inflate_matrixes(flat_thetas, shapes),
        X
    )
    
    # regresa la capa que tiene 3 neuronas
    return a[-1]

se desencripta el archivo .txt y se aplana

In [23]:
with open("thetaOptimizado1.txt", "rb") as openfile:
    while True:
        try:
            tOptimizado = pickle.load(openfile)
        except EOFError:
            break

flat_theta_optimizado = flatten_list_of_arrays(tOptimizado)

costoO = cost_functionO(flat_theta_optimizado, theta_shapes, X, Y)

  This is separate from the ipykernel package so we can avoid doing imports until


Se crea un contador y se va a hacer una interación de cada linea del array por medio del ciclo for
Es importante mencionar que se utiliza np.asarray para facilitar la búsqueda en columnas.

Para cada linea, se busca cual columna tiene el mayor argumento y se extrae el índice de la columna.
se compara el indice de la columna con la posición en Y[k] (que posee los valores esperados) y si ambos concuerdan, se aumenta el contador

In [24]:
contador_correctos = 0

for k in range(0,60000):
    max_index_col = np.argmax(np.asarray(costoO[k]), axis=0)
    #print(max_index_col)
    if np.argmax(np.asarray(Y[k]), axis=0) == max_index_col:
        #print("correcto :D")
        contador_correctos = contador_correctos + 1

print("Porcentaje: ", (contador_correctos * 100) / 60000)


Porcentaje:  83.48666666666666


# Porcentaje

In [25]:
(contador_correctos * 100) / 60000

83.48666666666666