<a href="https://colab.research.google.com/github/jhoanmartinezz/-masking-of-categorical-variables/blob/master/mnis_code.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#1.instalar las dependencias y entornos de gpu

#2.importar las dependencias necesarias para el proyecto

#3.limpiar los datos 

#4.cargar dataset 

#5.normalizando el dataset 

#6.redimensionandolo a la forma que espera la capa totalmente conectada, entran 784 pixeles


In [None]:
#1.instalar los dependecias requeridas
!pip install tensorflow



In [None]:
#2.importa las dependencias 
import tensorflow as tf
from tensorflow.keras.datasets import fashion_mnist

In [None]:
tf.__version__

'2.2.0'

In [None]:
#3.pre procesado de datos
#cargar el dataset

# X_train => lleva las 60.000 imagenes bidimensionales distribuidos los pixeles en filas y columnas
# X_test => se lleva las 10.000 imagenes bidimensionales que tienen los pixeles de las imagenes 
# y_train :. y_test => es un vector de clases significando las clases del conjunto de entrenamiento, las 
  #10 posibles vategorias de clasificacion de cada una de las imagenes de 60.000 valores 
# sin hacer la redimension se tendrian 784 pixeles para cada imagen
# vienen en filas y columnas 

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

#normalizar 
#convertir a un rango entre 0 y 1 por ejemplo, lo que hace es la red neuronal converja
#mas rapidamente y entienda mucho mejor y evitar el overfitting y entrenara mas rapido

#dividir cada pixel de cada imagen entre el valor mas grande que pueda tomar, esta es
#una operacion tensorial, lo quiero aplicar a todos los pixeles de cada imagen del dataset

#X_train vendria siendo un tensor tridimensional 60.000 filas * 28 columnas *28 datos de profundidad
#la primera dimension nos da el indice de la imagen que estamos tratando img 1,2,3,4
#las otras dos dimensiones serian las dos dimensiones del array conteniendo los 
#pixeles de las imagenes en fila y columna, la fila selecciona la foto y columna y
#profundidad seria para leer los pixeles bidimensionales de la imagen

x_train = x_train/255.0
x_test = x_test/255.0

In [None]:
x_train.shape

(60000, 28, 28)

In [None]:
x_test.shape

(10000, 28, 28)

In [None]:
#redimensionar el dataset 
#convertir todo de formato matriz a formato vector, documentacion reshape tensorflow
#60000 vectores fila conteniendo cada uno de ellos 784 valores, lo que se hace es
#una transformacion a modo de la segunda dimension para aplanar todos los pixeles 
#de cada imagen en un unico vector fila haciendo uso de la funcion re-shape
# -1 toma todas las filas para que tengan un formato de 28*28
x_train = x_train.reshape(-1, 28*28)
x_test = x_test.reshape(-1, 28*28)

In [None]:
x_train.shape

(60000, 784)

In [None]:
x_test.shape

(10000, 784)

In [None]:
#4. construir la red neuronal artificial
#definir el modelo 
#capas una detras de la otra todas conectadas
#modelo que vamo a usar para ir añadiendo capa tras capa
# la informacion de la arquitectura de la red neuronal 
model = tf.keras.models.Sequential()

In [None]:
#5.capa totalmente conectada o capa densa donde entran las imagenes 

#hiperparametros de la capa

# ===> numero de unidades/neuronas = 128
# ===> funcion de activacion = ReLU 
# ===> input shape = (784, ) = tamaño de la capa de entrada, 1 fila y columna vacia
# y = x * w + b ===> ReLU(y) ===> output
model.add(tf.keras.layers.Dense(units=60, activation='relu', input_shape=(784, )))

In [None]:
#6. agregar capa de dropout

#droptout es una tecnica de regularizacion donde aleatoriamente se asignan a ciertas
#neuronas de la red neuronal no se activan, de este modo mientras se entrena,
#estas neuronas no actualizaran sus valores (los pesos o weigths W)

#Al tener cierto porcentaje de neuronas sin actualizar, el proceso de entrenamiento
#toma mas tiempo pero por contra tenemos menos posibilidad de sufrir de overfitting
model.add(tf.keras.layers.Dropout(0.2))

In [None]:
#7. agregar la capa de salida o de dropout(capa de salida)
#unidades de nuero de clases de salida 
#devuelve 10 probabilidades 
#funcion de activacion softmax(devuelve la probabilidad del la clase a la que pertenece)
#devuelve la probabilida de que una de las imagenes pertenezca a una de las 10 categorias 
model.add(tf.keras.layers.Dense(units=10, activation='softmax'))

In [None]:
#8. compilar el modelo
#compilar es conectar la arquitectura a un optimizador y elegir la funcion de perdida
#que el optimizador va a intentar minimizar para actualizar los pesos de la red
#neuronal utilizando la tecnica del gradiente descendente estocastico cuando haga
#propagacion hacia atras de los errores cometidos en el proceso de clasificacion 

#------------------------------------------------------------------------------+
#           Sintaxis para clasificacion de mas de 2 categorias                 |
#------------------------------------------------------------------------------+

#optimizer ===> De los mejores optimizadores esta el Adam, puede ser un gradiente descendente o
#gradiente descendente estocastico o una mezcla de ambas 
#es uno de los mejores optimizadores de gradiente descendente estocastico que existe
#opcion por defecto si sabe cual usar

#loss ===> funcion de perdidas que basicamente es como va a calcular el error cometido
#en la prediccion, calcular el error cometido entre la prediccion del modelo y la 
#categoria de verdad a la que realmente estaba etiquetada como tal la imagen

#metrics ===> medir como de correcta o incorrecta es la clasificacion de la red neuronal
#accuracy = Numero correcto de predicciones / numero total de observaciones (60000)

model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics=["sparse_categorical_accuracy"])

In [None]:
#------------------------------------------------------------------------------+
#          9. Funcion summary para un detalle de lo que hay                    |
#------------------------------------------------------------------------------+

#la funcion summary sobre el modelo se utiliza para ver un resumen de todo lo que
#hace falta o de todos los parametros que van a ser calculados duranre la fase de
#entrenamiento de la red neuronal 
#muestra la cantidad de capas de la arquitectura

# _________________________________________________________________
# Layer (type)          Output Shape              Param #   
# =================================================================
# dense (Dense)         (None, 128 neuronas)     100480 pesos (weights)  128+785*28 conexiones + 1 adicional termino independiente=====> primera capa 
# _________________________________________________________________
# dropout (Dropout)     (None, 128 neuronas)        0   pesos (weights) no calcula parametro, duerme aleatoriamente las neuronas =====> segunda capa 
# _________________________________________________________________
# dense_1 (Dense)       (None, 10 neuronas)       1290 pesos (weights) 128 capa anterior * 10 + 10 de termino independiente =====> tercera capa
# =================================================================

#Param son los parametros que el algoritmo va a necesitar calcular utilizando la
#tecnica del gradiente descendente estocastico y la propagacion hacia atras

# =================================================================
#todos los parametros son entrenables, no hay ningun hyperpamaetro que el algoritmo
#no pueda entrenar

# Total params: 101,770
# Trainable params: 101,770
# Non-trainable params: 0
# _________________________________________________________________

model.summary()

Model: "sequential_14"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_44 (Dense)             (None, 60)                47100     
_________________________________________________________________
dropout_19 (Dropout)         (None, 60)                0         
_________________________________________________________________
dense_45 (Dense)             (None, 10)                610       
Total params: 47,710
Trainable params: 47,710
Non-trainable params: 0
_________________________________________________________________


In [None]:
#------------------------------------------------------------------------------+
#                          10. Entrenar el modelo                              |
#------------------------------------------------------------------------------+

#pasa sobre el conjunto total de imagenes de X_train 5 veces y se van a obtener
#unas predicciones de a que categoria pertenece cada una de las imagenes y se van
#a constrastar contra el y_train 
#se va a aplicar la metrica de cross entropy con funcion de perdida y de precision
#con metrica de que tan buena es la precision del algoritmo y a partir de ahi el algoritmo
#ira corrigiendo con propagacion hacia atras con el optimizador de adam a travez
#de localizar donde estan los posibles errores sobre todo el conjunto de entrenmaiento

#hay un parametro batch size indica cuanto tiene que recordar y cuanto olvidar de
#una iteracion a la siguiente para que e descendiente estocastico no sea solo en una 
#direccion 

#con batch size no calcularia los pesos hasta pasar de 10 en 10 si el bacth size es 10

model.fit(x_train, y_train, epochs=7)

Epoch 1/7
Epoch 2/7
Epoch 3/7
Epoch 4/7
Epoch 5/7
Epoch 6/7
Epoch 7/7


<tensorflow.python.keras.callbacks.History at 0x7f8708360cf8>

In [None]:
#------------------------------------------------------------------------------+
#                          11. evaluacion y prediccion del modelo              |
#------------------------------------------------------------------------------+
#devuelve la perdida del conjunto de testing y la precision
#           test_loss, test_accuracy = model.evaluate(X_test, y_test)

#la primera es la perdida frente al conjunto de testing sparse categorical cross entrnopy
#accuracy es que porcentaje del total ha sido predecido correctamente 

#model.evaluate(x_test,  y_test, verbose=2)
#si se comporta mal es porque hay presencia del overfitting
test_loss, test_accuracy = model.evaluate(x_test, y_test)



In [None]:
#------------------------------------------------------------------------------+
#                     12. guardar la arquitectura de la red neuronal           |
#------------------------------------------------------------------------------+
model_json = model.to_json()
with open("fashion_model.json", "w") as json_file:
    json_file.write(model_json)

In [None]:
#------------------------------------------------------------------------------+
#                     12. guardar los pesos de la red neuronal                 |
#------------------------------------------------------------------------------+
model.save_weights("fashion_model.h5")