# Proyecto 1 MNIST

Este notebook sigue los pasos establecidos en clase para la creación de un modelo de machine learning utilizando él data set MNIST

Este consiste en 70,000 imagenes de numeros escritos a mano con su etiqueta del valor que representan

![MNIST](./MNIST.png)

1. Read Data (Leer los datos)
2. Data Preprocessing (Preprocesamiento de los datos)
3. Model Creation (Creación del modelo)
4. Adjust Model with Historic Data (Ajustar el modelo con información histórica)
5. Prediction from new Data (Predecir a partir de nueva información)
6. Visualization of Results (Visualizar los resultados)


Para correr este notebook es necesario tener: python3, anaconda y tensorflow.

### Integrantes:

* Gustavo Jose Hernandez Sotres
* Alberto Sandoval Castro
* Rafael Juárez Badillo Chávez
* Diego Pintor Ochoa

In [1]:
# Import libraries
import pandas as pd
import numpy as np
from tensorflow import keras

2022-09-18 22:52:15.031924: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


## Leer los datos

Este es un paso sencillo, ya que las librerías que usamos contienen él data set en ellas

In [2]:
# Data Import
(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()
X_train.shape, X_test.shape

((60000, 28, 28), (10000, 28, 28))

Vemos como los datos están guardados en arreglos de 2 dimensiones de 28x28

## Preprocesamiento de datos

en este caso solo preparamos la información para poder utilizarla después en SKLEARN que la necesita en un arreglo unidimensional de 784 (28x28) entradas

In [3]:
# Data Reshape, for SKLEARN usage
Skdata_X = X_train.reshape(60000,784)
Skdata_X_test = X_test.reshape(10000,784)

In [4]:
Skdata_X.shape, X_test.shape

((60000, 784), (10000, 28, 28))

## Creación del modelo Y ajuste del modelo

Para este dataset tenemos planeado utilizar 5 modelos

#### Modelos a usar

- Logistic Regression
- SVM
- Random Forest
- Neural Network (MLP)
- CNN (Deep Learning)

En cada sección creamos el modelo y lo ajustamos (entrenamos) con la información de entrenamiento

### Logistic Regression


In [5]:
# Model Creation
# Logistic Regression
from sklearn.linear_model import LogisticRegression
mnist_logistic = LogisticRegression()
mnist_logistic.fit(Skdata_X,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

### SVM - Support Vector Machines


In [6]:
# SVM
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
mnist_svm = make_pipeline(StandardScaler(), LinearSVC(random_state=0, tol=1e-5))
# Model Training
mnist_svm.fit(Skdata_X,y_train)



Pipeline(steps=[('standardscaler', StandardScaler()),
                ('linearsvc', LinearSVC(random_state=0, tol=1e-05))])

### Random Forest


In [7]:
# Random Forest
from sklearn.ensemble import RandomForestClassifier
mnist_randForest = RandomForestClassifier(n_estimators=10)
mnist_randForest.fit(Skdata_X,y_train)

RandomForestClassifier(n_estimators=10)

### Neural Network - MLP


In [8]:
# NN (MLP)

model_nn = keras.Sequential([
    keras.layers.Flatten(input_shape=(28,28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10)
])
model_nn.compile(optimizer='adam',
              loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
model_nn.fit(X_train, y_train, epochs=10,
         validation_data = (X_test,y_test))

Epoch 1/10


2022-09-18 23:01:44.944034: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f7b9d3b8f40>

### Convolutional Neural Network - CNN


In [9]:
# CNN 
from tensorflow.keras import layers, models
train_images = X_train.reshape(60000,28,28,1)
test_images = X_test.reshape(10000,28,28,1)
model_cnn = models.Sequential()
model_cnn.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28,28,1)))
model_cnn.add(layers.MaxPooling2D((2, 2)))
model_cnn.add(layers.Conv2D(64, (3, 3), activation='relu'))
model_cnn.add(layers.MaxPooling2D((2, 2)))
model_cnn.add(layers.Conv2D(64, (3, 3), activation='relu'))
model_cnn.add(layers.Flatten())
model_cnn.add(layers.Dense(64, activation='relu'))
model_cnn.add(layers.Dense(10))
model_cnn.compile(optimizer='adam',
              loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
# Model Fitting
model_cnn.fit(train_images, y_train, epochs=10, 
                    validation_data=(test_images, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f7b74d7c850>

## Predecir con información nueva

Es aquí donde la separación de nuestra información en: entrenamiento y test muestra su importancia, ya que si entrenáramos nuestro modelo con toda la información que tenemos el modelo siempre daría resultados positivos con ella, ya que sabe que información recibirá de entrada y como queremos probar como el modelo haría con información que nunca ha visto, entonces dividimos y entrenamos con una parte, para después probar el modelo con la otra parte, con información que nunca había visto y así tener una métrica más correcta de que tan efectivo es.

In [10]:
# Data Prediction
# Logistic Regression
fy_predict_logistic = mnist_logistic.predict(Skdata_X_test)
# Support Vector Machine
fy_predict_svm = mnist_svm.predict(Skdata_X_test)
# Random Forest
fy_predict_randForest = mnist_randForest.predict(Skdata_X_test)
# MLP
predict_nn = model_nn.predict(X_test) # Array que contiene los arrays con la probabilidad de 
                                        #que los datos de entrada pertenezcan a un label
fy_predict_mlp = [] # Lista vacía, aquí se almacenarán los labels con la probabilidad más alta
for i in range(len(predict_nn)): #Para cada array en predict_nn
    fy_predict_mlp.append(np.argmax(predict_nn[i])) # Encuentra la posición de la prob más alta
                                                    # y almacénala en la lista
        
#CNN 
predict_cnn = model_cnn.predict(X_test)
fy_predict_cnn = []
for i in range(len(predict_cnn)):
    fy_predict_cnn.append(np.argmax(predict_cnn[i]))



## Visualización de resultados

Ahora que entrenamos nuestros modelos y obtuvimos resultados, es importante saber leer estos resultados. Esto nos permitirá hacer un análisis más preciso y entender si nuestro modelo es bueno o malo y así ajustar algunos parámetros que podemos controlar de los modelos.

Utilizaremos cross validation para obtener 4 métricas

- Un valor de exactitud
- Un valor de precisión
- Un valor de recall
- El valor F1

In [11]:
# Performance evaluation
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

Aquí estamos comparando todos los modelos, uno contra otro en todos los metodos, ya que cada uno nos puede dar información extra

In [12]:
accuracy = [accuracy_score(y_test, fy_predict_logistic),
            accuracy_score(y_test, fy_predict_svm),
            accuracy_score(y_test, fy_predict_randForest),
           accuracy_score(y_test, fy_predict_mlp),
           accuracy_score(y_test, fy_predict_cnn)]
precision = [precision_score(y_test, fy_predict_logistic, average='macro'),
             precision_score(y_test, fy_predict_svm, average='macro'),
             precision_score(y_test, fy_predict_randForest, average='macro'),
            precision_score(y_test, fy_predict_mlp, average='macro'),
            precision_score(y_test, fy_predict_cnn, average='macro')]
recall = [recall_score(y_test, fy_predict_logistic, average='micro'),
         recall_score(y_test, fy_predict_svm, average='micro'),
         recall_score(y_test, fy_predict_randForest, average='micro'),
         recall_score(y_test, fy_predict_mlp, average='micro'),
         recall_score(y_test, fy_predict_cnn, average='micro')]
f1 = [f1_score(y_test, fy_predict_logistic, average = 'weighted'),
     f1_score(y_test, fy_predict_svm, average = 'weighted'),
     f1_score(y_test, fy_predict_randForest, average = 'weighted'),
     f1_score(y_test, fy_predict_mlp, average = 'weighted'),
     f1_score(y_test, fy_predict_cnn, average = 'weighted')]


Ahora vemos estos resultados para poder hacer los ajustes pertinentes

In [13]:
perf_metrics = pd.DataFrame(data = [accuracy,precision,recall,f1], columns = ["Logistic",
                                                                              "SVM", "RandForest","MLP","CNN"],
                           index = ["Accuracy","Precision","Recall","F1"])
perf_metrics

Unnamed: 0,Logistic,SVM,RandForest,MLP,CNN
Accuracy,0.9255,0.9119,0.9453,0.9503,0.9884
Precision,0.924663,0.910922,0.944991,0.951026,0.988379
Recall,0.9255,0.9119,0.9453,0.9503,0.9884
F1,0.925383,0.911502,0.945197,0.950426,0.988389
