# ClusterAI 2022

# Ciencia de Datos - Ingeniería Industrial - UTN BA

# clase_09: Practica Redes Neuronales

### Elaborado por: Aguirre Nicolas

# IMPORTS

In [None]:
import tensorflow as tf #Libreria de Redes Neronales
from  tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.optimizers import SGD
from tensorflow.keras.losses import SparseCategoricalCrossentropy
from tensorflow.keras.models import Sequential

print(tf.__version__)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
pd.set_option('display.float_format', lambda x: '%.1d' % x) # Para acotar los decimales en pandas

# IRIS DATASET

En esta primera ejercitacion vamos a retomar el dataset Iris (visto en la Clase 4)


El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: lo largo y lo ancho del sépalos y pétalos, en centímetros. Basado en la combinación de estos cuatro rasgos.

https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos

Los datos son:

| Columna | Descripcion |
| --- | --- |
| ID | Unique ID |
| SepalLengthCm | Length of the sepal (cm) |
| SepalWidthCm | Width of the sepal (cm) |
| PetalLengthCm | Length of the petal (cm) |
| PetalWidthCm | Width of the petal (cm) |
| Species | name |


In [None]:
# Primero cargamos los datos que ya vienen incluidos en la libreria sk-learn.
from sklearn.datasets import load_iris
iris = load_iris()

X = iris.data
Y = iris.target

In [None]:
n_features = np.shape(X)[0]
n_samples = np.shape(X)[1]
n_classes = np.unique(Y)
print(f'Features: ',n_samples)
print(f'Samples: ',n_features)
print(f'Classes: ',n_classes)

In [None]:
# Veamos la primera sample
print(f'X: {X[0]}')
print(f'Y: {Y[0]}')

## SPLIT

In [None]:
# Separamos train y test set
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

## SCALING

In [None]:
# Noralizamos
scaler = preprocessing.StandardScaler()
scaler.fit(x_train)
x_train_norm = scaler.transform(x_train)
x_test_norm = scaler.transform(x_test)

# MODELO

Dentro de la libreria TensorFlow-Keras, existen dinstas manera de definir los modelos de Redes Neuronales (NN). El mas directo y sensillo es la arquittectura 'Sequential'.

En ella, el **foreward pass** se define, como su nombre lo indica, de manera secuencial con respecto a las capas (layers) que iremos agregando.

En primera instancia debemos crear el modelo al que le iremos luego añadiendo las capas. Para esto, creamos un objecto con **tf.keras.models.Sequential()**. Este objeto tiene internamente un metodo llamado *.add()* que ira añadiendo las capas que iremos pasando.



---

**.add()**
```python
model = tf.keras.models.Sequential()
# Input Layer
model.add(Dense( D_1, input_dim = 4, activation = 'ZZZ') )

# Hidden Layers
model.add(Dense( D_2, activation = 'ZZZ') )
...
model.add(Dense( D_n, activation = 'ZZZ') )


# Output Layer
model.add(Dense( D_o, activation = 'ZZZ') )

```
---

Tambien podemos pasarle dentro de una lista de python las capas que componen el modelo.

**Lista de layers**

```python
model = tf.keras.models.Sequential([
  
  # Input Layer
  Dense( D_1, input_dim = 4, activation = 'ZZZ'),

  # Hidden Layers
  Dense( D_2, activation = 'ZZZ'),  
  Dense( D_3, activation = 'ZZZ'),
  ...

# Output Layer
  Dense( D_o, activation = 'ZZZ' )
])
```
---




In [None]:
# Para eliminar los modelos que hayan quedado guardados en memoria
tf.keras.backend.clear_session() 

model = Sequential([
  # Primera capa de la red
  Dense(4,input_dim=4, activation='sigmoid'),
  # Hidden Layers
  Dense(4, activation='sigmoid'), 
  Dense(4, activation='sigmoid'),
  # Salida de la red
  Dense(3, activation='softmax')
])

In [None]:
#Veamos la arquitectura de nuestro modelo
model.summary()

**Consultas?**

## Ejemplo de salida del modelo

In [None]:
# Imaginemos ahora 2 muestras
y_true_example = [0, 2]

# Para las cuales la red genera la siguiente salida del 'softmax'

y_pred_example = [[0.40, 0.30, 0.30], # Bien Clasificado
                  [0.01, 0.50, 0.49]] # Mal Clasificado


In [None]:
# Veamos como varia la loss en base a las predicciones de la red
loss_func = SparseCategoricalCrossentropy(reduction='none')
# El None en la reduccion, es para obtener la loss individualmente.
# Tiene otros usos, pero escapan al curso.

# Ahora veamos como daria la loss en cada caso:
loss_func(y_true_example, y_pred_example).numpy()

**Bien classificado**
$$
\begin{align}
\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}}) & = -\sum_{c=0}^{M=2}y_{0,c}\log(p_{0,c}) & = - \bigg( y_{0,0}\log(p_{0,0}) + y_{0,1}\log(p_{0,1}) + y_{0,2}\log(p_{0,2})\bigg)\\
 & & = - \bigg( 1\times\log(0.4) + 0\times\log(0.3) + 0\times\log(0.3)\bigg)\\
\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}})  & =  - \log(0.4)&\\
\end{align}
$$

**Mal classificado**
$$
\begin{align}
\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}}) & = -\sum_{c=0}^{M=2}y_{1,c}\log(p_{0,c}) & = - \bigg( y_{1,0}\log(p_{1,0}) + y_{1,1}\log(p_{1,1}) + y_{1,2}\log(p_{1,2})\bigg)\\
 & & = - \bigg( 0\times\log(0.01) + 0\times\log(0.5) + 1\times\log(0.49)\bigg)\\
\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}})  & =  - \log(0.49)&\\
\end{align}
$$




In [None]:
print(-np.log(0.40))
print(-np.log(0.49))

**Consultas?**

## Optimizador & Funcion de Penalizacion

In [None]:
# Optimizador
lr = 0.001
opt = SGD(learning_rate=lr)
# Funcion de penalizacion
# Usar ésta loss cuando tenemos un problema multi-class.
loss_func = SparseCategoricalCrossentropy()

## COMPILE

In [None]:
# Hasta este momento, hemos definido los elementos que conformaran el modelo.
# [arquitectura, optimizer, loss function].
# Internamente, estuvimos armando un 'grafo computacional', el cual debe
# compilarse.
model.compile(optimizer = opt,
              loss = loss_func,
              metrics = ['accuracy'])

# TRAINING

<img src="https://drive.google.com/uc?id=1d7Rq5FsmQNWcP8T1KGi_TodL49jCEKnY" width="1200">

In [None]:
# Batch Size
bs = 8
# Epochs de entrenamiento
epochs_training = 300
# Entrenamos!
training = model.fit(x_train_norm,y_train,epochs=epochs_training,validation_split=0.2)

## HISTORY

El historial de entrenamiento queda guardado dentro de un diccionario en
training.history.

Deseamos ver como fue el progreso de neustro entrenamiento epochs por epoch en terminos de la loss_fuction y el accuracy.

Si al momento de compilar el modelo le pasamos mas metricas, quedaran guardadas tambien.

In [None]:
# El historial de entrenamiento quedó guardado en 
# 'history.history', ingresamos como 'key' cada una de las metricas que queremos plotear.

#Loss
loss_history = training.history['loss']
val_loss_hist = training.history['val_loss']

#Accuracy
train_acc_history = training.history['accuracy']
val_acc_hist = training.history['val_accuracy']
epochs = range(1, len(loss_history) + 1)

fig, axs = plt.subplots(1,2,figsize=(16,6))
axs[0].plot(epochs, loss_history, 'b', label='Train loss')
axs[0].plot(epochs, val_loss_hist, 'r', label='Val loss')
axs[0].set_title('Training and validation Loss',fontsize=20)
axs[0].legend(fontsize=16)
axs[1].plot(epochs, train_acc_history, 'b', label='Train Accuracy')
axs[1].plot(epochs, val_acc_hist, 'r', label='Validation Accuracy')
axs[1].set_title('Training and validation Loss',fontsize=20)
axs[1].legend(fontsize=16)
plt.show()

## TEST

In [None]:
model.evaluate(x_test_norm, y_test,verbose=2)

## CONFUSION MATRIX

In [None]:
y_hat = model.predict(x_test_norm) # Salida de la red
y_pred = np.argmax(y_hat, axis=1) # Clase de la salida

In [None]:
cm = confusion_matrix(y_test, y_pred)
df_cm = pd.DataFrame(cm, index = np.arange(0,3),columns = np.arange(0,3))
plt.figure(figsize = (10,10))
sns.heatmap(df_cm, annot=True, cmap='jet',fmt='g')
plt.show()

# **PREGUNTAS**:
```
1) Es correcto que nuestra loss de train y de validacion disminuyan, y sin embargo el accuracy se mantenga igual/baje ? Por que ? 

2) Que cambios podriamos hacer para intentar solucionar el entrenamiento con la sigmoid function?
```



# MNIST DATASET

**Este dataset esta compuesto por 70.000 imagenes digitos (28 x 28 pixeles) del 0 al 9.**

**El objetivo es claisifcar correctamente los digitos de cada imagen.**

In [None]:
# Cargamos el dataset desde la libreria de TF
mnist = tf.keras.datasets.mnist

In [None]:
# Viene previamente dividido en train y test 
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(f'Shape del x_train: {np.shape(x_train)}')
print(f'Shape del y_train: {np.shape(y_train)}')
print(f'Shape del x_test: {np.shape(x_test)}')

In [None]:
# Veamos algunas muestras
sample = np.random.randint(0,q_train)
plt.figure(figsize=(10,10))
for i in range(sample,sample+25):
    plt.subplot(5,5,i-sample+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_train[i], cmap='gray')
    plt.xlabel(y_train[i])
plt.show()

## SCALING

In [None]:
# El valor esta en el rango [0-255]
# Vamos a pasarlos al rango [0-1]
x_train = x_train / 255.0
x_test = x_test / 255.0

## MODELO

In [None]:
# Definicion del modelo:
model = tf.keras.models.Sequential([
  # Input layer
  # Pasamos de un input de forma 1x28x28 --> 1x784
  Flatten(input_shape=(28, 28)),  
  
  # Hidden Layers
    #######################
    #------COMPLETAR------#
    #######################
  
  # Output Layers
    #######################
    #------COMPLETAR------#
    #######################
])

## OPTIMIZER, LOSS FUNCTION & COMPILE

In [None]:
# Otpimizador
  #######################
  #------COMPLETAR------#
  #######################

# Loss Function
  #######################
  #------COMPLETAR------#
  #######################

# Compilar
model.compile(
    
  #######################
  #------COMPLETAR------#
  #######################
)  

## TRAINING

In [None]:
# Entrenamiento
# Batch Size & Epochs
bs = 
epochs_train = 
  #######################
  #------COMPLETAR------#
  #######################
training = 

## HISTORY

In [None]:
#######################
#------COMPLETAR------#
#######################

## TEST

In [None]:
#######################
#------COMPLETAR------#
#######################

## CONFUSION MATRIX

In [None]:
y_hat = model.predict(x_test) # Salida de la red
y_pred = np.argmax(y_hat, axis=1) # Clase de la salida

In [None]:
cm = confusion_matrix(y_test, y_pred)
df_cm = pd.DataFrame(cm, index = np.arange(0,10),columns = np.arange(0,10))
plt.figure(figsize = (15,15))
sns.heatmap(df_cm, annot=True, cmap='jet',fmt='g')
plt.show()

# TensorFlow-Keras vs PyTorch

![](https://www.springboard.com/library/static/ebeb926c35f127358173939193a284c7/29007/pytorch-vs-tensorflow-springboard.png)