<a href="https://colab.research.google.com/github/ssanchezgoe/iue_curso_ia/blob/main/nb_google_colab/S8_DL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

  <tr>
     <th><p><img alt="Colaboratory logo" height="120 px" src="http://www.redttu.edu.co/es/wp-content/uploads/2016/01/iue.png" align="left" hspace="10px" vspace="0px"></p></th> 
     <th><h1>  Algoritmos de DL </h1></th>
  </tr>

## **Pipeline**

Llamamos pipeline a una secuencia de procesamiento de datos que permite optimizar mi flujo de trabajo. Estos son comunes en machine learning pues no solo permiten la manipulación y transformación de multiples datos, sino que además tenemos una alta reducción en código. Este consiste en encadenar una serie de estimadores, que me permiten ir trasformando un conjunto de datos en un proceso comprendido por varias etapas de manera secuencial, donde cada componente del pipeline toma los datos, los trasforma y su salida va a la siguiente componente del pipeline, dandose esto hasta pasar por todas las componentes de éste. En estos tenemos ciertas ventajas como:

* **Selección conjunta de parámetros**: Tenemos facilidad de acceder a los parámetros usados en cada estimador.
* **Conveniencia y encapsulación**: Facilidad en la implementación del código, solo es necesario hacer uso del fit y predict, para pasar a través de los estimadores.
* **La seguridad**: No se pierde información en los datos que se tiene.

En **Sklearn** se cuenta con pipeline, el cual se construye usando parejas de (*key*,*value*), donde **key** será el nombre que le daremos a nuestro paso y **value** el estimador usado, el nombre puede ser cualquiera que deseemos. Todos los estimadores en un pipeline excepto el último deben ser transformadores(es decir deben tener un atributo .transform); el último puede ser de cualquier tipo(clasificación,regresión,transformación,etc.).

Veamos un ejemplo sencillo en el cual hacemos uso del **iris data set**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [None]:
data=load_iris()
X_train,X_test,y_train,y_test=train_test_split(data.data,data.target,test_size=0.2)

In [None]:
X_train.shape

In [None]:
X_test

In [None]:
y_train

Hasta ahora solo se ha cargado los datos, y los estimadores que se usarán e nuestro proceso. Ahora veamos como se construye el pipeline. 

In [None]:
model=Pipeline([('scaler',StandardScaler()),('pca',PCA(n_components=2)),('regl',LogisticRegression(random_state=42))])

In [None]:
model

Ya creamos nuestro modelo con ayuda de los pipeline, donde vemos se construyo de la forma en que se especifíco antes, donde tenemos tres estimadores, el primero escala mis variables,el segundo reduce la dimensión y el tercero realiza una regresión logistica. Nosotro podemos usar **make_pipeline**, el cual es una forma rápida de crear nuestro pipeline, pues no debemos poner el nombre de nuestro paso en él.

In [None]:
model_2=make_pipeline(StandardScaler(),PCA(n_components=2),(LogisticRegression(random_state=42)))

In [None]:
model_2

Donde se puede ver que haciendo uso de esta segunda forma para construir el pipeline, se asigna un nombre de forma automática a cada uno de los estimadores, en general es el nombre de este último en minúsculas. Podemos acceder a los estimadores de la siguiente forma

In [None]:
model.steps[0]

In [None]:
model[0]

In [None]:
model['regl']

In [None]:
model.set_params() #parámetros dentro de nuestro pipeline

Ahora bien podemos entrenar, predecir y evaluar nuestros datos, en este caso el iris dataset, con la ayuda del pipeline que construímos haciendo uso de los siguientes atributos.

In [None]:
model.fit(X_train,y_train)

In [None]:
y_h=model.predict(X_test)

In [None]:
model.score(X_test,y_test)

## Ejercicio

Con ayuda del **pipeline** de sklearn, construir uno de forma tal qué, escale mis datos, reduzca mi dimensión(dimensión 2) y aplique un clasificador de arbol de decisión (DecisionTreeClassifier) al iris data set, donde a este último solo le pondremos como parámetro el **random_state=42**. Entrenarlo y evaluarlo.



Haga click **aquí** si tiene problemas con la solución:

<!-----
from sklearn.tree import DecisionTreeClassifier

model_3=Pipeline([('scaler',StandardScaler()),('pca',PCA(n_components=2)),('des_tree',DecisionTreeClassifier(random_state=42))])


1.   Elemento de la lista
2.   Elemento de la lista


model_3.fit(X_train,y_train)
model_3.score(X_test,y_test)
----->

## **Protocolo de validación**

Nuestro objetivo es tener modelos que nos permitan generalizar bien, esto es, que tengamos un buen comportamiento a la hora de predecir cuando tengamos nuevos datos, es decir, evitando el overfitting. En busqueda de esto, una parte principal es hacer una correcta elección del modelo y de los hiperparámetros, para esto es necesario tener una forma de **validar** que nuestro modelo e hiperparámetros están adapatandose bien a nuestros datos. Para esto tenemos ciertos protocolos que nos permiten realizar esto:

* Simple Hold-out validation
* k-fold cross-validation
* Iterated k-fold validation  with shuffling

#### **Simple Hold-out validation**
Basicamente consiste en dividir nuestros datos totales en dos conjuntos, uno el cual llamaremos conjunto de prueba (test set) y es una pequeña fracción de los datos totales; los datos restantes son los que me permitirán entrenar el modelo y es llamado nuestro conjunto de entrenamiento (train set).

<p><img alt="Colaboratory logo" height="200px" src="https://i.imgur.com/A6Gzf6M.png" align="center" hspace="10px" vspace="0px"></p>

 Veamos como se ve el hold-out validatión en acción, para esto usaremos el iris dataset y un k-neighbors clasiffier

In [None]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [None]:
iris=load_iris()

In [None]:
X=iris.data
y=iris.target

In [None]:
X1,X2,y1,y2=train_test_split(X,y,random_state=0,train_size=0.5) #Definimos el 50% de los datos para el conjunto de entrenamiento

In [None]:
model=KNeighborsClassifier(n_neighbors=5)

In [None]:
model.fit(X1,y1)
y2_h=model.predict(X2)
accuracy_score(y2,y2_h)

En lo anterior vemos que es básicamente lo que hacemos con nuestros modelos de forma usual. Acá tenemos una desventaja, es que parte de nuestros datos no son empleados a la hora de entrenar nuestro modelo, esto hace que perdamos información. Para evitar este tipo de cosas se emplea el siguiente protocolo.

#### **k-fold cross-validation**

Este conciste en dividir nuestros datos en **k** particiones de igual tamaño, donde cada una de las particiones se usará en entrenamiento y testeo de la siguiente manera, para cada partición "$i$", entrenamos el modelo con las restantes **k-1** particiones y lo evaluamos en la partición "$i$". El resultado final será el promedio de los **K** resultados obtenidos.

<p><img alt="Colaboratory logo" height="200px" src="https://i.imgur.com/8TV1oeN.png" align="center" hspace="10px" vspace="0px"></p>


Veamos como sería la implementación para el caso de 2-fold cross validation, es decir donde tenemos dos particiones.

In [None]:
y2_model=model.fit(X1,y1).predict(X2)
y1_model=model.fit(X2,y2).predict(X1)
score=accuracy_score(y1,y1_model),accuracy_score(y2,y2_model)
print(score)

In [None]:
import numpy as np
np.mean(score)

La anterior sería una medida global de la realización del modelo. Si bien es facil de realizar para el caso antes visto, cuando tenemos un valor de **k** muy grande hacerlo de forma manual puede ser tedioso, sklearn tiene una rutina que nos permite hacerlo para diferentes **k**.

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
score=cross_val_score(model,X,y,cv=5)
print(score)

In [None]:
print("Accuracy: %0.2f (+/- %0.2f)" % (score.mean(), score.std() * 2))

Cuando aplicamos k-fold cross-validation multiples vecez, mezclando los datos antes de hacer la partición cada vez, es un protocolo conocido como **Iterated k-fold validation with shuffling**.

### **Ejercicio**

Realizar un **pipeline** en el cual se **escalen** mis datos del iris data set y luego se use el clasificador **k-neighbors clasiffier** para **n_neighbors=1**. Finalmente usar en el anterior el protocolo de **k-fold cross-validation** para k=5.

Haga click **aquí** si tiene problemas con la solución:

<!-----
pip=Pipeline([('stan',StandardScaler()),('kneig',KNeighborsClassifier(n_neighbors=1))])
cross_val_score(pip,X,y,cv=5)
----->

# Reto

Haga una red neuronal de 2 capas (2 neuronas ocultas y 1 de salida) usando únicamente numpy para ajustar el XOR usando la función escalera como función de activación. Tip: XOR=AND(OR,NAND)

Haga click **aquí** si tiene problemas con la solución:

<!-----
import numpy as np
Al=[0]*2
Bl=[0]*2
X=np.array([[0,0],[0,1],[1,0],[1,1]])
Al[0]=np.array([[1/2,-1/3],[1/2,-1/3]])
Bl[0]=np.array([-1/2,1/2])
Al[1]=np.array([[1/3],[1/3]])
Bl[1]=np.array([-1/2])
step=lambda x:(x>=0)
Xl=[]
x=X
for L in range(2):
  x=step(np.dot(x,Al[L])+Bl[L])
  Xl.append(x)
print(Xl)
----->

In [None]:
import numpy as np
Al=[0]*2
Bl=[0]*2

In [None]:
Bl

In [None]:
X=np.array([[0,0],[0,1],[1,0],[1,1]])
X

In [None]:
Al[0]=np.array([[1/2,-1/3],[1/2,-1/3]])
Bl[0]=np.array([-1/2,1/2])
Al[1]=np.array([[1/3],[1/3]])
Bl[1]=np.array([-1/2])

In [None]:
Bl[1]

In [None]:
step=lambda x:(x>=0)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.plot(np.arange(-10,10),step(np.arange(-10,10)))

In [None]:
Xl=[]
x=X
x

In [None]:
for L in range(2):
  x=step(np.dot(x,Al[L])+Bl[L])
  Xl.append(x)
print(Xl)

In [None]:
Xoculta=step(np.dot(X,Al[0])+Bl[0])
Xoculta

In [None]:
Xfinal=step(np.dot(Xoculta,Al[1])+Bl[1])
Xfinal

Ahora entrene una red neuronal usando Keras con la misma arquitectura pero usando función de activación ReLu

In [None]:
from keras.models import Sequential
from keras.layers import Dense
import numpy as np

In [None]:
modelo=Sequential([Dense(2,input_shape=(2,),activation='tanh'),Dense(1,activation='sigmoid')])

In [None]:
modelo.summary()

In [None]:
modelo.compile(optimizer='sgd',loss='binary_crossentropy')

In [None]:
X=np.array([[0,0],[0,1],[1,0],[1,1]])
y=np.array([0,1,1,0])

In [None]:
modelo.fit(x=X,y=y,epochs=10000)

In [None]:
modelo.predict_classes(X)

# Arquitectura y funcionalidad de la Redes neuronales secuenciales:

De las funciones de activación habladas en la clase anterior podemos advertir dos características que deben poseer una red neuronal:

1. Las funciones de activación de las capas ocultas deben ser funciones de activación no lineales, con el fín de que la red actue como un **aproximador universal a una función**.
2. La función de activación de la capa de salida determina el tipo de clasificación/regresión del problema que se pretende solucionar.

Como regla general, se tiene que la función de activación de las capas ocultas puede ser definida como una función `ReLU` y, dependiendo del problema, podemos definir la función de activación de la capa de salida como:

* Función de activación sigmoide: si el problema de clasificación es binario.
* Función de activación Softmax: si el problema de clasificación es multiclase.
* Finción de activación lineal: si el problema se trata de una regresión.

En resumen, en la siguiente figura se ilustran la arquitectura de red de los problemas que pueden presentarse en la clasificación/regresión usando una red neuronal secuencial y las funciones de activación definidas en las capas que la componen.

<p><img alt="Colaboratory logo" height="300px" src="https://github.com/ssanchezgoe/diplomado_udea/blob/master/image/archi_clas_reg.png?raw=true" align="center" hspace="10px" vspace="0px"></p>


Veamos a continuación, someramente y sin entrar en detalles, los tres problemas de clasificación/regresión que pueden abordarse, a saber, la clasificación binaria, la clasificación multiclase y la regresión.

# Clasificación Binaria:

**Objetivo:** Clasificación de reseñas de películas.

**Input:** Reseñas

**Output:** positiva o negativa.

**Base de datos:** Se usará un dataset de IMDB (Internet Movie Databased) el cual consta de 50000 reseñas altamente polarizadas. Estas reseñas se dividen en un conjunto de 25000 reseñas para entrenamiento  y 25000 reseñas de evaluación, cada una de las cuales consta de un 50% de reseñas positivas y un 50% de reseñas negativas. 

El dataset de IMBD se encuentra Keras. Este dataset ha sido previamente procesado, en ddonde, las reseñas (secuencia de palabras) ha sido transformada en una secuencia de enteros, en donde cada entero corresponde a una palabra específica en un diccionario.

In [None]:
from tensorflow import keras
from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

In [None]:
train_data[0]

A continuación, se realiza un tratamiento de los datos con el fin de convertirlos a vectores de `numpy` que puedan ser usados en una red neuronal. Para mayor información de este paso, consultar el libro del creador de `keras` [Deep learning with python](http://faculty.neu.edu.cn/yury/AAI/Textbook/Deep%20Learning%20with%20Python.pdf)

In [None]:
import numpy as np

def vectorize_sequences(sequences, dimension=10000): 
    results = np.zeros((len(sequences), dimension)) # Creates an all-zero matrix of shape (len(sequences), dimension)
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.  # Sets specific indices of results[i] to 1s
    return results

x_train = vectorize_sequences(train_data) # Vectorized training data
x_test = vectorize_sequences(test_data) # Vectorized training data

y_train = np.asarray(train_labels).astype('float32') # Vectorized training labels. 
y_test = np.asarray(test_labels).astype('float32') # Vectorized test labels.

In [None]:
len(train_data[1])

In [None]:
x_train[1].shape

Definamos un modelo de dos capas ocultas, con funciones de activacióón **ReLU**, y una capa de salida con una función de activación **Sigmoide**, con el fin de abordar el problema de clasificación binario:

In [None]:
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])

In [None]:
model.summary()

In [None]:
model.fit(x_train, y_train, epochs=4, batch_size=512,validation_data=(x_test,y_test))
results = model.evaluate(x_test, y_test)

In [None]:
results

In [None]:
# Predicción del modelo:
model.predict(x_test)

In [None]:
y_preds=model.predict_classes(x_test)

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
confusion_matrix(y_test,y_preds)

# Clasificación Multiclase:

**Objetivo:** Clasificación de un cable de noticias de un dataset de *Reuters*.

**Input:** Noticias.

**Output:** 46 topicos diferentes.

**Base de datos:** Cada topido tiene al menos 10 ejemplos en el set de entrenamiento

In [None]:
from keras.datasets import reuters
(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

A continuación, se realiza un tratamiento de los datos con el fin de convertirlos a vectores de `numpy` que puedan ser usados en una red neuronal. Para mayor información de este paso, consultar el libro del creador de `keras` [Deep learning with python](http://faculty.neu.edu.cn/yury/AAI/Textbook/Deep%20Learning%20with%20Python.pdf)

In [None]:
import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

def to_one_hot(labels, dimension=46): 
    results = np.zeros((len(labels), dimension))

    for i, label in enumerate(labels):
        results[i, label] = 1.
        
    return results

one_hot_train_labels = to_one_hot(train_labels)
one_hot_test_labels = to_one_hot(test_labels)

from keras.utils.np_utils import to_categorical

one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)

x_val = x_train[:1000]
partial_x_train = x_train[1000:]
y_val = one_hot_train_labels[:1000]
partial_y_train = one_hot_train_labels[1000:]

In [None]:
train_labels[1]

In [None]:
one_hot_train_labels[1]

Creemos a continuación una red neuronal con dos capas ocultas (de 64 neuroranas cada una), con funciones de activación **ReLU**, y una capa de salida con una función de activación **softmax**, con 46 neuronas, una por cada tópico:

In [None]:
model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

In [None]:
model.compile(optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])

In [None]:
model.fit(partial_x_train, partial_y_train, epochs=9, batch_size=512, validation_data=(x_val, y_val))

In [None]:
results = model.evaluate(x_test, one_hot_test_labels)

Veamos los resultados de la evaluación del modelo:

In [None]:
results

Y procesamos a entender los resultados de la prediccióón para una de las instancias del conjunto de evaluación:

In [None]:
# predicción.
predictions = model.predict(x_test)

In [None]:
x_test.shape

In [None]:
predictions[0]

Para la predicción de la instancia 0, se tiene que el vector de salida tiene la siguiente forma:

In [None]:
predictions[0].shape

El vector tiene 46 entradas, que corresponden a las probabilidades de pertenencia a cada una de las 46 clases. La suma ade ellas debe ser uno:

In [None]:
np.sum(predictions[0])

La clase más probable a la cual pertenece esta instancia es la clase:

In [None]:
np.argmax(predictions[0])

In [None]:
class_pred=model.predict_classes(x_test)

In [None]:
class_pred.shape

In [None]:
class_pred[0]

# Regresión: Predicción de los precios de una casa:

Usaremos el dataset de los precios de casas en Bostón, para realizar la predicción.

El objetivo es obtener a la salida de la red neuronal un valor numérico del precio predicho en función de las caracteristicas de la tabla.

Definiremos un arquitectura de red con dos capas ocultas de 64 neuronas, usando una funcióón de activación **ReLu**, en cada una, y una capa de salida de una neurona, con una función de **activación lineal**:

In [None]:
from keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()

# normalización de los datos
mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std
test_data -= mean
test_data /= std

#Función para la definición del modelo
from keras import models
from keras import layers
def build_model(): 
  model = models.Sequential() 
  model.add(layers.Dense(64, activation='relu', input_shape=(train_data.shape[1],)))
  model.add(layers.Dense(64, activation='relu'))
  model.add(layers.Dense(1)) #Función de activación lineal
  model.compile(optimizer='adam', loss='mse', metrics=['mae'])
  return model

In [None]:
train_data.shape

In [None]:
# Creación del modelo
modelo = build_model()
modelo.summary()

In [None]:
modelo.fit(train_data, train_targets, epochs=500, batch_size=16,validation_data=(test_data,test_targets))

In [None]:
test_mse_score, test_mae_score = modelo.evaluate(test_data, test_targets)

In [None]:
modelo.evaluate(train_data,train_targets)

In [None]:
modelo.evaluate(test_data,test_targets)

# Ejemplo 1: Calssificacion binaria 
objetivo : predecir si las personas tienen o no una enfermedad del corazon.

Importmeos algunas de las librerias que nos seran de utilidad

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

Primero importemos el dataset que se encuentran en Github

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/diplomado-bigdata-machinelearning-udea/Curso2/master/Datasets/heart.csv')

Inspeccionemos el dataset y sus características

In [None]:
data.head()

Context
This database contains 76 attributes, but all published experiments refer to using a subset of 14 of them. In particular, the Cleveland database is the only one that has been used by ML researchers to this date. The "goal" field refers to the presence of heart disease in the patient. It is integer valued from 0 (no presence) to 4.

Content

Attribute Information:
It's a clean, easy to understand set of data. However, the meaning of some of the column headers are not obvious. Here's what they mean,

1. age: The person's age in years

2. sex: The person's sex (1 = male, 0 = female)

3. cp: The chest pain experienced (Value 1: typical angina, Value 2: atypical angina, Value 3: non-anginal pain, Value 4: asymptomatic)

4. trestbps: The person's resting blood pressure (mm Hg on admission to the hospital)

5. chol: The person's cholesterol measurement in mg/dl

6. fbs: The person's fasting blood sugar (> 120 mg/dl, 1 = true; 0 = false)

7. restecg: Resting electrocardiographic measurement (0 = normal, 1 = having ST-T wave abnormality, 2 = showing probable or definite left ventricular hypertrophy by Estes' criteria)

8. thalach: The person's maximum heart rate achieved

9. exang: Exercise induced angina (1 = yes; 0 = no)

10. oldpeak: ST depression induced by exercise relative to rest ('ST' relates to positions on the ECG plot. See more here)

11. slope: the slope of the peak exercise ST segment (Value 1: upsloping, Value 2: flat, Value 3: downsloping)

12. ca: The number of major vessels (0-3)

13. thal: A blood disorder called thalassemia (3 = normal; 6 = fixed defect; 7 = reversable defect)

14. target: Heart disease (0 = no, 1 = yes)

The names and social security numbers of the patients were recently removed from the database, replaced with dummy values. One file has been "processed", that one containing the Cleveland database. All four unprocessed files also exist in this directory.

To see Test Costs (donated by Peter Turney), please see the folder "Costs"

Renombremos las columnas del dataset 


In [None]:
data.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol', 'fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved',
       'exercise_induced_angina', 'st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']

Ahora procedamos a analizar un poco el dataset con algunos gráficos simples que nos darán una idea del problema

In [None]:
data.describe()

In [None]:
data.info()

In [None]:
print(data.target.value_counts())
plt.figure(figsize=(7,5))
sns.countplot(x='target', data=data)

In [None]:
fig, ax = plt.subplots(1,4,figsize=(20,6))
sns.boxplot(x='target',y='resting_blood_pressure' ,data=data, ax=ax[0])
sns.boxplot(x='target',y='cholesterol' ,data=data,ax=ax[1])
sns.boxplot(x='target',y='max_heart_rate_achieved' ,data=data,ax=ax[2])
sns.boxplot(x='target',y='st_depression' ,data=data,ax=ax[3])

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(data.corr(), annot=True, cmap='RdYlGn', square=True)
b, t = plt.ylim() 
b += 0.5 
t -= 0.5 
plt.ylim(b, t)

In [None]:
plt.figure(figsize=(15,5))
sns.countplot(x='age', data=data, hue='target')
plt.legend(["Haven't Disease", "Have Disease"],loc='upper right')

In [None]:
def plot_count_bar(feature):
  fig, ax = plt.subplots(1,2,figsize=(10,7))
  sns.countplot(x=feature, data=data, hue='target', ax=ax[0])
  ax[0].legend(["Haven't Disease", "Have Disease"],loc='best')
  sns.barplot(x=feature, y='target', data=data,ax=ax[1])

In [None]:
data['sex'] = data['sex'].map({0:'female', 1:'male'})

In [None]:
plot_count_bar('sex')

In [None]:
data['chest_pain_type'] = data['chest_pain_type'].map({0:'typical angina', 1:'atypical angina', 2:'non-anginal pain', 3:'asymptomatic'})

In [None]:
plot_count_bar('chest_pain_type')

In [None]:
data['fasting_blood_sugar'] = data['fasting_blood_sugar'].map({0:'lower than 120mg/ml',1:'greater than 120mg/ml'})

In [None]:
plot_count_bar('fasting_blood_sugar')

In [None]:
data['rest_ecg'] = data['rest_ecg'].map({0:'normal', 1 : 'ST-T abnormality', 2:'hypertrophy'})

In [None]:
plot_count_bar('rest_ecg')

In [None]:
data['exercise_induced_angina'] = data['exercise_induced_angina'].map({0:'no', 1 : 'yes'})

In [None]:
plot_count_bar('exercise_induced_angina')

In [None]:
data['st_slope'] = data['st_slope'].map({0: 'upsloping',  1: 'flat', 2: 'downsloping'})

In [None]:
plot_count_bar('st_slope')

In [None]:
data['thalassemia'] = data['thalassemia'].map({1 :'normal', 2 : 'fixed defect', 3 :'reversable defect'})

In [None]:
plot_count_bar('thalassemia')

In [None]:
data.head()

In [None]:
X=data.iloc[:,:-1]
y=data['target']

In [None]:
X=pd.get_dummies(X)

In [None]:
X.head()

In [None]:
X.shape

Creemos ahora un set de entrenamieto y otro de testeo

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)

In [None]:
X_train.shape

Recordemos como son implementados los pipelines usando sklearn. Para estos utilizareos el modelo de regression logistica

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
model = Pipeline((
    ('scale', StandardScaler()), ('log_reg',LogisticRegression(C=10, solver='lbfgs', n_jobs=-1, fit_intercept=True))
))

In [None]:
model.fit(X_train,y_train)

In [None]:
y_fit=model.predict(X_test)

In [None]:
print(classification_report(y_test,y_fit))

In [None]:
plt.figure(figsize=(6,6))
sns.heatmap(confusion_matrix(y_test,y_fit), annot=True, square=True)
b, t = plt.ylim() 
b += 0.5 
t -= 0.5 
plt.ylim(b, t)

In [None]:
plt.figure(figsize=(10,10))
pd.Series((model[1].coef_[0]), index=X_train.columns).sort_values().plot(kind='barh')

Recordemos que además la búsqueda de hyperparameters puede automatizarse con sklearn usando `gridsearchcv` o `randomsearchcv`


In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
grid_params = {
    'log_reg__C':np.linspace(1,100,5),
    'log_reg__fit_intercept': [True,False]
}

In [None]:
grid_result = GridSearchCV(model, grid_params, n_jobs=-1, cv=5, iid=False)

In [None]:
grid_result.fit(X_train,y_train)

In [None]:
grid_result.best_params_

In [None]:
model = grid_result.best_estimator_

In [None]:
y_fit=model.predict(X_test)
print(classification_report(y_test,y_fit))

## Ahora usemos keras para crear un modelo de redes neururonales 

In [None]:
from tensorflow import keras

Antes de usar los pipelines en keras recordemso como hemos estado trabajando. primero debemos escalar los datos

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scale = StandardScaler()

In [None]:
X_train_scaled = scale.fit_transform(X_train)
X_test_scaled = scale.transform(X_test)

In [None]:
keras.backend.clear_session()

Ahora construyamos nuestra red neuronal de capas densas

In [None]:
model = keras.models.Sequential([
     keras.layers.Dense(5, activation='relu', input_shape = X_train.shape[1:]),    
     keras.layers.Dense(5, activation='relu'), 
     keras.layers.Dense(1 , activation='sigmoid')   
                             
])

pasemos a compilar el modelo

In [None]:
model.compile(optimizer='sgd', loss='binary_crossentropy', metrics=['accuracy'])

y finalmente entrenemos el modelo

In [None]:
model.fit(X_train_scaled,y_train, epochs=50, validation_split=0.2)

In [None]:
y_fit=model.predict_classes(X_test_scaled)
print(classification_report(y_test,y_fit))

Ahora usemos keras junto a sklear para automatizar este proceso de escalado y ademas para automatizar la busqueda de hyperparametros como se hizo con la regresion logistica

In [None]:
keras.backend.clear_session()

El primer paso es crear una funcion que constriuira y compilara el modelo de Keras dado un conjunto de hyperparametros

In [None]:
def build_model(n_neurons=5,input_shape=(25,)):
  model = keras.models.Sequential()
  model.add(keras.layers.Dense(n_neurons, activation='relu', input_shape=input_shape))
  model.add(keras.layers.Dense(n_neurons, activation='relu' ))
  model.add(keras.layers.Dense(1, activation='sigmoid'))
  model.compile(optimizer='sgd', loss='binary_crossentropy', metrics=['accuracy'])
  return model

Ahora creemos un `KerasClassifier` basados en la funcion build_model

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasClassifier(build_fn=build_model, epochs=100, validation_split=0.2)

Ahora podemos pasar a usar este objeto como un modelo usual de clasificacion en Sklearn

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
model.fit(X_train,y_train)

In [None]:
y_fit=model.predict(X_test)
print(classification_report(y_test,y_fit))

Ahora pasemos buscar cual seria el mejor numero de capas ocultas, neuronas por capa oculta y batch_size

In [None]:
keras.backend.clear_session()

In [None]:
def build_model(n_hidden=1, n_neurons=5,input_shape=(25,)):
  model = keras.models.Sequential()
  model.add(keras.layers.Dense(n_neurons, activation='relu', input_shape=input_shape))
  for i in range(n_hidden):
    model.add(keras.layers.Dense(n_neurons, activation='relu'))
  model.add(keras.layers.Dense(1, activation='sigmoid'))
  model.compile(optimizer='sgd', loss='binary_crossentropy', metrics=['accuracy'])
  return model

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasClassifier(build_fn=build_model, epochs=50, verbose=0)

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
params = {
    'ann__n_hidden':[0,1,2,3],
    'ann__n_neurons':np.arange(0,15),
    'ann__batch_size':[10,15,20]
}

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
rnd_search = RandomizedSearchCV(model, params, n_iter=50, n_jobs=-1, cv=3, scoring='accuracy')

In [None]:
grid_result = rnd_search.fit(X_train,y_train)

In [None]:
grid_result.best_params_

In [None]:
sk_params = {
    'batch_size':grid_result.best_params_['ann__batch_size'],
    'n_hidden': grid_result.best_params_['ann__n_hidden'],
    'n_neurons':grid_result.best_params_['ann__n_neurons']
}

In [None]:
sk_params

In [None]:
keras.backend.clear_session()

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasClassifier(build_fn=build_model, epochs=50, verbose=1, **sk_params )

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
model.fit(X_train,y_train)

In [None]:
y_fit=model.predict(X_test)
plt.figure(figsize=(8,6))
sns.heatmap(confusion_matrix(y_test,y_fit), annot=True)
b, t = plt.ylim() 
b += 0.5 
t -= 0.5 
plt.ylim(b, t)
print(classification_report(y_test,y_fit))

# Ejemplo 2: clasificacion multicalse 
Objetivo: predecir entre 6 tipos de vridiros diferentes apartir de su composicion quimica 

Importmeos algunas de las librerias que nos seran de utilidad

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

Imortemos los datos desde el repositorio de github

In [None]:
data=pd.read_csv('https://raw.githubusercontent.com/diplomado-bigdata-machinelearning-udea/Curso2/master/Datasets/glass.csv')

Inspeccionemos el dataset y sus características

In [None]:
data.head()

In [None]:
data.shape

In [None]:
data.describe()

In [None]:
data.info()

Ahora procedamos a analizar un poco el dataset con algunos gráficos simples que nos darán una idea del problema

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(data.corr(), annot=True, cmap='RdYlGn', square=True)
b, t = plt.ylim() 
b += 0.5 
t -= 0.5 
plt.ylim(b, t)

In [None]:
print(data.Type.value_counts())
plt.figure(figsize=(7,5))
sns.countplot(x='Type', data=data);

In [None]:
data.columns

In [None]:
data.dtypes

In [None]:
fig, ax = plt.subplots(2,5, figsize=(23,8))
names=data.columns
for i , ax in enumerate(ax.flat):  
  sns.boxplot(data=data, x='Type', y=names[i] , orient='vertical' , ax=ax)

Como vemos hay varios Outliers. Identifiquemos y removamos estos Outliers usando el metodo del interquartile range (IQR)

In [None]:
def IQR(x, value=1.5):
  Q1 = np.nanpercentile(x,25)
  Q3 = np.nanpercentile(x,75)
  IQR = Q3 - Q1
  upper = Q3 + value*IQR
  lower = Q1 - value*IQR
  x[x > upper] = np.nan
  x[x < lower] = np.nan
  return x

In [None]:
for i in data.columns[:-1]:
  for j in data['Type'].unique():
    data.loc[data['Type']==j, i]=IQR(data.loc[data['Type']==j, i])

La estrategia implementada para remplazar estos Outliers sera usar el promedi

In [None]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
for i in data['Type'].unique():  
  data.loc[data['Type']==i,'RI':'Fe']=imp.fit_transform(data.loc[data['Type']==i,'RI':'Fe'])

In [None]:
fig, ax = plt.subplots(2,5, figsize=(23,8))
names=data.columns
for i , ax in enumerate(ax.flat):  
  sns.boxplot(data=data, x='Type', y=names[i] , orient='vertical' , ax=ax)

Como es usual separemos nuestro datos en entrenemaiento y testeo

In [None]:
X=data.iloc[:,:-1]
y=data['Type']

In [None]:
X.shape

In [None]:
X.head()

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)

In [None]:
X_train.shape

Ahora procedamos a implementar nuestro modelo de redes neuronales. Usaremos validacion curazada y RandomSearchCv para buscar los hyperparametros de nuetro modelo 

In [None]:
from tensorflow import keras

In [None]:
keras.backend.clear_session()

In [None]:
def build_model(n_neurons=55, n_hidden=2, input_shape=(9,)):
  model = keras.models.Sequential()
  model.add(keras.layers.Dense(n_neurons, activation='relu', input_shape=input_shape))
  for i in range(n_hidden):
    model.add(keras.layers.Dense(n_neurons, activation='relu'))
  model.add(keras.layers.Dense(6, activation='softmax'))
  model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
  return model

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasClassifier(build_fn=build_model, epochs=100, verbose=1)

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
params = {
    'ann__n_hidden':[0,1,2,3],
    'ann__n_neurons':np.arange(45,60),
    'ann__batch_size':[10,15,20]
}

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
rnd_search = RandomizedSearchCV(model, params, n_iter=50, n_jobs=-1, cv=3, scoring='accuracy')

In [None]:
grid_result = rnd_search.fit(X_train,y_train)

In [None]:
grid_result.best_params_

In [None]:
sk_params = {
    'batch_size':grid_result.best_params_['ann__batch_size'],
    'n_hidden': grid_result.best_params_['ann__n_hidden'],
    'n_neurons':grid_result.best_params_['ann__n_neurons']
}

In [None]:
sk_params

In [None]:
keras.backend.clear_session()

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasClassifier(build_fn=build_model, epochs=100 , verbose=1, **sk_params)

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
model.fit(X_train,y_train)

In [None]:
y_fit=model.predict(X_test)
plt.figure(figsize=(8,6))
sns.heatmap(confusion_matrix(y_test,y_fit), annot=True)
b, t = plt.ylim() 
b += 0.5 
t -= 0.5 
plt.ylim(b, t)
print(classification_report(y_test,y_fit))

Comparemos los resultados obtneido con un el modelo de regression SoftMax

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.model_selection import GridSearchCV

In [None]:
model = Pipeline((
            ('scale', StandardScaler())  , ('log_reg', LogisticRegression( multi_class='multinomial', solver='lbfgs', C=30, max_iter=500, ))
))

In [None]:
grid_params= {
    'log_reg__C':np.arange(1,50),
    'log_reg__class_weight':['balanced', None]
}

In [None]:
grid_result = GridSearchCV(estimator=model, param_grid=grid_params, n_jobs=-1, cv=5)
grid_result.fit(X_train,y_train)
print(grid_result.best_params_)
model=grid_result.best_estimator_

In [None]:
model.fit(X_train,y_train)
y_fit=model.predict(X_test)
print(classification_report(y_test,y_fit))
sns.heatmap(confusion_matrix(y_test,y_fit), annot=True, cmap='RdYlGn')

# Ejemplo 3: Regression 
Objetivo: predecir el precio de casas en la ciuidad de california 

importemos algunas de las ligrerais que nos seran de utilidad


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
import seaborn as sns; sns.set()

importemos el dataset usando keras

In [None]:
housing = fetch_california_housing()

Inspeccionemos el dataset y sus características

In [None]:
housing.keys()

In [None]:
X = pd.DataFrame(housing.data, columns=housing.feature_names)
y = pd.Series(housing.target, name='Price')

In [None]:
X.shape

In [None]:
X.head()

In [None]:
print(housing.DESCR)

In [None]:
plt.figure(figsize=(8,7))
sns.heatmap(X.join(y).corr(), square=True, annot=True, cmap='RdYlGn')

Separemos nuestros datos en un set de entrenamiento y otro de testeo

In [None]:
X_train , X_test, y_train, y_test =  train_test_split(X,y, test_size=0.2)

In [None]:
X_train.shape

Ahora procedamos a implementar nuestro modelo de redes neuronales. Usaremos validacion curazada y RandomSearchCv para buscar los hyperparametros de nuetro modelo 

In [None]:
from tensorflow import keras

In [None]:
keras.backend.clear_session()

In [None]:
def build_model(n_neurons=5, n_hidden=2, input_shape=(8,)):
  model = keras.models.Sequential()
  model.add(keras.layers.Dense(n_neurons, activation='relu', input_shape=input_shape))
  for i in range(n_hidden):
    model.add(keras.layers.Dense(n_neurons, activation='relu'))
  model.add(keras.layers.Dense(1))
  model.compile(optimizer='sgd', loss='mean_squared_error')
  return model

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasRegressor(build_fn=build_model, epochs=30, verbose=1, validation_split=0.5)

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
params = {
    'ann__n_hidden':[0,1,2,3],
    'ann__n_neurons':np.arange(20,40),
    'ann__batch_size':[10,15,20,25]
}

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
rnd_search = RandomizedSearchCV(model, params, n_iter=10, n_jobs=-1, cv=3)

In [None]:
grid_result = rnd_search.fit(X_train,y_train)

In [None]:
grid_result.best_params_

In [None]:
sk_params = {
    'batch_size':grid_result.best_params_['ann__batch_size'],
    'n_hidden': grid_result.best_params_['ann__n_hidden'],
    'n_neurons':grid_result.best_params_['ann__n_neurons']
}

In [None]:
sk_params

In [None]:
keras.backend.clear_session()

In [None]:
keras_cs = keras.wrappers.scikit_learn.KerasRegressor(build_fn=build_model, epochs=20 , verbose=0, **sk_params)

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('ann', keras_cs)
])

In [None]:
model.fit(X_train, y_train);
y_fit = model.predict(X_test);
print(mean_squared_error(y_test,y_fit))
r2_score(y_test, y_fit )

Comparemos ahora el desempeño de nuestro red neuronal modelo con un regresion lineal 

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model =  Pipeline([
                   ('scale', StandardScaler()), ('linear_model', LinearRegression())
])

In [None]:
model.fit(X_train,y_train)
y_fit =  model.predict(X_test)
print(mean_squared_error(y_test,y_fit))
r2_score(y_test,y_fit)

#Ejercicio Clasificación biclase
En éste ejercicio usaremos una red densa para hacer una clasificación biclase para el sentimiento de la reseña de películas de la base de datos IMDB, con label 0 (negativo) y 1 (positivo).

En el dataset se encuentran una reseña en texto para una película así como su sentimiento, la idea es construír un clasificador capaz de diferenciar reseñas positivas de negativas:

Bebe construír su modelo de la siguiente manera


1.   Importe las librerías necesarias (ya lo hemos hecho )
2.   Importe los datos de la base de datos del IMDB disponibles en Kereas (También lo hemos hecho.)
3.   Cree una red con tres capas: keras.layers.Embedding, ésta capa se encarga de codificar el texto (como el Tf-iDF en el curso 1).
  keras.layers.GlobalAveragePooling1D, ésta capa se encarga de promediar los valores de los vectores envevidos en la capa anterior para extraer la información relevante, y keras.layers.Dense que constará de una sola neurona (0 o 1) y una activación sigmoidal para la clasificación biclase.
4.  Compile el modelo usando entropía cruzada binaria como perdida y un optimizador 'adam', el cual es una forma modificada del SDG (optimizer='adam',loss='binary_crossentropy'), use 10 épocas
5.   Entrene su modelo y evalue la perdida y el accuracy. No olvide que los datos deben ser particionados en datos de entrenamiento y prueba.



In [None]:
!pip install --upgrade tensorflow
!pip install --upgrade tensorflow-gpu

In [None]:
from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
!pip install -q tensorflow-datasets
!pip install -q seaborn
import tensorflow_datasets as tfds
from tensorflow import keras
import numpy as np
import pathlib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

tfds.disable_progress_bar()
print(tf.__version__)

In [None]:
#cargue la base de datos 

(train_data, test_data), info = tfds.load(
    'imdb_reviews/subwords8k', 
    split = (tfds.Split.TRAIN, tfds.Split.TEST),
    as_supervised=True,
    with_info=True)
)


#prepare los datos para entrenar una red densa

BUFFER_SIZE = 1000

train_batches = (
    train_data
    .shuffle(BUFFER_SIZE)
    .padded_batch(32, train_data.output_shapes))

test_batches = (
    test_data
    .padded_batch(32, train_data.output_shapes))

# Ejercicio Clasificación multiclase

En éste caso usaremos la base de datos CIFAR10, la cual consta de imagenes a color, constituidas por 10 clases de objeto: ['airplanes', 'cars', 'birds', 'cats', 'deer', 'dogs', 'frogs', 'horses', 'ships', 'trucks']. Construirémos de nuevo una red densa para crear un clasificador de imagenes. 
Recuerde que la idea es generar un flujo de trabajo desde la carga de los datos hasta la evaluación del modelo.

1.  Realice la carga de los datos del CIFAR10 de Keras y normalice los datos. Recuerde que al ser imagenes los valores de los pixeles estarán entre 0 y 255.
2.  Visualice algunas imagenes de muestra y su label respectivo. Recuerde usar la función imshow del matplotlib.pyplot.
3.  Cree un modelo con 4 capas, keras.layers.Flatten, ésta es la capa de entrada y deberá recibir imagenes de 32x32 pixeles y 3 canales de color. Añada 2 capas densas con activación relu y 256 y 128 neuronas respectivamente, finalmente una capa densa de 10 neuronas (el numero de clases del dataset) y con una activación softmax encargada de distribuir las densidad de probabilidad entre todos los labels
4.  Recuerde compilar el modelo antes de entrenar. Hágalo con una sparse_categorical_crossentropy como función de perdida y de nuevo un optimizador adam.
5. Entrene y evalúe el modelo (recuerde usar datos diferentes para cada una de éstas tareas).
6.  Finalmente grafique de nuevo las imagenes como en el punto 2. pero ahora con la etiqueta determinada por la red.


In [None]:
import tensorflow as tf

In [None]:
#cargar el dataset
cifar10 = tf.keras.datasets.cifar10
(train_images, train_labels), (test_images, test_labels) = cifar10.load_data()

#normalice los datos
train_images = train_images / 255.0
test_images = test_images / 255.0

In [None]:
train_images.shape

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.imshow(train_images[50])

In [None]:
train_labels[50]

In [None]:
#@title Solución
#Visualice una muestra
class_names = ['airplanes', 'cars', 'birds', 'cats', 'deer', 'dogs', 'frogs', 'horses', 'ships', 'trucks']
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(train_images[i])
    plt.xlabel(class_names[train_labels[i][0]])
plt.show()



In [None]:
#construya el modelo
#32x32x3 son las dimensiones de las imagenes que serán puestas en un solo vector por ésta capa para poder ser usadas en la capa densa.
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(32, 32, 3)), 
    keras.layers.Dense(256, activation='relu'),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])
    #note que ha cambiado la función de activación en la última capa, no en las intermedias

#compile el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.summary()

In [None]:
#entrene el modelo
model.fit(train_images, train_labels, epochs=10)

#evaluelo
test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2)

print('\nTest accuracy:', test_acc)

#prediga
predictions = model.predict(test_images)
#grafique
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(test_images[i])
    plt.xlabel(class_names[test_labels[i][0]])
plt.show()

Note que las capas críticas en la red son:
las primeras encargadas de codificar los datos de una manera adecuada para la red. 
En el caso del texto usamos una red que codifica las palabras como vectores numéricos (igual que el caso del curso 1) y en las imagenes usamos una capa que aplana las imagenes como un vector para ingresarlo a la redy las capas finales que se diferencian por la función de activación y el numero de neuronas en la capa, ésto debe ser representativo del problema que  queremos solucionar.

Las capas intermedias son las encargadas de extraer la información de nuestros datos y la importancia de su variedad será evidente en ejercicios posteriores.