<table align="center">
  <td align="center"><a target="_blank" href="http://introtodeeplearning.com">
        <img src="https://i.ibb.co/Jr88sn2/mit.png" style="padding-bottom:5px;" />
      Visit MIT Deep Learning</a></td>
  <td align="center"><a target="_blank" href="https://colab.research.google.com/github/MITDeepLearning/introtodeeplearning/blob/master/lab1/TF_Part1_Intro.ipynb">
        <img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Run in Google Colab</a></td>
  <td align="center"><a target="_blank" href="https://github.com/MITDeepLearning/introtodeeplearning/blob/master/lab1/TF_Part1_Intro.ipynb">
        <img src="https://i.ibb.co/xfJbPmL/github.png"  height="70px" style="padding-bottom:5px;"  />View Source on GitHub</a></td>
</table>

# Copyright Information


In [None]:
# Copyright 2025 MIT Introduction to Deep Learning. All Rights Reserved.
#
# Licensed under the MIT License. You may not use this file except in compliance
# with the License. Use and/or modification of this code outside of MIT Introduction
# to Deep Learning must reference:
#
# © MIT Introduction to Deep Learning
# http://introtodeeplearning.com
#

# Lab 1: Introducción a TensorFlow y la generación de música con RNN

En este laboratorio, aprenderá a usar TensorFlow y cómo puede utilizarse para resolver tareas de aprendizaje profundo. Revise el código y ejecute cada celda. Durante el proceso, encontrará varios bloques ***TODO***; siga las instrucciones para completarlos antes de ejecutar esas celdas y continuar.


# Part 1: Introducción a TensorFlow

## 0.1 Instalar TensorFlow

TensorFlow es una biblioteca de software ampliamente utilizada en aprendizaje automático. Aquí aprenderemos cómo se representan los cálculos y cómo definir una red neuronal simple en TensorFlow. En todos los laboratorios de TensorFlow de Introducción al Aprendizaje Profundo 2025, utilizaremos TensorFlow 2, que ofrece gran flexibilidad y la capacidad de ejecutar operaciones imperativamente, al igual que en Python. Observarás que TensorFlow 2 es bastante similar a Python en su sintaxis y ejecución imperativa. Instalemos TensorFlow y algunas dependencias.

In [None]:
import tensorflow as tf

# Descargar e importar el paquete Introducción al aprendizaje profundo del MIT
!pip install mitdeeplearning --quiet
import mitdeeplearning as mdl

import numpy as np
import matplotlib.pyplot as plt

## 1.1 ¿Por qué TensorFlow se llama TensorFlow?

Se denomina 'TensorFlow' porque gestiona el flujo (operación matemática/de nodos) de tensores, que son estructuras de datos que pueden considerarse como matrices multidimensionales. Los tensores se representan como matrices n-dimensionales de tipos de datos base, como cadenas o enteros, y permiten generalizar vectores y matrices a dimensiones superiores.

La ```forma``` de un tensor define su número de dimensiones y el tamaño de cada una. El ```rango``` de un tensor proporciona el número de dimensiones (n-dimensiones); también se puede considerar como el orden o grado del tensor.

Primero, veamos los tensores de dimensión cero, de los cuales un escalar es un ejemplo:

In [None]:
sport = tf.constant("Tennis", tf.string)
number = tf.constant(1.41421356237, tf.float64)

print("`sport` is a {}-d Tensor".format(tf.rank(sport).numpy()))
print("`number` is a {}-d Tensor".format(tf.rank(number).numpy()))

Se pueden utilizar vectores y listas para crear tensores unidimensionales:

In [None]:
sports = tf.constant(["Tennis", "Basketball"], tf.string)
numbers = tf.constant([3.141592, 1.414213, 2.71821], tf.float64)

print("`sports` is a {}-d Tensor with shape: {}".format(tf.rank(sports).numpy(), tf.shape(sports)))
print("`numbers` is a {}-d Tensor with shape: {}".format(tf.rank(numbers).numpy(), tf.shape(numbers)))


A continuación, consideramos la creación de tensores bidimensionales (es decir, matrices) y de rango superior. Por ejemplo, en futuros laboratorios de procesamiento de imágenes y visión artificial, utilizaremos tensores cuatridimensionales. En este caso, las dimensiones corresponden al número de imágenes de ejemplo en nuestro lote, su altura, su ancho y el número de canales de color.

In [None]:
### Definición de tensores de orden superior ###

'''TODO: Definir un tensor bidimensional'''
matrix = # TODO

assert isinstance(matrix, tf.Tensor), "La matriz debe ser un objeto Tensor tf"
assert tf.rank(matrix).numpy() == 2

In [None]:
'''TODO: Definir un tensor de 4 dimensiones.'''
# Utilice tf.zeros para inicializar un tensor de ceros de 4 dimensiones con un tamaño de 10 x 256 x 256 x 3
# Puedes pensar en esto como 10 imágenes donde cada imagen es RGB 256 x 256
images = # TODO

assert isinstance(images, tf.Tensor), "La matriz debe ser un objeto Tensor tf"
assert tf.rank(images).numpy() == 4, "La matriz debe ser de rango 4"
assert tf.shape(images).numpy().tolist() == [10, 256, 256, 3], "La matriz tiene una forma incorrecta"

Como has visto, la ```forma``` de un tensor indica el número de elementos en cada dimensión. La ```forma``` es muy útil y la usaremos con frecuencia. También puedes usar la segmentación para acceder a los subtensores dentro de un tensor de rango superior:

In [None]:
row_vector = matrix[1]
column_vector = matrix[:,1]
scalar = matrix[0, 1]

print("`row_vector`: {}".format(row_vector.numpy()))
print("`column_vector`: {}".format(column_vector.numpy()))
print("`scalar`: {}".format(scalar.numpy()))

## 1.2 Computations on Tensors

Una forma práctica de visualizar los cálculos en TensorFlow es mediante grafos. Podemos definir este grafo en términos de tensores, que contienen datos, y las operaciones matemáticas que actúan sobre estos tensores en un orden determinado. Veamos un ejemplo sencillo y definamos este cálculo usando TensorFlow:

![alt text](https://raw.githubusercontent.com/MITDeepLearning/introtodeeplearning/2025/lab1/img/add-graph.png)

In [None]:
# Crea los nodos en el gráfico e inicializa los valores.
a = tf.constant(15)
b = tf.constant(61)

# ¡Agregalos!
c1 = tf.add(a,b)
c2 = a + b # TensorFlow anula la operación "+" para poder actuar sobre los tensores
print(c1)
print(c2)

Observe cómo hemos creado un grafo de cálculo compuesto por operaciones de TensorFlow y cómo la salida es un tensor con valor 76. Acabamos de crear un grafo de cálculo compuesto por operaciones, las hemos ejecutado y nos ha devuelto el resultado.

Ahora consideremos un ejemplo un poco más complejo:

![alt text](https://raw.githubusercontent.com/MITDeepLearning/introtodeeplearning/2025/lab1/img/computation-graph.png)

Aquí, tomamos dos entradas, `a, b`, y calculamos una salida `e`. Cada nodo del grafo representa una operación que toma una entrada, realiza un cálculo y pasa su salida a otro nodo.

Definamos una función simple en TensorFlow para construir esta función de cálculo:

In [None]:
### Definición de cálculos tensoriales ###

# Construir una función de cálculo simple
def func(a,b):
  '''TODO: Define la operación para c, d, e (usa tf.add, tf.subtract, tf.multiply).'''
  c = # TODO
  d = # TODO
  e = # TODO
  return e

Ahora, podemos llamar a esta función para ejecutar el gráfico de cálculo dadas algunas entradas `a,b`:

In [None]:
# Considere valores de ejemplo para a,b
a, b = 1.5, 2.5
# Ejecutar el cálculo
e_out = func(a,b)
print(e_out)

Observe cómo nuestra salida es un tensor con valor definido por la salida del cálculo, y que la salida no tiene forma ya que es un único valor escalar.

## 1.3 Redes neuronales en TensorFlow

También podemos definir redes neuronales en TensorFlow. TensorFlow utiliza una API de alto nivel llamada [Keras](https://www.tensorflow.org/guide/keras) que proporciona un framework potente e intuitivo para construir y entrenar modelos de aprendizaje profundo.

Primero, consideremos el ejemplo de un perceptrón simple definido por una sola capa densa: $y = \sigma(Wx + b)$, donde $W$ representa una matriz de pesos, $b$ es un sesgo, $x$ es la entrada, $\sigma$ es la función de activación sigmoidea e $y$ es la salida. También podemos visualizar esta operación mediante un gráfico:

![alt text](https://raw.githubusercontent.com/MITDeepLearning/introtodeeplearning/2025/lab1/img/computation-graph-2.png)

Los tensores pueden fluir a través de tipos abstractos llamados [```Capas```](https://www.tensorflow.org/api_docs/python/tf/keras/layers/Layer), los componentes básicos de las redes neuronales. Las ```Capas``` implementan operaciones comunes de redes neuronales y se utilizan para actualizar ponderaciones, calcular pérdidas y definir la conectividad entre capas. Primero, definiremos una ```Capa``` para implementar el perceptrón simple definido anteriormente.

In [None]:
### Definición de una capa de red ###

# n_output_nodes: número de nodos de salida
# input_shape: forma de la entrada
# x: entrada a la capa

class OurDenseLayer(tf.keras.layers.Layer):
  def __init__(self, n_output_nodes):
    super(OurDenseLayer, self).__init__()
    self.n_output_nodes = n_output_nodes

  def build(self, input_shape):
    d = int(input_shape[-1])
    # Definir e inicializar parámetros: una matriz de peso W y un sesgo b
    # ¡Tenga en cuenta que la inicialización de parámetros es aleatoria!
    self.W = self.add_weight("weight", shape=[d, self.n_output_nodes]) # tenga en cuenta la dimensionalidad
    self.b = self.add_weight("bias", shape=[1, self.n_output_nodes]) # tenga en cuenta la dimensionalidad

  def call(self, x):
    '''TODO: define the operation for z (hint: use tf.matmul)'''
    z = # TODO

    '''TODO: define the operation for out (hint: use tf.sigmoid)'''
    y = # TODO
    return y

# Dado que los parámetros de capa se inicializan aleatoriamente, estableceremos una semilla aleatoria para la reproducibilidad
tf.keras.utils.set_random_seed(1)
layer = OurDenseLayer(3)
layer.build((1,2))
x_input = tf.constant([[1,2.]], shape=(1,2))
y = layer.call(x_input)

# ¡Prueba la salida!
print(y.numpy())
mdl.lab1.test_custom_dense_layer_output(y)

Convenientemente, TensorFlow ha definido una serie de ```Capas``` que se usan comúnmente en redes neuronales, por ejemplo, una [```Densa```](https://www.tensorflow.org/api_docs/python/tf/keras/layers/Dense?version=stable). Ahora, en lugar de usar una sola ```Capa``` para definir nuestra red neuronal simple, usaremos el modelo [`Secuencial`](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/Sequential) de Keras y una sola capa [`Densa`](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/layers/Dense) para definir nuestra red. Con la API `Secuencial`, puede crear fácilmente redes neuronales apilando capas como bloques de construcción.

In [None]:
### Definición de una red neuronal utilizando la API secuencial ###

# Importar paquetes relevantes
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

# Definir el número de salidas
n_output_nodes = 3

# Primero defina el modelo
model = Sequential()

'''TODO: Definir una capa densa (completamente conectada) para calcular z'''
# Recuerda: ¡las capas densas se definen mediante los parámetros W y b!
# Puedes leer más sobre la inicialización de W y b en la documentación de TF :)
# https://www.tensorflow.org/api_docs/python/tf/keras/layers/Dense?version=stable
dense_layer = # TODO

#Añadir la capa densa al modelo
model.add(dense_layer)


¡Listo! Hemos definido nuestro modelo usando la API Sequential. Ahora podemos probarlo con una entrada de ejemplo:

In [None]:
# Modelo de prueba con entrada de ejemplo
x_input = tf.constant([[1,2.]], shape=(1,2))

'''TODO: ¡ingresar información al modelo y predecir la salida!'''
model_output = # TODO
print(model_output)

Además de definir modelos mediante la API `Sequential`, también podemos definir redes neuronales subclasificando directamente la clase [`Model`](https://www.tensorflow.org/api_docs/python/tf/keras/Model?version=stable), que agrupa capas para facilitar el entrenamiento y la inferencia del modelo. La clase `Model` abarca lo que llamamos "modelo" o "red". Mediante la subclasificación, podemos crear una clase para nuestro modelo y luego definir el paso directo a través de la red mediante la función `call`. La subclasificación ofrece la flexibilidad de definir capas, bucles de entrenamiento, funciones de activación y modelos personalizados. Definamos la misma red neuronal que la anterior utilizando la subclasificación en lugar del modelo `Sequential`.

In [None]:
### Defining a model using subclassing ###

from tensorflow.keras import Model
from tensorflow.keras.layers import Dense

class SubclassModel(tf.keras.Model):

  # In __init__, we define the Model's layers
  def __init__(self, n_output_nodes):
    super(SubclassModel, self).__init__()
    '''TODO: Our model consists of a single Dense layer. Define this layer.'''
    self.dense_layer = '''TODO: Dense Layer'''

  # In the call function, we define the Model's forward pass.
  def call(self, inputs):
    return self.dense_layer(inputs)

Al igual que el modelo que construimos usando la API `Sequential`, probemos nuestro `SubclassModel` usando una entrada de ejemplo.

In [None]:
n_output_nodes = 3
model = SubclassModel(n_output_nodes)

x_input = tf.constant([[1,2.]], shape=(1,2))

print(model.call(x_input))

Es importante destacar que la subclasificación nos brinda gran flexibilidad para definir modelos personalizados. Por ejemplo, podemos usar argumentos booleanos en la función de `llamada` para especificar diferentes comportamientos de la red, por ejemplo, durante el entrenamiento y la inferencia. Supongamos que, en algunos casos, queremos que nuestra red simplemente muestre la entrada, sin ninguna perturbación. Definimos un argumento booleano `isidentity` para controlar este comportamiento:

In [None]:
### Defining a model using subclassing and specifying custom behavior ###

from tensorflow.keras import Model
from tensorflow.keras.layers import Dense

class IdentityModel(tf.keras.Model):

  # As before, in __init__ we define the Model's layers
  # Since our desired behavior involves the forward pass, this part is unchanged
  def __init__(self, n_output_nodes):
    super(IdentityModel, self).__init__()
    self.dense_layer = tf.keras.layers.Dense(n_output_nodes, activation='sigmoid')

  '''TODO: Implement the behavior where the network outputs the input, unchanged, under control of the isidentity argument.'''
  def call(self, inputs, isidentity=False):
    ### TODO

Probemos este comportamiento:

In [None]:
n_output_nodes = 3
model = IdentityModel(n_output_nodes)

x_input = tf.constant([[1,2.]], shape=(1,2))
'''TODO: pass the input into the model and call with and without the input identity option.'''
out_activate = # TODO
out_identity = # TODO

print("Network output with activation: {}; network identity output: {}".format(out_activate.numpy(), out_identity.numpy()))

Ahora que hemos aprendido cómo definir `Capas` y redes neuronales en TensorFlow usando las API `Secuenciales` y de Subclases, estamos listos para centrar nuestra atención en cómo implementar realmente el entrenamiento de red con retropropagación.

## 1.4 Diferenciación automática en TensorFlow

La [diferenciación automática](https://en.wikipedia.org/wiki/Automatic_differentiation) es uno de los componentes más importantes de TensorFlow y la base del entrenamiento con [retropropagación](https://en.wikipedia.org/wiki/Backpropagation). Utilizaremos la función GradientTape de TensorFlow [`tf.GradientTape`](https://www.tensorflow.org/api_docs/python/tf/GradientTape?version=stable) para rastrear las operaciones y calcular los gradientes posteriormente.

Cuando se realiza un pase directo a través de la red, todas las operaciones de pase directo se graban en una "cinta"; posteriormente, para calcular el gradiente, la cinta se reproduce en sentido inverso. Por defecto, la cinta se descarta tras su reproducción en sentido inverso; esto significa que una función `tf.GradientTape` solo puede calcular un gradiente y las llamadas posteriores generan un error de ejecución. Sin embargo, podemos calcular múltiples gradientes en el mismo cálculo creando una cinta de gradientes ```persistente```.

Primero, veremos cómo podemos calcular gradientes usando GradientTape y acceder a ellos para el cálculo. Definimos la función simple $y = x^2$ y calculamos el gradiente:

In [None]:
### Gradient computation with GradientTape ###

# y = x^2
# Example: x = 3.0
x = tf.Variable(3.0)

# Initiate the gradient tape
with tf.GradientTape() as tape:
  # Define the function
  y = x * x
# Access the gradient -- derivative of y with respect to x
dy_dx = tape.gradient(y, x)

assert dy_dx.numpy() == 6.0

Al entrenar redes neuronales, utilizamos la diferenciación y el descenso de gradiente estocástico (SGD) para optimizar una función de pérdida. Ahora que comprendemos cómo se puede usar `GradientTape` para calcular y acceder a las derivadas, veremos un ejemplo donde usamos la diferenciación automática y el SGD para encontrar el mínimo de $L=(x-x_f)^2$. Aquí $x_f$ es una variable para un valor deseado que intentamos optimizar; $L$ representa una pérdida que intentamos minimizar. Si bien podemos resolver este problema analíticamente ($x_{min}=x_f$), considerar cómo podemos calcularlo usando `GradientTape` nos prepara para futuros laboratorios donde usemos el descenso de gradiente para optimizar las pérdidas de toda la red neuronal.

In [None]:
### Function minimization with automatic differentiation and SGD ###

# Initialize a random value for our initial x
x = tf.Variable([tf.random.normal([1])])
print("Initializing x={}".format(x.numpy()))

learning_rate = 1e-2 # learning rate for SGD
history = []
# Define the target value
x_f = 4

# We will run SGD for a number of iterations. At each iteration, we compute the loss,
#   compute the derivative of the loss with respect to x, and perform the SGD update.
for i in range(500):
  with tf.GradientTape() as tape:
    '''TODO: define the loss as described above'''
    loss = # TODO

  # loss minimization using gradient tape
  grad = tape.gradient(loss, x) # compute the derivative of the loss with respect to x
  new_x = x - learning_rate*grad # sgd update
  x.assign(new_x) # update the value of x
  history.append(x.numpy()[0])

# Plot the evolution of x as we optimize towards x_f!
plt.plot(history)
plt.plot([0, 500],[x_f,x_f])
plt.legend(('Predicted', 'True'))
plt.xlabel('Iteration')
plt.ylabel('x value')

`GradientTape` proporciona un marco extremadamente flexible para la diferenciación automática. Para propagar errores hacia atrás a través de una red neuronal, rastreamos los pases hacia adelante en la cinta, utilizamos esta información para determinar los gradientes y, a continuación, los utilizamos para la optimización mediante SGD.