## Introducción a las Redes Neuronales

Contenido de la sesión:
* El ML trata sobre el aprendizaje de funciones (15 min)
* El descenso del gradiente ayuda a encontrar la "mejor" función (1 min)
* Las redes neuronales (y sus descendientes) son muy buenos aproximadores de funciones (30 min)


## El ML trata sobre el aprendizaje de funciones (15 min)

Piensa en la función "Canciones Recomendadas" de Spotify. ¿Cómo sabe qué canciones te podrían gustar? En su esencia, está utilizando una función que:
- Recibe: Tu historial de reproducción, canciones que te gustan y otros datos de usuario
- Produce: Una lista de canciones que podrían gustarte

De esto trata el machine learning - crear funciones que pueden aprender de los datos para hacer predicciones o tomar decisiones. Practiquemos identificando estos patrones de entrada/salida en diferentes sistemas de ML.

Para cada ejemplo a continuación:
1. Primero, piensa en qué información necesita el sistema (entradas)
2. Luego, considera qué debe producir el sistema (salidas)
3. Finalmente, intenta escribir el encabezado de la función por ti mismo antes de revisar la solución


Haré un ejemplo yo mismo para que puedas ver lo que buscamos.

**Clasificador de Sentimientos**
Un cine quiere saber si los comentarios de Instagram sobre sus películas son positivos o negativos. El sistema de machine learning que utilizarán probablemente se verá así:


In [None]:
def clasificar_sentimiento(comentario_pelicula: str) -> float:
    """
    Entrada: Un mensaje de texto como "¡Me encanta esta película!"
    Salida: Un número desde -1 (muy negativo) hasta 1 (muy positivo)
    """
    pass # La palabra clave 'pass' indica que la función aún no está implementada


¡Intenta un par de ejemplos tú mismo!

**Clasificador de imágenes**  
Una empresa de vehículos autónomos quiere saber si una imagen muestra a un peatón. Intenta escribir en el bloque de código siguiente cómo escribirías el encabezado de la función para ese sistema de machine learning.

<details>
    <summary>Una Posible Solución (¡¡Mira solo después de intentarlo tú mismo!!)</summary>
    ```  
    
    import numpy as np

    def es_peaton(imagen: np.ndarray) -> bool:
        """
        Entrada: Un array numpy que representa una imagen. La forma del array es (altura, ancho, 3)
        donde la última dimensión indica el color en RGB con tres números, cada uno para rojo, verde y azul.
        Salida: Un booleano (True o False) que indica si la imagen muestra un peatón
        """
        pass
    ```    
</details>


In [None]:
# Crea aquí el encabezado de la función para el clasificador de imágenes:


Una pregunta interesante del ejercicio anterior es: ¿cómo podemos pasar una imagen a un sistema de ML de manera que la entienda? Aunque podríamos pensar en usar archivos de imagen (como PNG o JPEG), para el sistema estos son solo colecciones de 1s y 0s que son difíciles de procesar directamente.

En el fondo, los sistemas de ML solo pueden trabajar con números. Ya sea que estemos tratando con texto, imágenes o audio, siempre hay un proceso para convertir la entrada en números que el sistema pueda entender (y a veces convertir esos números de vuelta a un formato que los humanos podamos interpretar).

Para las imágenes, este proceso de conversión es bastante directo. Piensa en una imagen como una cuadrícula de pequeños cuadrados llamados píxeles. Cada píxel es como una mezcla de tres colores - rojo, verde y azul - donde medimos cuánto de cada color usamos (de 0 a 1). Por ejemplo:

(1, 0, 0) significa "rojo completo, sin verde, sin azul" = Rojo puro
(0, 1, 0) significa "sin rojo, verde completo, sin azul" = Verde puro
(0.5, 0.5, 0.5) significa "mitad de cada uno" = Gris

Cuando representamos una imagen de esta manera, se convierte en un array con tres dimensiones:

altura = número de filas en nuestra cuadrícula
ancho = número de columnas
3 = nuestras mediciones de rojo, verde y azul para cada píxel

Veamos cómo funciona esto en la práctica. En el código siguiente, puedes cambiar los valores de red_values, blue_values y green_values para ver cómo diferentes combinaciones de colores crean diferentes imágenes.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

valores_rojo = [
    [0.8, 0, 0],
    [0, 0.7, 0],
    [0, 0, 0.9]
]
valores_azul = [
    [0, 0, 0.6],
    [0, 0.5, 0],
    [0.7, 0, 0]
]
valores_verde = [
    [0, 0.8, 1],
    [0.6, 0, 0],
    [0, 0, 0.5]
]

# Crear matrices de imagen con forma (altura, ancho, [R, G, B])
img_roja = np.zeros((3, 3, 3))
img_azul = np.zeros((3, 3, 3))
img_verde = np.zeros((3, 3, 3))

# Establecer los valores para cada canal
img_roja[:, :, 0] = np.array(valores_rojo)  # Canal rojo
img_azul[:, :, 2] = np.array(valores_azul)  # Canal azul
img_verde[:, :, 1] = np.array(valores_verde)  # Canal verde
img_combinada = img_roja + img_azul + img_verde

def graficar_matrices_imagen(img_roja, img_azul, img_verde, img_combinada):
    # Crear una figura con 4 subgráficos lado a lado
    fig, (ax1, ax2, ax3, ax4) = plt.subplots(1, 4, figsize=(16, 4))

    # Graficar cada imagen
    ax1.imshow(img_roja)
    ax1.set_title('Valores Rojos')
    ax1.axis('off')

    ax2.imshow(img_azul)
    ax2.set_title('Valores Azules')
    ax2.axis('off')

    ax3.imshow(img_verde)
    ax3.set_title('Valores Verdes')
    ax3.axis('off')

    ax4.imshow(img_combinada)
    ax4.set_title('Valores Combinados')
    ax4.axis('off')

    plt.tight_layout()
    plt.show()

graficar_matrices_imagen(img_roja, img_azul, img_verde, img_combinada)


También podemos ver cómo funciona el proceso con una imagen real de internet. Reduje la resolución de la imagen para que sea más evidente que está compuesta por píxeles individuales.


In [None]:
# Cargar y mostrar una imagen de ejemplo
from PIL import Image
import requests
from io import BytesIO

# Obtener una pequeña imagen de ejemplo de internet (una foto de astronauta)
url = "https://raw.githubusercontent.com/scikit-image/scikit-image/master/skimage/data/astronaut.png"
respuesta = requests.get(url)
img = Image.open(BytesIO(respuesta.content))

def graficar_imagen_por_canales(img):
    # Redimensionar a una resolución muy baja (ej., 64x64)
    imagen_pequeña = img.resize((64, 64))

    # Convertir a array de numpy
    array_imagen = np.array(imagen_pequeña)

    # Crear figura y mostrar
    plt.figure(figsize=(15, 4))

    # Imagen original
    plt.subplot(1, 5, 1)
    plt.imshow(img)
    plt.title('Imagen Original')
    plt.axis('off')

    # Imagen redimensionada
    plt.subplot(1, 5, 2)
    plt.imshow(array_imagen)
    plt.title('Resolución 64x64')
    plt.axis('off')

    # Canal rojo
    plt.subplot(1, 5, 3)
    plt.imshow(array_imagen[:,:,0], cmap='Reds')
    plt.title('Canal Rojo')
    plt.axis('off')

    # Canal verde
    plt.subplot(1, 5, 4)
    plt.imshow(array_imagen[:,:,1], cmap='Greens')
    plt.title('Canal Verde')
    plt.axis('off')

    # Canal azul
    plt.subplot(1, 5, 5)
    plt.imshow(array_imagen[:,:,2], cmap='Blues')
    plt.title('Canal Azul')
    plt.axis('off')

    plt.tight_layout()
    plt.show()

    # Imprimir la forma del array de la imagen de baja resolución
    print(f"Forma de la imagen de baja resolución: {array_imagen.shape}")

graficar_imagen_por_canales(img)


Si estás interesado, puedes preguntarle a una IA cómo funciona el proceso de codificación de texto a números, que sería necesario para crear sistemas de ML como ChatGPT (por ejemplo, "¿Cómo codifica el texto ChatGPT? Solo estoy ligeramente familiarizado con redes neuronales y machine learning").

Por ahora, ignoraremos este proceso y asumiremos que los sistemas de ML pueden recibir texto directamente. ¿Cómo se vería el encabezado de la función para este sistema de ML?:

**Chatbot LLM**
OpenAI está creando un chatbot que puede responder preguntas en chatgpt.com. Para reducir costos, este chatbot no acepta imágenes ni voz, solo texto. De manera similar, solo produce texto como salida.

<details>
    <summary>Una Posible Solución</summary>
    ```python
    def chatbot(mensaje_usuario: str) -> str:
        """
        Entrada: Una cadena con el mensaje del usuario
        Salida: Una cadena con la respuesta del chatbot
        """
        pass
    ```    
</details>


In [None]:
# Crear el encabezado de función para el chatbot aquí:


## El descenso del gradiente ayuda a encontrar la "mejor" función (1 min)

Aunque las matemáticas y la intuición detrás del descenso del gradiente son increíblemente interesantes, no tenemos suficiente tiempo para cubrirlo aquí. Si estás interesado, recomiendo este video de 3Blue1Brown ([inglés](https://www.youtube.com/watch?v=IHZwWFHWa-w), [español](https://www.youtube.com/watch?v=mwHiaTrQOiI)). Además, si quieres un reto, puedes intentar implementar el algoritmo de descenso del gradiente por ti mismo en esta [página](https://neetcode.io/problems/gradient-descent).


## Redes Neuronales: Los Mejores Aprendices de Funciones (30 min)

¿Recuerdas cómo describimos el machine learning como la búsqueda de la función correcta para una tarea? Para hacer esto de manera efectiva, necesitamos un sistema flexible que pueda moldearse en muchos tipos diferentes de funciones - como arcilla que puede moldearse en cualquier forma. Aquí es donde brillan las redes neuronales.

Las redes neuronales han revolucionado el machine learning porque son increíblemente buenas aprendiendo patrones complejos. Tienen tres ventajas clave:

* **Poder Expresivo**: Las redes neuronales son aproximadores universales de funciones - una manera elegante de decir que si les das suficientes neuronas y las ajustas correctamente, pueden representar prácticamente cualquier función que desees. Piensa en ello como tener suficientes bloques de LEGO para construir cualquier cosa que puedas imaginar.

* **Procesamiento Paralelo**: El entrenamiento de redes neuronales implica hacer muchos cálculos similares a la vez. Las computadoras modernas son muy buenas en este tipo de procesamiento paralelo, haciendo que las redes neuronales sean rápidas de entrenar y rentables de usar.

* **Reconocimiento de Patrones**: Las redes neuronales avanzadas (como los Transformers utilizados en ChatGPT) son notablemente eficientes para detectar patrones en los datos. Si bien necesitan muchos datos de entrenamiento, la cantidad requerida es realmente alcanzable con la tecnología actual.

En este notebook, nos centraremos en los Perceptrones Multicapa (MLPs) - el tipo más simple de red neuronal. Aunque los MLPs puedan parecer básicos en comparación con las redes neuronales que impulsan los sistemas de IA actuales, son perfectos para aprender los conceptos fundamentales. Piensa en ellos como el "Hola Mundo" de las redes neuronales - una vez que entiendas los MLPs, tendrás una base sólida para comprender arquitecturas más avanzadas como RNNs, CNNs y Transformers.


Vamos a experimentar con diferentes tipos de modelos de ML para ver cómo se comportan en un problema clásico: reconocer dígitos escritos a mano (conjunto de datos MNIST).

Puedes ajustar:
- Ancho del MLP: Cuántas neuronas hay en cada capa (más = patrones más complejos)
- Profundidad del MLP: Cuántas capas de neuronas (más = patrones más profundos)
- Profundidad del Árbol: Qué tan detalladas pueden ser las reglas del árbol de decisión
- Tamaño del Conjunto de Datos: Cuántos ejemplos usamos para el entrenamiento

Intenta responder:
1. ¿Qué sucede cuando aumentas el ancho vs. la profundidad?
2. ¿Más datos de entrenamiento siempre ayudan?
3. ¿Qué modelo parece aprender más rápido con datos limitados?


In [None]:
from sklearn.datasets import fetch_openml

# Cargar conjunto de datos MNIST
X, y = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)
X = X / 255.0  # Escalar valores de píxeles

# Graficar algunos dígitos MNIST de ejemplo
plt.figure(figsize=(10, 2))
for i in range(5):
    plt.subplot(1, 5, i+1)
    plt.imshow(X[i].reshape(28, 28), cmap='gray')
    plt.title(f'Etiqueta: {y[i]}')
    plt.axis('off')
plt.tight_layout()
plt.show()

print(X.shape, "Las imágenes son de 28x28 píxeles, así que 784 píxeles una vez aplanadas.")


In [None]:
import matplotlib.pyplot as plt
import ipywidgets as widgets
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier

def comparar_predicciones():
    """Compara predicciones de diferentes modelos en MNIST."""
    
    # Crear widgets para hiperparámetros
    ancho_mlp = widgets.IntSlider(value=32, min=4, max=64, description='Ancho MLP:')
    profundidad_mlp = widgets.IntSlider(value=2, min=1, max=8, description='Profundidad MLP:')
    profundidad_arbol = widgets.IntSlider(value=5, min=1, max=20, description='Profundidad Árbol:')
    tamanio_entrenamiento = widgets.IntSlider(value=1_000, min=100, max=5_000, description='Tamaño Datos:')
    # Crear espacio para salida
    salida = widgets.HTML()
        
    tamanio_validacion = 2_000    
    
    def entrenar_y_graficar(ancho_mlp, profundidad_mlp, profundidad_arbol, tamanio_entrenamiento):
        
        salida.value = "Entrenando modelos..."
        
        X_entren, y_entren = X[:tamanio_entrenamiento], y[:tamanio_entrenamiento]
        X_val, y_val = X[-tamanio_validacion:], y[-tamanio_validacion:]

        # Entrenar regresión logística una vez
        modelo_rl = LogisticRegression(max_iter=1000)
        modelo_rl.fit(X_entren, y_entren)
        precision_rl = modelo_rl.score(X_val, y_val)
        
        # Entrenar árbol de decisión
        modelo_ad = DecisionTreeClassifier(max_depth=profundidad_arbol)
        modelo_ad.fit(X_entren, y_entren)
        precision_ad = modelo_ad.score(X_val, y_val)
        
        # Entrenar MLP
        modelo_mlp = MLPClassifier(
            hidden_layer_sizes=(ancho_mlp,)*profundidad_mlp,
            activation='relu',
            max_iter=1000
        )
        modelo_mlp.fit(X_entren, y_entren)
        precision_mlp = modelo_mlp.score(X_val, y_val)
    
        salida.value = (f"Precisión MLP: {precision_mlp:.2f}<br>"
                       f"Precisión Regresión Logística: {precision_rl:.2f}<br>"
                       f"Precisión Árbol de Decisión: {precision_ad:.2f}")
    
    controles = {'ancho_mlp': ancho_mlp, 'profundidad_mlp': profundidad_mlp, 
                 'profundidad_arbol': profundidad_arbol, 'tamanio_entrenamiento': tamanio_entrenamiento}
    widgets.interact(entrenar_y_graficar, **controles, continuous_update=False)
    display(salida)

comparar_predicciones()


Observando nuestros resultados, surge algo interesante: la regresión logística tiene un rendimiento sorprendentemente bueno, a menudo igualando o incluso superando al MLP en el conjunto de datos MNIST. Si bien ambos métodos superan significativamente al árbol de decisión, la ventaja del MLP no es tan dramática como podríamos esperar. (No te preocupes - para problemas más complejos más allá de MNIST, los MLPs típicamente muestran beneficios mucho mayores.)

Sin embargo, este alto rendimiento viene con un compromiso: los MLPs son mucho más difíciles de interpretar que los modelos más simples. Con la regresión logística o los árboles de decisión, podemos visualizar y entender fácilmente cómo toman decisiones. En contraste, cuando intentamos visualizar el funcionamiento interno de un MLP, obtenemos algo que se ve así:

![Visualización de pesos MLP](https://i.sstatic.net/Z5L70.png)

En esta visualización, cada círculo representa una neurona que puede ser activada por diferentes entradas, y las líneas muestran cómo las neuronas anteriores influyen en las posteriores a través de conexiones ponderadas. Aunque es bonito, esta complejidad hace que sea difícil entender exactamente cómo la red toma sus decisiones.

Para entender mejor cómo funcionan las redes neuronales, vamos a hacer zoom y experimentar con una versión mucho más simple. Aquí hay una forma interesante de pensarlo: las computadoras pueden realizar tareas complejas como enviar correos electrónicos, reproducir videos o ejecutar código Python combinando operaciones muy simples (como AND y OR) muchas veces. De manera similar, si podemos mostrar que las redes neuronales pueden realizar estas operaciones básicas, podemos entender cómo podrían combinarse para abordar tareas más complejas.

Probemos esto de manera práctica construyendo la red neuronal más simple posible: una con solo dos entradas (cada una 0 o 1) y una única neurona para la salida. Tu desafío es hacer que esta pequeña red realice operaciones lógicas básicas:

- Para AND: La salida debe estar ACTIVA solo cuando ambas entradas están ACTIVAS
- Para OR: La salida debe estar ACTIVA cuando cualquiera de las entradas (o ambas) está ACTIVA

Puedes ajustar el comportamiento de la red usando:
- Pesos (mostrados como líneas): Azul = influencia positiva, Rojo = influencia negativa
- Sesgo (bias): Un valor adicional que hace más fácil o más difícil que la neurona se active
- La oscuridad de la neurona muestra qué tan fuertemente está activada

¡Prueba diferentes combinaciones y ve si puedes hacer que la red implemente correctamente estas operaciones lógicas!


In [None]:
import ipywidgets as widgets
from IPython.display import display
import matplotlib.pyplot as plt
import numpy as np

# Crear widgets para ajuste de pesos
funcion_objetivo = widgets.Dropdown(options=['AND', 'OR'], description='Función Objetivo:')
peso1_deslizador = widgets.FloatSlider(value=0.0, min=-2.0, max=2.0, step=0.1, description='Peso 1:')
peso2_deslizador = widgets.FloatSlider(value=0.0, min=-2.0, max=2.0, step=0.1, description='Peso 2:') 
sesgo_deslizador = widgets.FloatSlider(value=0.0, min=-2.0, max=2.0, step=0.1, description='Sesgo:')
primera_entrada_activa = widgets.Checkbox(value=False, description='Primera entrada ACTIVA')
segunda_entrada_activa = widgets.Checkbox(value=False, description='Segunda entrada ACTIVA')


def graficar_neurona(funcion_objetivo, p1, p2, sesgo, primera_entrada_activa, segunda_entrada_activa):
    plt.clf()
    
    relu = lambda x: max(0, x)
    
    coords_primera_entrada = (0, 1)
    coords_segunda_entrada = (1, 1)
    coords_neurona = (0.5, 0.5)
    
    # Graficar entradas
    x1 = 1 if primera_entrada_activa else 0
    x2 = 1 if segunda_entrada_activa else 0
    
    # Calcular valores reales y esperados
    real = relu(p1*x1 + p2*x2 + sesgo)
    esperado = x1 and x2 if funcion_objetivo == 'AND' else x1 or x2  # Compuerta AND
    
    # Graficar puntos de entrada con relleno basado en estado de entrada
    plt.plot(coords_primera_entrada[0], coords_primera_entrada[1], 'ko', markersize=10,
             fillstyle='full' if primera_entrada_activa else 'none')
    plt.plot(coords_segunda_entrada[0], coords_segunda_entrada[1], 'ko', markersize=10,
             fillstyle='full' if segunda_entrada_activa else 'none')
    
    # Graficar neurona con color basado en activación
    color_relleno = f"{1 - np.clip(real, 0, 1):.2f}"
    plt.plot(coords_neurona[0], coords_neurona[1], 'ko', markersize=20,
             fillstyle='full', markerfacecolor=color_relleno)
    
    # Graficar conexiones con colores basados en peso
    plt.plot(*zip(coords_primera_entrada, coords_neurona), 
            color='blue' if p1 > 0 else 'red',
            alpha=abs(p1/2),
            linewidth=2)
    plt.plot(*zip(coords_segunda_entrada, coords_neurona),
            color='blue' if p2 > 0 else 'red',
            alpha=abs(p2/2),
            linewidth=2)
    
    # Eliminar cuadrícula y bordes
    plt.gca().axis('off')
    plt.xlim(-0.5, 1.5)
    plt.ylim(-0.5, 1.5)
    
    # Imprimir valores
    esta_activo = lambda x: "ACTIVO" if x > 0 else "INACTIVO"
    plt.text(-0.4, -0.4, f'Esperado: {esta_activo(esperado)}\nReal: {esta_activo(real)}')
    print('Los gráficos aparecen dos veces, ¡lo siento!')
    plt.show()
    
# Mostrar widgets interactivos
widgets.interactive(
    graficar_neurona, 
    funcion_objetivo=funcion_objetivo,
    p1=peso1_deslizador,
    p2=peso2_deslizador,
    sesgo=sesgo_deslizador,
    primera_entrada_activa=primera_entrada_activa,
    segunda_entrada_activa=segunda_entrada_activa,
)


Ahora que hemos visto cómo las redes neuronales pueden aprender operaciones lógicas básicas como AND y OR, alejémonos un poco y consideremos cómo estos mismos principios pueden abordar desafíos mucho más complejos - como enseñar a una computadora a mantener conversaciones similares a las humanas.

Imagina que tenemos un conjunto de datos de conversaciones escritas y queremos enseñar a un modelo de ML a participar en ellas de manera natural. Podríamos pensar en usar un MLP como los que hemos explorado, pero rápidamente encontraríamos varios desafíos:

* Sobreajuste: Así como nuestra red simple necesitaba el balance correcto de pesos para aprender operaciones AND/OR, un modelo de conversación necesita aprender patrones genuinos de comunicación humana en lugar de solo memorizar ejemplos específicos.
* Tamaño del modelo: ¿Recuerdas cómo nuestro reconocimiento de dígitos mejoró con redes más grandes? Para algo tan complejo como el lenguaje humano, necesitaríamos una red dramáticamente más grande - piensa en millones o billones de neuronas en lugar de docenas.
* Costo computacional: Entrenar una red tan masiva con suficientes datos de conversación para hacerla útil requeriría un poder de cómputo enorme - miles de chips especializados (GPUs) funcionando durante meses.

Este fue exactamente el desafío que abordó OpenAI. Comenzaron pequeño, con GPT-1: una red neuronal relativamente simple entrenada en una modesta colección de libros (puedes probarlo [aquí](https://huggingface.co/spaces/mkmenta/try-gpt-1-and-gpt-2)). Si bien este primer intento produjo texto bastante torpe, probó algo importante: las redes neuronales podían comenzar a comprender patrones del lenguaje humano.

El descubrimiento verdaderamente notable fue que escalar este enfoque - usando redes más grandes, más datos y más poder de cómputo - llevó a sistemas que podían participar en conversaciones sorprendentemente similares a las humanas. Así como nuestras redes simples aprendieron a combinar operaciones básicas en comportamientos más complejos, estas redes más grandes aprendieron a combinar patrones básicos de lenguaje en diálogos significativos.

Sin embargo, llegar a este punto requirió ir más allá de la arquitectura MLP que hemos explorado hoy. En nuestra próxima sesión, profundizaremos en los Transformers - la arquitectura especializada de red neuronal que impulsa los modelos modernos de lenguaje de IA como GPT-4, Claude y Llama 3. Veremos cómo se basan en los conceptos fundamentales que hemos aprendido mientras introducen innovaciones inteligentes que los hacen particularmente adecuados para procesar lenguaje.
