# Actividad de investigación sobre JAX
# Autor: Germán García Estévez

## 1. Qué es JAX y cuáles son sus principales características.

JAX es una biblioteca de Python desarrollada por Google que destaca por su capacidad de diferenciación automática **(autograd)** y su integración con aceleradores **(GPU/TPU)** para realizar cálculos de manera muy eficiente. Algunas de sus principales características son:

* **Autograd avanzado:** permite calcular gradientes de manera fácil y rápida, incluso con funciones y estructuras complejas.

* **Compilación just-in-time (JIT) con XLA:** optimiza el código y lo acelera significativamente al compilarlo para CPU, GPU o TPU.

* **Transformaciones funcionales:** provee herramientas como `vmap` (vectorización automática) y `pmap` (paralelización en múltiples dispositivos), facilitando el escalado en grandes volúmenes de datos.

* **Enfoque funcional:** JAX promueve un estilo de programación inmutable y funcional, lo que ayuda a evitar errores comunes en entornos de investigación.

En resumen, es una herramienta muy útil para el desarrollo de proyectos de ML e investigación científica que requieran cálculos rápidos y precisos.

In [None]:
# Ejemplo del punto 1
import jax
import jax.numpy as jnp
from jax import jit, grad, vmap

# Definimos una función sencilla
def f(x):
    return x**2 + 2*x + 1

# Obtenemos su gradiente con respecto a x
f_grad = grad(f)

# Compilamos la función con JIT para acelerar su ejecución
f_jit = jit(f)

# Ejemplo de uso
x = 3.0
print("f(x) = ", f(x))
print("Gradiente de f en x = ", f_grad(x))
print("Resultado de f(x) compilado con JIT = ", f_jit(x))

# Vectorizamos la función con vmap para aplicarla a un array
xs = jnp.array([1, 2, 3])
f_vmap = vmap(f)
print("Aplicando la función a un array con vmap:", f_vmap(xs))

f(x) =  16.0
Gradiente de f en x =  8.0
Resultado de f(x) compilado con JIT =  16.0
Aplicando la función a un array con vmap: [ 4  9 16]


* `grad(f)`: obtiene de forma automática el gradiente de `f`.

* `jit(f)`: compila la función para acelerar la ejecución utilizando **XLA**.

* `vmap(f)`: permite aplicar la función `f` de forma vectorizada a un conjunto de datos sin necesidad de escribir bucles explícitos.

## 2. Comparación de JAX con TensorFlow y PyTorch.

### 1. Estilo de programación:

* **JAX**: se basa en un estilo *funcional*. Esto significa que trabaja con funciones "puras" (sin efectos secundarios) y usa transformaciones como `grad` (para derivadas automáticas), `vmap` (para vectorización) y `pmap` (para procesamiento en paralelo).

* **TensorFlow y PyTorch**: usan un enfoque más *imperativo* o de "programación directa". En PyTorch, escribes el código y "mágicamente" se rastrean los gradientes; en TensorFlow, si usas `tf.GradientTape`, también obtienes gradientes fácilmente, pero en general han tardado más en simplificar su uso.

### 2. Diferenciación automática `(autograd)`:

* **JAX**: con solo escribir funciones en Python usando `jax.numpy`, puedes obtener gradientes con `grad`. Es muy transparente y directo.

* **TensorFlow y PyTorch**: hacen algo similar, pero su configuración a veces requiere un poco más de trabajo o configuración (especialmente TensorFlow).

### 3. Rendimiento y aceleración:

* **JAX**: usa la compilación just-in-time (JIT) con XLA, lo que puede lograr mucha velocidad al procesar en CPU, GPU o TPU.

* **TensorFlow**: también puede usar XLA y es muy popular para producción, también tiene soporte oficial de Google para TPU, etc.

* **PyTorch**: inicialmente se centraba en GPU y CPU, pero ahora también tiene soporte para TPU (aunque más reciente).

### 4. Ecosistema:

* **JAX**: es relativamente nuevo, su ecosistema (bibliotecas, tutoriales, proyectos) está creciendo rápido, pero aún no es tan grande como el de PyTorch o TensorFlow.

* **TensorFlow**: tiene un ecosistema industrial muy grande (TensorFlow Serving, TensorFlow Lite, etc.) ideal para despliegues en empresas.

* **PyTorch**: muy popular en investigación gracias a su facilidad de uso y abundancia de ejemplos, modelos preentrenados y librerías de terceros.

### 5. Aprendizaje y estilo:

* **JAX**: requiere acostumbrarse al estilo funcional (no mutar variables, trabajar con transformaciones como `grad`, `vmap`, etc.).

* **TensorFlow**: ha evolucionado de un enfoque más complejo (gráficos estáticos en TF1.x) a uno más amigable (ejecución "eager" en TF2.x).

* **PyTorch**: es muy cercano al "Python puro", lo que lo hace muy intuitivo para la mayoría de personas que empiezan a programar en *Deep Learning*.

**A modo de resumen:** si lo que buscas es un enfoque muy flexible, con gran eficiencia en CPU/GPU/TPU y te gusta el estilo funcional, *JAX* es una excelente opción.

Pero si quieres algo más tradicional, con muchísimo soporte en la comunidad y fácil de entender desde el principio, *PyTorch* es muy buena alternativa.

Y si trabajas en proyectos de gran escala a nivel empresarial, *TensorFlow* ofrece un ecosistema muy completo para desplegar y mantener modelos en producción.

In [None]:
# Ejemplo del punto 2. Voy a usar la misma función del ejemplo del punto 1.
# Ejemplo con JAX
import jax
import jax.numpy as jnp
from jax import grad
import timeit

# Definimos la función f(x)
def f_jax(x):
    return x**2 + 2*x + 1

# Obtenemos su gradiente
df_jax = grad(f_jax)

# Iniciamos el temporizador
inicio = timeit.default_timer()

x_jax = 3.0
valor_funcion = f_jax(x_jax)
valor_gradiente = df_jax(x_jax)

# Terminamos el temporizador
fin = timeit.default_timer()

# Mostramos resultados
print("JAX - f(3.0):", valor_funcion)           # Valor de la función
print("JAX - Gradiente en 3.0:", valor_gradiente)  # Valor del gradiente
print("Tiempo de ejecución (s):", fin - inicio)

JAX - f(3.0): 16.0
JAX - Gradiente en 3.0: 8.0
Tiempo de ejecución (s): 0.010217507999641384


In [None]:
# Ejemplo con TensorFlow
import tensorflow as tf
import time

# Iniciamos el temporizador
inicio = time.time()

x_tf = tf.Variable(3.0)

with tf.GradientTape() as tape:
    y_tf = x_tf**2 + 2*x_tf + 1  # f(x)

grad_tf = tape.gradient(y_tf, x_tf)

# Terminamos el temporizador
fin = time.time()

# Mostramos resultados
print("\nTensorFlow - f(3.0):", y_tf.numpy())       # Valor de la función
print("TensorFlow - Gradiente en 3.0:", grad_tf.numpy())  # Valor del gradiente
print("Tiempo de ejecución (s):", fin - inicio)


TensorFlow - f(3.0): 16.0
TensorFlow - Gradiente en 3.0: 8.0
Tiempo de ejecución (s): 0.006559133529663086


* `GradientTape`: TensorFlow usa esta "cinta" para grabar las operaciones y luego calcular gradientes.

* Ecosistema robusto: ideal para producción, con herramientas como TensorFlow Serving o TensorFlow Lite.

In [None]:
# Ejemplo con PyTorch
import torch
import time

# Iniciamos el temporizador
inicio = time.time()

x_torch = torch.tensor(3.0, requires_grad=True)
y_torch = x_torch**2 + 2*x_torch + 1  # f(x)
y_torch.backward()  # Calcula el gradiente

# Terminamos el temporizador
fin = time.time()

# Mostramos resultados
print("\nPyTorch - f(3.0):", y_torch.item())         # Valor de la función
print("PyTorch - Gradiente en 3.0:", x_torch.grad.item())  # Valor del gradiente
print("Tiempo de ejecución (s):", fin - inicio)


PyTorch - f(3.0): 16.0
PyTorch - Gradiente en 3.0: 8.0
Tiempo de ejecución (s): 0.12060165405273438


* Computational graph dinámico: PyTorch sigue cada operación en tiempo real y permite calcular gradientes de manera intuitiva.

## 3. Ecosistema: librerías implementadas sobre JAX y otras herramientas que se integran bien con esta tecnología.

Dentro del ecosistema de JAX han surgido múltiples librerías y herramientas enfocadas en diferentes áreas (aprendizaje profundo, estadística bayesiana, optimización avanzada, etc.):

### **Flax:**
Librería oficial de *Google* para construir redes neuronales en JAX. Enfoque modular y flexible para desarrollar y entrenar modelos de Deep Learning.

### **Haiku:**
Desarrollada por *DeepMind*, también orientada a redes neuronales en JAX. Utiliza un estilo de programación más cercano a PyTorch (definición de módulos/clases).

### **Optax:**
Biblioteca (de *DeepMind*) de algoritmos de optimización, pensada para integrarse fácilmente con Flax, Haiku u otras librerías JAX. Ofrece optimizadores clásicos (`SGD`, `Adam`, `RMSProp`) y métodos más avanzados (como `Adafactor`, `LAMB`).

### **Chex:**
Conjunto de utilidades para depurar y probar (testing) el código de JAX. Incluye herramientas para validar shapes de tensores y verificar gradientes, entre otras.

### **RLax:**
Librería específica para Reinforcement Learning (RL) desarrollada por *DeepMind*. Ofrece implementaciones de pérdidas (`losses`) y rutinas clásicas de RL (`Q-learning`, `Policy Gradients`).

### **NumPyro y BlackJAX:**
Dos librerías para estadística bayesiana y MCMC en JAX. Facilitan la construcción de modelos probabilísticos y la realización de inferencia con métodos como `Hamiltonian Monte Carlo`.

### **Brax:**
Motor de física en JAX para simular entornos con sistemas articulados (robótica, simulaciones físicas simples). Muy orientado a experimentación en RL y optimización.

### **Jraph:**
Diseñada para trabajar con grafos en JAX. Facilita la construcción de Graph Neural Networks (`GNNs`).

### **Integración con Hugging Face:**
Algunos modelos de Hugging Face (principalmente en `NLP`) tienen soporte para JAX, permitiendo entrenar y servir modelos usando esta tecnología.

En conjunto, estas librerías aprovechan las transformaciones de JAX (como `grad`, `jit`, `vmap`) y su enfoque funcional para facilitar tareas de investigación y desarrollo.

Además, JAX se integra bien con el ecosistema de Python (`NumPy`, `SciPy`, `Pandas`, etc.), lo que ayuda a la creación de flujos de trabajo complejos en Machine Learning e investigación científica.

In [None]:
# Ejemplo del punto 3
# Ejemplo de integración de Flax y Optax con JAX
# Se entrena un modelo MLP simple para aproximar una función en datos sintéticos
import jax
import jax.numpy as jnp
from flax import linen as nn
import optax

# 1. Definimos un modelo sencillo (MLP) con Flax
class SimpleMLP(nn.Module):
    features: int

    @nn.compact
    def __call__(self, x):
        x = nn.Dense(self.features)(x)
        x = nn.relu(x)
        x = nn.Dense(1)(x)  # Capa de salida con 1 unidad
        return x

# 2. Función de pérdida (mean squared error)
def mse_loss(params, x, y):
    preds = model.apply({'params': params}, x)  # forward pass
    return jnp.mean((preds - y) ** 2)

# 3. Envolvemos la pérdida y la actualización en funciones JIT
@jax.jit
def train_step(params, opt_state, x, y):
    # Calculamos gradientes
    grads = jax.grad(mse_loss)(params, x, y)
    # Obtenemos las actualizaciones con Optax
    updates, opt_state = tx.update(grads, opt_state, params)
    # Aplicamos las actualizaciones a los parámetros
    params = optax.apply_updates(params, updates)
    return params, opt_state

# Creamos una instancia de la red
model = SimpleMLP(features=16)

# Generamos datos aleatorios (x_dummy, y_dummy) para el entrenamiento de ejemplo
key = jax.random.PRNGKey(0)
x_dummy = jax.random.normal(key, (10, 5))  # 10 muestras, 5 características
y_dummy = jax.random.normal(key, (10, 1))  # Etiquetas correspondientes

# Inicializamos parámetros y el optimizador
params = model.init(key, x_dummy)['params']
tx = optax.adam(learning_rate=1e-2)
opt_state = tx.init(params)

# Realizamos una sola pasada de entrenamiento
params, opt_state = train_step(params, opt_state, x_dummy, y_dummy)

# Mostramos el valor de la función de pérdida después de una actualización
loss_value = mse_loss(params, x_dummy, y_dummy)
print("Loss tras un paso de entrenamiento:", loss_value)

Loss tras un paso de entrenamiento: 0.59859973


## 4. Ejemplo práctico

### Clasificador de Imágenes CIFAR-10 con JAX y Streamlit:
https://cifar-10-clasificador.streamlit.app/

El código usado para el entrenamiento del modelo y de la descarga del dataset está subido en el GitHub, con el nombre `train_robust_model.py`. No lo incluyo aquí porque tarda bastante en ejecutarse, y en Colab ni se llega a terminar.

No he usado el dataset entero, sino una parte de él.

Se adjunta una captura de pantalla de las últimas líneas de ejecución del archivo, donde se muestra la precisión del modelo.

![Precisión](https://drive.google.com/uc?id=1toxjtFLwpAI5YoVCTy3gftf0EVhkCIb2)
