# Capítulo 6: Operaciones Avanzadas de Tensores y Indexación en PyTorch

## 6.1 Introducción

En capítulos anteriores, hemos explorado las operaciones básicas de PyTorch relacionadas con tensores, incluyendo la creación, manipulación de formas y operaciones aritméticas. Sin embargo, para aprovechar al máximo las capacidades de PyTorch, es fundamental dominar funciones más avanzadas que permiten manipular y procesar datos de manera eficiente.

En este capítulo, profundizaremos en operaciones avanzadas de tensores y técnicas de indexación. Cubriremos funciones como `torch.stack`, `torch.cat`, `torch.split`, `torch.chunk`, `torch.index_select`, `torch.masked_select`, `torch.where`, `torch.nonzero`, y otras. Utilizaremos el dataset empresarial que creamos en capítulos anteriores para ilustrar estas funciones con ejemplos prácticos.

Además, revisaremos otras funciones esenciales que no hemos abordado hasta ahora, asegurándonos de tener una comprensión completa de las herramientas que PyTorch ofrece para el procesamiento de tensores.

## 6.2 Concatenación y Apilamiento de Tensores

### 6.2.1 `torch.cat`

La función `torch.cat` concatena una secuencia de tensores a lo largo de una dimensión existente. Todos los tensores deben tener la misma forma excepto en la dimensión de concatenación.

**Sintaxis:**

```python
torch.cat(tensors, dim=0)
```

- `tensors`: Secuencia de tensores a concatenar.
- `dim`: Dimensión a lo largo de la cual se concatenan los tensores.

#### Ejemplo: Concatenar Datos de Ventas de Diferentes Regiones

Supongamos que tenemos tensores que representan los ingresos de ventas en diferentes regiones y queremos combinarlos en un solo tensor.

```python
# Ingresos de ventas por región
ingresos_norte = torch.tensor([1000, 2000, 3000])
ingresos_sur = torch.tensor([1500, 2500, 3500])
ingresos_este = torch.tensor([1200, 2200, 3200])

# Concatenar los ingresos a lo largo de la dimensión 0
ingresos_totales = torch.cat((ingresos_norte, ingresos_sur, ingresos_este), dim=0)
print(ingresos_totales)
# Salida: tensor([1000, 2000, 3000, 1500, 2500, 3500, 1200, 2200, 3200])
```

### 6.2.2 `torch.stack`

La función `torch.stack` apila una secuencia de tensores a lo largo de una nueva dimensión. Todos los tensores deben tener la misma forma.

**Sintaxis:**

```python
torch.stack(tensors, dim=0)
```

- `tensors`: Secuencia de tensores a apilar.
- `dim`: Dimensión en la que se insertará la nueva dimensión.

#### Ejemplo: Apilar Datos de Ventas por Región

Continuando con el ejemplo anterior, si queremos crear un tensor que contenga los ingresos de cada región como una dimensión separada.

```python
# Apilar los ingresos a lo largo de una nueva dimensión
ingresos_apilados = torch.stack((ingresos_norte, ingresos_sur, ingresos_este), dim=0)
print(ingresos_apilados)
# Salida:
# tensor([[1000, 2000, 3000],
#         [1500, 2500, 3500],
#         [1200, 2200, 3200]])
```

La forma del tensor resultante es `(3, 3)`, donde la primera dimensión representa las regiones y la segunda las ventas.

### 6.2.3 Diferencias entre `torch.cat` y `torch.stack`

- `torch.cat` concatena tensores a lo largo de una dimensión existente.
- `torch.stack` agrega una nueva dimensión y apila los tensores a lo largo de ella.

**Visualización:**

- Si los tensores tienen forma `(N, ...)`:
  - `torch.cat` resultará en un tensor de forma `(N_total, ...)`, donde `N_total` es la suma de `N` de todos los tensores.
  - `torch.stack` resultará en un tensor de forma `(num_tensores, N, ...)`.

## 6.3 División y Separación de Tensores

### 6.3.1 `torch.split`

La función `torch.split` divide un tensor en sub-tensores de tamaños especificados.

**Sintaxis:**

```python
torch.split(tensor, split_size_or_sections, dim=0)
```

- `tensor`: Tensor a dividir.
- `split_size_or_sections`: Tamaño de cada sub-tensor o una lista de tamaños.
- `dim`: Dimensión a lo largo de la cual se divide el tensor.

#### Ejemplo: Dividir Datos de Ventas en Trimestres

Supongamos que tenemos datos de ventas mensuales y queremos dividirlos en trimestres.

```python
# Datos de ventas mensuales
ventas_mensuales = torch.arange(1, 13)  # Meses 1 al 12

# Dividir en 4 trimestres de 3 meses cada uno
ventas_trimestrales = torch.split(ventas_mensuales, 3)
for i, trimestre in enumerate(ventas_trimestrales):
    print(f"Trimestre {i+1}: {trimestre}")
# Salida:
# Trimestre 1: tensor([1, 2, 3])
# Trimestre 2: tensor([4, 5, 6])
# Trimestre 3: tensor([7, 8, 9])
# Trimestre 4: tensor([10, 11, 12])
```

### 6.3.2 `torch.chunk`

La función `torch.chunk` divide un tensor en un número especificado de partes iguales o casi iguales.

**Sintaxis:**

```python
torch.chunk(tensor, chunks, dim=0)
```

- `tensor`: Tensor a dividir.
- `chunks`: Número de partes en que se dividirá el tensor.
- `dim`: Dimensión a lo largo de la cual se divide el tensor.

#### Ejemplo: Dividir Datos de Ventas en Semestres

Usando el mismo tensor de ventas mensuales, dividámoslo en 2 semestres.

```python
# Dividir en 2 semestres
ventas_semestrales = torch.chunk(ventas_mensuales, 2)
for i, semestre in enumerate(ventas_semestrales):
    print(f"Semestre {i+1}: {semestre}")
# Salida:
# Semestre 1: tensor([1, 2, 3, 4, 5, 6])
# Semestre 2: tensor([7, 8, 9, 10, 11, 12])
```

### 6.3.3 Diferencias entre `torch.split` y `torch.chunk`

- `torch.split` permite especificar el tamaño exacto de cada sub-tensor.
- `torch.chunk` divide el tensor en un número determinado de partes iguales o casi iguales.

## 6.4 Indexación Avanzada

### 6.4.1 `torch.index_select`

La función `torch.index_select` selecciona elementos a lo largo de una dimensión específica utilizando índices enteros.

**Sintaxis:**

```python
torch.index_select(input, dim, index)
```

- `input`: Tensor del cual se seleccionarán los elementos.
- `dim`: Dimensión a lo largo de la cual se seleccionarán los elementos.
- `index`: Tensor de índices de tipo `torch.int64`.

#### Ejemplo: Seleccionar Ventas de Meses Específicos

Supongamos que queremos seleccionar las ventas de los meses 1, 3 y 5.

```python
# Ventas mensuales
ventas_mensuales = torch.arange(1, 13)

# Índices de los meses que queremos seleccionar (meses 1, 3 y 5)
indices = torch.tensor([0, 2, 4])

# Seleccionar los valores
ventas_seleccionadas = torch.index_select(ventas_mensuales, dim=0, index=indices)
print(ventas_seleccionadas)
# Salida: tensor([1, 3, 5])
```

### 6.4.2 `torch.masked_select`

La función `torch.masked_select` devuelve un tensor unidimensional que contiene los elementos del tensor de entrada que corresponden a una máscara booleana.

**Sintaxis:**

```python
torch.masked_select(input, mask)
```

- `input`: Tensor de entrada.
- `mask`: Tensor booleano de la misma forma que `input`.

#### Ejemplo: Seleccionar Ingresos Mayores a un Umbral

Supongamos que tenemos un tensor de ingresos y queremos seleccionar aquellos mayores a $2500.

```python
# Ingresos
ingresos = torch.tensor([1000, 2000, 3000, 4000, 2500])

# Crear una máscara
mask = ingresos > 2500

# Seleccionar los ingresos que cumplen la condición
ingresos_altos = torch.masked_select(ingresos, mask)
print(ingresos_altos)
# Salida: tensor([3000, 4000])
```

## 6.5 Operaciones de Asignación e Indexación Avanzada

### 6.5.1 `torch.scatter`

La función `torch.scatter` asigna valores a un tensor de destino a lo largo de una dimensión especificada, utilizando índices.

**Sintaxis:**

```python
tensor.scatter_(dim, index, src)
```

- `tensor`: Tensor de destino (la función modifica este tensor en su lugar).
- `dim`: Dimensión a lo largo de la cual se asignarán los valores.
- `index`: Tensor de índices.
- `src`: Tensor fuente de valores a asignar.

#### Ejemplo: Actualizar Ventas en Meses Específicos

Supongamos que queremos actualizar las ventas de los meses 2 y 4.

```python
# Ventas mensuales
ventas_mensuales = torch.zeros(12)

# Meses a actualizar (índices)
indices = torch.tensor([1, 3])  # Mes 2 y 4

# Valores de ventas
nuevas_ventas = torch.tensor([1500, 2500])

# Actualizar ventas
ventas_mensuales.scatter_(dim=0, index=indices, src=nuevas_ventas)
print(ventas_mensuales)
# Salida: tensor([   0., 1500.,    0., 2500.,    0.,    0.,    0.,    0.,    0.,    0.,
#             0.,    0.])
```

### 6.5.2 `torch.gather`

La función `torch.gather` recoge valores a lo largo de una dimensión especificada utilizando índices.

**Sintaxis:**

```python
torch.gather(input, dim, index)
```

- `input`: Tensor de entrada.
- `dim`: Dimensión a lo largo de la cual se recogerán los valores.
- `index`: Tensor de índices.

#### Ejemplo: Recoger Valores de Ventas en Meses Específicos

Continuando con el ejemplo anterior, podemos recoger las ventas de meses específicos.

```python
# Ventas mensuales
ventas_mensuales = torch.arange(1, 13)

# Índices de los meses que queremos recoger
indices = torch.tensor([0, 3, 6])  # Meses 1, 4 y 7

# Recoger los valores
ventas_recogidas = torch.gather(ventas_mensuales, dim=0, index=indices)
print(ventas_recogidas)
# Salida: tensor([1, 4, 7])
```

## 6.6 Otras Operaciones Útiles

### 6.6.1 `torch.where`

La función `torch.where` devuelve elementos seleccionados de dos tensores de entrada dependiendo de una condición.

**Sintaxis:**

```python
torch.where(condition, x, y)
```

- `condition`: Tensor booleano.
- `x`: Tensor a seleccionar donde la condición es verdadera.
- `y`: Tensor a seleccionar donde la condición es falsa.

#### Ejemplo: Aplicar Descuentos a Ingresos

Supongamos que queremos aplicar un descuento del 10% a ingresos mayores a $3000 y un descuento del 5% a los demás.

```python
# Ingresos
ingresos = torch.tensor([2000, 3500, 4000, 2500])

# Condición
condition = ingresos > 3000

# Descuentos
descuento_alto = ingresos * 0.9  # 10% de descuento
descuento_bajo = ingresos * 0.95  # 5% de descuento

# Aplicar descuentos
ingresos_con_descuento = torch.where(condition, descuento_alto, descuento_bajo)
print(ingresos_con_descuento)
# Salida: tensor([1900., 3150., 3600., 2375.])
```

### 6.6.2 `torch.nonzero`

La función `torch.nonzero` devuelve las coordenadas de los elementos distintos de cero.

**Sintaxis:**

```python
torch.nonzero(input, as_tuple=False)
```

- `input`: Tensor de entrada.
- `as_tuple`: Si es `True`, devuelve un tuple de tensores, uno por dimensión.

#### Ejemplo: Encontrar Meses con Ventas No Cero

Si tenemos un tensor de ventas y queremos encontrar los índices de los meses con ventas registradas.

```python
# Ventas mensuales (algunos meses sin ventas)
ventas_mensuales = torch.tensor([0, 1500, 0, 2500, 0, 0, 3000, 0, 0, 0, 4000, 0])

# Encontrar índices de meses con ventas
meses_con_ventas = torch.nonzero(ventas_mensuales).squeeze()
print(meses_con_ventas)
# Salida: tensor([ 1,  3,  6, 10])
```

## 6.7 Operaciones de Ordenamiento y Búsqueda

### 6.7.1 `torch.sort` y `torch.argsort`

La función `torch.sort` devuelve un tensor ordenado y sus índices correspondientes.

**Sintaxis:**

```python
sorted_tensor, indices = torch.sort(input, dim=-1, descending=False)
```

- `input`: Tensor de entrada.
- `dim`: Dimensión a lo largo de la cual se ordenará.
- `descending`: Si es `True`, ordena en orden descendente.

#### Ejemplo: Ordenar Ingresos de Menor a Mayor

```python
# Ingresos
ingresos = torch.tensor([2000, 3500, 1500, 4000, 2500])

# Ordenar
ingresos_ordenados, indices = torch.sort(ingresos)
print(ingresos_ordenados)
# Salida: tensor([1500, 2000, 2500, 3500, 4000])
print(indices)
# Salida: tensor([2, 0, 4, 1, 3])
```

### 6.7.2 `torch.topk`

La función `torch.topk` devuelve los `k` elementos más grandes o más pequeños de un tensor.

**Sintaxis:**

```python
values, indices = torch.topk(input, k, dim=None, largest=True, sorted=True)
```

- `input`: Tensor de entrada.
- `k`: Número de elementos a seleccionar.
- `largest`: Si es `True`, selecciona los elementos más grandes.
- `sorted`: Si es `True`, los resultados estarán ordenados.

#### Ejemplo: Encontrar los 3 Ingresos Más Altos

```python
# Ingresos
ingresos = torch.tensor([2000, 3500, 1500, 4000, 2500])

# Obtener los 3 ingresos más altos
valores_top, indices_top = torch.topk(ingresos, k=3)
print(valores_top)
# Salida: tensor([4000, 3500, 2500])
print(indices_top)
# Salida: tensor([3, 1, 4])
```

### 6.7.3 `torch.min` y `torch.max` con Índices

Las funciones `torch.min` y `torch.max` pueden devolver el valor mínimo/máximo y su índice correspondiente.

**Sintaxis:**

```python
value, index = tensor.min(dim)
value, index = tensor.max(dim)
```

#### Ejemplo: Encontrar el Ingreso Mínimo y su Índice

```python
# Ingresos
ingresos = torch.tensor([2000, 3500, 1500, 4000, 2500])

# Ingreso mínimo
ingreso_min, indice_min = ingresos.min(dim=0)
print(f"Ingreso mínimo: {ingreso_min.item()}, Índice: {indice_min.item()}")
# Salida: Ingreso mínimo: 1500, Índice: 2
```

## 6.8 Operaciones de Conjunto

### 6.8.1 `torch.unique`

La función `torch.unique` devuelve los elementos únicos de un tensor.

**Sintaxis:**

```python
unique_tensor = torch.unique(input, sorted=False, return_inverse=False, return_counts=False, dim=None)
```

#### Ejemplo: Encontrar las Categorías Únicas de Producto

Supongamos que tenemos un tensor de categorías de producto.

```python
# Categorías de producto (codificadas)
producto_categoria = torch.tensor([0, 1, 2, 1, 3, 0, 2, 3, 1])

# Obtener categorías únicas
categorias_unicas = torch.unique(producto_categoria)
print(categorias_unicas)
# Salida: tensor([0, 1, 2, 3])
```

## 6.9 Aplicaciones Prácticas con el Dataset Empresarial

Utilizaremos el dataset empresarial creado en capítulos anteriores para aplicar las funciones que hemos aprendido.

### 6.9.1 Seleccionar Ventas de Productos Específicos

Supongamos que queremos seleccionar las ventas de productos con `ProductoID` en [10, 20, 30].

```python
# IDs de productos de interés
productos_interes = torch.tensor([10, 20, 30])

# Crear una máscara booleana
mask_productos = torch.isin(producto_id, productos_interes)

# Seleccionar las ventas correspondientes
ventas_seleccionadas = ingresos_totales[mask_productos]
print(ventas_seleccionadas)
```

**Nota:** La función `torch.isin` está disponible en versiones recientes de PyTorch. Si no está disponible, podemos implementar una alternativa.

### 6.9.2 Agrupar Ventas por Categoría y Calcular Ingresos Totales

Utilizando `torch.scatter_add_`, podemos sumar los ingresos por categoría de producto.

```python
num_categorias = producto_categoria.max().item() + 1
ingresos_por_categoria = torch.zeros(num_categorias)

ingresos_por_categoria.scatter_add_(0, producto_categoria, ingresos_totales)
print(ingresos_por_categoria)
```

### 6.9.3 Ordenar Clientes por Edad

Supongamos que queremos ordenar los clientes por edad y obtener sus IDs.

```python
# IDs de clientes (suponiendo que los tenemos)
cliente_id = torch.arange(1, num_records + 1)

# Ordenar por edad
edades_ordenadas, indices_orden = edad_cliente.sort()
clientes_ordenados = cliente_id[indices_orden]

print("Clientes ordenados por edad:")
for i in range(5):  # Mostrar los primeros 5
    print(f"Cliente ID: {clientes_ordenados[i].item()}, Edad: {edades_ordenadas[i].item()}")
```

## 6.10 Conclusión

En este capítulo, hemos explorado una variedad de funciones avanzadas de PyTorch para la manipulación y procesamiento de tensores. Hemos cubierto operaciones de concatenación y apilamiento, división de tensores, indexación avanzada, operaciones de asignación, ordenamiento y búsqueda, y operaciones de conjunto.

Dominar estas funciones es esencial para trabajar eficientemente con datos en PyTorch, especialmente al preparar datos para modelos de aprendizaje profundo o al realizar análisis complejos.

Al aplicar estas funciones en el contexto de nuestro dataset empresarial, hemos visto cómo pueden facilitar tareas comunes como la selección de datos, el agrupamiento, el ordenamiento y el cálculo de estadísticas agregadas.

En capítulos posteriores, continuaremos explorando más funcionalidades de PyTorch y comenzaremos a adentrarnos en el desarrollo de modelos de aprendizaje profundo, aprovechando todo lo que hemos aprendido hasta ahora.

---

*Nota:* Si bien hemos cubierto muchas funciones importantes, PyTorch es una biblioteca extensa con muchas más capacidades. A medida que avances en tus proyectos, es recomendable consultar la documentación oficial de PyTorch para descubrir nuevas funciones y mantenerse actualizado con las últimas mejoras.