# Operaciones Avanzadas en NumPy

**Curso:** Python para Ciencia de Datos
**Tema:** Broadcasting, Concatenación y División de Arrays
**Fecha:** 06 de Octubre, 2025

---

## Introducción

NumPy proporciona operaciones avanzadas que permiten manipular arrays de manera eficiente:

- **Broadcasting:** Operaciones entre arrays de diferentes dimensiones
- **Concatenación:** Unión de múltiples arrays
- **División:** Separación de arrays en partes
- **Operaciones lógicas:** Evaluación de condiciones en arrays

Estas herramientas son fundamentales para procesamiento de datos a gran escala.

In [None]:
import numpy as np

---

## 1. Broadcasting

**Definición:** Broadcasting permite realizar operaciones aritméticas entre arrays de diferentes tamaños sin duplicar datos explícitamente.

### ¿Cómo funciona?

NumPy extiende automáticamente los arrays más pequeños para que coincidan con las dimensiones de los más grandes, optimizando memoria y velocidad.

### Ventajas

- Código más conciso y legible
- Sin bucles explícitos
- Aprovecha optimizaciones internas de NumPy
- Crítico para análisis de datos y ML

### Ejemplo 1: Aplicar Descuento a Productos

Aplicar un descuento del 10% (multiplicar por 0.9) a todos los productos.

In [None]:
prices = np.array([100, 200, 300])
discount = np.array([0.9])  # Un solo valor

# Broadcasting: el 0.9 se aplica a cada precio
discounted_prices = prices * discount
print("Precios originales:", prices)
print("Descuento aplicado:", discounted_prices)

### Ejemplo 2: Broadcasting en Matrices

Sumar diferentes valores a cada columna de una matriz.

In [None]:
# Matriz 3x3 de precios aleatorios
prices = np.random.randint(100, 500, size=(3, 3))

# Vector de descuentos/incrementos por columna
adjustments = np.array([10, 20, 30])

# Broadcasting: cada columna se ajusta con su valor correspondiente
result = prices + adjustments

print("Precios originales:")
print(prices)
print("\nAjustes por columna:", adjustments)
print("\nResultado (cada columna ajustada):")
print(result)

### Reglas de Broadcasting

Para que el broadcasting funcione, las dimensiones deben cumplir:

1. **Comparación desde la última dimensión** hacia la primera
2. **Dimensiones compatibles:** Iguales o una de ellas es 1

**Ejemplos de compatibilidad:**

| Array A | Array B | ¿Compatible? |
|---------|---------|--------------|
| (3, 1) | (1, 3) | Sí |
| (3, 3) | (3,) | Sí (se expande a (1, 3)) |
| (5, 4) | (4,) | Sí |
| (3, 2) | (3, 3) | No |

---

## 2. Operaciones Lógicas

Permiten evaluar condiciones sobre todo el array de forma eficiente.

- `np.all()`: Retorna True si TODOS los elementos cumplen la condición
- `np.any()`: Retorna True si AL MENOS UN elemento cumple la condición

In [None]:
array = np.array([1, 2, 3, 4, 5])

# ¿Todos los elementos son mayores a 2?
print("¿Todos > 2?:", np.all(array > 2))  # False (1 y 2 no cumplen)

# ¿Al menos uno es mayor a 3?
print("¿Alguno > 3?:", np.any(array > 3))  # True (4 y 5 cumplen)

# Casos prácticos
print("¿Todos positivos?:", np.all(array > 0))  # True
print("¿Algún número par?:", np.any(array % 2 == 0))  # True

---

## 3. Concatenación de Arrays

Unir múltiples arrays en uno solo.

### `np.concatenate()`

Une arrays a lo largo de un eje existente.

**Nota:** Requiere doble paréntesis porque recibe una tupla de arrays.

In [None]:
array_a = np.array([1, 2, 3])
array_b = np.array([4, 5, 6])

# Concatenar horizontalmente (eje por defecto)
concatenado = np.concatenate((array_a, array_b))
print("Concatenado:", concatenado)

# ¿Por qué doble paréntesis?
# Porque concatenate recibe UNA tupla con múltiples arrays:
# concatenate((array1, array2, array3))
#            ^                        ^
#            Inicio y fin de la tupla

### `np.vstack()` - Apilamiento Vertical

Apila arrays uno encima del otro (añade filas).

In [None]:
array_a = np.array([1, 2, 3])
array_b = np.array([4, 5, 6])

# Apilar verticalmente (vertical stack)
stacked_v = np.vstack((array_a, array_b))
print("Apilado vertical:")
print(stacked_v)
print("Forma:", stacked_v.shape)  # (2, 3) - 2 filas, 3 columnas

### `np.hstack()` - Apilamiento Horizontal

Apila arrays lado a lado (añade columnas).

In [None]:
array_a = np.array([1, 2, 3])
array_b = np.array([4, 5, 6])

# Apilar horizontalmente (horizontal stack)
stacked_h = np.hstack((array_a, array_b))
print("Apilado horizontal:", stacked_h)
print("Forma:", stacked_h.shape)  # (6,) - vector de 6 elementos

### Comparación Visual

Vectores originales:
array_a = [1, 2, 3]
array_b = [4, 5, 6] \

vstack (vertical):

[[1 2 3] \
[4 5 6]]

hstack (horizontal): \
[1 2 3 4 5 6]

---

## 4. División de Arrays

Separar un array en múltiples sub-arrays.

### `np.split()`

Divide un array en N partes iguales.


In [None]:
# Array de 1 a 9
array_c = np.arange(1, 10)
print("Array original:", array_c)
print('-' * 100)

# Dividir en 3 partes iguales
split_array = np.split(array_c, 3)
print("Dividido en 3:")
print(split_array)
print("\nTipo:", type(split_array))  # Lista de arrays

# Acceder a cada parte
print("\nPrimera parte:", split_array[0])
print("Segunda parte:", split_array[1])
print("Tercera parte:", split_array[2])

---

## Resumen de Operaciones

| Operación | Función | Uso |
|-----------|---------|-----|
| Broadcasting | Operadores (+, -, *, /) | Operar arrays de diferentes tamaños |
| Todos cumplen | `np.all()` | Verificar que todos los elementos cumplan condición |
| Alguno cumple | `np.any()` | Verificar que al menos uno cumpla |
| Concatenar | `np.concatenate()` | Unir arrays en un eje |
| Apilar vertical | `np.vstack()` | Apilar filas |
| Apilar horizontal | `np.hstack()` | Apilar columnas |
| Dividir | `np.split()` | Separar en partes iguales |

---

## Aplicaciones en Ciencia de Datos

### Ejemplo 1: Normalización de Datos

En machine learning, normalizar datos es común (restar media y dividir por desviación estándar).

In [None]:
# Dataset de ejemplo: calificaciones de 100 estudiantes en 5 materias

np.random.seed(42)
calificaciones = np.random.randint(50, 100, size=(100, 5))
print("Dataset original (primeras 5 filas):")
print(calificaciones[:5])
print("\nForma:", calificaciones.shape)

# Calcular media y desviación estándar POR COLUMNA (materia)
media = np.mean(calificaciones, axis=0)
std = np.std(calificaciones, axis=0)

print("\nMedia por materia:", media)
print("Desviación estándar:", std)

# Normalización usando BROADCASTING
# Cada columna se normaliza con su propia media y std
calificaciones_normalizadas = (calificaciones - media) / std

print("\nDatos normalizados (primeras 5 filas):")
print(calificaciones_normalizadas[:5])

# Verificación: media ≈ 0, std ≈ 1
print("\nNueva media por materia:", np.mean(calificaciones_normalizadas, axis=0))
print("Nueva std por materia:", np.std(calificaciones_normalizadas, axis=0))

### Ejemplo 2: Análisis de Ventas por Región

Combinar datos de múltiples regiones y detectar outliers.

In [None]:
# Ventas trimestrales de 3 regiones (Q1, Q2, Q3, Q4)
ventas_norte = np.array([150000, 180000, 200000, 220000])
ventas_sur = np.array([120000, 140000, 160000, 180000])
ventas_este = np.array([100000, 130000, 150000, 170000])

# 1. CONCATENACIÓN: Combinar todas las regiones
todas_ventas = np.vstack((ventas_norte, ventas_sur, ventas_este))
print("Ventas por región:")
print(todas_ventas)
print("\nForma:", todas_ventas.shape)  # (3 regiones, 4 trimestres)

# 2. BROADCASTING: Aplicar impuesto del 16% a todas las ventas
tasa_impuesto = 1.16
ventas_con_impuesto = todas_ventas * tasa_impuesto
print("\nVentas con impuesto (16%):")
print(ventas_con_impuesto.astype(int))

# 3. OPERACIONES LÓGICAS: Detectar si alguna región superó 200k
print("\n¿Alguna región superó 200k en algún trimestre?")
print(np.any(todas_ventas > 200000))

print("\n¿Todas las ventas fueron mayores a 90k?")
print(np.all(todas_ventas > 90000))

# 4. DIVISIÓN: Separar por semestres
primer_semestre, segundo_semestre = np.split(todas_ventas, 2, axis=1)
print("\nPrimer semestre (Q1-Q2):")
print(primer_semestre)
print("\nSegundo semestre (Q3-Q4):")
print(segundo_semestre)

# Análisis: Crecimiento promedio por región
crecimiento = todas_ventas[:, -1] - todas_ventas[:, 0]  # Q4 - Q1
print("\nCrecimiento por región (Q4 - Q1):")
print("Norte:", crecimiento[0])
print("Sur:", crecimiento[1])
print("Este:", crecimiento[2])

---

## Ejercicios de Práctica

In [None]:
# EJERCICIO 1: Broadcasting con Temperaturas
# Tienes temperaturas en Celsius para 7 días: [22, 24, 23, 25, 26, 24, 23]
# Convierte todas a Fahrenheit usando broadcasting: F = C * 9/5 + 32

# Tu código aquí:
temperaturas_c = np.array([22, 24, 23, 25, 26, 24, 23])
fahrenheit_divisor = np.array([9/5])
fahrenheit_add = np.array([32])


temperaturas_f = (temperaturas_c * fahrenheit) + fahrenheit_add
print("Temperaturas en Celsius:", temperaturas_c)
print('-' * 200)
print("Temperaturas en Fahrenheit:", temperaturas_f)

In [None]:
# EJERCICIO 2: Validación de Datos
# Tienes un array de edades: [25, 30, -5, 45, 120, 18, 22]
# a) Usa np.all() para verificar si todas están entre 0 y 100
# b) Usa np.any() para detectar si hay valores negativos o mayores a 100

# Tu código aquí:
edades = np.array([25, 30, -5, 45, 120, 18, 22])
verificacion_0 = np.all(edades > 0)
verificacion_100 = np.all(edades < 100)

print(f"¿Todas las edades expuestas en el array son mayores a 0? {verificacion_0} y menores de 100?: {verificacion_100}")

verificacion_a = np.any(edades < 0)
verificacion_b = np.any(edades > 100)

print(f"¿Tenemos registros con edades menores a 0?:{verificacion_a}. Y tenemos registros mayores de 100?:{verificacion_b}")

In [None]:
# EJERCICIO 3: Concatenación de Datasets
# Tienes 3 arrays de ventas mensuales:
# enero = [1000, 1200, 1100]
# febrero = [1300, 1400, 1500]
# marzo = [1600, 1700, 1800]
#
# a) Usa vstack para crear una matriz de ventas (3 meses x 3 productos)
# b) Calcula el total de ventas por producto (suma por columna)

# Tu código aquí:
enero = np.array([1000, 1200, 1100])
febrero = np.array([1300, 1400, 1500])
marzo = np.array([1600, 1700, 1800])

stacked_v = np.vstack((enero, febrero, marzo))
print(f"Matriz de ventas (3 meses x 3 productos):\n {stacked_v}")

ventas_por_producto = np.sum(stacked_v, axis=0)
print(f"Ventas por producto (suma por columna):\n {ventas_por_producto}")



In [None]:
# EJERCICIO 4: División para Validación Cruzada
# Crea un array con 20 números del 1 al 20
# Divídelo en 4 partes iguales (útil para train/test splits)
# Imprime cada parte

array_numeros = np.arange(1, 21)
print(f"Array original: {array_numeros}")

partes_4 = np.split(array_numeros, 4)
print(f"Array partidos: {partes_4}")

print(f"Parte 1: {partes_4[0]}")
print(f"Parte 2: {partes_4[1]}")
print(f"Parte 3: {partes_4[2]}")
print(f"Parte 4: {partes_4[3]}")

# Tu código aquí:

In [None]:
# EJERCICIO 5: Pipeline Completo
# Simula calificaciones de 50 estudiantes en 3 exámenes (entre 0 y 100)
#
# a) Aplica una curva de ajuste: suma 5 puntos a todos (broadcasting)
# b) Verifica si algún estudiante tiene todas las notas >= 90
# c) Concatena una columna con el promedio de cada estudiante
# d) Divide en dos grupos: primeros 25 y últimos 25 estudiantes

# Pista: usa np.mean con axis=1 para promedios por fila

# Tu código aquí:

np.random.seed(52)
calificaciones_estudiantes = np.random.randint(0, 100, size=(50, 3))
# Imprimir 6 calificaciones
print(f"Calificaciones primeros 6 estudiantes:\n {calificaciones_estudiantes[:6]}")
print('-' * 200)

# Aplicar ajuste en calificaciones
calificaciones_ajustados = calificaciones_estudiantes + 5
print(f"Calificaciones ajustadas primeros 6 estudiantes:\n {calificaciones_ajustados[:6]}")
print('-' * 200)

# Validación calificaciones estudiantes
estudiantes = np.mean(calificaciones_ajustados, axis=1)
condicional = np.any(estudiantes >= 90)

# Verificar si TODAS las notas de un estudiante son >= 90
todas_altas = np.all(calificaciones_ajustados >= 90, axis=1)  # Por fila
algun_estudiante = np.any(todas_altas)
print(f"¿Algún estudiante con todas >= 90?: {algun_estudiante}")

# Para obtener QUÉ estudiantes cumplen:
indices = np.where(todas_altas)[0]
print(f"Estudiantes con todas >= 90: {indices}")

organizados = np.sort(estudiantes)
divisor_grupos = np.split(organizados, 2)

print(f"Ultimas 25 notas:\n {divisor_grupos[0]}")
print('-' * 200)
print(f"Primeras 25 notas:\n {divisor_grupos[1]}")




