# ‚öôÔ∏è Herramientas de Procesamiento Big Data
## Spark, Hadoop, y Ecosistema Distribuido

<a href="https://colab.research.google.com/github/Jomucon21muri/Aprendizaje_automatico/blob/main/02_Big_data/02_Herramientas_procesamiento/herramientas_procesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

## üìã Resumen

Herramientas especializadas para procesamiento distribuido y paralelo de Big Data.

### ‚ö° Apache Spark

**Caracter√≠sticas**:
- Procesamiento in-memory (100x m√°s r√°pido que MapReduce)
- APIs: PySpark, Scala, Java, R
- Componentes: Spark SQL, MLlib, GraphX, Streaming

**Arquitectura**:
- **Driver**: Coordina ejecuci√≥n
- **Executors**: Procesan datos en paralelo
- **Cluster Manager**: YARN, Mesos, Kubernetes

### üêò Hadoop Ecosystem

- **HDFS**: Almacenamiento distribuido
- **MapReduce**: Procesamiento batch
- **YARN**: Resource management
- **Hive**: SQL sobre Hadoop
- **HBase**: NoSQL database
- **Pig**: Scripting para an√°lisis

### üìä Comparaci√≥n

| Aspecto | Hadoop MapReduce | Apache Spark |
|---------|------------------|--------------|
| Velocidad | Lento (disk I/O) | R√°pido (in-memory) |
| Latencia | Alta | Baja |
| Facilidad | Complejo | M√°s simple |
| Streaming | Limitado | Excelente |

---

In [None]:
# Setup - Simulaci√≥n de procesamiento distribuido
import pandas as pd
import numpy as np
from concurrent.futures import ProcessPoolExecutor
import time

def process_chunk(data_chunk):
    """Simular procesamiento de un chunk de datos"""
    return data_chunk.sum()

# Crear dataset grande
np.random.seed(42)
large_data = np.random.randn(1000000)

# Dividir en chunks
n_chunks = 4
chunks = np.array_split(large_data, n_chunks)

# Procesamiento paralelo
start = time.time()
with ProcessPoolExecutor(max_workers=n_chunks) as executor:
    results = list(executor.map(process_chunk, chunks))
parallel_time = time.time() - start

print(f"‚úÖ Procesamiento paralelo completado")
print(f"   ‚Ä¢ Datos: {len(large_data):,} elementos")
print(f"   ‚Ä¢ Chunks: {n_chunks}")
print(f"   ‚Ä¢ Tiempo: {parallel_time:.4f}s")
print(f"   ‚Ä¢ Resultado: {sum(results):.2f}")
print("\nüîë Conceptos:")
print("  ‚Ä¢ Map: Aplicar funci√≥n a cada elemento")
print("  ‚Ä¢ Reduce: Agregar resultados")
print("  ‚Ä¢ Shuffle: Redistribuir datos")
print("  ‚Ä¢ Partitioning: Dividir datos eficientemente")