# Proyecto 01 – Fundamentos de Hadoop

Este cuaderno explora los conceptos básicos de Hadoop, especialmente el funcionamiento de MapReduce, usando una simulación en Python.

## 1. ¿Qué es Hadoop?
Hadoop es un framework open-source que permite el procesamiento distribuido de grandes volúmenes de datos a través de clústeres de computadoras usando modelos de programación simples.

### Componentes clave de Hadoop:
- **HDFS (Hadoop Distributed File System)**: sistema de archivos distribuido.
- **MapReduce**: modelo de programación para procesamiento distribuido.
- **YARN**: gestor de recursos que coordina las tareas.

## 2. Simulación de MapReduce en Python

A continuación, simulamos un proceso típico de MapReduce: contar la frecuencia de palabras en un texto.

In [None]:
# Paso 1: Simulación del 'Map'
def mapper(text):
    words = text.split()
    mapped = [(word.lower(), 1) for word in words]
    return mapped

# Texto de ejemplo
texto = "Big data es una tecnología poderosa. Big data cambia el mundo."
map_output = mapper(texto)
print("Salida del mapper:")
print(map_output)

In [None]:
# Paso 2: Simulación del 'Shuffle & Sort'
from collections import defaultdict

def shuffle_and_sort(mapped):
    grouped = defaultdict(list)
    for word, count in mapped:
        grouped[word].append(count)
    return grouped

grouped_output = shuffle_and_sort(map_output)
print("\nAgrupación:")
for word, counts in grouped_output.items():
    print(f"{word}: {counts}")

In [None]:
# Paso 3: Simulación del 'Reduce'
def reducer(grouped):
    reduced = {word: sum(counts) for word, counts in grouped.items()}
    return reduced

reduced_output = reducer(grouped_output)
print("\nConteo final de palabras:")
print(reduced_output)

## 3. Conclusión y reflexión
Este ejercicio simula el flujo básico de MapReduce. Aunque Hadoop opera a gran escala y en múltiples nodos, este ejemplo permite comprender cómo se estructura internamente su lógica.

✍️ **Tu reflexión:**
Escribe aquí qué has aprendido sobre MapReduce y qué dudas te quedan.