# Ejercicio práctico – Análisis de palabras con Hadoop

## Objetivo
Aplicar el programa **WordCount** de Hadoop para comparar la frecuencia de palabras en distintos textos y comprender el funcionamiento del modelo **MapReduce**.


## Preparación del entorno

Asegúrate de tener instalado y configurado Hadoop correctamente (por ejemplo, siguiendo los pasos del práctico anterior).

Crearemos una carpeta de trabajo llamada `ejemplo_mapreduce`.  
Si ya existe, podés **entrar** en ella o **borrarla y recrearla**.


In [None]:
# Crear carpeta de trabajo
mkdir ejemplo_mapreduce

# Si ya existe, usar una de estas opciones:
# Opción 1: Entrar a la carpeta
cd ejemplo_mapreduce

# Opción 2: Borrar y volver a crear (⚠️ elimina todo su contenido)
# rm -r ejemplo_mapreduce
# mkdir ejemplo_mapreduce
# cd ejemplo_mapreduce


: 

## 1. Crear los archivos de texto

Creamos tres archivos que usaremos como entrada:  
`cuento.txt`, `noticia.txt` y `song.txt`.

Luego, editamos cada uno con `nano` y agregamos un texto corto con palabras repetidas.


In [None]:
# Crear los tres archivos
touch cuento.txt noticia.txt song.txt

# Editar cada uno (usar nano desde terminal)
# Ejemplo de contenido:

# cuento.txt
# Érase una vez un pequeño pueblo donde vivía una niña llamada Ana.
# Ana caminaba todos los días hacia el bosque.

# noticia.txt
# El gobierno anunció nuevas medidas económicas.
# Los ciudadanos esperan una mejora en los próximos meses.

# song.txt
# Big data, big dreams, hadoop in the sky.
# Learning every day, big data will fly.


##  2. Ejecutar el conteo de palabras

El comando principal para ejecutar WordCount en Hadoop es:

```bash
hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount <archivo>.txt <output>


In [None]:
# Ejecutar el conteo de palabras para cada archivo
hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount cuento.txt output_cuento

hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount noticia.txt output_noticia


hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount song.txt output_song


###  Si aparece este error:

```bash
JAR does not exist or is not a normal file: /home/eurecat/ejemplo_mapreduce/hadoop-mapreduce-examples-3.3.6.jar


Significa que Hadoop no encuentra el archivo `.jar`.



In [None]:
### Solución:
# 1. Verifica si el archivo existe:

ls -l

: 

In [None]:
# Si no está, descargalo:
wget https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-mapreduce-examples/3.3.6/hadoop-mapreduce-examples-3.3.6.jar


In [None]:
# Confirmá la descarga:

ls -l hadoop-mapreduce-examples-3.3.6.jar


In [None]:
# Volvé a ejecutar el comando WordCount.
hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount cuento.txt output_cuento


hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount noticia.txt output_noticia


hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount song.txt output_song



In [None]:
# Para visualizar los resultados:

cat output_cuento/part-r-00000


cat output_noticia/part-r-00000


cat output_song/part-r-00000

## 4. Evaluar los resultados

Preguntas para reflexionar:
- ¿Qué texto tiene más repeticiones de palabras?
- ¿Qué palabra aparece más veces?
- ¿Qué pasa si combinamos los tres textos en uno solo?

Podemos probarlo así:

In [None]:
cat cuento.txt noticia.txt song.txt > combinado.txt

hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount combinado.txt output_combinado

cat output_combinado/part-r-00000


## Conclusión

Este ejercicio muestra cómo **Hadoop divide, distribuye y combina resultados** para procesar grandes volúmenes de texto de forma eficiente.

El clásico ejemplo **WordCount** es la base de MapReduce: trabaja con pares *clave–valor*  
y permite escalar tareas simples, como contar palabras, a millones de registros distribuidos en distintos nodos.

> 🟣 Si entendemos cómo Hadoop cuenta palabras, entendemos cómo procesa logs, ventas o clics a gran escala.
