# Levantar un clúster de Hadoop con los servicios de YARN, hacer una prueba.


#### 1. Crea un directorio para tu proyecto

In [None]:
mkdir hadoop-cluster
cd hadoop-cluster

#### 2. Dentro de este directorio, crea un archivo docker-compose.yml

In [None]:
services:
  namenode:
    image: bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8
    container_name: namenode
    environment:
      - CLUSTER_NAME=test
      - CORE_CONF_fs_defaultFS=hdfs://namenode:8020
    ports:
      - "9870:9870"  # Puerto para la interfaz web del NameNode
    volumes:
      - namenode_data:/hadoop/dfs/name

  datanode:
    image: bde2020/hadoop-datanode:2.0.0-hadoop2.7.4-java8
    container_name: datanode
    environment:
      - CORE_CONF_fs_defaultFS=hdfs://namenode:8020
      - YARN_CONF_yarn_resourcemanager_hostname=resourcemanager
    volumes:
      - datanode_data:/hadoop/dfs/data
    depends_on:
      - namenode

  resourcemanager:
    image: bde2020/hadoop-resourcemanager:2.0.0-hadoop2.7.4-java8
    container_name: resourcemanager
    environment:
      - CORE_CONF_fs_defaultFS=hdfs://namenode:8020

  nodemanager:
    image: bde2020/hadoop-nodemanager:2.0.0-hadoop2.7.4-java8
    container_name: nodemanager
    environment:
      - CORE_CONF_fs_defaultFS=hdfs://namenode:8020
    depends_on:
      - resourcemanager

volumes:
  namenode_data:
  datanode_data:


#### 3. Levantar el clúster

In [None]:
docker-compose up -d

*Puedes verificarlo tambien si quieres*

In [None]:
docker-compose ps

#### 4. Crea un archivo de prueba llamado input.txt

*Puedes poner un contrenido de prueba*

In [None]:
hello hadoop
hello world

#### 5. Conéctate al contenedor namenode para usar el comando hdfs

In [None]:
docker exec -it namenode bash

#### 6. Dentro del contenedor namenode, crea un directorio en HDFS y carga el archiv

In [None]:
hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put /path/to/input.txt /user/hadoop/input

#### 7. Aún dentro del contenedor namenode, ejecuta el siguiente comando de wordcount

In [None]:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/hadoop/input /user/hadoop/output

*Para que la ruta vaya bien puedes localizar la tuya propia con el siguiente comando, luego le puedes pedir a GPT que te la sustituya*

In [None]:
find / -name 'hadoop-mapreduce-examples-*.jar'

#### 8. Dockerizar el proyecto

*Crea un dockerfile e introduce esto*

In [None]:
FROM bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8
COPY docker-compose.yml /app/
WORKDIR /app

#### 9. Construye la imagen

In [None]:
docker build -t hadoop-cluster-image .

*Ahora, cualquier usuario que tenga la imagen puede correr un contenedor basado en esta y ejecutar los comandos para iniciar el clúster.*