# [Laboratorio práctico sobre el clúster Hadoop](https://www.coursera.org/learn/introduction-to-big-data-with-spark-hadoop/ungradedLti/RVAek/hands-on-lab-hadoop-cluster-optional)
##   
#### ¿Qué es un clúster Hadoop?

Un clúster Hadoop es una colección de computadoras, conocidas como nodos, que están interconectadas para realizar cálculos paralelos sobre grandes conjuntos de datos. El nodo maestro es el nodo principal del Sistema de Archivos Distribuido Hadoop (HDFS). Mantiene los metadatos de los archivos en la RAM para un acceso rápido. La configuración real de un clúster Hadoop implica recursos extensivos que no están dentro del alcance de este laboratorio. En este laboratorio, utilizarás Hadoop en contenedores para crear un clúster Hadoop que tendrá:

1. Nodo maestro
2. Nodo de datos
3. Administrador de nodos
4. Administrador de recursos
5. Servidor de historial de Hadoop

## Objetivos

- Ejecutar una instancia de clúster Hadoop en contenedores
- Crear un archivo en el HDFS y verlo en la interfaz gráfica

### Configurar Nodos del Clúster Hadoop Dockerizado

1. Inicie una nueva terminal

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/New_terminal.png)

2. Clone el repositorio en su entorno theia.

```
git clone https://github.com/ibm-developer-skills-network/ooxwv-docker_hadoop.git
```

3. Navega al directorio docker-hadoop para construirlo.

```
cd ooxwv-docker_hadoop
```

4. Componer la aplicación docker.

```
docker-compose up -d
```

> **Compose** es una herramienta para definir y ejecutar aplicaciones Docker de múltiples contenedores. Utiliza el archivo YAML para configurar los servicios y nos permite crear e iniciar todos los servicios a partir de un solo archivo de configuración.

Verás que se crean e inician los cinco contenedores.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/all_containers.png)

5. Ejecuta el namenode como una unidad montada en bash.

```
docker exec -it namenode /bin/bash
```

6. Observarás que el aviso cambia como se muestra a continuación.

    ![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/root_prompt.png)

# Explorar el entorno de hadoop

Como has aprendido en los videos y lecturas hasta ahora en el curso, un entorno Hadoop se configura editando un conjunto de archivos de configuración:

- **hadoop-env.sh** Sirve como un archivo maestro para configurar YARN, HDFS, MapReduce y la configuración de proyectos relacionados con Hadoop.
    
- **core-site.xml** Define las propiedades principales de HDFS y Hadoop.
    
- **hdfs-site.xml** Regula la ubicación para almacenar metadatos de nodos, el archivo fsimage y el archivo de registro.
    
- **mapred-site-xml** Enumera los parámetros para la configuración de MapReduce.
    
- **yarn-site.xml** Define configuraciones relevantes para YARN. Contiene configuraciones para el Node Manager, Resource Manager, Containers y Application Master.
    

Para la imagen de docker, estos archivos xml ya han sido configurados. Puedes verlos en el directorio **/opt/hadoop-3.2.1/etc/hadoop/** ejecutando

```
ls /opt/hadoop-3.2.1/etc/hadoop/*.xml
```

### Crear un archivo en el HDFS

1. En el HDFS, crea una estructura de directorios llamada `user/root/input`.

```
hdfs dfs -mkdir -p /user/root/input
```

2. Copie todos los archivos de configuración xml de hadoop en el directorio de entrada.

```
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /user/root/input
```

3. Crea un archivo `data.txt` en el directorio actual.

```
curl https://raw.githubusercontent.com/ibm-developer-skills-network/ooxwv-docker_hadoop/master/SampleMapReduce.txt --output data.txt
```

4. Copia el archivo `data.txt` en `/user/root`.

```
hdfs dfs -put data.txt /user/root/
```

5. Verifica si el archivo ha sido copiado en el HDFS revisando su contenido.

```
hdfs dfs -cat /user/root/data.txt
```

### Ver el HDFS

1. Haz clic en el botón de abajo o en el botón de Skills Network a la izquierda, se abrirá la “Skills Network Toolbox”. Luego haz clic en Otros y luego en Lanzar Aplicación. Desde allí deberías poder ingresar el número de puerto como `9870` y lanzar.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Ver HDFS</span>

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/Launch_Application--new_IDE.png)

2. Esto abrirá la Interfaz Gráfica de Usuario (GUI) del nodo Hadoop. Haz clic en `Utilities` **\-\>** `Broswe the file system` para explorar los archivos.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/browse_filesystem.png)

3. Visualiza los archivos en los directorios que acabas de crear haciendo clic en `user` y luego en `root`.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/Click-User.png)

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/Click-root.png)

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/browse_directory.png)

4. Observa que el tamaño del bloque es de 128 MB aunque el tamaño del archivo es en realidad mucho más pequeño. Esto se debe a que el tamaño de bloque predeterminado utilizado por HDFS es de 128 MB.
    
5. Puedes hacer clic en el archivo para verificar la información del archivo. Te proporciona información sobre el archivo en términos de número de bytes, id de bloque, etc.
    

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/file_info.png)

### ¡Felicitaciones! Has:

- Desplegado Hadoop usando Docker
- Creado datos en HDFS y los has visto en la GUI