# Hadoop

- Marco para la ejecución de aplicaciones en grandes clústeres.

- El marco Hadoop proporciona de forma transparente a las aplicaciones tanto fiabilidad como movimiento de datos.

- Hadoop implementa el paradigma computacional denominado **Map/Reduce**, donde la aplicación se divide en muchos fragmentos pequeños de trabajo, cada uno de los cuales puede ejecutarse o reejecutarse en cualquier nodo del clúster.

- Proporciona un sistema de archivos distribuido (HDFS) que almacena los datos en los nodos de computación, proporcionando un ancho de banda agregado muy alto en todo el clúster.

- Tanto MapReduce como el **HDFS** están diseñados para que los fallos de los nodos sean gestionados automáticamente.


## Paso 1: Instalación de Haddoop

In [1]:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz


--2024-01-23 09:02:54--  https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 88.99.95.219, 135.181.214.104, 2a01:4f9:3a:2c57::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|88.99.95.219|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 730107476 (696M) [application/x-gzip]
Saving to: ‘hadoop-3.3.6.tar.gz’


2024-01-23 09:03:46 (13.6 MB/s) - ‘hadoop-3.3.6.tar.gz’ saved [730107476/730107476]



utilizaremos el comando tar con los parámetros:
- -x para extraer,
- -z para descomprimir,
- -f para especificar que estamos extrayendo de un archivo

podremos añadir -v para la salida en detalle,

In [2]:
!tar -xzf hadoop-3.3.6.tar.gz

Copiamos el directorio de hadoop en */usr/local*

In [3]:
!cp -r hadoop-3.3.6/ /usr/local/

## Step 2: Configurar el Hadoop JAVA HOME

Hadoop requiere que se establezca la ruta de acceso a Java, ya sea como una variable de entorno o en el archivo de configuración de Hadoop.

1. Buscamos cual es la dirección de Java en la máquina Google Colab

In [4]:
!readlink -f /usr/bin/java | sed "s:bin/java::"

/usr/lib/jvm/java-11-openjdk-amd64/


2. Establecemos mediante código Python el valor de esta variable



In [5]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64/"
#os.environ["PATH"] = os.environ["PATH"] + ":" + "/usr/local/hadoop-3.3.6/bin"

# Step 3: Ejecutando Hadoop

- Comprobamos la versión de Hadoop

In [9]:
!/usr/local/hadoop-3.3.6/bin/hadoop version

Hadoop 3.3.6
Source code repository https://github.com/apache/hadoop.git -r 1be78238728da9266a4f88195058f08fd012bf9c
Compiled by ubuntu on 2023-06-18T08:22Z
Compiled on platform linux-x86_64
Compiled with protoc 3.7.1
From source with checksum 5652179ad55f76cb287d9c633bb53bbd
This command was run using /usr/local/hadoop-3.3.6/share/hadoop/common/hadoop-common-3.3.6.jar


# HDFS

- Es un sistema de archivos distribuido.
- HDFS es altamente tolerante a fallos y está diseñado para ser desplegado en hardware de bajo coste.
- HDFS es adecuado para aplicaciones que manejan grandes conjuntos de datos.
- HDFS proporciona interfaces para acercar las aplicaciones al lugar donde se encuentran los datos. El cálculo es mucho más eficiente cuando el tamaño del conjunto de datos es enorme.
- HDFS consiste en un único NameNode con un número de DataNodes que gestionan el almacenamiento.
- HDFS dispone de un espacio de nombres del sistema de archivos y permite que los datos del usuario se almacenen en archivos.
  1. El NameNode divide un archivo en bloques almacenados en DataNodes.
  2. El NameNode ejecuta operaciones como abrir, cerrar y renombrar archivos y directorios.
  3. El NameNode secundario almacena la información del NameNode.
  4.  Los DataNodes gestionan la creación, eliminación y replicación de bloques siguiendo instrucciones del NameNode.
  5. La ubicación de las réplicas está optimizada para la fiabilidad de los datos, la disponibilidad y la utilización del ancho de banda de la red.
  6. Los datos del usuario nunca pasan por el NameNode.

- Los archivos en HDFS son de una sola escritura y tienen estrictamente un único proceso escritor en cualquier momento.

- El DataNode no tiene conocimiento de los archivos de HDFS.

**NOTA: Las siguientes sentencias únicamente sirven para probar comandos básicos de HDFS no para gestionar una Infraestructura que en Google Colab no existe, en este caso el sistema de archivos HDFS es el mismo que el local**

## Accesibilidad

Todos los  [comandos HDFS](http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html)  se invocan mediante el script *bin/hdfs* :
```shell
hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS]
```
## Gestión de ficheros y directorios
```shell
hdfs dfs -ls -h -R # lista de subdirectorios recuriva
hdfs dfs -cp  # Copia de ficheros
hdfs dfs -mv  # Movimiento de ficheros
hdfs dfs -mkdir /foodir # Crear directorio llamado /foodir
hdfs dfs -rm -r /foodir   # Borrar un directorio /foodir
hdfs dfs -cat /foodir/myfile.txt # Ver los contenidos de un fichero /foodir/myfile.txt
```

- Listar el contenido de un directorio

In [11]:
!/usr/local/hadoop-3.3.6/bin/hadoop fs -ls /content

Found 4 items
drwxr-xr-x   - root root       4096 2024-01-19 14:19 /content/.config
drwxr-xr-x   - 1000 1000       4096 2023-06-18 09:08 /content/hadoop-3.3.6
-rw-r--r--   1 root root  730107476 2023-06-25 23:35 /content/hadoop-3.3.6.tar.gz
drwxr-xr-x   - root root       4096 2024-01-19 14:20 /content/sample_data


Crear el directorio *prueba*

In [13]:
!/usr/local/hadoop-3.3.6/bin/hadoop fs -mkdir prueba

mkdir: `prueba': File exists
Found 5 items
drwxr-xr-x   - root root       4096 2024-01-19 14:19 .config
drwxr-xr-x   - 1000 1000       4096 2023-06-18 09:08 hadoop-3.3.6
-rw-r--r--   1 root root  730107476 2023-06-25 23:35 hadoop-3.3.6.tar.gz
drwxr-xr-x   - root root       4096 2024-01-23 09:09 prueba
drwxr-xr-x   - root root       4096 2024-01-19 14:20 sample_data


Copiar en   HDFS :
```bash
hdfs dfs -put user.txt
```



Comprobar:
```bash
hdfs dfs -ls -R
hdfs dfs -cat user.txt
hdfs dfs -tail user.txt
```

In [14]:
#!/usr/local/hadoop-3.3.6/bin/hadoop fs -ls -R
#!/usr/local/hadoop-3.3.6/bin/hadoop fs -cat user.txt
#!/usr/local/hadoop-3.3.6/bin/hadoop fs -tail user.txt

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
-rw-r--r--   1 1000 1000       3714 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/jdiff/xml/changes/classes_index_changes.html
-rw-r--r--   1 1000 1000       5478 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/jdiff/xml/changes/pkg_org.apache.hadoop.util.html
-rw-r--r--   1 1000 1000       3153 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/jdiff/xml/changes/fields_index_additions.html
-rw-r--r--   1 1000 1000      10236 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/jdiff/xml/changes/jdiff_statistics.html
-rw-r--r--   1 1000 1000      20526 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/jdiff/xml/changes/alldiffs_index_all.html
-rw-r--r--   1 1000 1000       8217 2023-06-18 09:37 hadoop-3.3.6/share/doc/hadoop/hadoop-project-dist/hadoop-common/

- Crear un fichero local :

**nota**: se puede utilizar el signo ! para introducir comandos bash o utilizar el elemento %%bash que hará que toda la celda se considere y se ejecute como un script de bash

In [15]:
%%bash
echo "Ejemplo de HDFS" > user.txt
echo `date` >> user.txt
cat user.txt

Ejemplo de HDFS
Tue Jan 23 09:12:54 AM UTC 2024


- Colocarlo (copiarlo)  en el directorio *prueba*

In [21]:
!/usr/local/hadoop-3.3.6/bin/hadoop fs -put user.txt prueba/

user.txt


- Mostrar su contenido

In [22]:
!/usr/local/hadoop-3.3.6/bin/hadoop fs -cat prueba/user.txt

Ejemplo de HDFS
Tue Jan 23 09:12:54 AM UTC 2024


In [23]:
%%bash
/usr/local/hadoop-3.3.6/bin/hdfs dfs -tail prueba/user.txt

Ejemplo de HDFS
Tue Jan 23 09:12:54 AM UTC 2024


## Ejercicio

1. Cree un directorio `files` en HDFS.
2. Listar el contenido de un directorio /.
3. Cargar el archivo today.txt en HDFS.
```bash
date > hoy.txt
whoami >> hoy.txt
```
4. Mostrar el contenido del archivo `hoy.txt`.
5. Copiar el archivo `hoy.txt` del origen al directorio `files`.
6. Copiar el archivo `jps.txt` desde/hacia el sistema de archivos local a HDFS
```bash
jps > jps.txt
```
7. Mover el archivo `jps.txt` de la fuente a `files`.
8. Eliminar el archivo `today.txt` del directorio principal en HDFS.
9. Mostrar las últimas líneas de `jps.txt`.
