# Instalación de Hadoop

Hadoop es un marco de programación basado en Java que permite procesar y almacenar conjuntos de datos extremadamente grandes en un clúster de máquinas de bajo coste. Fue el primer gran proyecto de código abierto en el ámbito del Big Data y está patrocinado por la Apache Software Foundation.

## Paso 1: Instalación de Hadoop

In [None]:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz


--2024-01-22 16:12:51--  https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 135.181.214.104, 88.99.95.219, 2a01:4f8:10a:201a::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|135.181.214.104|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 730107476 (696M) [application/x-gzip]
Saving to: ‘hadoop-3.3.6.tar.gz’


2024-01-22 16:13:27 (19.6 MB/s) - ‘hadoop-3.3.6.tar.gz’ saved [730107476/730107476]



utilizaremos el comando tar con los parámetros:
- -x para extraer,
- -z para descomprimir,
- -f para especificar que estamos extrayendo de un archivo

podremos añadir -v para la salida en detalle,

In [None]:
!tar -xzf hadoop-3.3.6.tar.gz

Copiamos el directorio de hadoop en */usr/local*

In [None]:
!cp -r hadoop-3.3.6/ /usr/local/

## Step 2: Configurar el Hadoop JAVA HOME

Hadoop requiere que se establezca la ruta de acceso a Java, ya sea como una variable de entorno o en el archivo de configuración de Hadoop.

1. Buscamos cual es la dirección de Java en la máquina Google Colab

In [None]:
!readlink -f /usr/bin/java | sed "s:bin/java::"

/usr/lib/jvm/java-11-openjdk-amd64/


2. Establecemos mediante código Python el valor de esta variable



In [None]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64/"

# Step 3: Ejecutando Hadoop

- Comprobamos la versión de Hadoop

In [None]:
!/usr/local/hadoop-3.3.6/bin/hadoop version

Hadoop 3.3.6
Source code repository https://github.com/apache/hadoop.git -r 1be78238728da9266a4f88195058f08fd012bf9c
Compiled by ubuntu on 2023-06-18T08:22Z
Compiled on platform linux-x86_64
Compiled with protoc 3.7.1
From source with checksum 5652179ad55f76cb287d9c633bb53bbd
This command was run using /usr/local/hadoop-3.3.6/share/hadoop/common/hadoop-common-3.3.6.jar


- Ejecutamos el comando sin parámetros

In [None]:
!/usr/local/hadoop-3.3.6/bin/hadoop

Usage: hadoop [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]
 or    hadoop [OPTIONS] CLASSNAME [CLASSNAME OPTIONS]
  where CLASSNAME is a user-provided Java class

  OPTIONS is none or any of:

buildpaths                       attempt to add class files from build tree
--config dir                     Hadoop config directory
--debug                          turn on shell script debug mode
--help                           usage information
hostnames list[,of,host,names]   hosts to use in worker mode
hosts filename                   list of hosts to use in worker mode
loglevel level                   set the log4j level for this command
workers                          turn on worker mode

  SUBCOMMAND is one of:


    Admin Commands:

daemonlog     get/set the log level for each daemon

    Client Commands:

archive       create a Hadoop archive
checknative   check native Hadoop and compression libraries availability
classpath     prints the class path needed to get the Hadoop jar and the re

Una de las formas tradicionales de asegurarnos que un ambiente de Hadoop recién instalado funciona correctamente, es ejecutando el *jar* de ejemplos *map-reduce* incluido con toda instalación de hadoop (*hadoop-mapreduce-examples.jar*).

1. Creamos un directorio llamado input en nuestro directorio de inicio



In [None]:
!mkdir ~/input

mkdir: cannot create directory ‘/root/input’: File exists


2. Copiamos los archivos de configuración (los xml) de Hadoop para usar esos archivos como nuestros datos de entrada.

In [None]:
!cp /usr/local/hadoop-3.3.6/etc/hadoop/*.xml ~/input
!ls ~/input

capacity-scheduler.xml	hadoop-policy.xml  hdfs-site.xml    kms-acls.xml  mapred-site.xml
core-site.xml		hdfs-rbf-site.xml  httpfs-site.xml  kms-site.xml  yarn-site.xml


3. Ejecutamos **hadoop jar** con el fin de ejecutar uno de los ejemplos por defecto, en este caso el *grep* que busca expresiones regulares dentro de los ficheros que le especifiquemos.

- **/usr/local/hadoop/bin/hadoop** Es el directorio donde esta el ejecutable de hadoop en el sistema.
- **jar** Le indica a hadoop que deseamos ejecutar una aplicacion empaquetada de Java. (Jar)
- **/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.ja**r Es la ruta donde esta el Jar que deseamos ejecutar. La versión del jar depende de la versión de hadoop instalada.

- grep Es un parámetro de los muchos que se le pueden pasar al Jar de ejemplos que trae Hadoop. grep sirve para encontrar y contar ocurrencias de strings haciendo uso de expresiones regulares.

- **~/input** El directorio de entrada. Es donde el programa va a buscar los archivos de entrada a la tarea de map-reduce. Aquí copiamos unos archivos de prueba en un comando anterior.
- **~/grep_example** El directorio de salida. Es donde el programa va a escribir el resultado de la corrida de la aplicación. En este caso, la cantidad de veces que la palabra del parámetro siguiente, aparece en los archivos de entrada.
- **‘allowed[.]*’** Es la expresión regular que deseamos buscar.

In [None]:
%%bash
/usr/local/hadoop-3.3.6/bin/hadoop jar \
  /usr/local/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar \
  grep ~/input ~/grep_example 'allowed[.]*'

2024-01-22 16:14:07,487 INFO impl.MetricsConfig: Loaded properties from hadoop-metrics2.properties
2024-01-22 16:14:07,964 INFO impl.MetricsSystemImpl: Scheduled Metric snapshot period at 10 second(s).
2024-01-22 16:14:07,964 INFO impl.MetricsSystemImpl: JobTracker metrics system started
2024-01-22 16:14:08,584 INFO input.FileInputFormat: Total input files to process : 10
2024-01-22 16:14:08,674 INFO mapreduce.JobSubmitter: number of splits:10
2024-01-22 16:14:09,265 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local1264866328_0001
2024-01-22 16:14:09,266 INFO mapreduce.JobSubmitter: Executing with tokens: []
2024-01-22 16:14:09,772 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
2024-01-22 16:14:09,773 INFO mapreduce.Job: Running job: job_local1264866328_0001
2024-01-22 16:14:09,783 INFO mapred.LocalJobRunner: OutputCommitter set in config null
2024-01-22 16:14:09,815 INFO output.PathOutputCommitterFactory: No output committer factory defined, defau

Los resultados se almacenan en el directorio de salida (~/grep_example/) y se pueden verificar ejecutando *cat* el directorio de salida:

In [None]:
!cat ~/grep_example/*

22	allowed.
1	allowed


## Ejercicio

Es interesante probar otros ejemplos contenidos en el jar de ejemplos de hadoop.
[Hadoop Map Reduce Examples](http://svn.apache.org/viewvc/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/)
