<a href="https://colab.research.google.com/github/RAFS20/Big-Data-HDFS-Map-Reduce-Apache-Spark-Apache-Kafka/blob/main/Instalaci%C3%B3n_de_HDFS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalación de Hadoop HDFS

Este código está destinado a configurar un entorno Hadoop en Google Colab utilizando Python y comandos de shell. Hadoop es un framework de código abierto diseñado para procesar y almacenar grandes conjuntos de datos en clústeres de hardware. El código que has proporcionado realiza una serie de pasos para instalar, configurar y ejecutar un entorno Hadoop básico en Colab.

1. **Instalar Java:**
   ```
   !apt-get install openjdk-8-jdk-headless -qq > /dev/null
   ```
   Este comando utiliza el comando `apt-get` para instalar la versión 8 de OpenJDK (Java Development Kit) sin mostrar mensajes en la salida estándar.

2. **Descargar Hadoop:**
   ```
   !wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
   !tar -xvf hadoop-3.3.1.tar.gz
   ```
   Aquí, se descarga el archivo tar.gz de Hadoop 3.3.1 desde el servidor de descargas de Apache y luego se descomprime usando `tar`.

3. **Configurar variables de entorno para Colab:**
   ```python
   import os
   os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
   os.environ["HADOOP_HOME"] = "/content/hadoop-3.3.1"
   ```
   Se configuran las variables de entorno `JAVA_HOME` y `HADOOP_HOME` para que los comandos futuros puedan encontrar la ubicación de Java y Hadoop en el sistema.

4. **Crear un usuario falso para Hadoop:**
   ```
   !addgroup hadoop
   !adduser --disabled-password --gecos '' hduser
   !adduser hduser hadoop
   ```
   Aquí se crea un grupo llamado "hadoop" y un usuario llamado "hduser" dentro del grupo. Este usuario se utiliza para ejecutar procesos de Hadoop.

5. **Establecer variables de entorno HDFS para el usuario hduser:**
   ```python
   os.environ["HDFS_NAMENODE_USER"] = "hduser"
   os.environ["HDFS_DATANODE_USER"] = "hduser"
   os.environ["HDFS_SECONDARYNAMENODE_USER"] = "hduser"
   ```
   Se configuran variables de entorno relacionadas con los usuarios para los diferentes componentes de Hadoop.

6. **Configurar archivos XML de Hadoop:**
   Aquí se generan y configuran los archivos de configuración de Hadoop, `core-site.xml` y `hdfs-site.xml`. Estos archivos determinan la configuración del sistema de archivos distribuido HDFS.
   
7. **Cambiar propiedad y permisos del directorio Hadoop:**
   ```
   !chown -R hduser:hadoop /content/hadoop-3.3.1
   !chmod -R 755 /content/hadoop-3.3.1
   ```
   Se cambian los propietarios y permisos de los archivos y directorios de Hadoop para que el usuario "hduser" tenga acceso.

8. **Crear el directorio de registros:**
   ```
   !mkdir -p /content/hadoop-3.3.1/logs
   !chown -R hduser:hadoop /content/hadoop-3.3.1/logs
   ```
   Se crea un directorio para los registros de Hadoop y se ajustan los permisos.

9. **Formatear el sistema de archivos HDFS:**
   ```
   !su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs namenode -format"
   ```
   Se formatea el sistema de archivos HDFS, lo que borra todos los datos existentes y prepara el sistema para su uso.

10. **Iniciar el NameNode y DataNode manualmente:**
    Aquí, los componentes NameNode y DataNode de Hadoop se inician en segundo plano.

11. **Crear un directorio en HDFS y listar directorios:**
    Se crea un directorio llamado "demo" en el sistema de archivos distribuido HDFS y luego se lista el contenido del directorio raíz.

12. **Listar procesos Java en ejecución:**
    ```
    !su - hduser -c "jps"
    ```
    El comando `jps` muestra los procesos Java en ejecución, lo que permite verificar que los componentes de Hadoop estén funcionando.





In [None]:
# Instalar Java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Hadoop
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
!tar -xvf hadoop-3.3.1.tar.gz

# Configurar las variables de entorno para Colab
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["HADOOP_HOME"] = "/content/hadoop-3.3.1"

# Crear un usuario falso para Hadoop
!addgroup hadoop
!adduser --disabled-password --gecos '' hduser
!adduser hduser hadoop

# Establecer variables de entorno HDFS para el usuario hduser
os.environ["HDFS_NAMENODE_USER"] = "hduser"
os.environ["HDFS_DATANODE_USER"] = "hduser"
os.environ["HDFS_SECONDARYNAMENODE_USER"] = "hduser"

# Configurar archivos XML de Hadoop
!echo "<configuration>" > /content/hadoop-3.3.1/etc/hadoop/core-site.xml
!echo "  <property>" >> /content/hadoop-3.3.1/etc/hadoop/core-site.xml
!echo "      <name>fs.defaultFS</name>" >> /content/hadoop-3.3.1/etc/hadoop/core-site.xml
!echo "      <value>hdfs://localhost:9000</value>" >> /content/hadoop-3.3.1/etc/hadoop/core-site.xml
!echo "  </property>" >> /content/hadoop-3.3.1/etc/hadoop/core-site.xml
!echo "</configuration>" >> /content/hadoop-3.3.1/etc/hadoop/core-site.xml

!echo "<configuration>" > /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml
!echo "  <property>" >> /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml
!echo "      <name>dfs.replication</name>" >> /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml
!echo "      <value>1</value>" >> /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml
!echo "  </property>" >> /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml
!echo "</configuration>" >> /content/hadoop-3.3.1/etc/hadoop/hdfs-site.xml

# Cambiar la propiedad y permisos del directorio Hadoop
!chown -R hduser:hadoop /content/hadoop-3.3.1
!chmod -R 755 /content/hadoop-3.3.1

# Crear el directorio de registros
!mkdir -p /content/hadoop-3.3.1/logs
!chown -R hduser:hadoop /content/hadoop-3.3.1/logs


[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/metrics/
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/metrics/package-tree.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/metrics/package-use.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/metrics/package-frame.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/metrics/package-summary.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/package-tree.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/package-use.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/package-frame.html
hadoop-3.3.1/share/doc/hadoop/api/org/apache/hadoop/hdfs/server/namenode/top/package-summary.html
hadoop-3.3.1/share/doc/hadoop/api/org/apa

In [None]:
# Formatear el sistema de archivos
!su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs namenode -format"

# Iniciar el NameNode y DataNode manualmente
!su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs --daemon start namenode"
!su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs --daemon start datanode"


namenode is running as process 5841.  Stop it first and ensure /tmp/hadoop-hduser-namenode.pid file is empty before retry.
namenode is running as process 5841.  Stop it first and ensure /tmp/hadoop-hduser-namenode.pid file is empty before retry.
datanode is running as process 5910.  Stop it first and ensure /tmp/hadoop-hduser-datanode.pid file is empty before retry.


In [None]:
# Crear un directorio en HDFS y listar directorios
!su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs dfs -mkdir /demo"
!su - hduser -c "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 && /content/hadoop-3.3.1/bin/hdfs dfs -ls /"


mkdir: `/demo': File exists
Found 1 items
drwxr-xr-x   - hduser supergroup          0 2023-12-01 01:44 /demo


In [None]:
!su - hduser -c "jps"

5841 NameNode
9363 Jps
5910 DataNode


Estos procesos indican que:

- `NameNode`: Es el servidor maestro de HDFS que administra el sistema de archivos y facilita las operaciones a los clientes.
- `DataNode`: Almacena los datos en el sistema Hadoop HDFS. Un sistema Hadoop típicamente tiene más de un DataNode, pero en este entorno de Colab, solo tenemos uno para simplificar.
- `Jps`: Es una herramienta que muestra todos los procesos de Java en ejecución en la máquina.

Con el `NameNode` y `DataNode` ejecutándose correctamente, HDFS está funcionando como se esperaba en tu instancia de Colab. Ahora puedes proceder con operaciones en HDFS o realizar tareas adicionales relacionadas con Hadoop que desees explorar.