# Creación de un Data Lake
### Autor: Víctor Manuel Rodríguez Loyola
### ITESM CEM

## Contenido:
1. Materiales utilizados
2. Instalación de Raspberry Pi OS
3. Configuraciones básicas
    * Cambiar nombre del host
    * Establecer una dirección IP estática
    * Agregar hosts
    * Activar SSH
4. Establecer una conexión SSH
5. Creación de llaves SSH

## Materiales utilizados:
   * 3 o más Raspberry Pi model 3B+
   * 3 o más Tarjeta Micro SD de 32 Gb en adelante
   * 1 switch
   * 3 o más Cable Ethernet
   * 3 o más Fuente de alimentación con 2A de corriente de salida
   * 1 case para montar el cluster
   * 1 monitor, teclado y mouse
    
## Procedimiento

### Instalación de Raspberry Pi OS

El primer paso es verificar que sus tarjetas MicroSD estén formateadas.

Es recomendable hacer el formateo utilizando aplicaciones como **MicroSD Formatter**, disponible [en este enlace.](https://www.sdcard.org/downloads/formatter/)
    
Una vez formateadas todas las MicroSD, ingrese al sitio oficial de descargas de Raspberry Pi (https://www.raspberrypi.org/downloads/) y descargue **Noobs** en formato ZIP. 

Ya con Noobs descargado, conecte la MicroSD a su computadora y extraiga el archivo ZIP ahí. Posteriormente, desconecte la MicroSD y conéctela a una de las Raspberry Pi. 

Ahora, conecte el monitor, teclado, mouse y fuente de alimentación a la Raspberry Pi para comenzar con la instalación del sistema operativo. Espere unos segundos para que se reconozcan los archivos de la Micro SD.

#### Nota: Verifique que al momento de conectar su Raspberry Pi a la corriente, encienda un LED verde y uno rojo. El LED rojo indica que la Raspberry Pi está conectada a la corriente, y el LED verde indica que se está leyendo la MicroSD correctamente.

Deberá observar el **menú de instalación**. Seleccione el sistema operativo a instalar (en este caso Raspberry Pi OS o Raspbian), el idioma en que desee que se instale y presione el botón de _instalar_ en la parte superior izquierda. El proceso de instalación durará unos minutos, asegúrse de que la Raspberry Pi se mantenga conectada a la corriente.  

Una vez terminada la instalación, apague la Raspberry Pi y desconéctela de la corriente. Asegúrese de que el LED verde esté apagado antes de desconectar.

Este proceso de instalación se tiene que hacer para cada Raspberry Pi. Para evitar repetir este proceso, es posible clonar el contenido de la MicroSD mediante la creación de una **imagen**. Esto puede hacerse con aplicaciones como **Win32 Disk Imager**, disponible [en este enlace.](https://win32diskimager.download/)

Al clonar la MicroSD con Raspberry Pi OS instalado, únicamente tendrá que instalar la imagen el el resto de las tarjetas MicroSD y podrá arrancar todas las Raspberry Pi con el sistema operativo instalado. Después de hacer este proceso, verifique que el resto de las Raspberry Pi arranquen de forma correcta. 

### Configuraciones básicas

Para poder conectar las Raspberry Pi en el cluster es necesario realizar estas configuraciones en cada una de ellas: 

#### Cambiar el nombre del host
Cambiar el nombre del host nos ayudará a identificar más fácilmente a cada Raspberry Pi al momento de trabajar con el cluster, ya que por defecto tienen el nombre de _raspberrypi_.

Para cambiar el nombre del host, abra una terminal y teclee el comando  

```sudo nano /etc/hostname```


Se abrirá un archivo con el nombre actual del host. Reemplace el nombre. Una vez modificado _hostname_, presione Ctrl+O para guardar los cambios y Ctrl+X para salir del archivo. 

Puede comprobar que el nombre del host se modificó correctamente con el comando ```hostname```

En este caso se asignaron los nombres de host a las Raspberry Pi de la siguiente manera:
* master
* slave01
* slave02

#### Establecer una dirección IP estática

Esto se hace accediendo al archivo _/etc/dhcpd.conf_ y buscando el apartado donde se encuentre la configuración de la interfaz Ethernet, normalmente mostrada como ```interface eth0```. Configure la dirección IP estática,así como las direcciones de Gateway y de DNS con los siguientes comandos:

```static ip_address=192.168.1.101/24```  

```static routers=192.168.1.254```  

```static domain_name_servers=192.168.1.1 8.8.8.8 fd51:42f8:caae:d92e::1```  

En este caso se asignaron las direcciones IP de la siguiente manera:

* master:  192.198.1.101/24
* slave01: 192.198.1.102/24
* slave02: 192.198.1.103/24

#### Agregar host
Para trabajar con el cluster será necesario agregar los otros host que conformarán el mismo. 

Abra una terminal y teclee el comando
```sudo nano /etc/hosts```

En el archivo que se abre tendrá que añadir el nombre y la dirección IP de todos los host que conforman el cluster.

En este caso, la configuración quedó de la siguiente manera:

```192.198.1.101   master```  
```192.198.1.102   slave01```  
```192.198.1.103   slave02```  
```192.198.1.104   slave03```

#### Activar SSH
Para activar la interfaz SSH, navague hasta la configuración entrando a menú principal -> Preferencias -> Configuración de Raspberry Pi. 

Una vez dentro, vaya a la pestaña de Interfaces, localice la interfaz _SSH_ y asegúrese de que se encuentre activada. 

![act_ssh](https://github.com/RD13p/Proyecto_DataLake/blob/master/act-ssh.png?raw=true)

### Establecer una conexión SSH

Una vez activado el SSH, utilizaremos los **alias SSH** para conectar todas las Raspberry Pi entre sí. Para crear los alias, ingrese al archivo ```~/.ssh/config``` escribiendo el comando ```nano .ssh/config```. En caso de que ese archivo y/o la carpeta no existan, puede crearlos dentro del directorio ```/home/pi```. Una vez dentro del archivo, deberá añadir las siguientes líneas:

```Host master```   
```User pi```  
```Hostname 192.168.1.101```

Estos son los mismos datos contenidos en el archivo ```hosts``` creado anteriormente. Deberá colocar esas líneas por cada una de las Raspberry Pi que haya en el cluster, con su correspondiente nombre de host y dirección IP. En este caso, el archivo ```~/.ssh/config```de todas las Raspberry Pi luce de la siguiente manera:

```Host master```   
```User pi```  
```Hostname 192.168.1.101```

```Host slave01```   
```User pi```  
```Hostname 192.168.1.102```

```Host slave02```   
```User pi```  
```Hostname 192.168.1.103```


### Creación de llaves SSH

Para simplificar la conexión SSH entre las Raspberry Pi, crearemos lo que se conoce como un par de _llaves SSH_, que se utilizarán para establecer una conexión por este medio entre las Raspberry Pi sin necesidad de escribir una contraseña. 

En cada una de las Raspberry Pi, teclee el siguiente comando:
```ssh-keygen -t ed25519```  
el cual generará este par de llaves, la _llave privada, almacenada en el archivo ```id_ed25519```, y la _llave pública_, almacenada en el archivo ```id_ed25519.pub```.

Utilizaremos únicamente la llave pública, la llave privada no debe ser copiada ni movida a ningún otro dispositivo diferente al que la generó. 

Al igual que con los alias SSH, cada una de las Raspberry Pi deberá tener guardadas todas las llaves públicas del cluster en el archivo ```~/.ssh/authorized_keys```. Comencemos en el nodo _master_, agregando su proía llave pública al archivo mencionado anteriormente. Esto se puede hacer con el comando 

```cat .ssh/id_ed25519.pub >> .ssh/authorized_keys```.

Ahora, podemos agregar las llaves públicas del resto de las Raspberry Pi mediante una conexión SSH, utilizando el comando  

```cat ~/.ssh/id_ed25519.pub | ssh pi@192.168.1.10X 'cat >> .ssh/authorized_keys'```. 

Sustituyendo la _X_ para obtener las diferentes direcciones IP del cluster. Esto **concatena** el contenido del archivo de llave pública de la otra Raspberry Pi al archivo ```authorized_keys``` del nodo _master_. Repita este paso hasta obtener todas las llaves públicas del cluster.Una vez completado este paso, puede simplemente usar el comando  

```cat .ssh/authorized_keys | ssh pi@192.168.1.101 'cat >> .ssh/authorized_keys'```  

desde las otras Raspberry Pi para que copien el archivo ```authorized_keys``` del nodo _master_.

Ahora es posible hacer una conexión SSH únicamente tecleando, por ejemplo, ```ssh slave01```.

### Comandos de cluster útiles

Ahora implementaremos algunos comandos que pueden resultar últiles a la hora de trabajar con el cluster. 

Para agregarlos, deberá acceder al archivo ```~/.bashrc``` con el comando ```nano ~/.bashrc```desde el nodo _master_.

#### Mostrar el _hostname_ de todas las Raspberry Pi
Navegue hasta el final del archivo ```~/.bashrc``` y agregue las siguientes líneas:

#### Enviar el mismo comando a todas las Raspberry Pi

Para esto utilizaremos la función _otherpis_ creada anteriormente. En el mismo archivo ```~/.bashrc```, agregue las siguientes líneas:

#### Reiniciar el cluster

Cree la siguiente función en el archivo ```~/.bashrc```:

#### Apagar el cluster

Añada la siguiente función al archivo ```~/.bashrc```:

#### Enviar el mismo archivo a todas las Raspberry Pi

Añada la siguiente función al archivo ```~/.bashrc```:

Podemos utilizar la función  ```clusterscp``` creada en el paso anterior para transferir el resto de las funciones creadas a todas las Raspberry Pi del cluster de la siguiente manera:

 ```source ~/.bashrc && clusterscp ~/.bashrc```
 
### Hadoop y Spark. Instalación y configuración

#### Verificar versión de Java

En este caso se instalará la versión 3.2.1 de Hadoop, la cual requiere Java 7 o una versión superior. 
Compruebe la versión de java instalada actualmente con el comando

```java -version```

**Nota:** Asegúrese de que todas las Raspberry Pi cuenten con la misma versión de Java, ya que sólo se hará la confuguración en una de ellas y se copiará al resto del cluster. 

#### Obtener Hadoop

Lo primero será realizar una configuración de cluster de un solo. En el nodo master, descargue Hadoop tecleando el siguiente comando:

```cd && wget http://apache.mirrors.lucidnetworks.net/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz```  

**Nota:** En caso de que no se logre reconocer el enlace o desee instalar una versión de Hadoop diferente, ingrese a la [página de descargas de Hadoop](http://apache.mirrors.lucidnetworks.net/hadoop/common/), copie el enlace de descarga de la versión de su preferencia y modifique el comando anterior reemplazando el enlace después del _wget_ por el de la otra versión.

Una vez descargado Hadoop, ingrese los siguientes comandos:

```sudo tar -xvf hadoop-3.2.1.tar.gz -C /opt/```  
```rm 2wa3Hty && cd /opt```  
```sudo mv hadoop-3.2.1 hadoop```  

para instalarlo, asignarle un directorio y eliminar el archivo de instalación. 

Ingrese el comando  
```sudo chown pi:pi -R /opt/hadoop```  
para modificar los permisos de ese directorio.

Después, agregue el directorio anterior al ```$PATH``` agregando las siguientes líneas al final del archivo ```~/.bashrc```

```export JAVA_HOME=$ /usr/lib/jvm/java-8-openjdk-armhf/```  
```export HADOOP_HOME=/opt/hadoop```  
```export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin```

**Nota:** La primera línea, donde se menciona ```JAVA_HOME``` puede variar dependiendo de la ubicación donde tenga instalado Java. Si no se reconoce la ruta del comando anterior, sólo sustituya dicha ruta por la ruta donde tenga Java instalado. Esto lo puede consultar con el comando

```sudo update-alternatives --config java```

Finalmente, agregue la siguiente línea al archivo ```/opt/hadoop/etc/hadoop/hadoop-env.sh```

```export JAVA_HOME=$ /usr/lib/jvm/java-8-openjdk-armhf/```  

Puede verificar que Hadoop se instaló correctamente con el comando

```hadoop version | grep Hadoop```

![hadoop_ver](https://github.com/RD13p/Proyecto_DataLake/blob/master/hadoop_ver.png?raw=true)

#### Obtener Spark

Descargue Spark ingresando el comando

```cd && wget http://apache.mirrors.lucidnetworks.net/spark/spark-2.4.6/SparkR_2.4.6.tar.gz```  

**Nota:** Al igual que con Hadoop, puede instalar otra versión de Spark ingresando a la [página de descargas de Spark](http://apache.mirrors.lucidnetworks.net/spark/) y copiando el enlace de la versión que desee. 

Posteriormente, ingrese los siguientes comandos: 

```sudo tar –xvf SparkR_2.4.6.tar.gz –C /opt/```  
```rm SparkR_2.4.6.tar.gz && cd /opt```  
```sudo mv spark-2.4.3-bin-hadoop2.7 spark```

Modifique los permisos en este directorio

```sudo chown pi:pi -R /opt/spark``` 

y agréguelo al ```$PATH``` añadiendo las siguientes líneas al final del archivo ```~/.bashrc```

```export SPARK_HOME=/opt/spark```  
```export PATH=$PATH:$SPARK_HOME/bin```

Puede verificar que Spark se instaló correctamente con el comando

```spark-shell --version``` 

![spark_ver](https://github.com/RD13p/Proyecto_DataLake/blob/master/spark_ver.png?raw=true)

#### Configurar HDFS

Para este paso es necesario modificar varios archivos de configuración ubicados en ```/opt/hadoop/etc/hadoop```  
Ingrese al archivo **core-site.xml** y edite la configuración de la siguiente manera:

Ahora modifique el archivo **hdfs-site.xml** de la siguiente forma:

Cree los siguientes directorios:

```sudo mkdir -p /opt/hadoop_tmp/hdfs/datanode```  
```sudo mkdir -p /opt/hadoop_tmp/hdfs/namenode```

Y ajuste los permisos
```sudo chown pi:pi -R /opt/hadoop_tmp```  

Posteriormente, diríjase al archivo **mapred-site.xml** y editelo de la siguiente manera:

Y por último, edite el archivo **yarn-site.xml**:

Una vez modificados todos esos archivos, haremos un formateo del HDFS con el comando:

```hdfs namenode -format -force```  

E inicie HDFS y Yarn con el comando

```start-dfs.sh && start-yarn.sh```

Puede verificar que está funcionando correctamente con el comando ```jps```, donde debería obtener una salida parecida a esta:

2736 NameNode
2850 DataNode
3430 NodeManager
3318 ResourceManager
3020 SecondaryNameNode
3935 Jps

### Configuración del cluster

Con los pasos anteriores lo que se obtuvo es un cluster de un solo nodo conformado por el nodo _master_, el cual desempeñaba la función de maestro y trabajador al mismo tiempo. Ahora, configuraremos el resto de las Raspberry Pi como trabajadores. 

#### Creación de directorios

Cree los siguientes directorios en todas las Raspberry Pi con los siguientes comandos:

```clustercmd sudo mkdir -p /opt/hadoop_tmp/hdfs```  
```clustercmd sudo chown pi:pi –R /opt/hadoop_tmp```  
```clustercmd sudo mkdir -p /opt/hadoop```  
```clustercmd sudo chown pi:pi /opt/hadoop```

#### Copia de la configuración

Ahora, copie todos los archivos ubicados en el directorio _/opt/hadoop_ del nodo maestro con el comando

```for pi in $(otherpis); do rsync –avxP $HADOOP_HOME $pi:/opt; done```  

Después, copie la configuración del archivo _.bashrc_ del nodo maestro al resto del cluster con los comandos

```clusterscp .bashrc```  
```clustercmd source .bashrc```  

Una vez terminado este proceso, verifique que Hadoop fue instalado correctamente en todas las Raspberry Pi con el comando

```clustercmd hadoop version | grep Hadoop```

#### Configuración de Hadoop en el cluster

Para tener HDFS funcionando en el cluster, es nocesario volver a modificar algunos archivos utilizados anteriormente. 

Ingrese al archivo ```core-site.xml``` con el comando

```nano /opt/hadoop/etc/hadoop/core-site.xml```

y edítelo de forma que quede de la siguiente manera:

Posteriormente, edite el archivo ```hdfs-site.xml``` tecleando

```nano /opt/hadoop/etc/hadoop/hdfs-site.xml```

Después, ingrese al archivo ```mapred-site.xml```

```nano /opt/hadoop/etc/hadoop/mapred-site.xml```  

y edítelo de la siguiente manera:

Y finalmente, edite el archivo ```yarn-site.xml```

```nano /opt/hadoop/etc/hadoop/yarn-site.xml```  

de la siguiente manera:

Una vez modificados estos archivos, cópielos al resto de las Raspberry Pi con los comandos

```clusterscp /opt/hadoop/etc/hadoop/yarn-site.xml```  
```clusterscp /opt/hadoop/etc/hadoop/mapred-site.xml```  
```clusterscp /opt/hadoop/etc/hadoop/core-site.xml```  
```clusterscp /opt/hadoop/etc/hadoop/hdfs-site.xml```  

Y limpie los directorios de los archivos temporales con los comandos:

```clustercmd rm –rf /opt/hadoop_tmp/hdfs/datanode/*```  
```clustercmd rm –rf /opt/hadoop_tmp/hdfs/namenode/*```  

Posteriormente, navegue hasta ```$HADOOP_HOME/etc/hadoop/``` y cree un archivo llamado _master_

```cd $HADOOP_HOME/etc/hadoop/```  
```touch master```

En este archivo se agregará únicamente el nombre del host maestro en el cluster, en este caso

```master```

Una vez creado y modificado este archivo, cree en ese mismo directorio otro archivo, esta vez con el nombre de __workers__

```touch workers```  

En ese archivo, agregue los nombres de host de las Raspberry Pi con el rol de trabajador, es decir, todo el cluster exceptuando al nodo _master_ agregado anteriormente al otro archivo

```slave01```  
```slave02```  

Posteriormente, ingrese al archivo ```/etc/hosts``` con el comando ```cp``` y elimine la línea

```127.0.0.1 raspberrypi```

y copie este archivo ya modificado al resto del cluster con

```clusterscp /etc/hosts```

Una vez hecho esto, reinicie el cluster

```clusterreboot```  

para que los cambios hagan efecto. Una vez reiniciado el cluster, haga un formateo del HDFS con

```hdfs namenode -format -force```  

e inicie HDFS con el comando

```start-dfs.sh && start-yarn.sh```  

Verifique que el cluster está funcionando correctamente ingresando a la siguiente URL en su navegador

http://192.168.1.101:9870

esta dirección IP es la asignada al nodo maestro.

![web_cluster](https://github.com/RD13p/Proyecto_DataLake/blob/master/web-cluster.png?raw=true)


#### Configuración de Spark en el cluster

El primer paso será ingresar al archivo ```.bashrc```con el comando ```cd``` y agregar las siguientes líneas:

```export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop```  
```export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH```  

Ahora, ingrese al archivo de configuración de Spark

```cd $SPARK_HOME/conf```
```sudo mv spark-defaults.conf.template spark-defaults.conf```

y agregue las siguientes líneas al final del archivo

```spark.master            yarn```  
```spark.driver.memory     465m```  
```spark.yarn.am.memory    356m```  
```spark.executor.memory   465m```  
```spark.executor.cores    4```  

Y para que estos cambios tomen efecto, reinicie el cluster.

**Nota:** Ahora, será necesario que antes de reiniciar o apagar el cluster, ingrese el comando ```stop-dfs.sh && stop-yarn.sh```para detener HDFS, y lo mismo cada que el cluster encienda, pero con la palabra _start_ para arrancar HDFS.