# HADOOP 

## ¿Qué es Hadoop?

- Hadoop es un entorno software para el almacenamiento, procesamiento y análisis de Big Data.

- Es distribuido:
    - Se ejecuta en un cluster de ordenadores, un conjunto de ordenadores interconectados entre ellos que funcionan de forma coordinada
    - No requiere de grandes inversiones en máquinas, funciona en hardware asequible
    
- Es escalable:
    - Añadir nodos incrementa la capacidad de forma proporcional
    
- Es tolerante a fallos:
    - Los fallos son la norma más que la excepción en sistemas distribuidos
    - El fallo de un nodo no afecta al sistema, que continúa funcionando
    - El maestro reasigna las tareas a otro nodo
    - No hay pérdida de datos gracias a la replicación
    - Cuando un nodo se recupera, vuelve al sistema automáticamente
    
- Es open-source
    - Su código fuente está disponible de forma abierta para que quien lo desee lo descargue, modifique, ...
    
## ¿Cuándo es necesario?

- La creciente necesidad de datos hace que los sistemas distribuidos tradicionales no sean eficientes
    - Cuello de botella en el almacenamiento de los datos

- Hadoop proporciona una nueva gestión de los datos par eliminar ese cuello de botella

- Cuando se almacenan datos en Hadoop, estos se dividen en bloques

- Los cálculos (map) se realizan a nivel de bloque

- Un nodo maestro gestiona los cálculos

- Los nodos se comunican entre ellos lo menos posible

- Los datos se distribuyen cuando se almacenan
    - Los cálculos se llevan a los datos, no al revés
    
- Los bloques se replican en varios nodos por razones de prestaciones y de tolerancia a fallos

## Problemas que viene a resolver

- Gestionar infraestructuras
    - Despliegue de software y hardware, monitorización, ...
    - Ejemplos: Cloudera  Manager, Ambari, Knox
- Recolección de datos masivos
    - Existen herramientas para descargar datos de la web, de redes sociales, de bases de datos existentes, en batch, en streaming ...
    - Ejemplos: scrapy, sqoop, flume, kafka, ...
- Formateo de datos masivos
    - Existen diferentes formatos de datos, que explotan las características de los datos para mejorar la forma en que se alamcenan y se procesan
    - Ejemplos: avro, parque, ...
- Almacenamiento de datos masivos
    - Las bases de datos relacionales manifiestan problemas, entre otros, escalabilidad, requieren datos estructurados, por lo que se han desarrollado nuevos modelos de bases de datos: NoSQL
    - Ejemplos: mongodb, hbase, cassandra, redis...
- Procesamiento de datos masivos
    - Se han desarrollado paradigmas de programación paralela distribuida, en batch, streaming, para procesar datos masivos
    - Ejemplos: hadoop, spark, flink, storm, ...
- Visualización de datos masivos
    - Se han desarrollado tecnologías para realizar visualizaciones de fuentes de datos masivos, en batch, streaming
    - Ejemplos: tableau, qlik
- Hadoop es un proyecto vivo con una gran variedad de herramientas que incrementan su funcionalidad y facilidad de uso
- Algunos de los proyectos de este ecosistema se encuentran a continuación:

||||||
|---|---|---|---|---|
|Accumulo| HUE| Nutch| Mahout| Kudu|
|Tez| Ambari| Nifi| RHadoop| Impala|
|Kibana| Mesos| Azkaban| Oozie| EMR|
|H2O| Giraph| Avro| Elasticsearch| MLlib|
|Kafka| Tableau| Druid| Qlik| Storm|
|Zookeeper| Sentry| Knox| Flink| Apex|

# YARN

## ¿Qué es YARN?
- YARN (Yet Another Resource Negotiator) es un sistema gestor de infraestructuras de Hadoop
    - El sistema operativo del cluster Hadoop
    - En MapReduceVI...
        - En un cluster de Hadoop solamente podían ejecutarse aplicaciones MapReduce
        - Los slots de tiempo (map y reduce) son estáticos, por lo que si el número de map o reduce es diferente el cluster estará infrautilizado
        - El tamaño del cluster está limitado a unos 4000 nodos
- En MapReduceV2 (YARN)
    - Los nodos no tienen slots, sino simplemente recursos (CPU, memoria, disco) que se pueden asignar conforme son necearios
        - Mejora la utilización de los recursos del cluster
    - Los clusters no tienen límite de tamaño
    - Multitenancy
        - Cuotas, permisos, planificación, seguridad
    - Se pueden ejecutar trabajos que no sean MapReduce
        - Ej.: Spark, Impala
    - Compatibilidad con MRv1
    
## Componentes principales
- ResourceManager
    - Uno por cluster
    - Gestiona los recursos del cluster y los distribuye entre las aplicaciones
- NodeManager
    - Uno por nodo del cluster
    - Crea los contenedores que ejecutan las aplicaciones en el nodo
    - Informa al ResourceManager
- ApplicationMaster
    - Uno por aplicación
    - Interactúa con
        - ResourceManager para obtener recursos
        - NodeManager para ejecutar y monitorizar las tareas
- Container
    - Es un paquete de recursos (CPU, memoria) que se encuentra asignado a un nodo en concreto
    - Concede permisos a un ApplicationMaster para usar una cantidad de recursos determinada de ese nodo
![01_hadoop_1]
    
## Interfaz
- Para cada trabajo que se ejecuta en el cluster YARN, se le asigna una URL desde la que se puede monitorizar su progreso

## Planificación de trabajos
- La planificación es necesaria en cualquier sistema informático, no solamente en Hadoop
- YARN asigna los recursos a las aplicaciones que se van a ejecutar en el cluster
- Planificadores predefinidos de YARN
    - Capacity: divide los recursos como un porcentaje de los recursos totales del cluster
    - Fair: divide los recursos de forma equitativa entre todas las aplicaciones que se están ejecutando en el cluster
- Es un campo de investigación en el que se ha trabajado extensamente

## Seguridad
- YARN proporciona una serie de mecanismos para añadir seguridad al cluster
    - Utiliza un usuario-grupo dedicado para ejecutar sus demonios
    - Validar permisos a los directorios de YARN
    - HTTPS
    - Listas de control de acceso (ACL)
    - Autentificación utilizando Kerberos
- YARN soporta algunos frameworks de seguridad
    - Apache Ranger
    - Apache Knox

[01_hadoop_1]:images/01_hadoop_1.png