# **Ingeniería para el Procesado Masivo de Datos (VIDAMA - E) - PER14059 OCT2025**

## **Bloque 1. Entorno de trabajo con el Ecosistema Hadoop**

**¿Qué vamos a aprender a hacer?**

- Manejar `HDFS` mediante línea de comandos.
- Aplicar los `comandos de HDFS` en la preparación del entorno de trabajo.

### **Tema 1. Introducción a las tecnologías big data**
---

1. **Introducción y objetivos**

Empezaremos la asignatura motivando los contenidos que se estudiarán en el resto del temario. Repasaremos las necesidades de la sociedad de la información en la actualidad, una era en la que todos estamos interconectados y somos fuentes de datos. Veremos los retos tecnológicos que esto supone y presentaremos formalmente las tecnologías que los solventan.

**Los objetivos que persigue este tema son:**

- Comprender cuáles son las necesidades actuales de procesamiento de datos, sus causas y cómo son solventadas por las tecnologías big data.
- Entender el concepto de clúster de ordenadores y cuáles son las principales tecnologías distribuidas capaces de explotarlo.
- Conocer las herramientas principales que componen el ecosistema Hadoop, cuál es la finalidad de cada una y cómo se relacionan entre sí.

2. **La sociedad interconectada: la era del cliente**

- Las tecnologías ***big data*** surgen para dar respuesta a las nuevas necesidades de la sociedad actual. Vivimos en un mundo interconectado, en el que el 90 % de la información existente, preservada en medios de cualquier tipo, **se ha creado en los últimos dos años**.
- El crecimiento de la información producida en el mundo por fuentes de todo tipo, tanto físicas como electrónicas, es exponencial de un tiempo a esta parte. Aunque las estimaciones acerca del volumen divergen, la siguiente gráfica muestra de manera orientativa este fenómeno.

![image.png](attachment:image.png)

- **Motivación de las tecnologías Big Data**

- Aproximadamente el **80 % de los datos que se crean** son generados por **interacciones** de **personas** y, por ello, suelen ser **datos no estructurados** *(texto libre, comentarios de personas, tuits, imágenes, sonidos, vídeos)*. Los **20 % restantes** son *datos estructurados* generados por **máquinas** *[datos de logs, sensores, Internet de las cosas (IoT), en general]* con el fin de ser procesados generalmente por otras máquinas.

![image-3.png](attachment:image-3.png)

**2.1. Fuentes de datos en la actualidad**

***Existen principalmente tres tipos de situaciones que generan datos en la actualidad:***

- La **interacción entre humanos** a través de un sistema informático que registra información mientras se produce la interacción. Ejemplos claros son el correo electrónico, los foros de Internet o las redes sociales, donde los datos los generamos los humanos al interactuar entre nosotros utilizando dichos medios. Suelen ser datos no estructurados, posteriormente procesados por máquinas.
- La **interacción entre un humano y una máquina**. El ejemplo más claro es la navegación en Internet: los servidores web generan logs con información sobre el proceso de navegación. Lo mismo ocurre al efectuar compras en alguna plataforma web de comercio electrónico o en banca online, donde cada una de nuestras transacciones queda registrada y será procesada después con el objetivo de estudiar nuestro comportamiento, así como de ofrecernos productos mejores y más personalizados. Tienden a ser datos estructurados o semiestructurados.
- La **interacción entre máquinas**. Varias máquinas intercambian información y la almacenan con el objetivo de ser procesada por otras máquinas. Un ejemplo son los sistemas de monitorización, en los que un sistema de sensores suministra la información recibida a otras máquinas para que realicen algún procesado sobre los datos. Al ser la propia máquina quien la genera, suele ser información estructurada, ya que el software se encarga de sistematizarla.

> Algunas cifras que resumen la cantidad de datos generados gracias a Internet se recogen en la siguiente imagen. Llama especialmente la atención el crecimiento experimentado por empresas como Netflix o Instagram, frente a la estabilización de los gigantes como Google, Facebook o YouTube.

![image-2.png](attachment:image-2.png)
![image-4.png](attachment:image-4.png)

**2.2. La transformación digital en relación con los datos**

***La conclusión global a la que llegamos es que el mundo ya ha cambiado, y lo podemos confirmar si examinamos hechos como los siguientes:***

- La empresa que transporta a más personas en el mundo es Uber, que tiene 0 coches físicos.
- La empresa que más habitaciones reserva es Airbnb, que tiene 0 hoteles físicos.
- La empresa que más música vende es Spotify, que tiene 0 estudios de grabación.
- La empresa que vende más películas es Netflix, que tiene 0 estudios.

Con frecuencia, se llevan a cabo más interacciones digitales que físicas entre las personas y las compañías que nos dan servicio, ya sea de suministro de energía, agua o gas; de telecomunicaciones o telefonía; de venta online de productos de todo tipo, o incluso de movimientos y servicios bancarios. Estas interacciones están generando, de forma continuada y masiva, datos muy valiosos que hablan del comportamiento de los clientes y su análisis permite anticipar qué es lo que estos van a demandar. De hecho, estamos evolucionando más rápido que las propias compañías, hasta el punto de que se ha abierto una brecha entre las empresas físicas tradicionales y los gigantes digitales, como muestra la figura 2.

Con el objetivo de llenar este espacio, surge la **transformación digital**, que persigue esencialmente tres objetivos:

- **Centrarse en el cliente**, es decir, pensar continuamente en lo que necesita y en mejorar (personalizar) su experiencia y sus interacciones con la compañía. Esto requiere recabar y analizar grandes cantidades de datos sobre su comportamiento.
- **Centrarse en canales digitales**, especialmente dispositivos móviles, puesto que las interacciones digitales son las que generan mayor cantidad de datos y, cada vez con más frecuencia, se realizan usando estos dispositivos en vez del PC.
- **Decisiones guiadas por los datos (data-driven)**, para lo cual es necesaria la ciencia de (grandes) datos (big data science).

3. **Definición de las tecnologías big data**

Para acometer estos objetivos, la mayor parte de las tecnologías existentes hasta hace pocos años (principios del siglo xx) no eran suficientes. Ello se debía a la necesidad de procesar, almacenar y analizar datos con ciertas características especiales, las denominadas **tres «v» del big data**:

- **Volumen:** cantidades de datos lo suficientemente grandes como para no poderse procesar con tecnologías tradicionales.
- **Velocidad:** flujos de datos que van llegando en tiempo real y tienen que procesarse de manera continua según se van recibiendo.
- **Variedad:** datos de fuentes diversas, estructuradas y no estructuradas (sean bases de datos relacionales o no relacionales, datos de imágenes, sonido, etc.), que tienen que ser manejados y cruzados de manera conjunta.

<mark>Aunque yo conocia 4 V's adicionando **Veracidad** y mas recientemente son 7 V's:<mark>
- **Viabilidad**
- **Visualización de los datos**
- **Valor de los datos**

**3.1. ¿Qué es un proyecto Big Data?**

- Un proyecto es big data cuando implica alguna de las tres «v».
- Una definición más ajustada y realista de un proyecto big data sería:
> **Un proyecto es big data cuando la mejor manera de resolverlo (más rápida, eficiente, sencilla) implica utilizar tecnologías big data.**
- Podemos definir big data como:
> **Conjunto de tecnologías y arquitecturas para almacenar, mover, acceder y procesar (incluido analizar) datos que eran muy difíciles o imposibles de manejar con tecnologías tradicionales.**

La Transformación Digital en torno al dato y las causas de esta imposibilidad pueden ser:

- Más interacciones digitales que físicas entre personas y sus compañías
  - Energía, empresas de telefonía, tiendas online, banca online
  - Cada interacción genera datos que hablan de los clientes (nosotros)
  - ¡Nosotros evolucionamos más rápido que las compañías!
    - Hueco entre las compañías tradicionales y nuestra forma de vivir

- **Transformación Digital** para adaptarnos al nuevo cliente:
  - Centrarse en el cliente (customer centricity): mejorar su experiencia, prever sus necesidades y **su comportamiento**: analizando sus datos!
  - Centrarse en lo que ocurre en los **canales digitales**: genera datos!
  - Decisiones **guiadas por los datos** (convertirse en **data driven**).
    - **(Big) Data Science**: los clientes generan muchísimos datos

- Cantidades ingentes de datos inimaginables hace unos años.
- Datos de fuentes diversas, heterogéneas, poco estructuradas, como documentos o imágenes/sonido, que, aun así, necesitamos almacenar y consultar (NoSQL).
- Datos dinámicos, recibidos y procesados según llegan (flujos de datos o streams).

Cabe destacar que, en la definición anterior, se han omitido de manera deliberada palabras como algoritmo, inteligencia, ciencia de datos o cualquier referencia a qué hacer o cómo analizar y explotar dichos datos. Las herramientas big data permiten aplicar a datos masivos técnicas que ya existían, pero son tecnologías y no técnicas en sí mismas. Las técnicas de análisis pertenecen al ámbito de la estadística, las matemáticas, las ciencias de la computación y la inteligencia artificial.

La mayoría de estas técnicas y algoritmos han existido desde mucho antes, algunas desde mediados del siglo xx. La sinergia con las tecnologías big data consiste en que estas permiten aplicar técnicas de análisis existentes a cantidades de datos mucho mayores, de naturaleza heterogénea. De este modo, logran resultados en menos tiempo y de mucha más calidad, al cruzar datos de diversas fuentes y ser capaces de procesarlos y usarlos para entrenar un algoritmo. Desgraciadamente, se han extendido entre el gran público mitos sobre el término big data, tales como los siguientes:

![image-5.png](attachment:image-5.png)

**Motivación de las tecnologías Big Data**

- En la **era del cliente**, éste genera **grandes cantidades de datos** que una sola máquina no puede almacenar ni procesar
  - Procesamiento distribuido entre varias máquinas (clúster), cada una no necesariamente muy potente (**commodity hardware**)
  - Si se necesita más capacidad (datos, memoria o CPU) se añaden nodos
- Datos no estructurados (imágenes, vídeo, documentos) que las BBDD relacionales no pueden manejar
  - **Solución**: BBDD NoSQL (Hadoop ya incluye una: Apache HBase)

4. **¿Qué es un proyecto Big Data?**

- Una definición mejor sería:
  - Un proyecto es big data cuando la mejor manera de resolverlo (más rápida, eficiente, sencilla) implica utilizar tecnologías big data

- Causas de esa imposibilidad:
  - Cantidades ingentes de datos inimaginables hace unos años.
  - Datos de fuentes diversas, heterogéneas, poco estructuradas como documentos o imágenes/sonido, que aun así necesitamos almacenar y consultar (NoSQL).
  - Datos dinámicos recibidos y procesados según llegan (flujos de datos o
streams).

> **Tecnologías Big Data**: conjunto de **tecnologías** y **arquitecturas** para almacenar, mover, acceder y procesar (incluido analizar) datos que eran muy difíciles o imposibles de manejar con tecnologías tradicionales.


**Aspecto de un cluster en la actualidad**

![image-6.png](attachment:image-6.png)

![image-7.png](attachment:image-7.png)

![image-8.png](attachment:image-8.png)

![image-9.png](attachment:image-9.png)

<mark>**Historia de Hadoop y Spark**<mark>

**Google (C++) - Almacenamiento + procesamiento usando commodity hardware**
 - 2003 - Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung presentaron el Google File System (GFS) – planto la semilla de HDFS https://static.googleusercontent.com/media/research.google.com/es//archive/gfs-sosp2003.pdf
 - 2004 - Jeffrey Dean y Ghemawat, introjeron el modelo de programación - Map Reduce (Simplified Data Processing on Large Clusters) http://static.googleusercontent.com/media/research.google.com/es//archive/mapreduce-osdi04.pdf

**Apache Hadoop (Java)**
 - 2002, Doug Cutting desarrolla Nutch. 2006, Hadoop se independiza de Nutch
 - 2008, se hace open-source (incluye una implementación abierta de MapReduce)
 - Adoptado en grandes empresas de todo el mundo a partir del año 2011

**Apache Spark (Scala) – Motivado por procesos iterativos (Machine Learning)**
 - 2009 - Matei Zaharia (era su tesis doctoral en UC Berkeley, grupo AMPLab) , **Fundador de Databricks**
 - 2010 - Open Source
 - 2014 - Forma parte de Apache 2.0. Top Level Project
 - 2015 - Más de 1000 contributors
 - 2016+ La mayoría de clústeres de Hadoop son migrados a Spark.

![image-10.png](attachment:image-10.png)

![image-11.png](attachment:image-11.png)

**Componentes de Hadoop**

- **HDFS (Hadoop Distributed File System):** sistema de archivos distribuido inspirado en el GFS de Google, que permite distribuir los datos entre distintos nodos de un clúster, gestionando la distribución y la redundancia de forma transparente para el desarrollador que vaya a hacer uso de esos datos.
- **Apache Hive:** herramienta para acceder mediante sintaxis SQL a datos estructurados que están almacenados en un sistema de archivos distribuido como HDFS u otros similares. Las consultas SQL son traducidas automáticamente a trabajos de procesamiento distribuido
- **Apache Spark:** motor de procesamiento distribuido y bibliotecas de programación distribuida de propósito general, que opera siempre en la memoria principal (RAM) de los nodos del clúster. Desde hace unos años ha reemplazado totalmente a MapReduce al ser mucho más rápido.
- **Apache Kafka:** plataforma para manejo de eventos en tiempo real, que consiste en una cola de mensajes distribuida y masivamente escalable sobre un clúster de ordenadores para ser consumidos por uno o varios procesos externos (por ejemplo trabajos de Spark).

![image-12.png](attachment:image-12.png)

- **Oozie:** herramienta para planificación y ejecución de flujos de datos.
- **Pig:** herramienta para programar flujos de datos con sintaxis similar a SQL, pero con mayor nivel de granularidad, cuyo procesamiento se efectúa con MapReduce.
- **Mahout:** biblioteca de algoritmos de machine learning. Originalmente programada con MapReduce, tenía un rendimiento pobre, pero actualmente soporta otros backend como Spark.
- **R Connectors:** herramientas para conectar MapReduce con el lenguaje de programación R. En desuso, al igual que MapReduce.
- **Hive:** herramienta para manejar datos almacenados en HDFS utilizando lenguaje SQL. En su origen, utilizaba MapReduce como motor de ejecución. Actualmente soporta Spark y Apache Tez.
- **HBase:** base de datos NoSQL de tipo columnar, que permite, entre otras cosas, tener registros (filas) de longitud y número de campos variable.


**Distribuciones de Hadoop**

- **Todos los componentes de Hadoop se puede descargar e instalar de forma independiente (requiere configuración posterior)**
- **Distribución de Hadoop:** producto software con todos los componentes de Hadoop pre-instalados en versiones que inter-operan bien entre ellas, y con soporte adicional.
- **Sandbox:** máquina virtual que emula un sistema operativo con el software pre-instalado, listo para ejecutar sin requerir instalación.

![image-13.png](attachment:image-13.png)

5. **Referencias bibliográficas**
- Dean, J. y Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113. https://doi.org/10.1145/1327452.1327492
- Ghemawat, S., Gobioff, H. y Leung, S-T. (2003). The Google File System. ACM SIGOPS Operating Systems Review, 37(5), 29-43. https://doi.org/10.1145/1165389.945450

6. **El papel del big data en la transformación digital**
- Newman, D. (2015, 22 de diciembre). The role big data plays in digital transformation. Forbes. https://www.forbes.com/sites/danielnewman/2015/12/22/the-role-big-data-plays-in-digital-transformation/
- En este artículo, el autor explica de qué manera el big data puede ayudar a grandes y pequeñas empresas a minimizar costes, maximizar resultados y, en definitiva, ser competitivas en un entorno cambiante.

7. **Historia de Hadoop**
- Bonaci, M. (2015, 11 de abril). The history of Hadoop. Medium.com. https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704
> Este artículo analiza en profundidad el contexto en el que nació Hadoop y la evolución que ha experimentado.

8. **Leading digital: turning technology into business transformation**
- Westerman, G., Bonnet, D. y McAfee, A. (2014) Leading digital: turning technology into business transformation. Harvard Business Review Press. 
- En este manual, los autores ponen el foco en cómo grandes compañías de la industria tradicional están aprovechando las posibilidades de la era digital como estrategia para alcanzar el éxito.

9. **Leading digital: turning technology into business transformation**
- Westerman, G., Bonnet, D. y McAfee, A. (2014) Leading digital: turning technology into business transformation. Harvard Business Review Press. 
- En este manual, los autores ponen el foco en cómo grandes compañías de la industria tradicional están aprovechando las posibilidades de la era digital como estrategia para alcanzar el éxito.

### **Tema 2. HDFS y MapReduce**
---