# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/a0/Universidad_de_Lima_logo.png/220px-Universidad_de_Lima_logo.png"  width="120" /> Tutorial de PySpark

**Profesor:** Enver G. Tarazona Vargas <br>
**Curso:** Analítica con Big Data <br>
**FACULTAD DE INGENIERÍA - CARRERA DE INGENIERÍA DE SISTEMAS**<br>


In [None]:
# Instalar PySpark
!pip install pyspark

In [2]:
from pyspark.sql import SparkSession

# Inicializar el contexto
#spark = SparkSession.builder.getOrCreate()

#sc = spark.sparkContext
#sc

# Tema 1: Creación de RDD y Aplicación de `map`

En Apache Spark, el Resilient Distributed Dataset (RDD) es una estructura fundamental. Los RDDs permiten que los datos se procesen en paralelo a través de múltiples nodos en un clúster, proporcionando tolerancia a fallos y eficiencia en el manejo de grandes volúmenes de datos. La creación de un RDD se puede realizar de varias formas, incluyendo la distribución de una colección existente o la lectura desde un sistema de almacenamiento externo.

Una vez que el RDD está creado, Spark ofrece varias transformaciones para manipular los datos. Una de las transformaciones más básicas y poderosas es `map`, que aplica una función a cada elemento del RDD, transformando los elementos de acuerdo con la función definida. El resultado es un nuevo RDD donde cada elemento es el resultado de aplicar la función al elemento original.


## Ejemplo
Para ilustrar cómo trabajar con RDDs y la transformación `map`, consideremos el siguiente ejemplo donde queremos calcular el cuadrado de una serie de números. Este proceso demuestra la capacidad de Spark para aplicar funciones de manera distribuida a través de los datos almacenados en un RDD.


In [None]:
# Creación de un RDD
numeros = [1, 2, 3, 4, 5]
numeros_rdd = sc.parallelize(numeros)

# Aplicación de la función map para calcular el cuadrado de cada número
cuadrados_rdd = numeros_rdd.map(lambda x: x**2)

# Recoger y mostrar los resultados
resultados = cuadrados_rdd.collect()
print(resultados)


## Ejercicios
**Ejercicio 1**: Ahora que has visto cómo trabajar con RDDs y la transformación `map`, intenta el siguiente desafío:

Dada una lista de precios de productos (por ejemplo, `[4.50, 2.75, 3.35, 5.80]`), crea un RDD y utiliza la función `map` para aplicar un aumento del 10% a cada precio. Recoge y muestra los resultados.


**Ejercicio 2**:
La gerencia de una cadena de supermercados ha solicitado a un analiista de datos un informe detallado sobre las ventas mensuales de varios productos para entender cuáles merecen una promoción. El objetivo es calcular el total de ventas por producto y aplicar un descuento del 5% a aquellos productos cuyas ventas superen los $100 en el mes, como parte de una estrategia para incentivar mayores ventas.

Para ello, en el último mes, se recopiló la siguiente información sobre las ventas de productos:

- Manzana: 150 unidades a $0.75 cada una.

- Banana: 300 unidades a $0.30 cada una.

- Naranja: 200 unidades a $0.50 cada una.

- Pera: 50 unidades a $1.25 cada una.

- Melón: 80 unidades a $3.50 cada una.

A partir de estos datos, en dónde cada registro de venta está representado como una tupla que contiene el nombre del producto, la cantidad vendida y el precio por unidad, realiza las siguientes actividades:

1. Construye un RDD con los datos de ventas que has preparado.
2. Utiliza la transformación `map` para calcular el total de ventas por producto, multiplicando la cantidad vendida por el precio por unidad.
3. Para los productos cuyo total de ventas exceda los $100, aplica un descuento del 5%.
4. Genera un informe final mostrando el nombre del producto, las ventas totales originales y las ventas totales después del descuento, si aplicó.



# Tema 2: Uso de `flatMap` y `filter`
En PySpark, las transformaciones `flatMap` y `filter` son herramientas poderosas para manipular RDDs. Mientras `map` aplica una función a cada elemento del RDD y mantiene la misma cantidad de elementos de salida como de entrada, `flatMap` puede aumentar o disminuir el número de elementos, ya que "aplana" los resultados en una lista. Esto es especialmente útil cuando cada elemento de entrada puede ser mapeado a múltiples elementos de salida. Por otro lado, `filter` permite seleccionar elementos que cumplen con una condición específica, lo cual es útil para depurar datasets o para extracciones condicionales de datos.

## Ejemplo
Supongamos que necesitamos procesar un conjunto de datos que contiene frases y queremos obtener todas las palabras individuales que contienen más de tres letras. Este proceso será demostrado en el siguiente código, donde utilizaremos `flatMap` para descomponer las frases en palabras individuales y `filter` para seleccionar solo aquellas palabras que cumplen con el criterio especificado.


In [None]:
# RDD de frases
frases = ["Hola mundo", "Aprendiendo PySpark", "Hola a todos"]
frases_rdd = sc.parallelize(frases)

# Uso de flatMap para descomponer las frases en palabras
palabras = frases_rdd.flatMap(lambda frase: frase.split())

# Filtrar palabras que tienen más de tres letras
palabras_largas = palabras.filter(lambda palabra: len(palabra) > 3)

# Recoger y mostrar los resultados
resultados = palabras_largas.collect()
print(resultados)


**Ejercicio 1**: Un equipo editorial está revisando varios artículos para identificar las palabras clave más frecuentes y relevantes, pero quieren evitar palabras comunes y cortas que no aportan significado. Se te ha proporcionado un conjunto de datos que contiene múltiples frases de artículos. Tu tarea es extraer y listar las palabras que tienen cuatro letras o más, ya que el equipo considera que estas palabras podrían ser más relevantes para sus análisis.

Se han extraído varias frases de los artículos, como se muestra a continuación:
- "Innovación y tecnología en el mercado global"
- "Explorando las profundidades del análisis de datos"
- "Introducción a la programación en Python para ciencia de datos"
- "Los desafíos actuales en la inteligencia artificial"

Representa estas frases en una lista de cadenas y procésalas para cumplir con el objetivo mencionado realizando las siguientes actividades:

1. Crea un RDD con los datos de las frases que se han proporcionado.
2. Utiliza la transformación `flatMap` para descomponer las frases en palabras.
3. Filtra las palabras para retener solo aquellas con cuatro letras o más.
4. Recopila y muestra las palabras filtradas para ver el resultado final.


**Ejercicio 2**: Eres parte del equipo de operaciones de TI en una gran empresa y tu tarea es monitorear y analizar los logs del servidor para asegurarte de que todos los sistemas funcionan correctamente. Se te ha proporcionado un conjunto de entradas de log y necesitas filtrar aquellos mensajes que indican errores graves o advertencias.

Las entradas de log se presentan en el siguiente formato:
- "2024-04-26 12:00:01 INFO Usuario ha iniciado sesión con éxito"
- "2024-04-26 12:01:15 ERROR Fallo en la base de datos"
- "2024-04-26 12:02:37 WARNING Memoria casi llena"

Identifica y extrae todos los logs que contienen mensajes de error (ERROR) o advertencias (WARNING).

1. Crea un RDD con los datos de los logs que se han proporcionado.
2. Utiliza la transformación `flatMap` para descomponer las entradas de log en palabras.
3. Filtra las entradas para retener solo aquellas que contienen las palabras 'ERROR' o 'WARNING'.
4. Recopila y muestra las entradas filtradas para ver los mensajes críticos.


# Tema 3: Agregaciones con `reduceByKey` y `groupBy`

En el procesamiento de grandes volúmenes de datos, las operaciones de agregación son esenciales para resumir la información y obtener insights significativos. PySpark ofrece varias transformaciones que facilitan estas tareas de manera eficiente:

- **`reduceByKey`**: Esta transformación combina los valores de cada clave utilizando una función reductora especificada. Es ideal para realizar operaciones agregadas como sumas, promedios, o cualquier otro cálculo que se pueda definir de manera asociativa y conmutativa. `reduceByKey` es particularmente útil en datasets grandes, ya que reduce la cantidad de datos transferidos al combinar los resultados localmente en cada partición antes de enviar resultados a través de la red.
  
- **`groupBy`**: Permite agrupar los datos en el RDD según una función especificada. El resultado es un RDD de pares clave-valor, donde la clave es el resultado de la función `groupBy` y el valor es un iterable de los elementos que comparten esa clave. Aunque `groupBy` puede ser poderoso, es menos eficiente que `reduceByKey` para operaciones de agregación porque realiza toda la agrupación sin combinar datos, lo que puede ser costoso en términos de memoria y tiempo de procesamiento.


## Ejemplo
Consideremos un escenario donde estamos trabajando con un conjunto de datos de ventas de productos. Cada entrada contiene el nombre del producto y la cantidad vendida. Nuestro objetivo es calcular la cantidad total vendida por producto:


In [None]:
# Datos de ejemplo
ventas = [("manzana", 2), ("banana", 3), ("manzana", 1), ("naranja", 5), ("banana", 1)]

# Crear un RDD
ventas_rdd = sc.parallelize(ventas)

# Usar reduceByKey para sumar las ventas por producto
ventas_por_producto = ventas_rdd.reduceByKey(lambda a, b: a + b)

# Recoger y mostrar los resultados
resultados = ventas_por_producto.collect()
print("Ventas totales por producto:")
for producto, total in resultados:
    print(f"{producto}: {total}")


**Ejercicio 1**: Eres un analista de datos en una empresa que vende productos electrónicos en línea. La empresa está interesada en entender mejor las ventas de sus productos a lo largo del tiempo para poder ajustar las estrategias de marketing y stock. Se te ha proporcionado un conjunto de datos que contiene las ventas diarias de varios productos. Tu tarea es calcular la venta total por producto para el último mes y determinar cuál ha sido el producto más vendido.

Se han registrado las ventas diarias de productos, y cada registro contiene el nombre del producto y la cantidad vendida en ese día. Ejemplos de entradas incluyen:
- ("Smartphone", 5)
- ("Tablet", 3)
- ("Laptop", 2)
- ("Smartphone", 2)
- ("Laptop", 3)
- ("Smartwatch", 1)

**Objetivo del Ejercicio**:
1. Crea un RDD con los datos de ventas proporcionados.
2. Utiliza `reduceByKey` para calcular el total de ventas por producto.
3. Encuentra el producto con la mayor cantidad de ventas en el mes.
4. Muestra el nombre del producto más vendido y su total de ventas.


**Ejercicio 2**: Eres un analista de datos en un sitio web de comercio electrónico y te han pedido que analices el tráfico del sitio para identificar las horas pico de visitas y la distribución del tráfico por categoría de producto. El objetivo es optimizar los recursos del servidor durante las horas de mayor actividad y ajustar las campañas publicitarias según las categorías más populares.

El sistema de seguimiento del sitio web genera logs que incluyen la hora exacta de la visita y la categoría del producto que el visitante exploró. Cada entrada de log tiene el siguiente formato:
- (timestamp, categoría_producto)
- Ejemplos de entradas de log:
  - ("2024-04-26 12:00:00", "Electrónicos")
  - ("2024-04-26 12:05:00", "Libros")
  - ("2024-04-26 12:09:00", "Ropa")
  - ("2024-04-26 12:15:00", "Hogar")
  - ("2024-04-26 13:00:00", "Electrónicos")

1. Crea un RDD con los datos de los logs proporcionados.
2. Extrae la hora (sin minutos ni segundos) de cada timestamp y agrupa los datos por hora para determinar cuándo ocurren las horas pico.
3. Utiliza `reduceByKey` para contar las visitas por cada categoría de producto y determinar cuáles son las más populares.
4. Genera un reporte final que muestre las horas pico de visitas y las tres categorías más populares.


**Ejercicio 3**: Imagina que eres un analista de datos trabajando para una agencia de marketing digital. Se te ha encargado analizar datos de redes sociales para identificar las tendencias de hashtags más populares que se utilizan en conjunto con ciertas palabras clave.

Se te han proporcionado extractos de publicaciones de una red social. Estas publicaciones incluyen una mezcla de texto normal y hashtags. Por ejemplo:
- "Amando la vida en la playa este verano #verano #playa"
- "¡Increíble tecnología que está cambiando el mundo! #innovación #tecnología"
- "Todo sobre cómo iniciar un negocio en línea #emprendimiento #negocios"
- "Descubre los secretos de una dieta saludable #salud #bienestar"

Tu tarea es extraer todos los hashtags y luego identificar aquellos que frecuentemente aparecen en publicaciones que contienen las palabras 'tecnología', 'salud' o 'negocios'.

1. Crea un RDD con los datos de las publicaciones.
2. Utiliza `flatMap` para descomponer las publicaciones en palabras y extraer los hashtags.
3. Filtra las publicaciones para encontrar aquellas que contienen las palabras clave 'tecnología', 'salud' o 'negocios'.
4. De estas publicaciones, extrae todos los hashtags y determina cuáles son los más comunes.
5. Genera un reporte final que muestre los hashtags más comunes para cada palabra clave.


# Tema 4: Uniendo RDDs con `join`, `leftOuterJoin`, y `rightOuterJoin`

Las operaciones de combinación son fundamentales en el procesamiento de datos para unir diferentes conjuntos de datos basados en claves comunes. PySpark proporciona varias funciones de combinación que permiten unir dos RDDs de formas variadas, dependiendo de los requerimientos del análisis:

- **`join`**: Combina dos RDDs donde la clave existe en ambos. El resultado es un RDD de pares clave-valor, donde cada valor es un par que contiene elementos de ambos RDDs para esa clave.
- **`leftOuterJoin`**: Combina dos RDDs pero mantiene todos los elementos del RDD de la izquierda, incluso si no hay una correspondencia en el RDD de la derecha. Los elementos del RDD derecho que no tienen una clave correspondiente en el RDD izquierdo aparecerán como `None`.
- **`rightOuterJoin`**: Similar al `leftOuterJoin`, pero mantiene todos los elementos del RDD de la derecha, y los elementos del RDD izquierdo sin correspondencia aparecerán como `None`.

Estas operaciones son esenciales para análisis donde se necesita integrar información de múltiples fuentes para obtener una vista más completa o para realizar comparaciones y análisis basados en datos agregados de varias tablas o fuentes de datos.


## Ejemplos

### Ejemplo 1
Consideremos un escenario donde tenemos dos conjuntos de datos: uno con información de ventas de productos y otro con detalles de los productos. Queremos combinar estos datos para obtener un informe completo que incluya el nombre del producto y sus ventas.

Los datos de ventas de productos consisten en pares de (producto_id, ventas), y los detalles de los productos en pares de (producto_id, nombre_producto). Nuestro objetivo es usar la función `join` para combinar estos dos RDDs por `producto_id` y así obtener un informe que relacione cada producto con sus respectivas ventas.


In [None]:
# Datos de ventas de productos (producto_id, ventas)
ventas_rdd = sc.parallelize([(1, 100), (2, 80), (3, 50)])

# Datos de detalles de productos (producto_id, nombre_producto)
detalles_rdd = sc.parallelize([(1, "Smartphone"), (2, "Tablet"), (3, "Laptop")])

# Realizar un join para combinar los datos
productos_ventas = ventas_rdd.join(detalles_rdd)

# Recoger y mostrar los resultados
resultados = productos_ventas.collect()
print("Reporte de Ventas:")
for id, (ventas, nombre) in resultados:
    print(f"{nombre}: {ventas} unidades vendidas")


### Ejemplo 2
En este ejemplo, vamos a simular un entorno donde necesitamos cargar datos desde archivos externos. Supongamos que tenemos dos archivos: uno con ventas de productos y otro con detalles de los productos. Estos archivos están almacenados en formato CSV y queremos leer estos datos en RDDs, luego combinarlos para obtener un informe detallado que relacione las ventas con los nombres de los productos.

Los archivos están estructurados de la siguiente manera:
- **ventas.csv**: Contiene `producto_id` y `ventas`, separados por comas.
- **detalles.csv**: Contiene `producto_id` y `nombre_producto`, separados por comas.

El objetivo es leer estos archivos, crear RDDs correspondientes y usar la función `join` para combinar estos RDDs por `producto_id`. Este proceso simulará un análisis real donde se combinan datos de ventas y detalles del producto para generar informes útiles.


In [None]:
# Leer los archivos en RDDs
# Suponiendo que los archivos están en el directorio actual donde se ejecuta PySpark
ventas_rdd = sc.textFile("ventas.csv")
detalles_rdd = sc.textFile("detalles.csv")

# Convertir las líneas de CSV a pares (producto_id, valor)
ventas_rdd = ventas_rdd.map(lambda line: line.split(",")).filter(lambda line: line[0] != "producto_id").map(lambda x: (int(x[0]), int(x[1])))
detalles_rdd = detalles_rdd.map(lambda line: line.split(",")).filter(lambda line: line[0] != "producto_id").map(lambda x: (int(x[0]), x[1]))

# Realizar un join para combinar los datos basados en producto_id
productos_ventas = ventas_rdd.join(detalles_rdd)

# Recoger y mostrar los resultados
resultados = productos_ventas.collect()
print("Reporte de Ventas Combinadas:")
for id, (ventas, nombre) in resultados:
    print(f"Producto: {nombre}, Ventas: {ventas} unidades")



### Ejemplo 3
Supongamos que estamos trabajando en un análisis para una empresa que desea entender mejor las tendencias de compra y las preferencias de sus clientes. Para ello, disponemos de tres conjuntos de datos: clientes, productos y ventas. Queremos combinar estos datos para obtener un informe detallado que relacione las ventas con los productos y los clientes.

- **clientes.csv**: Contiene `cliente_id`, `nombre`, y `region`.
- **productos.csv**: Contiene `producto_id`, `nombre_producto`, y `categoria`.
- **ventas2.csv**: Contiene `venta_id`, `cliente_id`, `producto_id`, y `cantidad`.

Nuestro objetivo es unir estos datos para crear un informe que muestre las preferencias de compra por región y categoría de producto, analizando las ventas y la distribución de los clientes.


In [None]:
# Suponiendo que los archivos están en el directorio actual donde se ejecuta PySpark
# Leer los archivos en RDDs
clientes_rdd = sc.textFile("clientes.csv").map(lambda line: line.split(",")).filter(lambda line: line[0] != "cliente_id").map(lambda x: (int(x[0]), (x[1], x[2])))
productos_rdd = sc.textFile("productos.csv").map(lambda line: line.split(",")).filter(lambda line: line[0] != "producto_id").map(lambda x: (int(x[0]), (x[1], x[2])))
ventas_rdd = sc.textFile("ventas2.csv").map(lambda line: line.split(",")).filter(lambda line: line[0] != "venta_id").map(lambda x: (int(x[1]), (int(x[2]), int(x[3]))))

# Unir las ventas con los productos por producto_id
ventas_productos = ventas_rdd.map(lambda x: (x[1][0], (x[0], x[1][1]))) # re-map para producto_id como clave
venta_detalle_producto = ventas_productos.join(productos_rdd).map(lambda x: (x[1][0][0], (x[0], x[1][0][1], x[1][1][0], x[1][1][1]))) # remap para cliente_id como clave

# Unir los resultados con los clientes
venta_detalle_final = venta_detalle_producto.join(clientes_rdd)

# Recoger y mostrar los resultados
resultados = venta_detalle_final.collect()
print("Reporte Detallado de Ventas:")
for cliente, ((producto_id, cantidad, nombre_producto, categoria), (nombre_cliente, region)) in resultados:
    print(f"Cliente: {nombre_cliente}, Región: {region}, Producto: {nombre_producto}, Categoría: {categoria}, Cantidad: {cantidad}")


## Ejercicios

**Ejercicio 1**: Eres un analista de datos en una empresa que vende productos tecnológicos. Se te ha dado la tarea de crear un informe que combine información de inventario de productos con datos de ventas recientes. El objetivo es producir un listado que muestre el nombre del producto junto con las unidades vendidas en el último mes. La información se encuentra en las bases de datos:

- **inventario.csv**: Contiene `producto_id` y `nombre_producto`.
- **ventas_mensuales.csv**: Contiene `producto_id` y `unidades_vendidas`.


1. Cargar los datos de ambos archivos en RDDs.
2. Utilizar la función `join` para combinar los datos de inventario con los de ventas basándose en `producto_id`.
3. Mostrar el resultado combinado que incluya el nombre del producto y las unidades vendidas.




**Ejercicio 2**: Eres un analista de datos trabajando para una compañía que quiere entender mejor la eficacia de su base de datos de clientes en relación con las transacciones realizadas. Algunos registros de transacciones pueden no tener un cliente registrado debido a errores en el proceso de entrada de datos o clientes que no se registraron correctamente. La información se encuentra almacenada en las bases de datos:

- **clientes2.csv**: Contiene `cliente_id`, `nombre`, y `region`.
- **transacciones.csv**: Contiene `transaccion_id`, `cliente_id`, y `monto`.

Se sabe que no todos los `cliente_id` en las transacciones tienen un correspondiente en la base de datos de clientes, y se desea identificar estas transacciones para un análisis posterior.

1. Cargar los datos de ambos archivos en RDDs.
2. Utilizar `leftOuterJoin` para unir las transacciones con los clientes.
3. Identificar y listar todas las transacciones que no tienen un cliente registrado asociado.
4. Mostrar el total del monto de las transacciones no registradas y el número de tales casos.



---

## Anexo: Expresiones Lambda en Python

### Definición y Finalidad
Las expresiones lambda en Python son pequeñas funciones anónimas definidas con la palabra clave `lambda`. Lambda puede tener cualquier número de argumentos, pero solo puede tener una expresión. Son sintácticamente restringidas a una sola expresión. Se usan ampliamente en situaciones donde se necesita una función por un corto período de tiempo y definirla con la sintaxis normal de función sería excesivo.

### Estructura de una Expresión Lambda
La sintaxis básica de una expresión lambda es:

```python
lambda arguments: expression


In [None]:
# Ejemplo de función lambda que suma dos números
sumar = lambda x, y: x + y
print(sumar(3, 5))  # Salida: 8


In [None]:
# Ejemplo de función lambda con operador condicional
# Devuelve el mayor de dos números
mayor = lambda x, y: x if x > y else y
print(mayor(8, 5))  # Salida: 8


In [None]:
# Ejemplo de función lambda utilizada con map()
# Calcula el cuadrado de cada número en una lista
numeros = [1, 2, 3, 4, 5]
cuadrados = list(map(lambda x: x**2, numeros))
print(cuadrados)  # Salida: [1, 4, 9, 16, 25]


In [None]:
# Ejemplo de función lambda utilizada con filter()
# Filtra y devuelve solo los números pares de una lista
numeros = [1, 2, 3, 4, 5]
pares = list(filter(lambda x: x % 2 == 0, numeros))
print(pares)  # Salida: [2, 4]
