# **Paso a Paso Para Realizar Instalacion de Apache Spark en Colab**
# **🤯**
---

In [None]:
import os

# 1. Función para instalar OpenJDK 8


In [None]:
# Función para instalar OpenJDK 8 si no está instalado previamente.
def install_java():
    # Verifica si la ruta del JDK existe.
    if not os.path.exists('/usr/lib/jvm/java-8-openjdk-amd64'):
        print("Instalando OpenJDK 8...")
        # Comando para instalar Java en modo silencioso.
        !apt-get install openjdk-8-jdk-headless -qq > /dev/null
        print("OpenJDK 8 instalado correctamente.")
    else:
        print("OpenJDK 8 ya está instalado.")

# 2. Función para descargar Apache Spark

In [None]:
# Función para descargar Apache Spark solo si no está ya descargado.
def download_spark():
    # URL y nombre del archivo comprimido de Spark.
    spark_url = "https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si el archivo comprimido ya existe.
    if not os.path.exists(spark_tar):
        print("Descargando Apache Spark...")
        # Comando para descargar el archivo desde la URL.
        !wget -q $spark_url
        print("Descarga completa.")
    else:
        print("El archivo de Apache Spark ya está descargado.")

# 3. Función para descomprimir Apache Spark

In [None]:
# Función para descomprimir el archivo de Apache Spark solo si no está descomprimido.
def extract_spark():
    # Nombre de la carpeta descomprimida.
    spark_dir = "spark-3.4.3-bin-hadoop3"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si la carpeta descomprimida ya existe.
    if not os.path.exists(spark_dir):
        print("Descomprimiendo Apache Spark...")
        # Comando para descomprimir el archivo.
        !tar xf $spark_tar
        print("Apache Spark descomprimido.")
    else:
        print("La carpeta de Apache Spark ya existe.")

# 4. Función para configurar variables de entorno

In [None]:
# Función para configurar las variables de entorno necesarias para Spark.
def set_environment_variables():
    # Establece la ruta de JAVA_HOME y SPARK_HOME.
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"
    print("Variables de entorno configuradas.")

# 5. Función para verificar si un paquete está instalado

In [None]:
# Función para verificar si un paquete de Python ya está instalado.
import subprocess
import sys

def is_package_installed(package_name):
    try:
        # Ejecuta el comando `pip show` para verificar si el paquete está instalado.
        subprocess.check_call(
            [sys.executable, "-m", "pip", "show", package_name],
            stdout=subprocess.DEVNULL,
            stderr=subprocess.DEVNULL
        )
        return True
    except subprocess.CalledProcessError:
        return False

# 6. Función para instalar findspark y pyspark

In [None]:
# Función para instalar librerías de Python necesarias (findspark y pyspark).
def install_python_libraries():
    # Verifica e instala findspark.
    if not is_package_installed("findspark"):
        print("Instalando findspark...")
        !pip install -q findspark
    else:
        print("findspark ya está instalado.")

    # Verifica e instala pyspark.
    if not is_package_installed("pyspark"):
        print("Instalando pyspark...")
        !pip install -q pyspark
    else:
        print("pyspark ya está instalado.")

# **7. Llamar a las funciones**

In [None]:
install_java()                # Instala OpenJDK 8
download_spark()              # Descarga Apache Spark
extract_spark()               # Descomprime Apache Spark
set_environment_variables()   # Configura las variables de entorno
install_python_libraries()    # Instala las librerías de Python

OpenJDK 8 ya está instalado.
El archivo de Apache Spark ya está descargado.
La carpeta de Apache Spark ya existe.
Variables de entorno configuradas.
findspark ya está instalado.
pyspark ya está instalado.




---
---


# 8. Verificar la Instalacion

In [None]:
# Importamos la biblioteca findspark
import findspark

# Inicializamos findspark para configurar las rutas necesarias para Spark
findspark.init()

# Importamos SparkSession desde pyspark.sql
from pyspark.sql import SparkSession

# Creamos una instancia de SparkSession
# - `master("local[*]")`: Ejecuta Spark en modo local usando todos los núcleos disponibles.
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Crear un DataFrame de ejemplo con varias columnas
# - `datos`: Es una lista de tuplas, donde cada tupla representa una fila del DataFrame.
# - `columnas`: Especifica los nombres de las columnas.
datos = [
    ("Jorge Luis", 46, "Científico de Datos"),
    ("Maria Gabriela", 41, "Administrador"),
    ("Barbara", 10, "Pintor"),
    ("Marco Antonio", 5, "Pre-Esccolar"),
    ("Luis", 74, "Escritor")
]
columnas = ["Nombre", "Edad", "Profesión"]

# Creamos el DataFrame utilizando los datos y las columnas especificadas
df = spark.createDataFrame(datos, columnas)

# Mostramos el contenido del DataFrame
# - `show()`: Muestra las primeras filas del DataFrame.
# - `truncate=False`: Evita truncar los valores largos en las columnas.
df.show(truncate=False)

+--------------+----+-------------------+
|Nombre        |Edad|Profesión          |
+--------------+----+-------------------+
|Jorge Luis    |46  |Científico de Datos|
|Maria Gabriela|41  |Administrador      |
|Barbara       |10  |Pintor             |
|Marco Antonio |5   |Pre-Esccolar       |
|Luis          |74  |Escritor           |
+--------------+----+-------------------+



# 👌 🆗 **Culminado**

---
---

# **Operaciones principales en RDD**

# 🔖

## Introducción

Un Resilient Distributed Dataset (RDD) en Apache Spark es una colección distribuida de elementos que puede ser procesada en paralelo. Los RDD ofrecen dos tipos principales de operaciones: transformaciones y acciones. En este documento, nos enfocaremos en las transformaciones y las clasificaremos en diferentes categorías según su naturaleza.

---

# "Iniciar Sesion de Spark"

In [None]:
sc = spark.sparkContext

---

## 1. Transformaciones generales

Las transformaciones generales permiten modificar o reorganizar los datos dentro de un RDD. Estas incluyen:

### a. **Dividir los elementos de entrada**

Esta transformación se utiliza para dividir los elementos de un RDD en subcomponentes. Una operación común es `flatMap`, que genera múltiples salidas para cada entrada.

In [None]:
rdd = sc.parallelize(["hola mundo", "aprendiendo Spark", "RDD en acción"])
resultado = rdd.flatMap(lambda linea: linea.split(" "))
print(resultado.collect())

['hola', 'mundo', 'aprendiendo', 'Spark', 'RDD', 'en', 'acción']


### b. **Filtrar elementos**

La operación `filter` permite seleccionar sólo los elementos que cumplen una condición determinada.

In [None]:
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
resultado = rdd.filter(lambda x: x % 2 == 0)
print(resultado.collect())

[2, 4, 6, 8, 10]


### c. **Realizar cálculos**

Se pueden realizar transformaciones matemáticas como operaciones aritméticas utilizando `map`.

In [None]:
rdd = sc.parallelize([1, 2, 3, 4, 5])
resultado = rdd.map(lambda x: x ** 2)
print(resultado.collect())

[1, 4, 9, 16, 25]


---

## 2. Transformaciones matemáticas

Estas transformaciones están diseñadas para realizar operaciones aritméticas o algebraicas sobre los datos.

### a. **Suma acumulativa**

Utilizando `reduceByKey`, se puede sumar valores asociados con claves específicas.

In [None]:
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])
resultado = rdd.reduceByKey(lambda x, y: x + y)
print(resultado.collect())

[('b', 6), ('a', 4)]


### b. **Cálculo promedio**

Podemos calcular el promedio agrupando valores por clave y dividiendo la suma por el conteo.

In [None]:
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])
resultado = rdd\
    .mapValues(lambda x: (x, 1))\
    .reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1]))\
    .mapValues(lambda x: x[0] / x[1])
print(resultado.collect())

[('b', 3.0), ('a', 2.0)]


---

## 3. Transformaciones de conjunto o relacionales

Estas transformaciones operan en conjuntos de datos y se utilizan para relaciones como uniones, intersecciones o diferencias.

### a. **Unión de RDDs**

Combina los elementos de dos RDDs distintos.

In [None]:
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
resultado = rdd1.union(rdd2)
print(resultado.collect())

[1, 2, 3, 4, 5, 6]


### b. **Intersección de RDDs**

Obtiene los elementos comunes entre dos RDDs.

In [None]:
rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([3, 4, 5, 6])
resultado = rdd1.intersection(rdd2)
print(resultado.collect())

[4, 3]


### c. **Diferencia de RDDs**

Obtiene los elementos que están en un RDD pero no en otro.

In [None]:
rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([3, 4, 5, 6])
resultado = rdd1.subtract(rdd2)
print(resultado.collect())

[1, 2]


---

## 4. Transformaciones basadas en estructuras de datos

Estas transformaciones permiten manipular los datos basados en su estructura.

### a. **Agrupación de elementos**

Se agrupan elementos utilizando `groupByKey`.

In [None]:
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3), ("b", 4)])
resultado = rdd.groupByKey().mapValues(list)
print(resultado.collect())

[('b', [2, 4]), ('a', [1, 3])]


### b. **Ordenar elementos**

Se pueden ordenar los datos por clave usando `sortByKey`.

In [None]:
rdd = sc.parallelize([(2, "dos"), (1, "uno"), (3, "tres")])
resultado = rdd.sortByKey()
print(resultado.collect())

[(1, 'uno'), (2, 'dos'), (3, 'tres')]


---

## 5. Funciones adicionales

### a. **coalesce**

Reduce el número de particiones en un RDD para optimizar el rendimiento y ahorrar memoria. Es útil para disminuir particiones al escribir datos en disco.

**Nota:** Esta operación es muy costosa porque implica mover datos entre nodos y redistribuir las particiones. Por ello, es recomendable minimizar su uso siempre que sea posible.

In [None]:
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8], 4)
resultado = rdd.coalesce(2)
print(resultado.getNumPartitions())

2


### b. **repartition**

Aumenta o disminuye el número de particiones de un RDD. A diferencia de `coalesce`, permite el reparto uniforme de los datos a través de un shuffle.

**Nota:** `repartition` también es una operación costosa, ya que involucra un shuffle completo de los datos en la red, lo que puede impactar significativamente el rendimiento. Es preferible planificar adecuadamente las particiones iniciales para evitar su uso.

In [None]:
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8], 2)
resultado = rdd.repartition(4)
print(resultado.getNumPartitions())

4


### c. **distinct**

Elimina los duplicados en un RDD.

In [None]:
rdd = sc.parallelize([1, 2, 2, 3, 4, 4, 5])
resultado = rdd.distinct()
print(resultado.collect())

[2, 4, 1, 3, 5]


### d. **sample**

Extrae una muestra aleatoria de los datos en un RDD.

In [None]:
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
resultado = rdd.sample(False, 0.3)
print(resultado.collect())

[2, 10]


### e. **cartesian**

Realiza el producto cartesiano entre dos RDDs.

In [None]:
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize(["a", "b", "c"])
resultado = rdd1.cartesian(rdd2)
print(resultado.collect())

[(1, 'a'), (1, 'b'), (1, 'c'), (2, 'a'), (3, 'a'), (2, 'b'), (2, 'c'), (3, 'b'), (3, 'c')]


### f. **zip**

Combina dos RDDs en un par (clave, valor).

In [None]:
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize(["a", "b", "c"])
resultado = rdd1.zip(rdd2)
print(resultado.collect())

[(1, 'a'), (2, 'b'), (3, 'c')]


### g. **mapPartitions**

Aplica una función a cada partición completa en lugar de cada elemento individual, útil para optimizaciones.

In [None]:
# Crear un RDD
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 3)

# Definir una función que procese cada partición
def procesar_particion(particion):
    # Multiplicar cada elemento de la partición por 2
    return (x * 2 for x in particion)

# Aplicar mapPartitions al RDD
resultado = rdd.mapPartitions(procesar_particion)

# Mostrar el resultado
print(resultado.collect())

[2, 4, 6, 8, 10, 12, 14, 16, 18]


### h. **glom**

Convierte cada partición de un RDD en una lista. El resultado es un nuevo RDD donde cada elemento representa una partición original como una lista. Esto te permite ver cómo están distribuidos los datos en cada partición o realizar operaciones específicas en las particiones completas.

In [None]:
# Crear un RDD
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 4)

# Mostrar los elementos de cada partición
print("Elementos en cada partición:", rdd.glom().collect())
print("Elementos en partición 0:", rdd.glom().collect()[0][1])
print("Elementos en partición 0:", rdd.glom().collect()[1:3])


# Definir una función que procese cada partición
def procesar_particion(particion):
    # Multiplicar cada elemento de la partición por 2
    return (x * 2 for x in particion)

# Aplicar mapPartitions al RDD
resultado = rdd.mapPartitions(procesar_particion)

# Mostrar el resultado final
print("Resultado procesado:", resultado.collect())


Elementos en cada partición: [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
Elementos en partición 0: 2
Elementos en partición 0: [[4, 5, 6], [7, 8, 9]]
Resultado procesado: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24]


In [None]:
# Crear un RDD
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 4)

# Obtener todas las particiones
particiones = rdd.glom().collect()

# Mostrar las particiones 0 y 3
print("Elementos en cada partición:", [particiones[0], particiones[3]])

# Mostrar elementos de la partición 0
print("Elementos en partición 0:", particiones[0])

# Mostrar elementos de la partición 3
print("Elementos en partición 3:", particiones[3])

# Definir una función que procese cada partición
def procesar_particion(particion):
    # Multiplicar cada elemento de la partición por 2
    return (x * 2 for x in particion)

# Aplicar mapPartitions al RDD
resultado = rdd.mapPartitions(procesar_particion)

# Mostrar el resultado final
print("Resultado procesado:", resultado.collect())


Elementos en cada partición: [[1, 2, 3], [10, 11, 12]]
Elementos en partición 0: [1, 2, 3]
Elementos en partición 3: [10, 11, 12]
Resultado procesado: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24]


# **Ejercicios de Operaciones en los RDD:**

# ⚡



## 1. Cree un RDD llamado lenguajes que contenga los siguientes lenguajes de programación: Python, R, C, Scala, Rugby y SQL.



In [None]:
# Crear el RDD 'lenguajes' con los lenguajes de programación
lenguajes = sc.parallelize(["Python", "R", "C", "Scala", "Rugby", "SQL"])

# Mostrar el contenido del RDD
print(lenguajes.collect())

['Python', 'R', 'C', 'Scala', 'Rugby', 'SQL']


a. `Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en mayúsculas.`

In [None]:
# Crear el RDD 'lenguajes' con los lenguajes de programación
lenguajes = sc.parallelize(["Python", "R", "C", "Scala", "Rugby", "SQL"])

# Crear un nuevo RDD con los lenguajes en mayúsculas
lenguajes_mayusculas = lenguajes.map(lambda x: x.upper())

# Mostrar el contenido del nuevo RDD
print(lenguajes_mayusculas.collect())

['PYTHON', 'R', 'C', 'SCALA', 'RUGBY', 'SQL']


b. `Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en minúsculas.`

In [None]:
# Crear el RDD 'lenguajes' con los lenguajes de programación
lenguajes = sc.parallelize(["Python", "R", "C", "Scala", "Rugby", "SQL"])

# Crear un nuevo RDD con los lenguajes en minúsculas
lenguajes_minusculas = lenguajes.map(lambda x: x.lower())

# Mostrar el contenido del nuevo RDD
print(lenguajes_minusculas.collect())

['python', 'r', 'c', 'scala', 'rugby', 'sql']


 c. `Cree un nuevo RDD que solo contenga aquellos lenguajes de programación que comiencen con la letra R.`

In [None]:
# Crear el RDD 'lenguajes' con los lenguajes de programación
lenguajes = sc.parallelize(["Python", "R", "C", "Scala", "Rugby", "SQL"])

# Filtrar los lenguajes que comienzan con la letra 'R'
lenguajes_r = lenguajes.filter(lambda x: x.startswith('R'))

# Mostrar el contenido del nuevo RDD
print(lenguajes_r.collect())

['R', 'Rugby']


## 2. Cree un RDD llamado pares que contenga los números pares existentes en el intervalo [20;30].

In [None]:
# Crear el RDD 'pares' con los números pares en el intervalo [20, 30]
pares = sc.parallelize([x for x in range(20, 31) if x % 2 == 0])

# Mostrar el contenido del RDD
print(pares.collect())

[20, 22, 24, 26, 28, 30]


a. `Cree el RDD llamado sqrt, este debe contener la raíz cuadrada de los elementos que componen el RDD pares.`

In [None]:
import math

# Crear el RDD 'sqrt' con la raíz cuadrada de cada elemento del RDD 'pares' redondeada a 3 decimales
sqrt = pares.map(lambda x: round(math.sqrt(x), 3))

# Mostrar el contenido del RDD 'sqrt'
print(sqrt.collect())

[4.472, 4.69, 4.899, 5.099, 5.292, 5.477]


b. `Obtenga una lista compuesta por los números pares en el intervalo [20;30] y sus respectivas raíces cuadradas.`

Un ejemplo del resultado deseado para el intervalo [50;60] sería la lista [50, 7.0710678118654755, 52, 7.211102550927978, 54, 7.3484692283495345, 56, 7.483314773547883, 58, 7.615773105863909, 60, 7.745966692414834].

In [None]:
# Calcular la raíz cuadrada de los números pares y combinarlos en una lista alternada con dos decimales
pares_y_sqrt = pares.map(lambda x: (x, round(math.sqrt(x), 2))).collect()

# Aplanar la lista de tuplas para obtener una lista alternada (número, raíz cuadrada)
resultado = [elem for pair in pares_y_sqrt for elem in pair]

# Mostrar el resultado
print(resultado)

[20, 4.47, 22, 4.69, 24, 4.9, 26, 5.1, 28, 5.29, 30, 5.48]


c. `Eleve el número de particiones del RDD sqrt a 20.`

In [None]:
# Elevar el número de particiones del RDD 'sqrt' a 20
sqrt_con_20_particiones = sqrt.repartition(20)

# Mostrar el número de particiones del nuevo RDD
print("Número de particiones:", sqrt_con_20_particiones.getNumPartitions())

Número de particiones: 20


d. `Si tuviera que disminuir el número de particiones luego de haberlo establecido en 20, ¿qué función utilizaría para hacer más eficiente su código?`

In [None]:
# Reducir el número de particiones a 5 de manera eficiente
sqrt_con_menos_particiones = sqrt.coalesce(5)

# Mostrar el número de particiones del nuevo RDD
print("Número de particiones después de reducir:", sqrt_con_menos_particiones.getNumPartitions())

Número de particiones después de reducir: 2


## 3. Cree un RDD del tipo clave valor a partir de los datos adjuntos como recurso a esta lección. Tenga en cuenta que deberá procesar el RDD leído para obtener el resultado solicitado.

Supongamos que el RDD resultante de tipo clave valor refleja las transacciones realizadas por número de cuentas. Obtenga el monto total por cada cuenta.

`Data del Archivo:`

(1001, 52.3)

(1005, 20.8)

(1001, 10.1)

(1004, 52.7)

(1005, 20.7)

(1002, 85.3)

(1004, 20.9)


In [None]:
# Cargar el archivo .txt en un RDD
rdd = sc.textFile("/content/sample_data/transacciones")

# Convertir cada línea en una tupla (número de cuenta, monto) y crear el RDD de tipo clave-valor
rdd_clave_valor = rdd.map(lambda x: eval(x))  # eval convierte la cadena '(1001, 52.3)' en una tupla

# Sumar los montos por cuenta usando reduceByKey
resultado = rdd_clave_valor.reduceByKey(lambda x, y: x + y)

# Mostrar el resultado final (monto total por cada cuenta)
print(resultado.collect())

[(1004, 73.6), (1002, 85.3), (1001, 62.4), (1005, 41.5)]
