In [None]:
import os

# Función para instalar OpenJDK 8 si no está instalado previamente.
def install_java():
    # Verifica si la ruta del JDK existe.
    if not os.path.exists('/usr/lib/jvm/java-8-openjdk-amd64'):
        print("Instalando OpenJDK 8...")
        # Comando para instalar Java en modo silencioso.
        !apt-get install openjdk-8-jdk-headless -qq > /dev/null
        print("OpenJDK 8 instalado correctamente.")
    else:
        print("OpenJDK 8 ya está instalado.")



# Función para descargar Apache Spark solo si no está ya descargado.
def download_spark():
    # URL y nombre del archivo comprimido de Spark.
    spark_url = "https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si el archivo comprimido ya existe.
    if not os.path.exists(spark_tar):
        print("Descargando Apache Spark...")
        # Comando para descargar el archivo desde la URL.
        !wget -q $spark_url
        print("Descarga completa.")
    else:
        print("El archivo de Apache Spark ya está descargado.")



# Función para descomprimir el archivo de Apache Spark solo si no está descomprimido.
def extract_spark():
    # Nombre de la carpeta descomprimida.
    spark_dir = "spark-3.4.3-bin-hadoop3"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si la carpeta descomprimida ya existe.
    if not os.path.exists(spark_dir):
        print("Descomprimiendo Apache Spark...")
        # Comando para descomprimir el archivo.
        !tar xf $spark_tar
        print("Apache Spark descomprimido.")
    else:
        print("La carpeta de Apache Spark ya existe.")



# Función para configurar las variables de entorno necesarias para Spark.
def set_environment_variables():
    # Establece la ruta de JAVA_HOME y SPARK_HOME.
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"
    print("Variables de entorno configuradas.")



# Función para verificar si un paquete de Python ya está instalado.
import subprocess
import sys

def is_package_installed(package_name):
    try:
        # Ejecuta el comando `pip show` para verificar si el paquete está instalado.
        subprocess.check_call(
            [sys.executable, "-m", "pip", "show", package_name],
            stdout=subprocess.DEVNULL,
            stderr=subprocess.DEVNULL
        )
        return True
    except subprocess.CalledProcessError:
        return False



# Función para instalar librerías de Python necesarias (findspark y pyspark).
def install_python_libraries():
    # Verifica e instala findspark.
    if not is_package_installed("findspark"):
        print("Instalando findspark...")
        !pip install -q findspark
    else:
        print("findspark ya está instalado.")

    # Verifica e instala pyspark.
    if not is_package_installed("pyspark"):
        print("Instalando pyspark...")
        !pip install -q pyspark
    else:
        print("pyspark ya está instalado.")



install_java()                # Instala OpenJDK 8
download_spark()              # Descarga Apache Spark
extract_spark()               # Descomprime Apache Spark
set_environment_variables()   # Configura las variables de entorno
install_python_libraries()    # Instala las librerías de Python

OpenJDK 8 ya está instalado.
El archivo de Apache Spark ya está descargado.
La carpeta de Apache Spark ya existe.
Variables de entorno configuradas.
findspark ya está instalado.
pyspark ya está instalado.


# **Ejercicios de Introduccion a los RDD:**

# ⚡

1. Cree una sesión de Spark con nombre Cap2 y asegúrese de que emplea todos los cores disponibles para ejecutar en su ambiente de trabajo

In [None]:
# Importamos la biblioteca findspark, que ayuda a configurar PySpark en el entorno de Python.
# Findspark asegura que el programa pueda localizar la instalación de Apache Spark en el sistema.
import findspark

# Inicializamos findspark para que configure automáticamente las variables necesarias
# y encuentre la instalación de Spark en el sistema. Este paso es útil especialmente
# si Spark no está configurado globalmente en las variables de entorno del sistema.
findspark.init()

In [None]:
# Importamos SparkSession, que es la entrada principal para usar Spark SQL y trabajar con datos estructurados.
from pyspark.sql import SparkSession

# Creamos una sesión de Spark. Este objeto nos permite interactuar con el framework Apache Spark.
# builder: Es un método para configurar la sesión.
# master("local[*]"): Define dónde se ejecutará el procesamiento.
#    - "local[*]" significa que se usará el modo local y se aprovecharán todos los núcleos del procesador disponibles.
# appName('Curso Pyspark'): Especifica un nombre para la aplicación Spark. Este nombre se verá en la interfaz web de Spark.
# getOrCreate(): Si ya existe una sesión con la misma configuración, la reutiliza. Si no, crea una nueva.
spark = SparkSession.builder.master("local[*]").appName('Cap2').getOrCreate()

# Mostramos la sesión creada. Esto imprime información básica sobre la configuración y el entorno de Spark.
spark

2. Cree dos RDD vacíos, uno de ellos no debe contener particiones y el otro debe tener 5 particiones. Utilice vías diferentes para crear cada RDD.

In [None]:
# Crear un RDD vacío sin particiones
# `emptyRDD()` crea un RDD completamente vacío, sin ningún dato.
# Este RDD no tendrá particiones explícitas, ya que no se especifica el número.
rdd_sin_particiones = spark.sparkContext.emptyRDD()

# Mostrar las particiones del RDD
# `getNumPartitions()` devuelve el número de particiones del RDD.
# Como no se especificaron particiones al crear este RDD, por defecto será una sola partición.
print("Número de particiones en rdd_sin_particiones:", rdd_sin_particiones.getNumPartitions())

Número de particiones en rdd_sin_particiones: 0


In [None]:
# Crear un RDD vacío con 5 particiones
# `parallelize([], 5)` crea un RDD vacío (sin datos) especificando que debe tener 5 particiones.
# Esto asegura que, aunque el RDD no contenga datos, estará dividido en 5 particiones,
# lo cual puede ser útil para mantener una estructura consistente para operaciones futuras.
rdd_con_particiones = spark.sparkContext.parallelize([], 5)

# Mostrar las particiones del RDD
# `getNumPartitions()` se utiliza para consultar cuántas particiones tiene el RDD.
# Este paso confirma que el RDD fue creado correctamente con el número de particiones especificado.
print("Número de particiones en rdd_con_particiones:", rdd_con_particiones.getNumPartitions())

Número de particiones en rdd_con_particiones: 5


3. Cree un RDD que contenga los números primos que hay entre 1 y 20.

In [None]:
from pyspark.sql import SparkSession

# Crear una sesión de Spark
# Aquí se inicia una sesión Spark para trabajar con RDDs.
spark = SparkSession.builder.master("local[*]").appName("Números Primos").getOrCreate()

# Crear un SparkContext
# SparkContext es necesario para trabajar directamente con RDDs.
sc = spark.sparkContext

# Función auxiliar para verificar si un número es primo
# Esta función toma un número `n` y devuelve True si es primo, de lo contrario, False.
def es_primo(n):
    # Los números menores que 2 no son primos
    if n < 2:
        return False
    # Verificamos divisores desde 2 hasta la raíz cuadrada del número
    for i in range(2, int(n**0.5) + 1):
        if n % i == 0:  # Si `n` es divisible por `i`, no es primo
            return False
    return True  # Si no se encontraron divisores, el número es primo

# Crear un RDD con los números del 1 al 20
# `parallelize` toma una lista y la convierte en un RDD que Spark puede procesar.
rdd_numeros = sc.parallelize(range(1, 21))

# Filtrar los números primos
# Usamos `filter` para aplicar la función `es_primo` a cada elemento del RDD.
# Solo los elementos para los cuales `es_primo` devuelve True permanecerán en el RDD resultante.
rdd_primos = rdd_numeros.filter(es_primo)

# Recoger los resultados del RDD y mostrarlos
# `collect` devuelve todos los elementos del RDD como una lista en el controlador (entorno local).
resultado_primos = rdd_primos.collect()
print("Números primos entre 1 y 20:", resultado_primos)

Números primos entre 1 y 20: [2, 3, 5, 7, 11, 13, 17, 19]


4. Cree un nuevo RDD a partir del RDD creado en el ejercicio anterior el cuál solo contenga los números primos mayores a 10.

In [None]:
# Filtrar los números primos mayores a 10
# Utilizamos `filter` nuevamente, pero esta vez solo dejamos los números mayores a 10.
rdd_primos_mayores_a_10 = rdd_primos.filter(lambda x: x > 10)

# Recoger los resultados del nuevo RDD y mostrarlos
# `collect` devuelve todos los elementos del RDD como una lista en el controlador (entorno local).
resultado_primos_mayores_a_10 = rdd_primos_mayores_a_10.collect()

# Mostrar los números primos mayores a 10
print("Números primos mayores a 10:", resultado_primos_mayores_a_10)

Números primos mayores a 10: [11, 13, 17, 19]


5. Descargue el archivo de texto adjunto a esta lección como recurso y guárdelo en una carpeta llamada data en el ambiente de trabajo de Colab.


*   Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en ***`un solo`*** registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?

In [None]:
# Crear un RDD desde un archivo de texto en donde todo el archivo de texto este en un solo registro
rdd_texto_2 = sc.wholeTextFiles('/content/sample_data/el_valor_del_big_data.txt')
rdd_texto_2.collect()

[('file:/content/sample_data/el_valor_del_big_data.txt',
  'El valor y la realidad de big data\r\nEn los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\r\n\r\n--\r\n\r\nHoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\r\n\r\nAvances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\r\n\r

---

Cree un RDD a partir de este archivo de texto en donde todo el documento esté contenido en **`varios`** registro. ¿Cómo podría saber la dirección donde está guardado el archivo de texto a partir del RDD creado?

In [None]:
# Crear un RDD desde un archivo de texto
rdd_texto = sc.textFile('/content/sample_data/el_valor_del_big_data.txt')

# ver el contenido
rdd_texto.collect()

['El valor y la realidad de big data',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?',
 '',
 '--',
 '',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.',
 '',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.',
 '',
 '--',
 '',
 'Identificar el valor del big data n

*   Si necesitara crear un RDD a partir del archivo de texto cargado previamente en donde cada línea del archivo fuera un registro del RDD, ¿cómo lo haría?

In [None]:
# Extraer el contenido del archivo del RDD original y dividirlo en líneas
rdd_lineas = rdd_texto_2.flatMap(lambda x: x[1].splitlines())

# Mostrar las líneas del nuevo RDD
resultado_lineas = rdd_lineas.collect()
print("Contenido del RDD con cada línea como un registro:")
for linea in resultado_lineas:
    print(linea)

Contenido del RDD con cada línea como un registro:
El valor y la realidad de big data
En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?

--

Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.

Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.

--

Identificar el valor del big d