In [1]:
import os

# Funci√≥n para instalar OpenJDK 8 si no est√° instalado previamente.
def install_java():
    # Verifica si la ruta del JDK existe.
    if not os.path.exists('/usr/lib/jvm/java-8-openjdk-amd64'):
        print("Instalando OpenJDK 8...")
        # Comando para instalar Java en modo silencioso.
        !apt-get install openjdk-8-jdk-headless -qq > /dev/null
        print("OpenJDK 8 instalado correctamente.")
    else:
        print("OpenJDK 8 ya est√° instalado.")



# Funci√≥n para descargar Apache Spark solo si no est√° ya descargado.
def download_spark():
    # URL y nombre del archivo comprimido de Spark.
    spark_url = "https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si el archivo comprimido ya existe.
    if not os.path.exists(spark_tar):
        print("Descargando Apache Spark...")
        # Comando para descargar el archivo desde la URL.
        !wget -q $spark_url
        print("Descarga completa.")
    else:
        print("El archivo de Apache Spark ya est√° descargado.")



# Funci√≥n para descomprimir el archivo de Apache Spark solo si no est√° descomprimido.
def extract_spark():
    # Nombre de la carpeta descomprimida.
    spark_dir = "spark-3.4.3-bin-hadoop3"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si la carpeta descomprimida ya existe.
    if not os.path.exists(spark_dir):
        print("Descomprimiendo Apache Spark...")
        # Comando para descomprimir el archivo.
        !tar xf $spark_tar
        print("Apache Spark descomprimido.")
    else:
        print("La carpeta de Apache Spark ya existe.")



# Funci√≥n para configurar las variables de entorno necesarias para Spark.
def set_environment_variables():
    # Establece la ruta de JAVA_HOME y SPARK_HOME.
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"
    print("Variables de entorno configuradas.")



# Funci√≥n para verificar si un paquete de Python ya est√° instalado.
import subprocess
import sys

def is_package_installed(package_name):
    try:
        # Ejecuta el comando `pip show` para verificar si el paquete est√° instalado.
        subprocess.check_call(
            [sys.executable, "-m", "pip", "show", package_name],
            stdout=subprocess.DEVNULL,
            stderr=subprocess.DEVNULL
        )
        return True
    except subprocess.CalledProcessError:
        return False



# Funci√≥n para instalar librer√≠as de Python necesarias (findspark y pyspark).
def install_python_libraries():
    # Verifica e instala findspark.
    if not is_package_installed("findspark"):
        print("Instalando findspark...")
        !pip install -q findspark
    else:
        print("findspark ya est√° instalado.")

    # Verifica e instala pyspark.
    if not is_package_installed("pyspark"):
        print("Instalando pyspark...")
        !pip install -q pyspark
    else:
        print("pyspark ya est√° instalado.")



install_java()                # Instala OpenJDK 8
download_spark()              # Descarga Apache Spark
extract_spark()               # Descomprime Apache Spark
set_environment_variables()   # Configura las variables de entorno
install_python_libraries()    # Instala las librer√≠as de Python

Instalando OpenJDK 8...
OpenJDK 8 instalado correctamente.
Descargando Apache Spark...
Descarga completa.
Descomprimiendo Apache Spark...
Apache Spark descomprimido.
Variables de entorno configuradas.
Instalando findspark...
pyspark ya est√° instalado.


---

### **¬øQu√© es el almacenamiento en cach√© en PySpark?**

En PySpark, el almacenamiento en cach√© (caching) permite guardar datos en la memoria para que puedan ser reutilizados en operaciones posteriores sin necesidad de recalcularlos o volver a leerlos desde el almacenamiento original. Esto mejora significativamente el rendimiento, especialmente cuando se realizan m√∫ltiples operaciones sobre los mismos datos.

---

### **¬øPor qu√© usar cach√©?**
1. **Evita c√°lculos repetidos:** Cuando trabajas con transformaciones como `filter`, `map`, o `join`, Spark recalcula todo el conjunto de datos desde el principio si no est√° en cach√©.
2. **Acelera las operaciones:** Los datos almacenados en memoria se acceden mucho m√°s r√°pido que los almacenados en disco o recomputados.
3. **Ideal para reutilizaci√≥n:** Si necesitas ejecutar m√∫ltiples acciones sobre el mismo DataFrame o RDD, cach√© es esencial.

---

### **¬øC√≥mo usar el cach√© en PySpark?**
Puedes almacenar en cach√© un **RDD** o un **DataFrame** usando el m√©todo `cache()` o `persist()`.

1. **`cache()`:** Guarda los datos en memoria (por defecto). Ejemplo:
   ```python
   df.cache()  # DataFrame estar√° en cach√©
   df.show()   # Primera acci√≥n, los datos son cargados en memoria
   ```

2. **`persist(storageLevel)`:** Ofrece m√°s control sobre c√≥mo y d√≥nde guardar los datos (por ejemplo, en disco o memoria). Ejemplo:
   ```python
   from pyspark import StorageLevel

   df.persist(StorageLevel.MEMORY_AND_DISK)  # Guarda en memoria y disco
   df.count()  # Primera acci√≥n, los datos se almacenan
   ```

---

### **Algunos niveles de persistencia comunes:**
- **`MEMORY_ONLY` (predeterminado):** Almacena solo en memoria. Si no cabe, los datos no se guardan.
- **`MEMORY_AND_DISK`:** Si no hay suficiente memoria, guarda el exceso en disco.
- **`DISK_ONLY`:** Guarda √∫nicamente en disco (m√°s lento).

---

### **Consideraciones:**
- Usa cach√© solo si los datos ser√°n reutilizados. De lo contrario, ocupa memoria innecesariamente.
- Recuerda liberar la memoria con `unpersist()` cuando ya no necesites los datos:
  ```python
  df.unpersist()
  ```

---
---

# **Crear una sesion en Spark**

In [3]:
# Importar la biblioteca findspark, que ayuda a configurar PySpark correctamente en el entorno de ejecuci√≥n
import findspark

# Inicializar findspark para establecer las variables necesarias de PySpark
findspark.init()

# Importar SparkSession desde la biblioteca pyspark.sql
# SparkSession es la entrada principal para trabajar con DataFrames en PySpark
from pyspark.sql import SparkSession

# Crear o obtener una SparkSession
# Esto inicializa un entorno de Spark si no existe uno, o reutiliza uno existente
spark = SparkSession.builder.getOrCreate()

# Obtener el contexto de Spark (SparkContext) desde la SparkSession
# SparkContext es la entrada principal para trabajar con RDDs en PySpark
sc = spark.sparkContext

In [19]:
# Crear un RDD paralelo con los n√∫meros del 0 al 9
rdd = sc.parallelize([item for item in range(10)])
# `sc.parallelize` distribuye la colecci√≥n `[0, 1, 2, ..., 9]` en las particiones del cl√∫ster.
# Resultado esperado: un RDD con los n√∫meros del 0 al 9.
rdd.collect()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [12]:
from pyspark.storagelevel import StorageLevel
# Importa el m√≥dulo `StorageLevel`, que define los niveles de persistencia para los RDD.

In [13]:
# Persistir el RDD en la memoria √∫nicamente (MEMORY_ONLY)
rdd.persist(StorageLevel.MEMORY_ONLY)
# Guarda el RDD en la memoria RAM. Si la memoria es insuficiente, el resto de los datos no se guardar√°.
# No se realiza ninguna acci√≥n aqu√≠, solo se indica a Spark que lo persista cuando sea necesario.
# Resultado esperado: Los datos estar√°n en memoria una vez que el RDD sea calculado.

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

In [14]:
# Eliminar el RDD persistido de la memoria
rdd.unpersist()
# Libera el espacio en memoria donde estaba almacenado el RDD persistido.
# Resultado esperado: La memoria utilizada por este RDD queda liberada.

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

In [15]:
# Persistir el RDD en disco √∫nicamente (DISK_ONLY)
rdd.persist(StorageLevel.DISK_ONLY)
# Almacena el RDD √∫nicamente en el disco. Esto es m√°s lento que la memoria, pero asegura que los datos est√©n disponibles incluso con poca RAM.
# Resultado esperado: Los datos del RDD se guardar√°n en el disco tras la primera acci√≥n sobre este RDD.

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

In [16]:
# Eliminar el RDD persistido del disco
rdd.unpersist()
# Libera el espacio en disco donde estaba almacenado el RDD persistido.
# Resultado esperado: El almacenamiento en disco utilizado por este RDD queda liberado.

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

In [17]:
# Almacenar el RDD en memoria con el m√©todo cache()
rdd.cache()
# Es equivalente a `persist(StorageLevel.MEMORY_AND_DISK)`, por lo que primero intenta almacenar el RDD en memoria.
# Si la memoria es insuficiente, guarda los datos sobrantes en el disco.
# Resultado esperado: El RDD se almacena en memoria (y en disco si es necesario) tras la primera acci√≥n.

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

In [18]:
# Eliminar el RDD almacenado en cach√©
rdd.unpersist()
# Libera el espacio en memoria y/o disco ocupado por el RDD cacheado.
# Resultado esperado: Se libera cual

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:287

### **Resumen de operaciones:**
1. Se crea un RDD distribuido con los n√∫meros del 0 al 9.
2. Se experimenta con diferentes niveles de persistencia (`MEMORY_ONLY`, `DISK_ONLY`, y `cache()`).
3. Cada vez que se almacena en cach√© o se persiste un RDD, se libera despu√©s usando `unpersist()` para liberar recursos.

Este c√≥digo demuestra c√≥mo manejar el almacenamiento en cach√© y persistencia de un RDD en Spark. Si necesitas ejemplos con acciones espec√≠ficas (como `count()` o `collect()`), podemos a√±adirlos para observar los efectos del almacenamiento en cach√©. üòä