# **Paso a Paso Para Realizar Instalacion de Apache Spark en Colab**
# **🤯**
---

In [None]:
import os

# 1. Función para instalar OpenJDK 8


In [None]:
# Función para instalar OpenJDK 8 si no está instalado previamente.
def install_java():
    # Verifica si la ruta del JDK existe.
    if not os.path.exists('/usr/lib/jvm/java-8-openjdk-amd64'):
        print("Instalando OpenJDK 8...")
        # Comando para instalar Java en modo silencioso.
        !apt-get install openjdk-8-jdk-headless -qq > /dev/null
        print("OpenJDK 8 instalado correctamente.")
    else:
        print("OpenJDK 8 ya está instalado.")

# 2. Función para descargar Apache Spark

In [None]:
# Función para descargar Apache Spark solo si no está ya descargado.
def download_spark():
    # URL y nombre del archivo comprimido de Spark.
    spark_url = "https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si el archivo comprimido ya existe.
    if not os.path.exists(spark_tar):
        print("Descargando Apache Spark...")
        # Comando para descargar el archivo desde la URL.
        !wget -q $spark_url
        print("Descarga completa.")
    else:
        print("El archivo de Apache Spark ya está descargado.")

# 3. Función para descomprimir Apache Spark

In [None]:
# Función para descomprimir el archivo de Apache Spark solo si no está descomprimido.
def extract_spark():
    # Nombre de la carpeta descomprimida.
    spark_dir = "spark-3.4.3-bin-hadoop3"
    spark_tar = "spark-3.4.3-bin-hadoop3.tgz"

    # Verifica si la carpeta descomprimida ya existe.
    if not os.path.exists(spark_dir):
        print("Descomprimiendo Apache Spark...")
        # Comando para descomprimir el archivo.
        !tar xf $spark_tar
        print("Apache Spark descomprimido.")
    else:
        print("La carpeta de Apache Spark ya existe.")

# 4. Función para configurar variables de entorno

In [None]:
# Función para configurar las variables de entorno necesarias para Spark.
def set_environment_variables():
    # Establece la ruta de JAVA_HOME y SPARK_HOME.
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"
    print("Variables de entorno configuradas.")

# 5. Función para verificar si un paquete está instalado

In [None]:
# Función para verificar si un paquete de Python ya está instalado.
import subprocess
import sys

def is_package_installed(package_name):
    try:
        # Ejecuta el comando `pip show` para verificar si el paquete está instalado.
        subprocess.check_call(
            [sys.executable, "-m", "pip", "show", package_name],
            stdout=subprocess.DEVNULL,
            stderr=subprocess.DEVNULL
        )
        return True
    except subprocess.CalledProcessError:
        return False

# 6. Función para instalar findspark y pyspark

In [None]:
# Función para instalar librerías de Python necesarias (findspark y pyspark).
def install_python_libraries():
    # Verifica e instala findspark.
    if not is_package_installed("findspark"):
        print("Instalando findspark...")
        !pip install -q findspark
    else:
        print("findspark ya está instalado.")

    # Verifica e instala pyspark.
    if not is_package_installed("pyspark"):
        print("Instalando pyspark...")
        !pip install -q pyspark
    else:
        print("pyspark ya está instalado.")

# **7. Llamar a las funciones**

In [None]:
install_java()                # Instala OpenJDK 8
download_spark()              # Descarga Apache Spark
extract_spark()               # Descomprime Apache Spark
set_environment_variables()   # Configura las variables de entorno
install_python_libraries()    # Instala las librerías de Python

OpenJDK 8 ya está instalado.
El archivo de Apache Spark ya está descargado.
La carpeta de Apache Spark ya existe.
Variables de entorno configuradas.
findspark ya está instalado.
pyspark ya está instalado.




---
---


# 8. Verificar la Instalacion

In [None]:
# Importamos la biblioteca findspark
import findspark

# Inicializamos findspark para configurar las rutas necesarias para Spark
findspark.init()

# Importamos SparkSession desde pyspark.sql
from pyspark.sql import SparkSession

# Creamos una instancia de SparkSession
# - `master("local[*]")`: Ejecuta Spark en modo local usando todos los núcleos disponibles.
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Crear un DataFrame de ejemplo con varias columnas
# - `datos`: Es una lista de tuplas, donde cada tupla representa una fila del DataFrame.
# - `columnas`: Especifica los nombres de las columnas.
datos = [
    ("Jorge Luis", 46, "Científico de Datos"),
    ("Maria Gabriela", 41, "Administrador"),
    ("Barbara", 10, "Pintor"),
    ("Marco Antonio", 5, "Pre-Esccolar"),
    ("Luis", 74, "Escritor")
]
columnas = ["Nombre", "Edad", "Profesión"]

# Creamos el DataFrame utilizando los datos y las columnas especificadas
df = spark.createDataFrame(datos, columnas)

# Mostramos el contenido del DataFrame
# - `show()`: Muestra las primeras filas del DataFrame.
# - `truncate=False`: Evita truncar los valores largos en las columnas.
df.show(truncate=False)

+--------------+----+-------------------+
|Nombre        |Edad|Profesión          |
+--------------+----+-------------------+
|Jorge Luis    |46  |Científico de Datos|
|Maria Gabriela|41  |Administrador      |
|Barbara       |10  |Pintor             |
|Marco Antonio |5   |Pre-Esccolar       |
|Luis          |74  |Escritor           |
+--------------+----+-------------------+



# 👌 🆗 **Culminado**

---
---

# **Diferentes Formas de Crear un RDD**

# 🔖

# ✅

In [None]:
# Importamos la biblioteca findspark
import findspark

# Inicializamos findspark para configurar las rutas necesarias para Spark
findspark.init()

# Importamos SparkSession desde pyspark.sql
from pyspark.sql import SparkSession

# Creamos una instancia de SparkSession
# - `master("local[*]")`: Ejecuta Spark en modo local usando todos los núcleos disponibles.
spark = SparkSession.builder.master("local[*]").appName('Curso Pyspark').getOrCreate()

In [None]:
# Crear un RDD a partir de un DF

# Crear un DataFrame de ejemplo con varias columnas
# - `datos`: Es una lista de tuplas, donde cada tupla representa una fila del DataFrame.
# - `columnas`: Especifica los nombres de las columnas.
datos = [
    ("Jorge Luis", 46, "Científico de Datos"),
    ("Maria Gabriela", 41, "Administrador"),
    ("Barbara", 10, "Pintor"),
    ("Marco Antonio", 5, "Pre-Esccolar"),
    ("Luis", 74, "Escritor")
]
columnas = ["Nombre", "Edad", "Profesión"]

# Creamos el DataFrame utilizando los datos y las columnas especificadas
df = spark.createDataFrame(datos, columnas)

# Mostramos el contenido del DataFrame
# - `show()`: Muestra las primeras filas del DataFrame.
# - `truncate=False`: Evita truncar los valores largos en las columnas.
df.show(truncate=False)

+--------------+----+-------------------+
|Nombre        |Edad|Profesión          |
+--------------+----+-------------------+
|Jorge Luis    |46  |Científico de Datos|
|Maria Gabriela|41  |Administrador      |
|Barbara       |10  |Pintor             |
|Marco Antonio |5   |Pre-Esccolar       |
|Luis          |74  |Escritor           |
+--------------+----+-------------------+



# ✅

In [None]:
# Obtener el contexto de Spark (SparkContext) desde la sesión de Spark
sc = spark.sparkContext

---

In [None]:
# Crear un RDD vacio
rdd_vacio_1 = sc.emptyRDD

---

In [None]:
# Crear un RDD vacio con parallelize y un numero de particiones de 3
rdd_vacio_2 = sc.parallelize([], 3)
rdd_vacio_2.getNumPartitions()

3

---

In [None]:
# Crear un RDD con datos, con parallelize y un numero de particiones de 3
rdd_con_datos = sc.parallelize([1, 2, 3, 4, 5, 6], 3)

rdd_con_datos.getNumPartitions() # numero de particiones

3

In [None]:
rdd_con_datos # mostrar el numero de objetos construidos

ParallelCollectionRDD[49] at readRDDFromFile at PythonRDD.scala:287

In [None]:
rdd_con_datos.collect() # Verificar el contenido del rdd_vacio_3

[1, 2, 3, 4, 5, 6]

---

In [None]:
# Crear un RDD desde un archivo de texto
rdd_texto = sc.textFile('/content/rdd_source.txt')

# ver el contenido
rdd_texto.collect()

# En este caso, cada linea de texto (revisa el archivo de texto) representa un registo

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

---

In [None]:
# Crear un RDD desde un archivo de texto en donde todo el archivo de texto este en un solo registro
rdd_texto_2 = sc.wholeTextFiles('/content/sample_data/rdd_source.txt')
rdd_texto_2.collect()

# La diferencia es que en un solo registro se encuentra todo el texto del archivo de texto.
# En la primera linea de la respuesta se ve el nombre del archivo donde esta el registro y luego el contenido del archivo de texto

[('file:/content/sample_data/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

---
# Crear un RDD a partir de otro existente

In [None]:
# Crear un RDD (Resilient Distributed Dataset) a partir de una lista de Python
resultado_rdd = sc.parallelize([item for item in range(10)])  # Crear un RDD

# Mostrar el resultado usando collect
resultado = resultado_rdd.collect()
print("Resultado original:", resultado)

Resultado original: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [None]:
# Crear un nuevo RDD a partir del existente, sumando 1 a cada elemento
rdd_suma = resultado_rdd.map(lambda x: x + 1)

# Recoger los resultados del RDD modificado y mostrarlos
resultado_suma = rdd_suma.collect()
print("Resultado tras sumar 1:", resultado_suma)

Resultado tras sumar 1: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


# 👌 🆗 **Culminado**

---
---