# RDDs con PySpark

En este notebook aprenderemos cómo crear una sesión de Spark (SparkSession) y cómo crear RDDs a partir de colecciones de Python y de ficheros externos.

En primer lugar, debemos asegurarnos de que Java está instalado. Configuramos la variable `JAVA_HOME`, que indica a Spark dónde encontrar la JVM contra la que ejecutar su código Scala.

In [2]:
import os

# En nuestro ordenador personal, si no esta definida la variable JAVA_HOME, deberemos indicarla
# Para sistemas basados en Debian/Ubuntu, si tenemos instalada la version 17 de Java, seria:
# os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"
# En Windows, la ruta puede ser algo como: "C:\\Program Files\\Java\\jdk-17"
# os.environ["JAVA_HOME"] = "C:\\Program Files\\Java\\jdk-17"
# Si ya esta definida, no es necesario hacer nada

os.environ["JAVA_HOME"]

'/home/maes/.sdkman/candidates/java/current'

A continuación, podemos importar PySpark y comprobar su versión para asegurarnos de que está correctamente instalado.

In [3]:
import pyspark

pyspark.__version__

'4.0.1'

Ya estamos listos para crear una sesión de Spark y empezar a trabajar con RDDs.

In [4]:
from pyspark.sql import SparkSession

# Crear sesión de Spark
spark = SparkSession.builder.appName("Analisis Deportivo con Spark").getOrCreate()

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/10/08 18:00:10 WARN Utils: Your hostname, maes, resolves to a loopback address: 127.0.1.1; using 10.0.68.169 instead (on interface wlp0s20f3)
25/10/08 18:00:10 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/10/08 18:00:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/10/08 18:00:12 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
25/10/08 18:00:12 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.


Una vez creado un objeto `SparkSession`, podemos inspeccionarlo. Ahora mismo lo estamos utilizando en modo local, con todos los núcleos de nuestro ordenador -> [*].

In [5]:
spark

### Ejemplo 1

Vamos a crear un RDD a partir de una colección de Python. En este caso, una lista con información sobre jugadores y su distancia recorrida en un partido de fútbol.

In [None]:
# Datos simulados: (jugador, distancia recorrida en km)
datos = [("Jugador1", 10.2), ("Jugador2", 9.8), ("Jugador1", 11.0)]

# Creamos un RDD a partir de la lista
rdd = spark.sparkContext.parallelize(datos)

# Distancia total por jugador
distancia_total = rdd.reduceByKey(lambda a, b: a + b)
distancia_total.collect()

                                                                                

[('Jugador2', 9.8), ('Jugador1', 21.2)]

Finalmente, podemos cerrar la sesión de Spark cuando ya no la necesitemos. Si lo hacemos, habrá que ejecutar todo el notebook de nuevo para volver a crearla.

In [7]:
spark.stop()