## Primeros pasos con Spark

Vamos a utilizar la librería PySpark, que es la API de Python para interactuar con la shell de Spark.

In [5]:
# Importar librerías y dependencias
import findspark
findspark.init()

import pyspark
from pyspark import SparkContext

### SparkContext

El punto de entrada de cualquier programa PySpark es un objeto SparkContext. Este objeto le indica como conectarse a un clúster de Spark y crear RDDs. La `local[*]` es una cadena especial que indica que está utilizando un clúster local. El * le indica a Spark que cree tantos hilos de trabajo como cores tenga la máquina.

In [6]:
sc = pyspark.SparkContext('local[*]')
# sc.setLogLevel('WARN')

21/11/15 18:40:31 WARN Utils: Your hostname, gmachin resolves to a loopback address: 127.0.1.1; using 192.168.1.43 instead (on interface enp4s0)
21/11/15 18:40:31 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
21/11/15 18:40:32 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Con este objeto, podemos acceder a la SparkUI:

In [7]:
sc

Y consultar el resto de configuraciones por defecto:

In [8]:
sc.getConf().getAll()

[('spark.driver.port', '35411'),
 ('spark.rdd.compress', 'True'),
 ('spark.app.id', 'local-1636998033814'),
 ('spark.driver.host', '192.168.1.43'),
 ('spark.serializer.objectStreamReset', '100'),
 ('spark.master', 'local[*]'),
 ('spark.submit.pyFiles', ''),
 ('spark.executor.id', 'driver'),
 ('spark.submit.deployMode', 'client'),
 ('spark.ui.showConsoleProgress', 'true'),
 ('spark.app.name', 'pyspark-shell'),
 ('spark.app.startTime', '1636998032504')]

### RDD

Spark gira en torno al concepto de *resilient distributed data* (RDD), que es una colección de elementos que se pueden operar en paralelo. Hay dos formas de crear un RDD: paralelizar una colección existente, o hacer referencia a un conjunto de datos en un sistema de almacenamiento externo, como un sistema de archivos compartido, HDFS, HBase o cualquier fuente de datos que ofrezca un formato de entrada Hadoop.

In [6]:
# Crear un RDD
rdd = sc.parallelize(range(10000000))
rdd

PythonRDD[1] at RDD at PythonRDD.scala:53

Un parámetro importante para los RDD es el número de particiones para distribuir el conjunto de datos. Spark ejecutará una task para cada partición del clúster. Por lo general, se utilizan de 2 a 4 particiones para cada CPU del clúster. Normalmente, Spark infiere la cantidad de particiones automáticamente en función de los recursos. Sin embargo, también puede configurarlo manualmente pasándolo como un segundo parámetro de parallelize.

In [7]:
# Ver las particiones de un RDD (valor 4 por defecto)
rdd.getNumPartitions()

4

In [10]:
# Reparticionar un RDD
rdd_repartitioned = rdd.repartition(8)
rdd_repartitioned.getNumPartitions()

8

## Bibliografía

- https://spark.apache.org/docs/latest/rdd-programming-guide.html