### 1. SparkSession

Es un conducto unificado para todas las operaciones de spark.\
A través de la sesión de Spark podemos crear data frames, leer fuentes de datos, acceder a metadatos de catálogos y emitir consultas para SQL.  
SparkSession proporciona un único punto de entrada unificado a todas las funciones de spark.

In [2]:
import findspark

findspark.init()

In [3]:
from pyspark.sql import SparkSession

# Podemo indicarle el número de cores que queremos que use con builder, si ejecutamos en un cluster añadimos master 
# y si ejecutamos en local, le pasamos a master como argumento local, con el número de cores entre paréntesis; 
# si queremos que use todos, ponemos *
# También podemos añadir el nombre de la aplicación con appName
spark = SparkSession.builder.master("local[*]").appName('Curso_Pyspark').getOrCreate()

23/07/14 12:31:49 WARN Utils: Your hostname, RNTDELL000700 resolves to a loopback address: 127.0.1.1; using 192.168.1.131 instead (on interface wlp0s20f3)
23/07/14 12:31:49 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/07/14 12:31:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [6]:
#Comprobamos que se ha creado la sesión de spark
spark

In [3]:
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])

df.show(10, False)

+-----+
|Hola |
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### 2. RDD

Restilient Distributed Dataset RDD es la abstracción principal de spark.\
Son una colección de elementos posicionados a través de los nodos del cluster, que pueden ser operados en paralelo.

Hay tres características asociadas a un RDD:

* **Dependencias:** es una lista que le indica a spark cómo se construye un RDD con sus entradas. Cuando sea necesario reproducir resultados spark puede recrear un RD a partir de estas dependencias y replicar operaciones en él. Esta característica otorga resiliencia a los RDD.

* **Particiones:** brindan a spark la capacidad de dividir el trabajo para paralelizar el cálculo en particiones entre ejecutores.

* **Función de cálculo:** produce un iterador para los datos que se almacenarán en el RDD.

In [7]:
# Para crear un RDD primero tenemos que crear una sesión de spark que internamente cree un SparkContext
sc = spark.sparkContext

In [8]:
# Crear un RDD vacío
rdd_vacio = sc.emptyRDD

In [9]:
# Crear un RDD vacío con 3 particiones usando parallelize

rdd_vacio3 = sc.parallelize([], 3)

rdd_vacio3.getNumPartitions()

3

In [10]:
# Crear un RDD con parallelize, pero que sí contenga datos

rdd = sc.parallelize([1,2,3,4,5])

# Si lo llamamos nos mostrará el objeto construído
rdd

ParallelCollectionRDD[8] at readRDDFromFile at PythonRDD.scala:287

In [11]:
# Para ver el contenido del RDD usamos collect
rdd.collect()

[1, 2, 3, 4, 5]

In [12]:
# Crear un RDD desde un archivo de texto

rdd_texto = sc.textFile('./rdd_source.txt')

rdd_texto.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [13]:
# Crear un RDD donde todo el archivo de texto sea un solo registro

rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')

rdd_texto_completo.collect()

[('file:/home/bluetab/Documents/scala/pyspark/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [14]:
# Crear un RDD a partir de otro existente

rdd_suma = rdd.map(lambda x: x +1)

rdd_suma.collect()

[2, 3, 4, 5, 6]

In [15]:
# Crear un RDD a partir de un DataFrame

df = spark.createDataFrame([(1, 'jose'), (2, 'juan')], ['id', 'nombre'])

df.show()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
+---+------+



In [16]:
rdd_df = df.rdd

rdd_df.collect()

[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]