### Crear el SparkSession y el SparkContext

######SparkSession vs SparkContext:

El SparkSession es la entrada principal y el punto de control para trabajar con Spark.

El SparkContext es el contexto principal para interactuar con un clúster de Spark.

In [None]:
#Ejemplo Completo
from pyspark.sql import SparkSession

spark = SparkSession.builder\
        .master("local[*]")\
        .appName('Curso_Databricks')\
        .getOrCreate() #devuelve una sesion existente sino existe la crea

In [None]:
#Ejemplo resumido
spark = SparkSession.builder.getOrCreate() #genera lo mismo que antes solo que con los valores por default
sc = spark.sparkContext

In [None]:
#Importante: Dentro de DATABRICKS no es necesario crear la sesion de spark y el contexto, esto se debe a que el entorno en Databricks se configura automáticamente y se proporciona una instancia de SparkSession y SparkContext sin que el usuario tenga que crearlos explícitamente.

### Crear un RDD vacio

In [None]:
rdd_vacio = sc.emptyRDD

### Crear un RDD con parallelize

In [None]:
#Ejemplo de creacion de RDD con 3 particiones
ejemplo_rdd = sc.parallelize([], 3) #funcion para paralelizar
ejemplo_rdd.collect() #con collect, recojemos toda la lista de nros

Out[11]: 3

In [None]:
ejemplo_rdd.getNumPartitions()

Out[12]: 3

In [None]:
lista_nros = [1,2,3,4,5]

num_rdd = sc.parallelize(lista_nros)
num_rdd.collect()

Out[30]: [1, 2, 3, 4, 5]

In [None]:
num_rdd.getNumPartitions()

Out[31]: 8

# Transformaciones
* Como ya hemos comentado, las Transformaciones son de naturaleza perezosa y no se ejecutarán hasta que se ejecute una Acción sobre ellas.

* Veamos algunos ejemplos...

### Funcion: map
* Esto mapeará su entrada a alguna salida basada en la función especificada en la función definida.

In [None]:
double_rdd = num_rdd.map(lambda x : x * 2) # 1*2, 2*2, 3*2, 4*2 , 5*2
double_rdd.collect()

Out[14]: [2, 4, 6, 8, 10]

### Funcion: filtro
* Para filtrar los datos en función de una determinada condición. Veamos como encontrar los números pares de num_rdd.

In [None]:
rdd_par = num_rdd.filter(lambda x : x % 2 == 0) #filtro por los elementos pares del rdd
rdd_par.collect()

Out[20]: [2, 4]

### Funcion: distinct
* Esto devolverá los elementos distintos de un RDD.

In [None]:
rdd = sc.parallelize([8, 12, 10, 11, 5, 11, 5, 5])
dist_rdd = rdd.distinct()
dist_rdd.collect()

Out[22]: [8, 10, 11, 12, 5]

### Funcion: reduceByKey
* Esta función reduce los pares de valores clave en función de las claves y una función determinada dentro de reduceByKey.

In [None]:
pairs = [ ("a", 3), ("b", 2), ("c", 2), ("a", 3), ("b", 2), ("c", 4)]
pair_rdd = sc.parallelize(pairs)

output = pair_rdd.reduceByKey(lambda x, y : x + y)

result = output.collect()
print(*result, sep='\n')

('a', 6)
('b', 4)
('c', 6)


### Funcion: sortByKey
* Esta función realizará la clasificación en un par (clave, valor) RDD basado en las claves.

* Importante: La clasificación se realizará en orden ascendente.

In [None]:
pairs = [ ("a", 4), ("d", 7), ("c", 2), ("b", 3)]
rdd = sc.parallelize(pairs)

sortkey_rdd = rdd.sortByKey() #ascending=False
result = sortkey_rdd.collect()
print(*result,sep='\n')

# Para clasificar en orden descendente, pase  “ascending=False”.

('a', 4)
('b', 3)
('c', 2)
('d', 7)


In [None]:
#Descendiente
sortkey_rdd = rdd.sortByKey(ascending=False)
result = sortkey_rdd.collect()
print(*result,sep='\n')

('d', 7)
('c', 2)
('b', 3)
('a', 4)


### Otras transformaciones en Spark
* sample(), groupBy(), flatMap().

# Acciones

* Las acciones son operaciones en RDD que se ejecutan inmediatamente. Mientras que las transformaciones devuelven otro RDD, las acciones no realizan ninguna operacion sobre los objetos en Spark.

### Funcion: count
* Esto contará el número de elementos en el RDD dado.

In [None]:
num = sc.parallelize([1,2,3,4,2,5,5,5,9,0])
num.count()

Out[23]: 10

### Funcion: first
* Esto devolverá el primer elemento del RDD dado.

In [None]:
num.first()

Out[24]: 1

### Funcion: take
* Esto devolverá el número de elementos especificados.

In [None]:
num.take(3)

Out[25]: [1, 2, 3]

### Funcion: collect
* Esto devolverá todos los elementos para el RDD dado, como ya lo hemos visto.


In [None]:
num.collect()

[1, 2, 3, 4, 2]

### Otras acciones en Spark
* countByKey, takeSample, takeOrdened, saveAsTextFile, saveAsSequenceFile, saveAsObjectFile.