## Entornos de desarrollo de Spark

Tenemos estas opciones para trabajar con Spark

- Scala (Spark-Shell)
- Python (Pyspark)
    - Pertime trabajar con Jupyter Notebooks
- R (SparkR)

Entornos de compilación de trabajos: aplicaciones que no necesiten tanta interactividad

- Scala/Java (Eclipse / Intellij)
- Python

Si queremos utlilizar PySpark con Jupyter, podemos ejectuar estos comandos:

- Linux:
    
    export PYSPARK_DRIVER_PYTHON=jupyter
    
    export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
    
- Windows:

    set PYSPARK_DRIVER_PYTHON=jupyter
    
    set PYSPARK_DRIVER_PYTHON_OPTS="notebook"
    
<SPARK_HOME>\bin\pyspark
 
- Es conveniente ejecutarlo desde el directorio donde estén ubicados los notebooks/datos


## SparkSession y SparkContext

- Antes de Spark 2.x: SparkContext, SqlContext y HiveContext
    - SparkContext representaba la conexión con el entorno de ejcución de Spark
    
- Spark 2.x introduce el API de alto nivel para Datasets / Dataframes
    - SparkSession pasa a ser la nueva representación de la conexión
        - org.apache.spark.sql.SparkSession
        - pyspark.sql.sparkSession
    - El objeto SparkSession encapsula ahora a SparkContext como una propiedad

- Para crear/leer/escribir Datasets/Dataframes => SparkSession

- Para crear/leer/escribir RDD => SparkContext

- Spark-shell y pyspark crean los objetos automáticamente
    
    val sparkSession = new
    
    SparkSession.builder.master(master_path).appName("application name").config("optional configuration parameters".getOrCreate()
        - getOrCreate(): devuelve una sesión si existe o crea sino existe.
    
- Propiedades/Métodos importantes del objeto
    - appName
    - getConf
    - getExecutorMemoryStatus
    - Master
    - Version
    
En el caso de escala todos los métodos que utilicemos son objetos. Normalmente el resultado de las opreaciones en scala son RDDs

Se comparten APIs en las versiones Scala y Python, pero hay algunas funciones/propiedades que no están en Python (getExecutorMemoryStatus)

|   Método	|   Uso	|
|---	|---	|
|   addJar(path)	|   Añade archvios JAR para todos los jobs futuros que puedan ser ejecutados bajo SparkContext	|
|   addFile(path)	|   Este método descarga un archivo de todos los nodos en el cluster	|
|   listFiles/listJars	|   Muestra los archivos de todos los archivos/JARs añadido actualmente	|
|   stop()	|   Para el SparkContext	|
|   clearFiles()	|   Borra los archivos así que los nodos nuevos no lo descargarán	|
|   clearJars()	|   elimina los JARs que se requieran en los jobs futuros	|



## Pasos necesarios para construir un programa en Spark (no en jupyter)

- En Jupyter crea por defecto el SparkContext(sc) y el SparkSession(spark).

- La aplicación debe crearlos explícitamente dentro del código
    - Añadir
        
        ``from pyspark.sql import SparkSession`` 
    
    - Crear la sesión Spark y obtener el contexto spark
    
        ``spark = SparkSession.builder.appName("Pi estimation, python job").getOrCreate()``
        
        ``sc = spark.sparkContext``
    
    - Cerrar la sesión al final
        
        ``spark.stop()``

A continuación un ejemplo de como quedaría un archivo:

In [1]:
from pyspark.sql import SparkSession

In [2]:
import random

In [3]:
NUM_SAMPLES = 1000000

In [4]:
def inside(p):
    x,y = random.random(),random.random()
    return x*x + y*y < 1

In [5]:
spark = SparkSession.builder.appName("Pi estimation, python Job").getOrCreate()

In [6]:
sc = spark.sparkContext

In [7]:
count = sc.parallelize(range(0,NUM_SAMPLES)).filter(inside).count()

In [8]:
print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES))

Pi is roughly 3.142300


In [9]:
spark.stop()