# SparkSession vs SparkContext

## Importamos SparkContext y SparkSession

In [2]:
!pip install pyspark --quiet
from pyspark import SparkContext
from pyspark.sql import SparkSession

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


## Creamos nuestra primera sesion

En Apache Spark, una **sesión es una conexión de un cliente con el cluster Spark**. La sesión se utiliza para enviar trabajos al cluster y obtener resultados de ellos. Una sesión se puede iniciar de forma interactiva desde la línea de comandos o programáticamente desde una aplicación de Spark.

Un **contexto de Spark** es un objeto que representa una conexión a un cluster Spark y proporciona un punto de acceso a todas las funcionalidades de Spark. En una aplicación de Spark, normalmente se crea un contexto al principio del programa y se utiliza para realizar todas las operaciones de Spark en esa aplicación. Por ejemplo, podrías utilizar un contexto para crear un conjunto de datos (RDD), aplicar transformaciones y acciones sobre él y obtener resultados.

Es importante mencionar que **una sesión puede tener múltiples contextos**, y que cada contexto se puede utilizar para realizar operaciones de Spark de forma independiente. Por ejemplo, podrías tener un contexto para procesar datos en tiempo real y otro contexto para realizar análisis en lote.

In [5]:
# Convenio
# Sesión --> spark
# Contexto --> sc

spark = SparkSession.builder \
        .master("local") \
        .appName("miPrimerApplicacion") \
        .getOrCreate()

In [7]:
spark.catalog

<pyspark.sql.catalog.Catalog object at 0x7f924b786e60>


In [4]:
dir(SparkSession)

['Builder',
 '__annotations__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_activeSession',
 '_convert_from_pandas',
 '_createFromLocal',
 '_createFromRDD',
 '_create_dataframe',
 '_create_from_pandas_with_arrow',
 '_create_shell_session',
 '_getActiveSessionOrCreate',
 '_get_numpy_record_dtype',
 '_inferSchema',
 '_inferSchemaFromList',
 '_instantiatedSession',
 '_jconf',
 '_repr_html_',
 'builder',
 'catalog',
 'conf',
 'createDataFrame',
 'getActiveSession',
 'newSession',
 'range',
 'read',
 'readStream',
 'sparkContext',
 'sql',
 'stop',
 'streams',
 'table',
 'udf',
 'version']

## Terminamos la sesión actual

No podemos tener mas de una sesión a la vez en nuestro notebook, por lo cual con el método 'stop' terminaremos la applicación.

De la misma forma, al terminar una applicación, debemos de indicar explicitamente que termine. De otra forma no liberará los recursos asignados.

In [8]:
spark.stop()

## Creamos una sesión heredando los atributos de un contexto

In [9]:
sc = SparkContext(master="local",appName = "miPrimerContexto")
spark2 = SparkSession(sc)

In [10]:
spark2

## Creamos una sesión múltiple

In [11]:
sparkSession2 = spark2.newSession()

## Revisamos que los tres objetos apuntan a la misma aplicación

Aprovechando la salida que nos ofrece, conocemos SparkUI, el monitor por excelencia para Spark

In [12]:
spark2

In [13]:
sparkSession2

In [15]:
spark2.stop()