## Inicio de sesión

`SparkSession` se utiliza como entrypoint a Pyspark. O sea, es la conexión que inicia la sesion para trabajar con RDD, DataFrames, etc. 

Este inicio de sesión, este objeto, se creó desde la versión Spark 2.0, unificando en un único objeto múltiples inicios de sesión anteriormente necesarios (a sqlContext, a Hive, etc.)

Al respecto:

1. Sería posible crear varias sesiones de spark, y trabajar con cada una de ellas de manera independiente.

2. Al trabajar en una Pyspark shell (por ejemplo en AWS o en la shell), por default ya se encuentra creada una sparkSesion.

In [None]:
## para trabajar sobre windows
# ir a C:\spark\bin y ahí ejecutar pyspark (en powershell)

In [3]:
# 1. buscar spark
import findspark
findspark.init("/opt/spark") # debe apuntar a donde esté instalado spark

In [4]:
from pyspark.sql import SparkSession 

# The entry point to programming Spark with the Dataset and DataFrame API.
# ref: https://spark.apache.org/docs/3.4.1/api/python/reference/pyspark.sql/api/pyspark.sql.SparkSession.html

In [11]:
# 2. iniciar session

spark = (
    SparkSession
        .builder
        .master('local[4]') 
        .appName('mi_app')
        #.config()
        .getOrCreate()
)

# 1. master(): Cuando se trabaja en clusters, es el nombre del master. Si el modo es no-cluster, o sea standalone, 
# se utiliza local[x], con x representado la cantidad de particiones a crear cuando se utilicen RDD.

# 2. appName(): setea el nombre de la app.

# 3. config(): diferentes opciones de configuración de la sparkSession.

# 3. getOrCreate(): si no existe una sesión, la crea.

# Diferentes opciones de configuración son posibles de ser establecidas mediante la opción `.config()` 
# al inicializar mediante SparkSession, o posteriormente mediante `spark.conf.get('mi_opcion')`.

# spark.conf.get("spark.executor.memory", "5g")

# spark = (
#     SparkSession.builder
#         .master("local")
#         .appName("Word Count")
#         .config("spark.some.config.option", "some-value")
#         .getOrCreate()
# )

In [12]:
# check
spark

In [20]:
# check
data = spark.sparkContext.parallelize(
 [('Amber', 22), ('Alfred', 23), ('Skye',4), ('Albert', 12),
 ('Amber', 9)])
data

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:289

## Methods and atts related with session

In [14]:
# returns the active SparkSession.
spark.getActiveSession()

In [15]:
# to finish the session.
#spark.stop()
spark.getActiveSession()

In [16]:
# to create a new session. 
# Only if the session already exists.
# spark.newSession()

In [17]:
# returns spark context.
spark.sparkContext

In [18]:
# return version
spark.version

'3.5.0'

## Methods and atts related to data

In [19]:
# To read data
# spark.read

# To registrate udfs
# spark.udf

# to run queries
# spark.sql

# to create dataframes
#spark.createDataFrame