# Relembrando a arquitetura
Um aplicativo Spark consiste em um programa de driver e um grupo de executores no cluster.  
O Driver é um processo que executa o programa principal de seu aplicativo Spark e cria o SparkContext que coordena a execução de jobs (mais sobre isso mais tarde).  
Os executores são processos em execução nos nós de trabalho do cluster que são responsáveis por executar as tarefas que o processo do driver atribuiu a eles.  
![image](images/arch.png)

O gerenciador de cluster (como Mesos, Kubernetes ou YARN) é responsável pela alocação de recursos físicos para aplicativos Spark.  

Cada aplicação Spark precisa de um ponto de entrada que permite que ele se comunique com as fontes de dados e execute certas operações, como ler e gravar dados.  
No Spark 1.x, três pontos de entrada foram introduzidos: **SparkContext, SQLContext e HiveContext**.  
Desde o Spark 2.x, um novo ponto de entrada chamado **SparkSession** foi introduzido, combinando essencialmente todas as funcionalidades disponíveis nos três contextos mencionados.  

*Observe que todos os contextos ainda estão disponíveis mesmo nas versões mais recentes do Spark, principalmente para fins de compatibilidade com versões anteriores.*

# SparkContext

O SparkContext é usado pelo Processo de Driver do Aplicativo Spark para estabelecer uma comunicação com o cluster e os gerenciadores de recursos para coordenar e executar jobs. SparkContext também permite o acesso a outros dois contextos, ou seja, SQLContext e HiveContext (mais sobre esses pontos de entrada mais adiante).


In [None]:
from pyspark import SparkContext, SparkConf
conf = SparkConf() \
    .setAppName('app') \
    .setMaster(master)
sc = SparkContext(conf=conf)

# SQLContext
SQLContext é o ponto de entrada para SparkSQL, que é um módulo Spark para processamento de dados estruturados. Depois que o SQLContext é inicializado, o usuário pode usá-lo para realizar várias operações "semelhantes a sql" em datasets e dataframes.  

In [None]:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
conf = SparkConf() \
    .setAppName('app') \
    .setMaster(master)
sc = SparkContext(conf=conf)
sql_context = SQLContext(sc)

# HiveContext
Se o seu aplicativo Spark precisa se comunicar com o Hive e você está usando o Spark <2.0, provavelmente precisará de um HiveContext se. Para Spark 1.5+, o HiveContext também oferece suporte para funções de janela.  

In [None]:
from pyspark import SparkContext, HiveContext
conf = SparkConf() \
    .setAppName('app') \
    .setMaster(master)
sc = SparkContext(conf)
hive_context = HiveContext(sc)
hive_context.sql("select * from tableName limit 0")

# SparkSession
Spark 2.0 introduziu um novo ponto de entrada chamado SparkSession que substituiu essencialmente SQLContext e HiveContext. 
Além disso, dá aos desenvolvedores acesso imediato ao SparkContext.  


In [None]:
from pyspark.sql import SparkSession
spark_session = SparkSession \
    .builder \
    .enableHiveSupport() \
    .getOrCreate()
# Two ways you can access spark context from spark session
spark_context = spark_session._sc
spark_context = spark_session.sparkContext

# Referência

https://towardsdatascience.com/sparksession-vs-sparkcontext-vs-sqlcontext-vs-hivecontext-741d50c9486a