# O que é o Apache Spark ?

<div style="text-align: justify">O Apache Spark é um framework de computação unificada e um conjunto de bibliotecas para processamento de dados paralelos em clusters de computadores. Spark é o mecanismo de código aberto mais desenvolvido para essa tarefa, tornando-se uma ferramenta padrão para qualquer desenvolvedor ou cientista de dados interessado em big data. O Spark oferece suporte a várias linguagens de programação amplamente utilizadas (Python, Java, Scala e R), inclui bibliotecas para diversas tarefas, desde SQL a fluxo contínuo e aprendizado de máquina, e é executado em qualquer lugar, desde um laptop até um cluster de milhares de servidores. Isso torna o sistema fácil de iniciar e ampliar para processamento de dados grandes ou incrivelmente grande escala.</div> 

## Filosofia do Apache Spark
<br>
<div style="text-align: justify"> <b>Unificado</b> - O Spark foi projetado para suportar uma ampla variedade de tarefas de análise de dados, variando de carregamento de dados simples e consultas SQL a aprendizado de máquina e computação streaming, sobre o mesmo mecanismo de computação e com um conjunto consistente de APIs. O principal insight por trás dessa meta é que as tarefas de análise de dados reais - sejam elas análises interativas em uma ferramenta, como um notebook Jupyter ou o desenvolvimento tradicional de software para aplicativos de produção - tendem a combinar muitos tipos e bibliotecas de processamento diferentes. 
A natureza unificada da Spark torna essas tarefas mais fáceis e eficientes de escrever. Primeiro, o Spark fornece APIs consistentes e compostas que você pode usar para criar um aplicativo com partes menores ou com bibliotecas existentes. Também facilita a criação de suas próprias bibliotecas de análise. No entanto, as APIs compostas não são suficientes: as APIs do Spark também são projetadas para permitir alto desempenho, otimizando as diferentes bibliotecas e funções compostas juntas em um programa do usuário. Por exemplo, se você carregar dados usando uma consulta SQL e, em seguida, avaliar um modelo de aprendizado de máquina sobre ele usando a biblioteca ML do Spark, o mecanismo pode combinar essas etapas em uma varredura sobre os dados. A combinação de APIs gerais e execução de alto desempenho, independentemente de como você as combina, torna o Spark uma plataforma poderosa para aplicativos interativos e de produção.
<br><br>
<div style="text-align: justify"> <b>Mecanismo de computação</b> - Ao mesmo tempo em que a Spark se esforça para unificar, limita cuidadosamente seu escopo a um mecanismo de computação. Com isso, queremos dizer que o Spark manipula o carregamento de dados de sistemas de armazenamento e a execução de cálculos, não o armazenamento permanente como o próprio fim. Você pode usar o Spark com uma ampla variedade de sistemas de armazenamento persistentes, incluindo sistemas de armazenamento em nuvem, como o Armazenamento do Azure e Amazon S3, sistemas de arquivos distribuídos, como Apache Hadoop, armazenamentos de chave-valor, como Apache Cassandra e barramentos fila de mensagens, como Apache Kafka. No entanto, o Spark não armazena dados a longo prazo, nem favorece um em detrimento de outro. A principal motivação aqui é que a maioria dos dados já reside em uma mistura de sistemas de armazenamento. É dispendioso mover os dados para que o Spark se concentre em realizar cálculos sobre os dados, não importando onde eles residam. Em APIs voltadas para o usuário, o Spark trabalha muito para tornar esses sistemas de armazenamento muito semelhantes, de modo que os aplicativos não precisem se preocupar com onde seus dados estão. O foco do Spark na computação o diferencia das plataformas de software de big data anteriores, como o Apache Hadoop. O Hadoop incluía um sistema de armazenamento (o HDFS, projetado para armazenamento de baixo custo em clusters de servidores comuns) e um sistema de computação (MapReduce), que estavam intimamente integrados. No entanto, essa escolha dificulta a execução de um dos sistemas sem o outro. Mais importante, essa escolha também torna um desafio escrever aplicativos que acessam dados armazenados em qualquer outro lugar. Embora o Spark seja executado bem no armazenamento do Hadoop, hoje ele também é usado amplamente em ambientes para os quais a arquitetura do Hadoop não faz sentido, como a nuvem pública (em que o armazenamento pode ser adquirido separadamente da computação) ou aplicativos de streaming.
<br><br>
<div style="text-align: justify"> <b>Bibliotecas</b> - Os componentes finais do Spark são suas bibliotecas, que se baseiam em seu design como um mecanismo unificado para fornecer uma API unificada para tarefas comuns de análise de dados. O Spark oferece suporte a bibliotecas padrão fornecidas com o mecanismo, além de uma ampla variedade de bibliotecas externas publicadas como pacotes de terceiros pelas comunidades de código aberto. Hoje, as bibliotecas padrão do Spark são, na verdade, a maior parte do projeto de código aberto: o mecanismo principal do Spark mudou pouco desde o primeiro lançamento, mas as bibliotecas cresceram para fornecer mais e mais tipos de funcionalidade. O Spark inclui bibliotecas para SQL e dados estruturados (Spark SQL), aprendizado de máquina (MLlib), processamento de fluxo de dados (Spark Streaming e o mais novo fluxo estruturado) e análise de gráficos (GraphX). Além dessas bibliotecas, existem centenas de bibliotecas externas de código aberto que vão desde conectores para vários sistemas de armazenamento até algoritmos de aprendizado de máquina.</div> 

### Palavras chave

__Spark Cluster__ - Uma coleção de máquinas ou nós na nuvem pública ou local em um datacenter particular no qual o Spark está instalado. Entre essas máquinas estão os Spark workers, um Spark Master (também um gerenciador de cluster em modo Standalone) e pelo menos um Spark Driver.

__Spark Master__ - Como o nome sugere, uma JVM do Spark Master atua como um gerenciador de cluster em um modo de implementação independente para o qual os workers do Spark se registram como parte de um quorum. Dependendo do modo de implementação, ele atua como um gerenciador de recursos e decide onde e quantos executores iniciar, e em quais workers do Spark no cluster.

__Spark Worker__ - Ao receber instruções do Spark Master, a JVM do Spark Worker lança executores no worker em nome do Spark Driver. Os aplicativos Spark, decompostos em unidades de tarefas, são executados no Executor de cada worker. Em suma, o trabalho do worker é apenas lançar um Executor em nome do master.

__Spark Executor__ - Um Spark Executor é um contêiner da JVM com uma quantidade alocada de núcleos e memória na qual o Spark executa suas tarefas. Cada nó de trabalho inicia seu próprio Spark Executor, com um número configurável de núcleos (ou threads). Além de executar tarefas Spark, um Executor também armazena e armazena em cache todas as partições de dados em sua memória.

__Spark Driver__ - Depois de obter informações do Spark Master de todos os funcionários do cluster e de onde eles estão, o programa do driver distribui as tarefas do Spark para o Executor de cada trabalhador. O motorista também recebe resultados computados das tarefas de cada executor.

__SparkContext__ - é um canal para acessar todas as funcionalidades do Spark; apenas um único SparkContext existe por JVM. O programa do driver Spark usa-o para conectar-se ao gerenciador do cluster para se comunicar e enviar tarefas do Spark. Ele permite que você ajuste programaticamente os parâmetros de configuração do Spark. E por meio do SparkContext, o driver pode instanciar outros contextos, como SQLContext, HiveContext e StreamingContext, para programar o Spark. 

__Spark Session__ - com o Apache Spark 2.0, o SparkSession pode acessar todas as funcionalidades do Spark por meio de um ponto de entrada unificado. Além de simplificar o acesso à funcionalidade Spark, como DataFrames e Datasets, Catalogs e Spark Configuration, ela também inclui os contextos subjacentes para manipular dados.

### Low Level APIs

#### RDD
<br>
<div style="text-align: justify"> Um RDD é simplesmente uma coleção distribuída de elementos. No Spark, todo o trabalho é expresso como criar novos RDDs, transformar RDDs existentes ou chamar operações em RDDs para calcular um resultado. Por baixo dos panos, o Spark distribui automaticamente os dados contidos nos RDDs em seu cluster e paraleliza as operações que você executa neles. Um RDD no Spark é simplesmente uma coleção distribuída imutável de objetos. Cada RDD é dividido em várias partições, que podem ser calculadas em diferentes nós do cluster. Os RDDs podem conter qualquer tipo de objetos Python, Java ou Scala, incluindo classes definidas pelo usuário. Os usuários criam RDDs de duas maneiras: carregando um conjunto de dados externo ou distribuindo uma coleção de objetos (por exemplo, uma lista ou conjunto) em seu programa de driver. </div> 

![image.png](attachment:image.png)
<center> Arquitetura Spark anterior a versão 2.0 </center>


### Structured APIs

Diferentemente das versões anteriores onde a unidade básica de elementos do Spark era o RDD (Resilient Distributed Datasets) as novas versões do Spark trabalham com as __APIs estruturadas__ compostas por:
- Datasets (Java e Scala)
- DataFrames (Java, Scala, Python e R)
- SQL

![image.png](attachment:image.png)

![image.png](attachment:image.png)
<center> Arquitetura Atual (2018)</center> 

### Arquitetura básica do Spark

<div style="text-align: justify"> Uma única máquina não possui recursos suficientes para executar cálculos em grandes quantidades de informações (ou o usuário provavelmente não tem tempo de esperar pelo término da computação). Um <b>cluster</b>, ou grupo, de computadores, reúne os recursos de muitas máquinas, o que nos permite usar todos os recursos cumulativos como se fossem um único computador. Agora, um grupo de máquinas sozinho não é poderoso, você precisa de um framework para coordenar o trabalho entre elas. O Spark faz exatamente isso, gerenciando e coordenando a execução de tarefas em um cluster de computadores. O cluster de máquinas que o Spark usará para executar tarefas é gerenciado por um gerenciador de cluster como o gerenciador de cluster autônomo do Spark, o YARN ou o Mesos. Em seguida, enviamos o <i>Spark Applications</i> para esses gerenciadores de cluster, que concederão recursos ao nosso aplicativo para que possamos concluir nosso trabalho.</div>

![image.png](attachment:image.png)
<br><center>A figura acima demonstra como o gerenciador de cluster controla máquinas físicas e aloca recursos para aplicativos Spark. Esse pode ser um dos três principais gerenciadores de cluster: o gerenciador de cluster autônomo do Spark, o YARN ou o Mesos. Isso significa que pode haver vários aplicativos Spark em execução em um cluster ao mesmo tempo. Podemos ver o driver à esquerda e quatro executores à direita. Neste diagrama, removemos o conceito de nós do cluster. O usuário pode especificar quantos executores devem existir em cada nó por meio de configurações.</center>
<br>
<div style="text-align: justify"><b>Obs.:</b> O Spark, além de seu modo de cluster, também possui um modo local. O driver e os executores são simplesmente processos, o que significa que eles podem existir na mesma máquina ou em máquinas diferentes. No modo local, o driver e os executores são executados (como encadeamentos) em seu computador individual, em vez de em um cluster.</div>

### Aplicações Spark
<br>
<div style="text-align: justify"> As aplicações Spark consistem em um processo driver e em um conjunto de processos executores. O processo driver executa sua função <b>main( )</b>, fica em um nó no cluster e é responsável por três coisas:</div>

- Manter informações sobre o aplicativo Spark; 
- Responder a um programa ou entrada do usuário;
- Analisar, distribuir e agendar o trabalho entre os executores. 

<div style="text-align: justify"> <b>O processo driver é absolutamente essencial</b> - é o coração de um aplicativo Spark e mantém todas as informações relevantes durante a vida útil da aplicação. Os executores são responsáveis por executar o trabalho que o driver atribui a eles. Isso significa que cada executor é responsável por apenas duas coisas: 
<br><br>    
<b><t>1. Executar o código atribuído a ele pelo driver</t></b><br><br>
<b><t>2. Relatar o estado do cálculo naquele executor de volta ao nó do driver.</t></b>
<br>
</div>


Aqui estão os principais pontos para entender sobre os aplicativos Spark:
- O Spark emprega um gerenciador de cluster que controla os recursos disponíveis.
- O processo do driver é responsável por executar os comandos do programa de driver nos executores para concluir uma determinada tarefa.

### APIs de linguagens de programação

<div style="text-align: justify">As APIs de linguagens do Spark permitem que você execute o código do Spark usando várias linguagens de programação. Na maior parte, Spark apresenta alguns “conceitos” básicos em todas as linguagens; Esses conceitos são então traduzidos para o código Spark executado no cluster de máquinas. Se você usar apenas as APIs estruturadas, poderá esperar que todos os idiomas tenham características de desempenho semelhantes. Aqui está um breve resumo:</div>
<br>
<b>Scala</b> - O Spark é escrito principalmente em Scala, tornando-a liguagem "padrão" do Spark. 
<br><br>
<b>Java</b> - Embora o Spark esteja escrito no Scala, os autores do Spark têm o cuidado de garantir que você possa escrever o código do Spark em Java.
<br><br>
<b>Python</b> - O Python suporta quase todas as construções que o Scala suporta. 
<br><br>
<b>SQL</b> - O Spark suporta um subconjunto do padrão ANSI SQL 2003. Isso torna mais fácil para analistas e não programadores tirar proveito dos grandes poderes de dados do Spark. Este material inclui exemplos de código SQL sempre que relevante.
<br><br>
<b>R</b> - O Spark tem duas bibliotecas R comumente usadas: uma como parte do núcleo Spark (SparkR) e outra como um pacote orientado a comunidade R (sparklyr).

![image.png](attachment:image.png)
<center>Cada API de linguagem mantém os mesmos conceitos básicos que descrevemos anteriormente. Há um objeto SparkSession disponível para o usuário, que é o ponto de entrada para executar o código Spark. Ao usar o Spark de Python ou R, você não escreve instruções explícitas da JVM; em vez disso, você escreve o código Python e R que o Spark traduz em código que pode ser executado nas JVMs do executor.</center>

### SparkSession

<div style="text-align: justify">Você controla seu aplicativo Spark por meio de um processo de driver chamado SparkSession. A ocorrência do SparkSession é a maneira como o Spark executa manipulações definidas pelo usuário no cluster. Há uma correspondência de um para um entre um SparkSession e uma Spark Application. No Scala e Python, a variável está disponível como <b>spark</b> quando você inicia o console.</div>

In [2]:
spark

### Spark UI

Você pode monitorar o progresso de um trabalho por meio da interface da Web do Spark. A interface do usuário do Spark está disponível na porta 4040 do nó do driver. Se você estiver executando no modo local, isso será http:///localhost:4040. A interface do usuário do Spark exibe informações sobre o estado de seus trabalhos do Spark, seu ambiente e o estado do cluster. É muito útil, especialmente para ajuste e depuração.

![UI.JPG](attachment:UI.JPG)

Material baseado em exemplos do livro __Spark - The Definitive Guide. Bill Chambers e Matei Zaharia__