# Spark
## O que é?
“O Spark é um framework para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises sofisticadas. Oferece APIs de alto nível em Java, Scala e Python, bem como um conjunto de bibliotecas que o tornam capaz de trabalhar de forma integrada, em uma mesma aplicação, com SQL, streaming e análises complexas, para lidar com uma grande variedade de situações de processamento de dados.”

### Características
- Plataforma de computação em Cluster rápida, tolerante a falhas e de propósito geral.
- 100x mais rápido que Mapreduce em memória.
- 10x mais rápido que Mapreduce em disco.
- Compatível com Hadoop.
- Open Source.
- Desenvolvido em Scala.
- Aplicações em Java, Scala, Python e R.
- Bibliotecas para SQL, Streaming, Machine Learning e grafos.


## Componentes
![Componentes](https://s3-sa-east-1.amazonaws.com/lcpi/89684467-39f5-4a10-9b1d-5a7788603adf.png)


### Apache Spark Core
Spark Core é o mecanismo de execução geral subjacente para a plataforma Spark em que todas as outras funcionalidades são construídas. Ele fornece computação em memoria e conjuntos de dados de referência em sistemas de armazenamento externo.

### Spark SQL
Spark SQL é o módulo do Apache Spark para trabalhar com dados estruturados. As interfaces oferecidas pelo Spark SQL fornecem ao Spark mais informações sobre a estrutura dos dados e do cálculo que está sendo executado.

### Streaming do Spark
Este componente permite que o Spark processe dados de streaming em real timel. Os dados podem ser ingeridos de muitas fontes, como Kafka, Flume e HDFS. Em seguida, os dados podem ser processados usando algoritmos complexos e enviados para sistemas de arquivos, bancos de dados e painéis ativos.

### MLlib
Apache Spark é equipado com uma rica biblioteca conhecida como MLlib. Essa biblioteca contém uma ampla gama de algoritmos de aprendizado de máquina classificação, regressão, clustering e filtragem colaborativa. Ele também inclui outras ferramentas para construir, avaliar e ajustar canais de ML. Todas essas funcionalidades ajudam o Spark a escalar horizontalmente em um cluster.

### GraphX
Spark também vem com uma biblioteca para manipular bancos de dados gráficos e realizar cálculos chamados GraphX. O GraphX unifica o processo ETL (Extract, Transform, and Load), análise exploratória e computação gráfica iterativa em um único sistema.

## Arquitetura
![Arquitetura](https://s3-sa-east-1.amazonaws.com/lcpi/9f719ffd-007d-4136-8891-b4658fb279de.png)

### Driver Program
É o ponto central e o ponto de entrada do Spark Shell (Scala, Python e R). O programa do driver executa a função main () do aplicativo e é o local onde o Contexto Spark é criado. O Driver Spark contém vários componentes - DAGScheduler, TaskScheduler, BackendScheduler e BlockManager, responsáveis pela tradução do código do usuário do spark em trabalhos de spark reais executados no cluster.

- Principal programa da sua aplicação Spark
- Servidor onde está sendo executado é chamado de nó Driver
- Processo é chamado de processo Driver
- Driver se comunica com o Cluster Manager para distribuir tarefas aos Executors

### SparkContext
Spark SparkContext é um ponto de entrada para o Spark, desde da versão 1.x usado para criar programaticamente o RDD do Spark , acumuladores e variáveis de transmissão no cluster. Seu objeto sc é o padrão disponível no spark-shell e pode ser criado programaticamente usando a SparkContextclasse.

- É o ponto de entrada da sessão Spark
- Pode ser usado para criar RDDs, acumuladores e variáveis de transmissão no cluster
- Em modo local (spark-shell ou pyspark) um objeto SparkContext é criado automaticamente e a variável sc refere-se ao objeto SparkContext

### Cluster Manager
É componente principal para gerenciamento do cluster spark.

- Spark tem a capacidade de trabalhar com uma infinidade de gerentes de cluster, incluindo YARN, Mesos e um gerenciador de cluster autônomo
- Um gerenciador de cluster autônomo consiste em dois daemons de longa duração, um nó mestre e um em cada um dos nós de trabalho.

### Executer
Executors são responsáveis por executar tarefas e manter os dados na memória ou armazenamento em disco.

- Executors só são iniciados quando uma execução de trabalho começa em um Worker
- Cada aplicação possui seus próprios processos executors

## Cluster
### Spark Cluster
Spark Cluster é um gerenciador de cluster simples incluído no Spark que facilita a configuração de um cluster.

- Para executar em um cluster, o SparkContext pode se conectar a vários tipos de gerenciadores de cluster (o gerenciador standalone do Spark, Mesos ou YARN), que aloca recursos em aplicativos.
- Uma vez conectado, o Spark adquire executores em nós no cluster, que são processos que executam cálculos e armazenam dados para sua aplicação
- Em seguida, envia seu código de aplicativo para os executores.
- Finalmente, o SparkContext envia tarefas aos executores para executar.

### Yarn Cluster
O YARN segue a arquitetura master e slave. O daemon master é chamado ResourceManagere o daemon slave é chamado NodeManager. Além dessa aplicação, o gerenciamento do ciclo de vida é feito por ApplicationMaster, que pode ser gerado em qualquer nó slave e permaneceria ativo durante a vida útil de uma aplicação. Quando o Spark é executado no YARN, ResourceManager desempenha a função do master do Spark e NodeManagers funciona como nós executores. Ao executar o Spark com YARN, cada executor do Spark é executado como um contêiner YARN.

- Possui Resource Manager (similar ao Master) para cada cluster e Node Manager (similar Slave) para cada nó no cluster.
- Aplicações no YARN são executados em containers.
- Processo driver do Spark atua como Application Master.
- Node Manager monitora recursos usados por containers e reportam ao Resource Manager.

## RDD
Um RDD significa Conjuntos de dados distribuídos resilientes. É uma coleção de registros de partição somente leitura. RDD é a estrutura de dados fundamental do Spark. Ele permite que um programador execute cálculos na memória em grandes grupos de maneira tolerante a falhas . Assim, acelere a tarefa.

RDD era a principal API voltada para o usuário no Spark desde o seu início. No núcleo, um RDD é uma coleção distribuída imutável de elementos de seus dados, particionada em nós no cluster que pode ser operada em paralelo com uma API de baixo nível que oferece transformações e ações.

![RDD](https://s3-sa-east-1.amazonaws.com/lcpi/85bc10e4-4dd4-4c83-b64b-50a815b77009.png)

Exemplos de transformações:
- map() - Aplica uma função a cada elemento no RDD e retorna um RDD do resultado
- filter() - Retorna um RDD com os elementos que correspondem condição de filtro
- union() – Retorna um RDD contendo elementos de ambos os RDDs.

Exemplos de ações:
- collect() - Retornar todos os elementos do RDD.
- count() - Retorna o número de elementos do RDD.
- take(10) - Retorna 10 elementos do RDD.
- foreach(func) - Aplica a função fornecida a cada elemento do RDD.

## Dataframe
Ao contrário de um RDD, os dados são organizados em colunas nomeadas. Por exemplo, uma tabela em um banco de dados relacional. É uma coleção imutável de dados distribuídos. O DataFrame no Spark permite que os desenvolvedores imponham uma estrutura em uma coleção distribuída de dados, permitindo abstração de nível superior.

- Um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. É conceitualmente igual a uma tabela em um banco de dados relacional.

- Funciona apenas em dados estruturados e semiestruturados. Ele organiza os dados na coluna nomeada. Os DataFrames permitem que o Spark gerencie o esquema.

- A API da fonte de dados permite o processamento de dados em diferentes formatos (AVRO, CSV, JSON e sistema de armazenamento HDFS , tabelas HIVE , MySQL). Ele pode ler e gravar de várias fontes de dados mencionadas acima.

- Após a transformação no DataFrame, não é possível regenerar um objeto de domínio. Por exemplo, se você gerar testDF a partir de testRDD, não poderá recuperar o RDD original da classe de teste.

## Spark-submit
É usado para iniciar, parar e monitorar uma aplicação localmente ou distribuído em um cluster Spark.

Executa pacotes Python e Java
~~~
$spark-submit --option value application jar | python file [applicationarguments]
$spark-submit --help
~~~

--executor-cores: Número de núcleos de processador para alocar em cada executor

--executor-memory: O tamanho máximo de memória para alocar a cada executor

--num-executors: O número total de containers YARN a serem alocados

--name: Nome do aplicativo

--jars: Jars adicionais a aplicação como bibliotecas externas

Local com 2 cores:

    spark-submit --master local[2] --name myApp Documents/helloWord.py


YARN Cluster:

    spark-submit --master yarn --deploy-mode cluster --executor-memory 1G --num-executors 2 --name myApp_cluster Documents/helloWord.py


YARN Client:

    spark-submit --master yarn-client  --executor-memory 1G --num-executors 2 --name myApp_yarn Documents/helloWord.py


Ao executar um programa Spark com Yarn, podemos acompanhar a execução pela interface web do Resource Manager no endereço quickstart.cloudera:8088

## PySpark Comandos
Execute no terminal o seguinte comando:
~~~
pyspark
~~~

### Operações básicas
Criamos um rdd (Conjuntos de dados distribuídos resilientes)

    numeros = sc.parallelize([1,2,3,4,5,6,7,8,9,0])
    

Mostra primeiro elemento:
    
    numeros.first()
 
    
Mostra os 5 maiores:

    numeros.top(5)


Mostra todos elementos:

    numeros.collect()


Contar os elementos:

    numeros.count()
    

Media dos numeros:

    numeros.mean()
    
   
Somar os elementos:

    numeros.sum()


Mostra maior elemento:

    numeros.max()


Mostra menor elemento:

    numeros.min()
    
 
Calcula desvio padrão:

    numeros.stdev()



### Analisar dados do Hive (DW)
Primeiramente é preciso copiar arquivos de configuração:

    ls cat /usr/lib/hive/conf
    cat /usr/lib/hive/conf/hive-site.xml
    sudo cp /usr/lib/hive/conf/hive-site.xml /usr/lib/spark/conf/


Vamos abrir o Pyspark em um terminal:

    pyspark
    
    
Criar contexto HiveContext

    from pyspark.sql import HiveContext
    contexto = HiveContext(sc)


Conectar o banco de dados na tabela:

    banco = contexto.table("hr.jobs")
    banco.show()

Vamos registra a tabela no spark para ficar disponível para execução de querys

    banco.registerTempTable("jobs")
    contexto.sql('Select * from jobs').show()
    contexto.sql('Select *  from jobs order by salario_max DESC limit 1').show()

### Criar um Data Frame

    jobs = contexto.sql('Select * from jobs')


A variável `jobs` é nosso dataframe!

    
    jobs.show()
    jobs.printSchema()
    jobs.select('job_title').show()
    jobs.select('job_title', 'salario_max').show()
    jobs.select('salario_max').distinct().show()
    jobs.select('salario_max').distinct().count().show()