# Spark

É uma plataforma (em cluster) para processamento __rápido, paralelo e de propósito geral que extende o algoritmo padrão__: MapReduce. Muitos cálculos são feitos em memória (podem ser executados no disco também).

É complementar ao Haddop

Possui API´s para:
- Java
- Scala
- Python
- SQL e
- R.

![image.png](attachment:image.png)

Conceitos importantes em uma aplicação Spark:

- __Driver Program__: Qualquer aplicação Spark é um 'Driver program'. Esta aplicação é capaz de fazer ope rações paralelas no cluster Spark. É como se fosse uma função principal (main) e define/criadados distribuídos no cluster e aplica operações paralelas aos dados distribuídos no cluster. As operações não são apenas Map e Reduce;
- __Contexto Spark__: O 'Driver program' acessa o spark através de um objeto contexto que na verdade, representa a conexão da aplicação com o Cluster. Possui alguns parâmetros de configuração.
- __Executors__: Para realizar as operações do 'Driver Program', o mesmo faz uso de vários nós que possuem os executores

![image.png](attachment:image.png)

#### RDD´s

RDD´s representam um conjunto distribuídos de objetos 'imutáveis' (não volatéis).Isto facilita o processo de distribuição,  replicação e compartilhamento dos dados. Tais dados imutáveis podem permanecer em disco ou memória de maneira indistinta.

A lógica de trabalho no Spark é criar RDD´s, transformar RDD´s existentes e executar operações nos RDD´s para gerar resultados. De forma transparente o Spark distribui os dados dos RDD´s no cluster e paraleliza as operações executadas nos RDD´s

- RDD´s são divididos em várias 'partitions' que podem residir em vários nós do Cluster

A criação de RDD´s é feito de duas maneiras: 

- Carregando dados de forma externa, por exemplo, 
- ou distribuindo uma coleção de objetos no programa __Driver__

![image.png](attachment:image.png)

__O Driver program é quem coordena as atividades e os Workers armazenam e manipulam as partições dos RDD´s__

Uma vez criado os RDD´s, duas operações são possíveis:
- As __transformations__ criam um RDD a partir de um anterior (exemplo é o transformation filter). 
- As __actions__ calculam resultados a partir de um RDD.

As transformações (transformations) são sempre postergadas até encontrar uma ação (action). O conceito de avaliação tardia(‘Lazy evaluation’) em conjunto com os DAG´s fazem com as otimizações de código no Spark sejam muito boas.

Para reusar o RDD em várias 'actions' o comando 'persist' deve ser explicitado Há algumas opções para persistência dos dados. Uma vez que o 'persist' é utilizado, não haverá mais recálculos quando houver outras 'actions’. Pragmaticamente, é necessário persistir os dados em memória uma vez e fazer várias consultas ('actions') nestes dados em memória;

![image.png](attachment:image.png)

__Exemplos de transformations__:

- Map() : aplica uma função a cada elemento do RDD, e os elementos gerados pela função formam o novo RDD
- Filter(): aplica uma função e retorno o conjunto de elementos filtrados com um novo RDD
- FlatMap() : Similar ao Map com a diferença que para cada item de entrada pode ser gerada um mais itens de saída;
- Distinct() = para gerar elementos distintos de um RDD;
- Union() = faz união dos dados dos conjuntos. As repetições são mantidas;
- Intersection() = retorna os elementos existente em ambos os RDD´s (elimina os duplicados = atua como o distinct(), mantendo sua obsevação quanto ao desempenho);
- Subtract() = retorna os valores existentes apenas no primeiro RDD e que não existem no segundo RDD (tome cuidado com o desempenho);
- Cartesian() = realiza um produto cartesiano entre os dois RDD´s envolvidos.

__Exemplos de actions__:

- reduce(): Aplica uma função em dois elementos (tipo de dados) do RDD gerando um resultado do mesmo tipo;
- fold(): Faz a mesma coisa que o Reduce, mas atribui um valor inicial para cada elemento na soma;
- collect(): Forma mais simples de obter todo conteúdo de um RDD;
- take(n): Retorna os n elementos do RDD;
- takeSample (withReplacement, num, seed): Faz uma amostragem com ou sem reposição (assume uma distruibuição uniforme dos dados);
- foreach(): executa uma função em cada elemento do RDD, mas não retorna nada para o Driver;
- count(): retorna a quantidade de elementos do RDD;

#### Spark SQL
É a proposta Spark para lidar com dados estruturados e semi-estruturados. É capaz de carregar vários tipos de dados(Json, Hive, Parquet)

__As consultas são realizadas utilizando SQL (através de um programa spark ou através conexões externas: JDBC/ODBC).__

Ainda possui forte integração para ser utilizada com as linguagens spark: 
- Java
- Scala
- Python

Internamente os _SchemaRDD´s_ são um conjunto de objetos do tipo _Row_ e cada objeto do tipo _Row_ é uma espécie de vetor com campos definidos pelo _Schema_

#### DataFrame
É um tipo de objeto com vários métodos para manipular estruturas de dados com linhas e colunas (tabelas). Pode ser usado por todas as linguagens que acessam o Spark

![image.png](attachment:image.png)

Algumas operações comuns:

- Tipo de dados das colunas: _DF.printSchema()_
- Obtenção das primeiras linhas do data frame: _DF.head(5)_
- Número de linhas: _DF.count()_
- Número de colunas: _len(DF.columns)_
- Estatísticas descritivas para colunas numéricas: _DF.describe()_
- Mostrando somente algumas colunas: _DF.select('Col1','Col2').show(5)_
- Quantidade de elementos distintos em uma coluna: _DF.select('Col1').distinct().count()_
- Eliminado linhas duplicadas em um data frame: _DF.select('Col1','Col2').dropDuplicates().show()_
- Excluindo linhas com valores nulos: _DF.dropna()_
- Preenchendo valores nulos com outros valores: _DF.fillna(-1).show(2)_
- Fitlrar linhas: _DF.filter(DF.Col1 > 15000)_
- Geração de tabelas cruzadas(crosstab): _DF.crosstab('Col1', 'Col2').show()_