
# Introdução ao Spark

Nesse Notebook iremos aprender algumas funcionalidades básicas de Spark. Aprenderemos Spark em Python através da biblioteca PySpark. Para instalá-la, basta fazer o download  e seguir os passos em: http://spark.apache.org/downloads.html, ou instalar usando Pypi:

	pip install pyspark

Para utilizá-la em conjunto com um Jupyter Notebook, você precisa baixar a biblioteca Jupyter.

	pip install jupyter
    
Depois, baixar também a biblioteca findspark

	pip install findspark

E pronto! Agora, no começo de cada notebook você deverá importar tanto `findspark` quanto `pyspark`:

In [None]:
import findspark
findspark.init()

import pyspark
import random

# O objeto `SparkContext`

A primeira coisa a ser feita para rodar as funcionalidades do Spark é inicializar um contexto Spark. Isso é feito através de um objeto `SparkContext`. Ele é a principal entrada para as funcionalidades do Spark. É ele quem realiza e representa a conexão para um cluster, e é utilizado para criar RDDs e distribuir variáveis pelo cluster. 

![Retirado de: https://www.devmedia.com.br/introducao-ao-apache-spark/34178](https://arquivo.devmedia.com.br/artigos/Eduardo_Zambom/spark/image002.jpg)

Quando utilizamos o Shell Spark, a própria API cria um objeto `SparkContext`, mas esse não é o nosso caso. Vamos criar um objeto `SparkContext`:

Vamos ver o que contém no objeto `sc`. Observe que ele possui duas variáveis:
    - **master:** onde está o cluster. Como estamos rodando localmente, o objeto seta essa variável como `local[*]`
    - **appName:** o nome da aplicação. 
    
Ambas variáveis são obrigatórias na criação de um contexto. Você poderia escolher apontar o master para um cluster Hadoop, fornecendo sua URL.

# Criando RDDS

Com o contexto inicializado, iremos começar nosso aprendizado com as APIs de baixo nível, os RDDs. RDDs são a unidade mais primitiva do Spark e recebem esta sigla de:
- _Resilient_ 
- _Distributed_
- _Datasets_


![Retirado de: https://www.javatpoint.com/pyspark-rdd](https://static.javatpoint.com/tutorial/pyspark/images/pyspark-rdd2.png)

Os RDDs são a unidade base em que todas as demais APIs de Spark são construídas. As APIs de mais alto nível, como Dataframes, SparkSQL, SparkStreaming, MLlib, etc. utilizam estas unidades como base para o processamento distribuído.

![Retirado de: https://www.oreilly.com/library/view/spark-the-definitive/9781491912201/](https://www.oreilly.com/library/view/spark-the-definitive/9781491912201/assets/spdg_0101.png)

Para criar RDDs, podemos fazer de dois modos:
- Utilizando variáveis e coleções Python com `parallelize()`
- Lendo e extraindo valores de arquivos textuais com `textFile()`

In [None]:
# criando um RDD a partir de uma lista


In [None]:
# criando um RDD a partir de um arquivo


# Rodando tarefas distribuídas

A primeira coisa que você precisa saber sobre um RDD é que ele é **imutável**. Ou seja, para editar um valor de um RDD, você precisa criar um novo com o valor editado.

Operações em RDDs são divididas em duas categorias:
- _Transformações:_ constroem novos RDDs a partir de mudanças nos dados.
- _Ações:_ realizam cálculos e retornam seus resultados para o programa _driver_.

O Spark realiza uma avaliação **preguiçosa** (_lazy evaluation_) nas operações que precisa executar. Isso significa que ele irá _analisar_ as **transformações**, mas não irá executá-las de imediato. Ele apenas executa tudo quando uma **ação** é _executada_. A razão de ele fazer isso é que ele constrói um _grafo acíclico direcionado_ a partir das transformações, e prepara a maneira como esses dados serão processados no cluster de antemão. Quando uma ação é invocada, ele envia cópias da execução de todas as operações para os clusters, executa as transformações lá, e retorna com o resultado da ação invocada. 

Vamos fazer um simples exemplo de uma aplicação completa de uma tarefa em Spark:

In [None]:
# aplicação para contar elementos maiores que 5 em uma lista


# Transformações

No exemplo acima vimos um exemplo de transformação (`filter`) e dois de ações (`take` e `count`). 

As transformações podem requerir _funções_ (sejam funções lambda ou explicitamente implementadas) para realizarem suas operações. As principais são:
- `filter()`: filtra os elementos de um RDD de acordo com alguma condição expressa em uma função
- `map()`: transforma todos os elementos de um RDD de acordo com alguma função (relacionamento 1 para 1)
- `flatmap()`: "explode" os elementos de um RDD em múltiplos elementos de acordo com alguma função (relacionamento 1 para muitos)
- `sample()`: retira uma amostra dos dados, com ou sem repetição, de acordo com uma semente randomica
- `union()`: une dois RDDs

Existem muitas outras transformações, listadas [na documentação oficial do Spark](https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations). Existe um segundo grupo de transformações, que trabalha com **pares** de chave-valor (lembram do Hadoop?), que veremos mais a frente.

Vamos fazer um exemplo de cada uma listada acima (já vimos `filter()` logo acima):

In [None]:
# exemplo: map()
# contar caracteres em elementos lista de strings


In [None]:
# exemplo: flatMap()
# contar quantas palavras tem em um texto


In [None]:
# exemplo sample()
# amostragem aleatória sem repetição



In [None]:
# exemplo union()
# somar todos elementos de dois RDDs


# Ações

Enquanto vimos alguns exemplos de Transformações, aproveitamos para explorar algumas ações, como `collect()`, `count()` e `reduce`. Existem muitas outras opções além dessas. Vamos rever algumas que já utilizamos e visitar algumas novas:
- `collect()`: Retorna todos os elementos de um RDD como uma lista para o programa driver.
- `count()`: Conta o número de elementos que estão em um RDD, e retorna esse valor para o programa driver.
- `reduce()`: reduz o RDD a um único valor com base em uma _função_. Essa função deve ser formatada de modo que recebe dois argumentos e retorna apenas um valor.
- `take()`: recebe como parâmetro um valor _n_ e retorna uma quantidade de elementos igual a esse valor em formato de lista para o programa driver. Existe uma variação de retorno ordenado chamada `takeOrdered()`.
- `takeSample()`: essa ação realiza operação similar à transformação `sample()`, retornando uma lista de elementos ao programa driver.
- `saveAsTextFile()`: salva um RDD como arquivo de texto em um caminho especificado.

Existem muitas outras ações, listadas [na documentação oficial do Spark](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions). Existe também uma ação baseada em pares chave-valor, que veremos depois de testarmos mais alguns exemplos.

In [None]:
# exemplo take(), takeOrdered() e takeSample()


In [None]:
# mais um exemplo reduce
# encontrar o maior e o menor


In [None]:
# exemplo saveAsTextFile()
# salvar arquivo com 10 linhas repetidas

# RDDs como pares chave-valor

Nós conseguimos simular as operações de MapReduce no Spark utilizando transformações e ações que operam em pares chave-valor. Na realidade, nós temos até um pouco mais de liberdade do que o MapReduce tradicional aqui. Para operar com chaves, o Spark oferece as seguintes transformações:

- `groupByKey()`: retorna um RDD no formato (K, Iterable\<V\>).
- `reduceByKey()`: 	retorna um RDD de formato (K, V), onde os valores de cada chave foram reduzidos por alguma _função_, que deve receber dois valores como parâmetros e retornar um único valor. 
- `aggregateByKey()`: generalização do `reduceByKey()`. Aqui podemos informar um valor de início da agregação, e definir duas funções: uma que combina os resultados em uma partição, e outra que reduz o resultado da segunda no programa driver.
- `sortByKey()`: retorna um RDD ordenado pelas chaves em ordem ascendente ou descendente.

O Spark oferece uma única ação baseada em chaves:

- `countByKey()`: retorna um dicionário com a contagem de ocorrências das chaves em um RDD.

Vamos ver alguns exemplos com o mesmo conjunto de dados.

In [None]:
# exemplo groupByKey()


In [None]:
#exemplo reduceByKey()


In [None]:
# exemplo aggregateByKey()


In [None]:
# exemplo sortByKey()


In [None]:
#exemplo countByKey()


# Aplicações completas com RDDs

Agora que sabemos as principais funcionalidades com RDDs, vamos fazer alguns exemplos de aplicações com RDDs. Vamos fazer os mesmos exemplos que vimos em MapReduce. 

- Contagem de palavras com NLTK
- Amigos em comum
- Minutos de atraso por aeroporto

In [None]:
# contagem de palavras


In [None]:
# amigos em comum


In [None]:
# minutos de atraso por aeroporto



# TF-IDF

Vamos finalizar fazendo um exemplo de uma aplicação um pouco mais complexa. O TF-IDF basicamente indexa palavras e documentos utilizando chaves da forma `(token, doc)` e valores representando uma medida que relaciona frequência do termo em um documento com a raridade dele na coleção.

Em Hadoop vimos que era necessário três execuções de MapReduce, uma em seguida da outra, para realizar a indexação. Aqui segue _quase_ o mesmo princípio.

- 1. Realizamos o mapeamento de palavras com documentos
- 2. Calculamos o TF de cada elemento
- 3. Em um _segundo_ RDD, calculamos o DF, e depois mapeamos para o IDF
- 4. Finalmente, unimos os dois RDDs, e reduzimos com uma função de multiplicação