# Transformações RDD e ações

Nesta palestra, começaremos a aprofundar o uso de Spark e Python. Por favor, veja os videos para uma explicação completa.

## Termos importantes

Vamos rapidamente passar por alguns termos importantes:

Termo                  |Definição
----                   |-------
RDD                    |Resilient Distributed Dataset
Transformação          |Operação Spark que produz um RDD
Ação                   |Operação Spark que produz um objeto local
Spark Job              |Sequência de transformações em dados com uma ação final




## Criando um RDD

Existem duas formas comuns de criar um RDD:

Método                                   |Resultado
----------                               |-------
`sc.parallelize(array)`                  |Cria um array de elementos RDD
`sc.textFile(path/to/file)`                      |Cria um RDD de linhas de um arquivo

## Transformação RDD

Podemos usar transformações para criar um conjunto de instruções que queremos executar no RDD (antes de chamar uma ação e realmente executá-las).

Exemplo de Transformação | Resultado
----------                               |-------
`filter(lambda x: x % 2 == 0)`           |Descarte elementos não-pares
`map(lambda x: x * 2)`                   |Multiplica cada elemento RDD por `2`
`map(lambda x: x.split())`               |Divida cada string em palavras
`flatMap(lambda x: x.split())`           |Divide cada string em palavras e aplique a seqüência
`sample(withReplacement=True,0.25)`      |Crie uma amostra de 25% dos elementos com substituição
`union(rdd)`                             |Anexar `rdd` ao RDD existente
`distinct()`                             |Remover duplicatas no RDD
`sortBy(lambda x: x, ascending=False)`   |Classificar elementos em ordem decrescente

## Ações RDD

Depois de ter sua "receita" de transformações pronta, o que você fará em seguida é executá-las chamando uma ação. Aqui estão algumas ações comuns:

Ação                             |Resultado
----------                             |-------
`collect()`                            |Converta o RDD em uma lista na memória
`take(3)`                              |Pega os 3 primeiros elementos do RDD
`top(3)`                               |Pega os top 3 elementos do RDD
`takeSample(withReplacement=True,3)`   |Crie uma amostra de 3 elementos com substituição
`sum()`                                |Soma (Assume elementos numéricos)
`mean()`                               |Média (Assume elementos numéricos)
`stdev()`                              |Desvio padrão (Assume elementos numéricos)

____
# Exemplos

Agora, a melhor maneira de mostrar tudo isso é através de exemplos! Primeiro, revisaremos um pouco criando e trabalhando com um arquivo de texto simples, então passaremos a dados mais realistas, como clientes e dados de vendas.

### Criando um RDD a partir de um arquivo de texto:

** Criando o arquivo de texto **

In [3]:
%%writefile example2.txt
first 
second line
the third line
then a fourth line

Overwriting example2.txt


Agora vamos realizar algumas transformações e ações neste arquivo de texto:

In [4]:
from pyspark import SparkContext

In [5]:
sc = SparkContext()

Exception: Java gateway process exited before sending the driver its port number

In [6]:
# Mostra o RDD
sc.textFile('example2.txt')

NameError: name 'sc' is not defined

In [5]:
# Save a reference to this RDD
text_rdd = sc.textFile('example2.txt')

In [7]:
# Map a function (or lambda expression) to each line
# Then collect the results.
text_rdd.map(lambda line: line.split()).collect()

[['first'],
 ['second', 'line'],
 ['the', 'third', 'line'],
 ['then', 'a', 'fourth', 'line']]

## Map vs flatMap

In [8]:
# Collect everything as a single flat map
text_rdd.flatMap(lambda line: line.split()).collect()

['first',
 'second',
 'line',
 'the',
 'third',
 'line',
 'then',
 'a',
 'fourth',
 'line']

# RDDs and Key Value Pairs

Now that we've worked with RDDs and how to aggregate values with them, we can begin to look into working with Key Value Pairs. In order to do this, let's create some fake data as a new text file.

This data represents some services sold to customers for some SAAS business.

In [9]:
%%writefile services.txt
#EventId    Timestamp    Customer   State    ServiceID    Amount
201       10/13/2017      100       NY       131          100.00
204       10/18/2017      700       TX       129          450.00
202       10/15/2017      203       CA       121          200.00
206       10/19/2017      202       CA       131          500.00
203       10/17/2017      101       NY       173          750.00
205       10/19/2017      202       TX       121          200.00

Writing services.txt


In [10]:
services = sc.textFile('services.txt')

In [11]:
services.take(2)

['#EventId    Timestamp    Customer   State    ServiceID    Amount',
 '201       10/13/2017      100       NY       131          100.00']

In [12]:
services.map(lambda x: x.split())

PythonRDD[10] at RDD at PythonRDD.scala:43

In [13]:
services.map(lambda x: x.split()).take(3)

[['#EventId', 'Timestamp', 'Customer', 'State', 'ServiceID', 'Amount'],
 ['201', '10/13/2017', '100', 'NY', '131', '100.00'],
 ['204', '10/18/2017', '700', 'TX', '129', '450.00']]

Let's remove that first hash-tag!

In [26]:
services.map(lambda x: x[1:] if x[0]=='#' else x).collect()

['EventId    Timestamp    Customer   State    ServiceID    Amount',
 '201       10/13/2017      100       NY       131          100.00',
 '204       10/18/2017      700       TX       129          450.00',
 '202       10/15/2017      203       CA       121          200.00',
 '206       10/19/2017      202       CA       131          500.00',
 '203       10/17/2017      101       NY       173          750.00',
 '205       10/19/2017      202       TX       121          200.00']

In [27]:
services.map(lambda x: x[1:] if x[0]=='#' else x).map(lambda x: x.split()).collect()

[['EventId', 'Timestamp', 'Customer', 'State', 'ServiceID', 'Amount'],
 ['201', '10/13/2017', '100', 'NY', '131', '100.00'],
 ['204', '10/18/2017', '700', 'TX', '129', '450.00'],
 ['202', '10/15/2017', '203', 'CA', '121', '200.00'],
 ['206', '10/19/2017', '202', 'CA', '131', '500.00'],
 ['203', '10/17/2017', '101', 'NY', '173', '750.00'],
 ['205', '10/19/2017', '202', 'TX', '121', '200.00']]

## Using Key Value Pairs for Operations

Let us now begin to use methods that combine lambda expressions that use a ByKey argument. These ByKey methods will assume that your data is in a Key,Value form. 


For example let's find out the total sales per state: 

In [28]:
# From Previous
cleanServ = services.map(lambda x: x[1:] if x[0]=='#' else x).map(lambda x: x.split())

In [29]:
cleanServ.collect()

[['EventId', 'Timestamp', 'Customer', 'State', 'ServiceID', 'Amount'],
 ['201', '10/13/2017', '100', 'NY', '131', '100.00'],
 ['204', '10/18/2017', '700', 'TX', '129', '450.00'],
 ['202', '10/15/2017', '203', 'CA', '121', '200.00'],
 ['206', '10/19/2017', '202', 'CA', '131', '500.00'],
 ['203', '10/17/2017', '101', 'NY', '173', '750.00'],
 ['205', '10/19/2017', '202', 'TX', '121', '200.00']]

In [52]:
# Let's start by practicing grabbing fields
cleanServ.map(lambda lst: (lst[3],lst[-1])).collect()

[('State', 'Amount'),
 ('NY', '100.00'),
 ('TX', '450.00'),
 ('CA', '200.00'),
 ('CA', '500.00'),
 ('NY', '750.00'),
 ('TX', '200.00')]

In [43]:
# Continue with reduceByKey
# Notice how it assumes that the first item is the key!
cleanServ.map(lambda lst: (lst[3],lst[-1]))\
         .reduceByKey(lambda amt1,amt2 : amt1+amt2)\
         .collect()

[('State', 'Amount'),
 ('NY', '100.00750.00'),
 ('TX', '450.00200.00'),
 ('CA', '200.00500.00')]

Uh oh! Looks like we forgot that the amounts are still strings! Let's fix that:

In [42]:
# Continue with reduceByKey
# Notice how it assumes that the first item is the key!
cleanServ.map(lambda lst: (lst[3],lst[-1]))\
         .reduceByKey(lambda amt1,amt2 : float(amt1)+float(amt2))\
         .collect()

[('State', 'Amount'), ('NY', 850.0), ('TX', 650.0), ('CA', 700.0)]

We can continue our analysis by sorting this output:

In [69]:
# Grab state and amounts
# Add them
# Get rid of ('State','Amount')
# Sort them by the amount value
cleanServ.map(lambda lst: (lst[3],lst[-1]))\
.reduceByKey(lambda amt1,amt2 : float(amt1)+float(amt2))\
.filter(lambda x: not x[0]=='State')\
.sortBy(lambda stateAmount: stateAmount[1], ascending=False)\
.collect()

[('NY', 850.0), ('CA', 700.0), ('TX', 650.0)]

** Remember to try to use unpacking for readability. For example: **

In [78]:
x = ['ID','State','Amount']

In [79]:
def func1(lst):
    return lst[-1]

In [83]:
def func2(id_st_amt):
    # Unpack Values
    (Id,st,amt) = id_st_amt
    return amt

In [84]:
func1(x)

'Amount'

In [85]:
func2(x)

'Amount'

# Great Job!