# Primeiros passos com Apache Spark

Principais estruturas de dados do Spark
- RDD
- DataFrame
- DataSet

### RDD - Resilient Distributed Datastes
- Estrutura basica de baixo nivel
- Dados "imutaveis", distribuidos pelo Cluster
- Em memoria
- Pode ser Persistido em Disco
- Tolerante a falha
- Operacoes sobre um RDD criam um novo RDD
- Complexo e verboso
- Otimizaçao dificil pelo Spark

In [1]:
#importando o pyspark e outros modulos necessarios
from pyspark.sql import SparkSession

In [3]:
#iniciando uma Spark Session
spark = SparkSession.builder \
    .master("local") \
        .appName("RDD") \
            .config("spark.executer.memory","1gb") \
                .getOrCreate()

In [4]:
#iniciando o Spark Context
sc = spark.sparkContext

In [5]:
#criando um RDD
numeros = sc.parallelize([1,2,3,4,5,6,7,8,9,10])

In [6]:
#visualizando os primeiros 5 elementos
numeros.take(5)

                                                                                

[1, 2, 3, 4, 5]

In [7]:
#visualizando os maiores
numeros.top(5)

[10, 9, 8, 7, 6]

In [8]:
#visualizando todos os dados do RDD
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [9]:
#contando quantos itens tem no RDD
numeros.count()

10

In [10]:
#media dos valore no RDD
numeros.mean()

5.5

In [11]:
#soma dos valores no RDD
numeros.sum()

55

In [12]:
#valor maximo no RDD
numeros.max()

10

In [13]:
#valor minimo no RDD
numeros.min()

1

In [14]:
#desvio padrao do RDD
numeros.stdev()

2.8722813232690143

In [15]:
#criando um filtro com funcao lambda
filtro = numeros.filter(lambda filtro: filtro>2)

In [17]:
#mostrando o filtro
filtro.collect()

[3, 4, 5, 6, 7, 8, 9, 10]

In [18]:
#criando uma amostra do RDD
amostra = numeros.sample(True,0.5,1)

In [19]:
#mostrando o resultado da amostra do RDD
amostra.collect()

[2, 3, 4, 5, 9, 10]

In [20]:
#aplicando a funcao map aplicamos uma funcao a todos os elementos do RDD
mapa = numeros.map(lambda mapa: mapa *2)

In [21]:
#mostrando o resultado da funcao map
mapa.collect()

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

Operacoes entre RDD's

In [22]:
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [23]:
numeros2 = sc.parallelize([6,7,8,9,10])

In [24]:
#uniao entre os dois RDD
uniao = numeros.union(numeros2)
uniao.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

In [25]:
#elementos em comum
interseccao = numeros.intersection(numeros2)
interseccao.collect()

[6, 8, 10, 7, 9]

In [26]:
#elementos que tem no RDD numeros mas nao tem no RDD numeros2
subtrai = numeros.subtract(numeros2)
subtrai.collect()

[2, 4, 1, 3, 5]

In [27]:
#produto cartesiano
cartesiano = numeros.cartesian(numeros2)
cartesiano.collect()

[(1, 6),
 (1, 7),
 (1, 8),
 (1, 9),
 (1, 10),
 (2, 6),
 (2, 7),
 (2, 8),
 (2, 9),
 (2, 10),
 (3, 6),
 (3, 7),
 (3, 8),
 (3, 9),
 (3, 10),
 (4, 6),
 (4, 7),
 (4, 8),
 (4, 9),
 (4, 10),
 (5, 6),
 (5, 7),
 (5, 8),
 (5, 9),
 (5, 10),
 (6, 6),
 (6, 7),
 (6, 8),
 (6, 9),
 (6, 10),
 (7, 6),
 (7, 7),
 (7, 8),
 (7, 9),
 (7, 10),
 (8, 6),
 (8, 7),
 (8, 8),
 (8, 9),
 (8, 10),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9),
 (9, 10),
 (10, 6),
 (10, 7),
 (10, 8),
 (10, 9),
 (10, 10)]

In [28]:
#contando quantas vezes cada elemento aparece no RDD pelo valor
cartesiano.countByValue()

defaultdict(int,
            {(1, 6): 1,
             (1, 7): 1,
             (1, 8): 1,
             (1, 9): 1,
             (1, 10): 1,
             (2, 6): 1,
             (2, 7): 1,
             (2, 8): 1,
             (2, 9): 1,
             (2, 10): 1,
             (3, 6): 1,
             (3, 7): 1,
             (3, 8): 1,
             (3, 9): 1,
             (3, 10): 1,
             (4, 6): 1,
             (4, 7): 1,
             (4, 8): 1,
             (4, 9): 1,
             (4, 10): 1,
             (5, 6): 1,
             (5, 7): 1,
             (5, 8): 1,
             (5, 9): 1,
             (5, 10): 1,
             (6, 6): 1,
             (6, 7): 1,
             (6, 8): 1,
             (6, 9): 1,
             (6, 10): 1,
             (7, 6): 1,
             (7, 7): 1,
             (7, 8): 1,
             (7, 9): 1,
             (7, 10): 1,
             (8, 6): 1,
             (8, 7): 1,
             (8, 8): 1,
             (8, 9): 1,
             (8, 10): 1,
             (9

Criando uma simulacao de operacoes com RDD

In [29]:
compras = sc.parallelize([(1,200),(2,300),(3,120),(4,250),(5,78)])

In [32]:
#consulta por chave
chaves = compras.keys()
chaves.collect()

[1, 2, 3, 4, 5]

In [33]:
# consulta por valores
valores = compras.values()
valores.collect()

[200, 300, 120, 250, 78]

In [34]:
#contagem de chaves
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

In [35]:
#alterando valores no RDD
soma = compras.mapValues(lambda soma: soma+1)
soma.collect()

[(1, 201), (2, 301), (3, 121), (4, 251), (5, 79)]

In [36]:
debitos = sc.parallelize([(1,20),(2,300)])

In [37]:
#inner join
resultado = compras.join(debitos)
resultado.collect()

[(2, (300, 300)), (1, (200, 20))]

In [38]:
#subtraindo por chave
semdebito = compras.subtractByKey(debitos)
semdebito.collect()

[(4, 250), (3, 120), (5, 78)]