# RDD - Resilient Distributed Datasets
- Estrutura básica de baixo nível;
- Dados "imutáveis", distribuídos pelo CLuster;
- Em memória;
- Pode ser Persistido em Disco;
- Tolerante a falhas;
- Operações sobre um RDD criam um novo RDD;
- Complexo e verboso;
- Otimização difícil pelo Spark

In [1]:
# importando o pyspark
from pyspark.sql import SparkSession

In [2]:
# iniciando uma Spark Session
spark = SparkSession.builder \
    .master("local") \
        .appName("rdd") \
            .config("spark.executer.memory", "1gb") \
                .getOrCreate()

22/05/13 23:16:21 WARN Utils: Your hostname, rbsmotta resolves to a loopback address: 127.0.1.1; using 192.168.1.100 instead (on interface enp1s0)
22/05/13 23:16:21 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/05/13 23:16:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/05/13 23:16:23 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [3]:
# iniciando Spark Context
sc = spark.sparkContext

In [4]:
# criando RDD
numeros = sc.parallelize([1,2,3,4,5,6,7,8,9,10])

In [5]:
# visualizando os 5 primeiros elementos
numeros.take(5)

                                                                                

[1, 2, 3, 4, 5]

In [6]:
# visualizando os 5 maiores elementos
numeros.top(5)

[10, 9, 8, 7, 6]

In [7]:
# visualizando o RDD completo
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [8]:
# contagem de elementos
numeros.count()

10

In [9]:
# média dos elementos
numeros.mean()

5.5

In [10]:
# soma dos elementos
numeros.sum()

55

In [11]:
# para saber o maior valor
numeros.max()

10

In [12]:
# para saber o menor valor
numeros.min()

1

In [13]:
# desvio padrão
numeros.stdev()

2.8722813232690143

In [14]:
# criando filtro de elementos
filtro = numeros.filter(lambda filtro: filtro > 2)

In [15]:
# mostrando filtro
filtro.collect()

[3, 4, 5, 6, 7, 8, 9, 10]

In [16]:
# criando uma amostra do RDD
amostra = numeros.sample(True,0.5,1)

In [17]:
# mostrando o resultado da amostra
amostra.collect()

[2, 3, 4, 5, 9, 10]

In [18]:
# função map (multiplica todos os elementos em numeros por 2)
mapa = numeros.map(lambda mapa: mapa * 2)

In [19]:
# mostra o resultado da função map
mapa.collect()

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [20]:
# criando um novo RDD
numeros2 = sc.parallelize([6,7,8,9,10])

In [21]:
# unindo numeros com numeros2
uniao = numeros.union(numeros2)

In [22]:
# mostrando a uniao das duas RDDs
uniao.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

In [23]:
# interceccao (elementos em comum)
interseccao = numeros.intersection(numeros2)

In [24]:
# mostrando a interseccao
interseccao.collect()

                                                                                

[6, 8, 10, 7, 9]

In [25]:
# numeros que não se repetem
subtrai = numeros.subtract(numeros2)

In [26]:
# mostrando os numeros que nao se repetem
subtrai.collect()

[2, 4, 1, 3, 5]

In [27]:
# calculando o produto cartesiano
cartesiano = numeros.cartesian(numeros2)

In [28]:
cartesiano.collect()

[(1, 6),
 (1, 7),
 (1, 8),
 (1, 9),
 (1, 10),
 (2, 6),
 (2, 7),
 (2, 8),
 (2, 9),
 (2, 10),
 (3, 6),
 (3, 7),
 (3, 8),
 (3, 9),
 (3, 10),
 (4, 6),
 (4, 7),
 (4, 8),
 (4, 9),
 (4, 10),
 (5, 6),
 (5, 7),
 (5, 8),
 (5, 9),
 (5, 10),
 (6, 6),
 (6, 7),
 (6, 8),
 (6, 9),
 (6, 10),
 (7, 6),
 (7, 7),
 (7, 8),
 (7, 9),
 (7, 10),
 (8, 6),
 (8, 7),
 (8, 8),
 (8, 9),
 (8, 10),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9),
 (9, 10),
 (10, 6),
 (10, 7),
 (10, 8),
 (10, 9),
 (10, 10)]

In [29]:
# contando quantas vezes cada elemento aparece no RDD por valor
cartesiano.countByValue()

defaultdict(int,
            {(1, 6): 1,
             (1, 7): 1,
             (1, 8): 1,
             (1, 9): 1,
             (1, 10): 1,
             (2, 6): 1,
             (2, 7): 1,
             (2, 8): 1,
             (2, 9): 1,
             (2, 10): 1,
             (3, 6): 1,
             (3, 7): 1,
             (3, 8): 1,
             (3, 9): 1,
             (3, 10): 1,
             (4, 6): 1,
             (4, 7): 1,
             (4, 8): 1,
             (4, 9): 1,
             (4, 10): 1,
             (5, 6): 1,
             (5, 7): 1,
             (5, 8): 1,
             (5, 9): 1,
             (5, 10): 1,
             (6, 6): 1,
             (6, 7): 1,
             (6, 8): 1,
             (6, 9): 1,
             (6, 10): 1,
             (7, 6): 1,
             (7, 7): 1,
             (7, 8): 1,
             (7, 9): 1,
             (7, 10): 1,
             (8, 6): 1,
             (8, 7): 1,
             (8, 8): 1,
             (8, 9): 1,
             (8, 10): 1,
             (9

In [30]:
# criando RDD de compras, compostas por chave do cliente e valor de compras
compras = sc.parallelize([(1,200),(2,300),(3,120),(4,250),(5,78)])

In [31]:
# para ver apenas os clientes
chaves = compras.keys()

In [32]:
# para mostrar os clientes
chaves.collect()

[1, 2, 3, 4, 5]

In [33]:
# para ver apenas os valores
valores = compras.values()

In [34]:
# para mostrar os valores
valores.collect()

[200, 300, 120, 250, 78]

In [35]:
# contagem por chaves
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

In [36]:
# altera valores no RDD
soma = compras.mapValues(lambda soma: soma + 1)

In [37]:
# mostrando os valores alterados
soma.collect()

[(1, 201), (2, 301), (3, 121), (4, 251), (5, 79)]

In [38]:
# criando RDD debitos
debitos = sc.parallelize([(1,20),(2,300)])

In [39]:
# fazendo um inner joy entre compras e débitos
resultado = compras.join(debitos)

In [41]:
# mostrando resultado
resultado.collect()

[(2, (300, 300)), (1, (200, 20))]

In [43]:
# criando RDD de clientes sem debito
semdebito = compras.subtractByKey(debitos)

In [44]:
# mostrando clientes
semdebito.collect()

[(4, 250), (3, 120), (5, 78)]