### Entendendo as RDDs

In [1]:
# Criando o contexto
from  pyspark import SparkContext
sc = SparkContext.getOrCreate()

In [2]:
# Criação de uma RDD simples
rdd1 = sc.parallelize([1,2,3])
rdd1.collect()

[1, 2, 3]

In [3]:
# Utilizando o NumPy
import numpy as np
A = np.array(range(100))
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [4]:
rdd2 = sc.parallelize(np.array(range(100)))
rdd2.take(10)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [5]:
# Verificando a paralelização
# Observe que a paralelização da RDD não ocorreu. Ela não foi dividida

rdd3 = sc.parallelize(np.array(range(100)))
print(rdd3.glom().collect())  # resultado do glom() é uma RDD

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]


### O Particionamento das RDDs é feito por padrão pelo tamanho do cluster, mas também podemos especificar explicitamente, de preferência com o número de cores do PC.

In [8]:
# Paralelizando explicitamente
rdd4 = sc.parallelize(np.array(range(100)), 10) # 100 números divididos em 10 partições

In [9]:
# Verificando a paralelização
print(rdd4.glom().collect())

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [10, 11, 12, 13, 14, 15, 16, 17, 18, 19], [20, 21, 22, 23, 24, 25, 26, 27, 28, 29], [30, 31, 32, 33, 34, 35, 36, 37, 38, 39], [40, 41, 42, 43, 44, 45, 46, 47, 48, 49], [50, 51, 52, 53, 54, 55, 56, 57, 58, 59], [60, 61, 62, 63, 64, 65, 66, 67, 68, 69], [70, 71, 72, 73, 74, 75, 76, 77, 78, 79], [80, 81, 82, 83, 84, 85, 86, 87, 88, 89], [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]


In [11]:
# Traz o número de partições
print(rdd4.getNumPartitions())

10


### Paralelizando arquivos

In [12]:
# Lendo o primo basilio -  Eça de Queiroz
rddBasilio = sc.textFile("Basilio.txt")
print(rddBasilio.take(100))

['The Project Gutenberg EBook of O Primo Bazilio, by José Maria Eça de Queirós', '', 'This eBook is for the use of anyone anywhere at no cost and with', 'almost no restrictions whatsoever.  You may copy it, give it away or', 're-use it under the terms of the Project Gutenberg License included', 'with this eBook or online at www.gutenberg.org', '', '', 'Title: O Primo Bazilio', '       Episodio Domestico', '', 'Author: José Maria Eça de Queirós', '', 'Release Date: June 13, 2013 [EBook #42942]', '', 'Language: Portuguese', '', '', '*** START OF THIS PROJECT GUTENBERG EBOOK O PRIMO BAZILIO ***', '', '', '', '', 'Produced by Rita Farinha, Alberto Manuel Brandão Simões', 'and the Online Distributed Proofreading Team at', 'http://www.pgdp.net (This file was produced from images', 'generously made available by National Library of Portugal', '(Biblioteca Nacional de Portugal).)', '', '', '', '', '', '    *Nota de editor:* Devido à existência de erros tipográficos neste', '    texto, foram tom

In [13]:
print(rddBasilio.getNumPartitions())

1


In [14]:
rddBasilioPart = sc.textFile("Basilio.txt", 100)

In [15]:
print(rddBasilioPart.getNumPartitions())

100


### Leitura da Bíblia

In [17]:
# Verificar se o arquivo está em ANSI
rddANSI = sc.textFile("Biblia-ANSI.txt")
print(rddANSI.take(1000))

['B�BLIA SAGRADA', 'Tradu��o: Jo�o Ferreira de Almeida', 'Edi��o Revista e Corrigida', '�ndice', '', 'ANTIGO TESTAMENTO', 'G�nesis', '�xodo', 'Lev�tico', 'N�meros', 'Deuteron�mio', 'Josu�', 'Ju�zes', 'Rute', 'I Samuel', 'II Samuel', 'I Reis', 'II Reis', 'I Cr�nicas', 'II Cr�nicas', 'Esdras', 'Neemias', 'Ester', 'J�', 'Salmos', 'Prov�rbios', 'Eclesiastes', 'C�ntico dos C�nticos', 'Isa�as', 'Jeremias', 'Lamenta��es de Jeremias', 'Ezequiel', 'Daniel', 'Os�ias', 'Joel', 'Am�s', 'Obadias', 'Jonas', 'Miqu�ias', 'Naum', 'Habacuque', 'Sofonias', 'Ageu', 'Zacarias', 'Malaquias', 'NOVO TESTAMENTO', 'Mateus', 'Marcos', 'Lucas', 'Jo�o', 'Atos', 'Romanos', 'I Cor�ntios', 'II Cor�ntios', 'G�latas', 'Ef�sios', 'Filipenses', 'Colossenses', 'I Tessalonicenses', 'II Tessalonicenses', 'I Tim�teo', 'II Tim�teo', 'Tito', 'Filemom', 'Hebreus', 'Tiago', 'I Pedro', 'II Pedro', 'I Jo�o', 'II Jo�o', 'III Jo�o', 'Judas', 'Apocalipse', '', '', 'ANTIGO TESTAMENTO', '', 'G�NESIS', '', '�G�NESIS [1]', '1 No princ�pi

In [18]:
# Altere o arquivo para o UTF-8
rddBiblia = sc.textFile("Biblia-UTF8.txt")
print(rddBiblia.take(1000))

['BÍBLIA SAGRADA', 'Tradução: João Ferreira de Almeida', 'Edição Revista e Corrigida', 'Índice', '', 'ANTIGO TESTAMENTO', 'Gênesis', 'Êxodo', 'Levítico', 'Números', 'Deuteronômio', 'Josué', 'Juízes', 'Rute', 'I Samuel', 'II Samuel', 'I Reis', 'II Reis', 'I Crônicas', 'II Crônicas', 'Esdras', 'Neemias', 'Ester', 'Jó', 'Salmos', 'Provérbios', 'Eclesiastes', 'Cântico dos Cânticos', 'Isaías', 'Jeremias', 'Lamentações de Jeremias', 'Ezequiel', 'Daniel', 'Oséias', 'Joel', 'Amós', 'Obadias', 'Jonas', 'Miquéias', 'Naum', 'Habacuque', 'Sofonias', 'Ageu', 'Zacarias', 'Malaquias', 'NOVO TESTAMENTO', 'Mateus', 'Marcos', 'Lucas', 'João', 'Atos', 'Romanos', 'I Coríntios', 'II Coríntios', 'Gálatas', 'Efésios', 'Filipenses', 'Colossenses', 'I Tessalonicenses', 'II Tessalonicenses', 'I Timóteo', 'II Timóteo', 'Tito', 'Filemom', 'Hebreus', 'Tiago', 'I Pedro', 'II Pedro', 'I João', 'II João', 'III João', 'Judas', 'Apocalipse', '', '', 'ANTIGO TESTAMENTO', '', 'GÊNESIS', '', '»GÊNESIS [1]', '1 No princípi

### Transformações