## Apache Spark
Definição: sistema para análise de dados com processamento distribuído, com alta escalabilidade, se apoiando principalmente do uso compartilhado da memória RAM dos nodos de um cluster como fonte de processamento (nesse modo, 100X + rápido que o Hadoop MapReduce). Lembrando que Apache Spark também permite processamento em disco (nesse modo, 10X + rápido que o Hadoop MapReduce), no caso de não haver memória RAM suficiente nos nodos do cluster para processar a quantidade necessária de dados.

Acessando o portal de JOBs: http://localhost:4040

### Verificando Spark Context

In [1]:
print('Verificando o contexto em que se encontra a conexão:', '\n')
print(sc) #sc = spark context
print('\n', 'Versão do SPARK em execução:', sc.version)

Verificando o contexto em que se encontra a conexão: 

<SparkContext master=local[*] appName=PySparkShell>

 Versão do SPARK em execução: 2.2.0


### Criando uma RDD a partir de dados de uma lista Python

In [2]:
list1 = [25, 35, 1, 17, 23, 44, 977, 75, 65]

print('Conversão de uma lista Python para um objeto Spark', '\n')
test = sc.parallelize(list1)

print('Objeto criado com a função sc.parallelize():', test, '\n')
print('Tipo do objeto criado <test>:', type(test))

Conversão de uma lista Python para um objeto Spark 

Objeto criado com a função sc.parallelize(): ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:480 

Tipo do objeto criado <test>: <class 'pyspark.rdd.RDD'>


In [9]:
print('Chamando o HELP da função para maiores informações...')
?sc.parallelize

Chamando o HELP da função para maiores informações...


### Funções mais comuns...

In [3]:
print('Quantidade de elementos do objeto RDD criado <test>', test.count())

Quantidade de elementos do objeto RDD criado <test> 9


In [4]:
print('Conteúdo da coleção de elementos do objeto RDD criado <test>:', test.collect())

Conteúdo da coleção de elementos do objeto RDD criado <test>: [25, 35, 1, 17, 23, 44, 977, 75, 65]


### Criando uma RDD a partir de dados de um arquivo (CSV)

In [2]:
# Criando uma RDD a partir de um arquivo CSV

file = 'C:\\Users\\XXXX\\Projetos_Daniel\\DistributedComputing\\ApacheSpark\\datasets\\sentiments.csv'

sentRDD = sc.textFile(file)

print('Tipo do objeto criado <sentRDD>:', type(sentRDD))

Tipo do objeto criado <sentRDD>: <class 'pyspark.rdd.RDD'>


### Contando os elementos de uma RDD

In [7]:
print('Quantidade de elementos do objeto RDD criado <test>', sentRDD.count())

Quantidade de elementos do objeto RDD criado <test> 100


### 5 primeiros registros da RDD

In [8]:
print('Imprimindo as 5 primeiras linahs do RDD criado:')
sentRDD.take(5)

Imprimindo as 5 primeiras linahs do RDD criado:


['positivo,Esse livro é incrível.',
 'positivo,Um dos melhores livros que eu já li.',
 'positivo,um dos melhores livros que eu já li',
 'positivo,Acho que ele tem um conteúdo que vai além do que está em sua descrição.',
 'positivo,O Sol é para todos é profundo e emocionante']

### Transformando todos os registros de uma RDD para strings com letras maiúsculas

In [3]:
print('Transformação de dados no RDD: colocando com letras maiúsculas todos os registros:')
senttransfRDD = sentRDD.map(lambda x : x.upper())

print('Imprmindo a transformação desejada...')
senttransfRDD.take(5)

Transformação de dados no RDD: colocando com letras maiúsculas todos os registros:
Imprmindo a transformação desejada...


['POSITIVO,ESSE LIVRO É INCRÍVEL.',
 'POSITIVO,UM DOS MELHORES LIVROS QUE EU JÁ LI.',
 'POSITIVO,UM DOS MELHORES LIVROS QUE EU JÁ LI',
 'POSITIVO,ACHO QUE ELE TEM UM CONTEÚDO QUE VAI ALÉM DO QUE ESTÁ EM SUA DESCRIÇÃO.',
 'POSITIVO,O SOL É PARA TODOS É PROFUNDO E EMOCIONANTE']

In [65]:
print('Tipo do objeto criado na RDD transformada <senttransfRDD>:', type(senttransfRDD))

Tipo do objeto criado na RDD transformada <senttransfRDD>: <class 'pyspark.rdd.PipelinedRDD'>


In [79]:
print('Atribuindo para um novo objeto RDD todos os elementos da RDD original <sentRDD>:')
arquivo = sentRDD
print()
print('Tipo do objeto criado <arquivo>:', type(arquivo))

print('Retornando apenas o valor do elemento da primeira linha do RDD <arquivo>:')
arquivo.first()

Atribuindo para um novo objeto RDD todos os elementos da RDD original <sentRDD>:

Tipo do objeto criado <arquivo>: <class 'pyspark.rdd.RDD'>
Retornando apenas o valor do elemento da primeira linha do RDD <arquivo>:


'positivo,Esse livro é incrível.'

### Filtrando dados em uma RDD

In [88]:
filtrolinhas = arquivo.filter(lambda x : "Sol" in x)

QtdRegistrosFiltro = filtrolinhas.count()

print('Quantidade de registros onde a palavra "Sol" é encontrada:', QtdRegistrosFiltro, '\n')
print('Tipo do objeto criado <filtrolinhas> <<< observe que o tipo de dados criado é um PIPELINE, pois há mais um de operação sendo efetuada na prática  >>>:', type(filtrolinhas), '\n')
print('Imprimindo os registros onde a palavra "Sol" é encontrada:')
filtrolinhas.take(QtdRegistrosFiltro)

Quantidade de registros onde a palavra "Sol" é encontrada: 3 

Tipo do objeto criado <filtrolinhas> <<< observe que o tipo de dados criado é um PIPELINE, pois há mais um de operação sendo efetuada na prática  >>>: <class 'pyspark.rdd.PipelinedRDD'> 

Imprimindo os registros onde a palavra "Sol" é encontrada:


['positivo,O Sol é para todos é profundo e emocionante',
 'negativo,Sol para todos é um Livro ruim',
 'negativo,O Sol para todos não é para todos.']

##### A função abaixo primeiramente mapeia (MAP) os dados da RDD "arquivo", e para cada elemento, ela conta quantos caracteres tem até a quebra de linha. Feito isso, ela compara a quantidade de caracteres contidos em cada uma das linhas, por pares de linha (REDUCE). A linha que tiver a maior quantidade de elementos contados, será impresso em em tela a quantidade de elementos contados neste elemento ganhador.

In [91]:
arquivo.map(lambda line : len(line.split())).reduce(lambda a, b: a if (a>b) else b)

27

#### A mesma linha acima poderia ser escrita em forma de função, conforme abaixo:

In [94]:
def maior_elemento(a, b):
    if a > b:
        return a
    else:
        return b

arquivo.map(lambda line: len(line.split())).reduce(maior_elemento) #a função "maior_elemento" é para pegar o maior valor

27

#### Operação de Map Reduce

In [103]:
print('Transformação: flatMap + map')
print('Ação: reduceByKey', '\n')
countwords = arquivo.flatMap(lambda line: line.split()).map(lambda palavra: (palavra, 1)).reduceByKey(lambda a, b: a+b)             
print('Contabilizando a quantidade de vezes que uma palavra é encontrada na RDD <arquivo>:')
countwords.collect()

Transformação: flatMap + map
Ação: reduceByKey 

Contabilizando a quantidade de vezes que uma palavra é encontrada na RDD <arquivo>:


[('livro', 5),
 ('que', 13),
 ('li.', 4),
 ('positivo,um', 3),
 ('li', 1),
 ('positivo,Acho', 1),
 ('tem', 1),
 ('um', 3),
 ('vai', 1),
 ('do', 2),
 ('em', 1),
 ('descrição.', 1),
 ('positivo,O', 2),
 ('para', 5),
 ('todos', 4),
 ('positivo,Me', 1),
 ('este', 1),
 ('livro,', 1),
 ('antigo', 1),
 ('uma', 4),
 ('história', 1),
 ('antiga', 1),
 ('positivo,The', 6),
 ('Da', 38),
 ('Vinci', 45),
 ('Code', 24),
 ('is', 17),
 ('good', 3),
 ('movie...', 1),
 ('thought', 2),
 ('was', 4),
 ('pretty', 1),
 ('book.', 4),
 ('realmente', 1),
 ('deveria', 1),
 ('todas', 1),
 ('as', 1),
 ('pessoas.', 1),
 ('an', 6),
 ('*', 2),
 ('book', 2),
 ('turn', 1),
 ('positivo,Harper', 1),
 ('aborda', 1),
 ('muito', 3),
 ('polêmicos,', 1),
 ('como', 1),
 ('Bullying,', 1),
 ('olhos', 1),
 ('inocentes', 1),
 ('positivo,i', 4),
 ('love', 6),
 ('da', 13),
 ('code....', 1),
 ('loved', 5),
 ('code..', 2),
 ('VINCI', 4),
 ('BEAUTIFUL', 1),
 ('positivo,THE', 1),
 ('slash', 1),
 ('race.', 1),
 ('positivo,Hey', 1),
 ('The