## Trabalhando com RDD e executando transformações

1. Ler com RDD os arquivos localmente do diretório “/opt/spark/logs/” ("file:///opt/spark/logs/")
2. Com uso de RDD faça as seguintes operações
a) Contar a quantidade de linhas
b) Visualizar a primeira linha
c) Visualizar todas as linhas
d) Contar a quantidade de palavras
e) Converter todas as palavras em minúsculas
f) Remover as palavras de tamanho menor que 2
g) Atribuir o valor de 1 para cada palavra
h) Contar as palavras com o mesmo nome
i) Visualizar em ordem alfabética
j) Visualizar em ordem decrescente a quantidade de palavras
k) Remover as palavras, com a quantidade de palavras > 1
l) Salvar o RDD no diretorio do HDFS /user/<seu-nome>/logs_count_word

In [1]:
#lendo diretorio spark antes
!ls /opt/spark/logs

spark--org.apache.spark.deploy.master.Master-1-jupyter-notebook.out


In [2]:
#lendo arquivo spark
#1. Ler com RDD os arquivos localmente do diretório “/opt/spark/logs/” ("file:///opt/spark/logs/")
!cat /opt/spark/logs/spark--org.apache.spark.deploy.master.Master-1-jupyter-notebook.out

Spark Command: /opt/java/bin/java -cp /etc/spark/:/opt/spark/jars/*:/etc/hadoop/:/etc/hadoop/*:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/tools/lib/* -Xmx1g org.apache.spark.deploy.master.Master --host localhost --port 7077 --webui-port 8080
20/03/18 20:31:09 INFO master.Master: Started daemon with process name: 1087@jupyter-notebook
20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for TERM
20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for HUP
20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for INT
20/03/18 20:31:10 INFO spark.SecurityManager: Changing view acls to: root
20/03/18 20:31:10 INFO spark.SecurityManager: Changing modify acls to: root
20/03/18 20:3

In [3]:
log = sc.textFile("file:///opt/spark/logs")

In [4]:
#a) Contar a quantidade de linhas
log.count()

30

In [5]:
#b) Visualizar a primeira linha
log.first()

'Spark Command: /opt/java/bin/java -cp /etc/spark/:/opt/spark/jars/*:/etc/hadoop/:/etc/hadoop/*:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/tools/lib/* -Xmx1g org.apache.spark.deploy.master.Master --host localhost --port 7077 --webui-port 8080'

In [6]:
#c) Visualizar todas as linhas , cuidado super perigoso em produção
log.collect()

['Spark Command: /opt/java/bin/java -cp /etc/spark/:/opt/spark/jars/*:/etc/hadoop/:/etc/hadoop/*:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/tools/lib/* -Xmx1g org.apache.spark.deploy.master.Master --host localhost --port 7077 --webui-port 8080',
 '20/03/18 20:31:09 INFO master.Master: Started daemon with process name: 1087@jupyter-notebook',
 '20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for TERM',
 '20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for HUP',
 '20/03/18 20:31:09 INFO util.SignalUtils: Registered signal handler for INT',
 '20/03/18 20:31:10 INFO spark.SecurityManager: Changing view acls to: root',
 '20/03/18 20:31:10 INFO spark.SecurityManager: Changing modify acls to:

In [7]:
#d) Contar a quantidade de palavras
#1 -  separar as palavras da linha(flatMap)
palavras = log.flatMap(lambda linha: linha.split(" "))
#2 - contando a quantidade
palavras.count()

268

In [8]:
#e) Converter todas as palavras em minúsculas
minuscula = palavras.map(lambda palavra: palavra.lower())
minuscula.first()

'spark'

In [9]:
#f) Remover as palavras de tamanho menor que 2
minuscula_maior2 = minuscula.filter(lambda palavra: len(palavra) >2)
minuscula_maior2.count()

257

In [10]:
#g) Atribuir o valor de 1 para cada palavra
palavra_1 = minuscula_maior2.map(lambda palavra: (palavra,1))
palavra_1.first()

('spark', 1)

In [11]:
#h) Contar as palavras com o mesmo nome
palavras_reduce = palavra_1.reduceByKey(lambda chave1, chave2, : chave1 + chave2)
palavras_reduce.count()

101

In [12]:
#i) Visualizar em ordem alfabética
palavras_reduce = palavra_1.reduceByKey(lambda chave1, chave2, : chave1 + chave2)
palavras_reduce.count()

101

In [13]:
#j) Visualizar em ordem decrescente a quantidade de palavras
palavras_ordem = palavras_reduce.sortBy(lambda palavra: palavra[0],True)
palavras_ordem.collect()

[("'masterui'", 1),
 ("'sparkmaster'", 1),
 ('--host', 1),
 ('--port', 1),
 ('--webui-port', 1),
 ('-cp', 1),
 ('-xmx1g', 1),
 ('/etc/spark/:/opt/spark/jars/*:/etc/hadoop/:/etc/hadoop/*:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/tools/lib/*',
  1),
 ('/opt/java/bin/java', 1),
 ('0.0.0.0,', 1),
 ('1087@jupyter-notebook', 1),
 ('2.4.1', 1),
 ('20/03/18', 28),
 ('20:31:09', 4),
 ('20:31:10', 24),
 ('7077', 1),
 ('7077.', 1),
 ('8080', 1),
 ('8080.', 1),
 ('@1454ms', 1),
 ('@1504ms', 1),
 ('acls', 5),
 ('alive', 1),
 ('and', 1),
 ('authentication', 1),
 ('been', 1),
 ('bound', 1),
 ('build', 1),
 ('changing', 4),
 ('command:', 1),
 ('daemon', 1),
 ('disabled;', 2),
 ('elected', 1),
 ('for', 3),
 ('git', 1),
 ('groups', 4),
 ('

In [14]:
#k) Remover as palavras, com a quantidade de palavras > 1
palavras_ordem_qtd = palavras_reduce.sortBy(lambda palavra: palavra[1],False)
palavras_ordem_qtd.collect()

[('20/03/18', 28),
 ('info', 28),
 ('20:31:10', 24),
 ('started', 15),
 ('handler.contexthandler:', 9),
 ('with', 5),
 ('spark.securitymanager:', 5),
 ('acls', 5),
 ('20:31:09', 4),
 ('master.master:', 4),
 ('groups', 4),
 ('permissions:', 4),
 ('changing', 4),
 ('view', 4),
 ('to:', 4),
 ('modify', 4),
 ('registered', 3),
 ('spark', 3),
 ('util.signalutils:', 3),
 ('signal', 3),
 ('handler', 3),
 ('for', 3),
 ('root', 2),
 ('disabled;', 2),
 ('set(root);', 2),
 ('successfully', 2),
 ('service', 2),
 ('server.server:', 2),
 ('users', 2),
 ('util.utils:', 2),
 ('port', 2),
 ('/opt/java/bin/java', 1),
 ('7077', 1),
 ('--webui-port', 1),
 ('8080', 1),
 ('daemon', 1),
 ('process', 1),
 ('term', 1),
 ('int', 1),
 ('securitymanager:', 1),
 ('set();', 1),
 ('set()', 1),
 ("'sparkmaster'", 1),
 ('starting', 1),
 ('master', 1),
 ('version', 1),
 ('2.4.1', 1),
 ('util.log:', 1),
 ('logging', 1),
 ('@1454ms', 1),
 ('jetty-9.3.z-snapshot,', 1),
 ('timestamp:', 1),
 ('git', 1),
 ('hash:', 1),
 ('un

In [15]:
palavras_ordem_filtro = palavras_ordem_qtd.filter(lambda palavra: palavra[1] > 1)
palavras_ordem_filtro.collect()

[('20/03/18', 28),
 ('info', 28),
 ('20:31:10', 24),
 ('started', 15),
 ('handler.contexthandler:', 9),
 ('with', 5),
 ('spark.securitymanager:', 5),
 ('acls', 5),
 ('20:31:09', 4),
 ('master.master:', 4),
 ('groups', 4),
 ('permissions:', 4),
 ('changing', 4),
 ('view', 4),
 ('to:', 4),
 ('modify', 4),
 ('registered', 3),
 ('spark', 3),
 ('util.signalutils:', 3),
 ('signal', 3),
 ('handler', 3),
 ('for', 3),
 ('root', 2),
 ('disabled;', 2),
 ('set(root);', 2),
 ('successfully', 2),
 ('service', 2),
 ('server.server:', 2),
 ('users', 2),
 ('util.utils:', 2),
 ('port', 2)]

In [50]:
#l) Salvar o RDD no diretorio do HDFS /user/<seu-nome>/logs_count_word
palavras_ordem_filtro.saveAsTextFile("/user/ronnan/logs_count_four")

In [51]:
!hdfs dfs -ls /user/ronnan/logs_count_four

Found 3 items
-rw-r--r--   2 root supergroup          0 2022-04-09 14:43 /user/ronnan/logs_count_four/_SUCCESS
-rw-r--r--   2 root supergroup        517 2022-04-09 14:43 /user/ronnan/logs_count_four/part-00000
-rw-r--r--   2 root supergroup          0 2022-04-09 14:43 /user/ronnan/logs_count_four/part-00001


In [18]:
## RDD com partições continuação

#1. Ler com RDD os arquivos localmente do diretório “/opt/spark/logs/” ("file:///opt/spark/logs/") com 10 partições
#2. Contar a quantidade de cada palavras do RDD em 5 partições
#3. Salvar o RDD no diretório do HDFS /user/<seu-nome>/logs_count_word_5
#4. Refazer a questão 2, com todas as funções na mesma linha de um RDD

In [19]:
#lendo diretorio spark antes
!ls /opt/spark/logs

spark--org.apache.spark.deploy.master.Master-1-jupyter-notebook.out


In [63]:
#1. Ler com RDD os arquivos localmente do diretório “/opt/spark/logs/” ("file:///opt/spark/logs/") com 10 partições
log_particoes = sc.textFile("file:///opt/spark/logs",10)
log_particoes.getNumPartitions()

10

In [77]:
palavras_particoes = log_particoes.flatMap(lambda linha: linha.split(" "),5) 
palavras_particoes.getNumPartitions()

10

In [78]:
palavras_minuscula_particoes = palavras_particoes.map(lambda palavra: palavra.lower(), 8)
palavras_minuscula_particoes.getNumPartitions()

10

In [79]:
palavras_count_particoes = palavras_minuscula_particoes.map(lambda palavra: (palavra,1), 7)
palavras_count_particoes.getNumPartitions()

10

In [67]:
#2. Contar a quantidade de cada palavras do RDD em 5 partições
palavras_reduce_particoes = palavras_count_particoes.reduceByKey (lambda x,y:x+y, 5) 
palavras_reduce_particoes.getNumPartitions()

5

In [68]:
#3. Salvar o RDD no diretório do HDFS /user/<seu-nome>/logs_count_word_5
palavras_reduce_particoes.saveAsTextFile("/user/ronnan/logs_count_five2")

In [None]:
#4. Refazer a questão 2, com todas as funções na mesma linha de um RDD

In [71]:
!hdfs dfs -rm -R /user/ronnan/logs_count_five1

Deleted /user/ronnan/logs_count_five1


In [72]:
!hdfs dfs -ls /user/ronnan/logs_count_five2

Found 6 items
-rw-r--r--   2 root supergroup          0 2022-04-09 14:50 /user/ronnan/logs_count_five2/_SUCCESS
-rw-r--r--   2 root supergroup        575 2022-04-09 14:50 /user/ronnan/logs_count_five2/part-00000
-rw-r--r--   2 root supergroup        208 2022-04-09 14:50 /user/ronnan/logs_count_five2/part-00001
-rw-r--r--   2 root supergroup        444 2022-04-09 14:50 /user/ronnan/logs_count_five2/part-00002
-rw-r--r--   2 root supergroup        772 2022-04-09 14:50 /user/ronnan/logs_count_five2/part-00003
-rw-r--r--   2 root supergroup        785 2022-04-09 14:50 /user/ronnan/logs_count_five2/part-00004


In [74]:
palavras_particoes_linha = log_particoes.flatMap (lambda linha: linha.split(" ")).map(lambda palavra: palavra.lower()).map(lambda palavra: (palavra,1)).reduceByKey (lambda x,y:x+y, 5)
palavras_particoes.getNumPartitions()

2

In [75]:
palavras_particoes_linha.collect()

[('--port', 1),
 ('20:31:09', 4),
 ('daemon', 1),
 ('process', 1),
 ('registered', 3),
 ('signal', 3),
 ('20:31:10', 24),
 ('to:', 4),
 ('groups', 4),
 ('', 4),
 ('authentication', 1),
 ('users', 2),
 ('permissions:', 4),
 ('on', 2),
 ('starting', 1),
 ('at', 2),
 ('2.4.1', 1),
 ('util.log:', 1),
 ('timestamp:', 1),
 ('@1504ms', 1),
 ("'masterui'", 1),
 ('o.s.j.s.servletcontexthandler@2a362185{/app/kill,null,available,@spark}',
  1),
 ('o.s.j.s.servletcontexthandler@222db61{/driver/kill,null,available,@spark}',
  1),
 ('to', 1),
 ('0.0.0.0,', 1),
 ('http://jupyter-notebook:8080', 1),
 ('have', 1),
 ('elected', 1),
 ('alive', 1),
 ('command:', 1),
 ('-cp', 1),
 ('info', 28),
 ('int', 1),
 ('acls', 5),
 ('modify', 4),
 ('util.utils:', 2),
 ('7077.', 1),
 ('master', 1),
 ('jetty-9.3.z-snapshot,', 1),
 ('8080.', 1),
 ('bound', 1),
 ('masterwebui', 1),
 ('and', 1),
 ('/opt/java/bin/java', 1),
 ('org.apache.spark.deploy.master.master', 1),
 ('8080', 1),
 ('20/03/18', 28),
 ('name:', 1),
 ('u