## Sessão e contexto do Spark

In [2]:
# Informações da sessão de spark (spark)
spark

In [3]:
# Informações do contexto do spark (sc)
sc

In [4]:
# Setar o log como INFO
spark.sparkContext.setLogLevel("INFO")

In [5]:
# Visualizar todos os bancos de dados com o catalog

spark.catalog.listDatabases()

# o resultado deve ser esse:
#[Database(name='default', description='Default Hive database', locationUrl='hdfs://namenode:8020/user/hive/warehouse')]

[Database(name='default', description='Default Hive database', locationUri='hdfs://namenode:8020/user/hive/warehouse')]

In [6]:
# Ler os dados do HDFS "hdfs://namenode:8020/user/feliciani/data/juros_selic/juros_selic.json“ com uso de Dataframe

juros = spark.read.json("hdfs://namenode:8020/user/feliciani/data/juros_selic/juros_selic.json")

# juros = spark.read.json("/namenode:8020/user/feliciani/data/juros_selic/juros_selic.json") Também iria ler do HDFS por que ele é o padrão
# juros = spark.read.json("hdfs:///user/feliciani/data/juros_selic/juros_selic.json") Também iria ler do HDFS 

In [7]:
# Listar as 5 primeiras linhas

juros.show(5)

+----------+-----+
|      data|valor|
+----------+-----+
|01/06/1986| 1.27|
|01/07/1986| 1.95|
|01/08/1986| 2.57|
|01/09/1986| 2.94|
|01/10/1986| 1.96|
+----------+-----+
only showing top 5 rows



In [8]:
# Salvar o Dataframe como juros no formato de tabela Hive

juros.write.saveAsTable("juros")

# Salvará nesse endereço padrão hdfs://namenode:8020/user/hive/warehouse

In [11]:
# Criada tabela no formato do Hive utilizando a compressão SNAPPY e no formato padrão PARQUET
!hdfs dfs -ls /user/hive/warehouse/juros

Found 2 items
-rw-r--r--   2 root supergroup          0 2021-06-25 18:26 /user/hive/warehouse/juros/_SUCCESS
-rw-r--r--   2 root supergroup       3883 2021-06-25 18:26 /user/hive/warehouse/juros/part-00000-6cbe76e6-aa1e-48d6-9ed0-9e28763a82bd-c000.snappy.parquet


In [12]:
# Visualizar todas as tabelas com o catalog

spark.catalog.listDatabases()


[Database(name='default', description='Default Hive database', locationUri='hdfs://namenode:8020/user/hive/warehouse')]

In [14]:
# Visualizar no hdfs o formato e compressão que está a tabela juros do Hive

!hdfs dfs -ls /user/hive/warehouse

# por padrão o Spark salva comprimido SNAPPY E PARQUET

Found 1 items
drwxr-xr-x   - root supergroup          0 2021-06-25 18:26 /user/hive/warehouse/juros


In [15]:
# Ler e visualizar os dados da tabela juros, com uso de Dataframe no formato de Tabela Hive

spark.read.table("juros").show(5)


+----------+-----+
|      data|valor|
+----------+-----+
|01/06/1986| 1.27|
|01/07/1986| 1.95|
|01/08/1986| 2.57|
|01/09/1986| 2.94|
|01/10/1986| 1.96|
+----------+-----+
only showing top 5 rows



In [16]:
# Ler e visualizar os dados da tabela juros , com uso de Dataframe no formato Parquet

spark.read.parquet("/user/hive/warehouse/juros/").show(5)

+----------+-----+
|      data|valor|
+----------+-----+
|01/06/1986| 1.27|
|01/07/1986| 1.95|
|01/08/1986| 2.57|
|01/09/1986| 2.94|
|01/10/1986| 1.96|
+----------+-----+
only showing top 5 rows

