
## Overview

This notebook will show you how to create and query a table or DataFrame that you uploaded to DBFS. [DBFS](https://docs.databricks.com/user-guide/dbfs-databricks-file-system.html) is a Databricks File System that allows you to store data for querying inside of Databricks. This notebook assumes that you have a file already inside of DBFS that you would like to read from.

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
# File location and type
file_location = "/FileStore/tables/endereco.txt"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = "|"

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

cep_id,nm_enredeco,bairro,cidade,UF
305095,av jucelino cursino,centro,São paulo,SP
303989,av brasil,centro,São paulo,SP
400487,av interlargos,centro,São paulo,SP
512496,av copacabana,centro,Rio de Janeiro,RJ
965268,rua dom pedro primeiro,centro,São paulo,SP
931429,rua vicente giacaline,Vila zilda,São paulo,SP
287560,rua governador valadares,Vila zilda,São paulo,SP
840060,rua sérgio vicente,Vila zilda,São paulo,SP
746023,rua ana carolina fernandes,Vicenza,São paulo,SP
187173,rua sabrina freire,Vicenza,São paulo,SP


In [0]:
# Create a view or table

temp_table_name = "endereco_txt"

df.createOrReplaceTempView(temp_table_name)

In [0]:
%sql

/* Query the created temp table in a SQL cell */

select * from `endereco_txt`

cep_id,nm_enredeco,bairro,cidade,UF
305095,av jucelino cursino,centro,São paulo,SP
303989,av brasil,centro,São paulo,SP
400487,av interlargos,centro,São paulo,SP
512496,av copacabana,centro,Rio de Janeiro,RJ
965268,rua dom pedro primeiro,centro,São paulo,SP
931429,rua vicente giacaline,Vila zilda,São paulo,SP
287560,rua governador valadares,Vila zilda,São paulo,SP
840060,rua sérgio vicente,Vila zilda,São paulo,SP
746023,rua ana carolina fernandes,Vicenza,São paulo,SP
187173,rua sabrina freire,Vicenza,São paulo,SP


In [0]:
# With this registered as a temp view, it will only be available to this particular notebook. If you'd like other users to be able to query this table, you can also create a table from the DataFrame.
# Once saved, this table will persist across cluster restarts as well as allow various users across different notebooks to query this data.
# To do so, choose your table name and uncomment the bottom line.

permanent_table_name = "endereco_txt"

# df.write.format("parquet").saveAsTable(permanent_table_name)

In [0]:
df.write.mode("overwrite").saveAsTable("tb_endereco")

In [0]:
df_end = spark.table('tb_endereco')

df_end.display()

cep_id,nm_enredeco,bairro,cidade,UF
305095,av jucelino cursino,centro,São paulo,SP
303989,av brasil,centro,São paulo,SP
400487,av interlargos,centro,São paulo,SP
512496,av copacabana,centro,Rio de Janeiro,RJ
965268,rua dom pedro primeiro,centro,São paulo,SP
931429,rua vicente giacaline,Vila zilda,São paulo,SP
287560,rua governador valadares,Vila zilda,São paulo,SP
840060,rua sérgio vicente,Vila zilda,São paulo,SP
746023,rua ana carolina fernandes,Vicenza,São paulo,SP
187173,rua sabrina freire,Vicenza,São paulo,SP


In [0]:
from pyspark.sql import functions as F
df_end.filter(F.col('bairro') == 'Vicenza').show()

+------+--------------------+-------+---------+---+
|cep_id|         nm_enredeco| bairro|   cidade| UF|
+------+--------------------+-------+---------+---+
|746023|rua ana carolina ...|Vicenza|São paulo| SP|
|187173|  rua sabrina freire|Vicenza|São paulo| SP|
|931949|         rua capuava|Vicenza|São paulo| SP|
|871432|     rua lucas matos|Vicenza|São paulo| SP|
+------+--------------------+-------+---------+---+



Aqui segue o link para download dos arquivos que vamos utilizar, já foi disponibilizado no último vídeo onde abordamos a parte de importação, mas ainda sim vamos disponibilizado a cada video da série.

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

<img src='https://i.imgur.com/HRhd2Y0.png'>

In [0]:
from pyspark.sql import functions as F

In [0]:
df = spark.table('stock')

In [0]:
df.display()

Open,High,Low,Close,Adj_Close,Volume,StokeName
410.5700073242188,412.7200012207031,409.1000061035156,412.3200073242188,412.3200073242188,14670400,MSFT
4.539999961853027,4.550000190734863,4.409999847412109,4.409999847412109,4.409999847412109,3400,NURO


Databricks visualization. Run in Databricks to view.