# Ler o arquivo CSV e criar um Data Frame

In [None]:
spark.read.csv("dbfs:/Volumes/workspace/default/arquivos-aula/arquivos_csv/Clientes.csv", header="True", inferSchema="True") # Informa o tipo de dados que contém no arquivo CSV, exemplo: int, string, double e etc.

# Apenas mostra o Data Frame (os dados)
display(spark.read.csv("dbfs:/Volumes/workspace/default/arquivos-aula/arquivos_csv/Clientes.csv", header="True", inferSchema="True"))

# Header = True = Indica que a primeira linha do arquivo é o cabeçalho
# InferSchema = Indica que o Spark vai inferir o tipo de dados que contém no arquivo CSV, exemplo: int, string, double e etc.

In [None]:
# Caminho do arquivo
file_path = 'dbfs:/Volumes/workspace/default/arquivos-aula/arquivos_csv/'

# Leitura do arquivo CSV
df_clientes = spark.read.format('csv') \
    .option('header', 'true') \
    .option('inferSchema', 'true') \
    .load(file_path)

# Exibe o DataFrame
display(df_clientes)

colunas = ["first_name", "email", "state", "country"] # Seta apenas as colunas informadas
display(df_clientes.select(colunas)) # Mostra as colunas setadas

colunas = ["first_name", "email", "state", "country"] # Seta apenas as colunas informadas
dfColunasFiltradas = df.select(colunas) # Salva as colunas num novo DF chamado ColunasFiltradas

dfColunasFiltradas.show() # Mostra o novo DF com as colunas setadas (filtradas)

# Caso deseje também poderia subscrever o DF

dfColunasFiltradas = df.select('first_name', 'cell_phone', 'state') # Sobrescreve "atualiza" o DF chamado ColunasFiltradas com as novas colunas setadas (selecionadas).

### # Criando um SCHEMA para salvar o DF em uma tabela física

# 1º Alterar a linguagem para SQL.
# 2º Rodar: CREATE SCHEMA WORKSPACE.nomeDoSchema Ex: CREATE SCHEMA WORKSPACE.TabelasSQL

### # Salva o Data Frame em uma tabela física. Por padrão o Databricks salva no Workspace/default

In [None]:
# Caminho do arquivo
file_path = 'dbfs:/Volumes/workspace/default/arquivos-aula/arquivos_csv/'

# Leitura do arquivo CSV
df_clientes = spark.read.format('csv') \
    .option('header', 'true') \
    .option('inferSchema', 'true') \
    .load(file_path)

# Salva o Data Frame como uma tabela física

df_clientes.write.mode('overwrite').saveAsTable('clientes') 
# Para alterar o local onde a tabela 'clientes' será salva, é só incluir o nome do schema antes do nome da tabela. Ex: .saveAsTable('TabelasSQL.clientes') do exemplo acima.

# Exibir o Data Frame 'em SQL'
# SELECT * FROM default.clientes

In [None]:

# Caminho do arquivo
file_path = 'dbfs:/Volumes/workspace/default/arquivos-aula/arquivos_csv/Clientes.csv'

# Leitura do arquivo CSV'
df_clientes = spark.read.format('csv') \
    .option('header', 'true') \
    .option('inferSchema', 'true') \
    .load(file_path)

# Salva o Data Frame como tabela física
df_clientes.write.mode('overwrite').saveAsTable('tabelas_sql.clientes') # 'tabelas_sql' é o nome dado ao Schema na etapa acima e 'clientes' é o nome da tabela.

# Código para excluir o SCHEMA caso em algum momento necessite:

# DROP SCHEMA WORKSPACE.nomedoschema CASCADE (ex: drop schema tabelas_sql cascade - Não usar cascade em produção.)

# Código para excluir a tabela caso em algum momento necessite:

# DROP TABLE WORKSPACE.nomedoschema.nomedatabela (ex: drop table tabelas_sql.clientes)

df_clientes.show(5)