
<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://moodle.df.senac.br/faculdade/pluginfile.php/1/theme_lambda/logo/1716924091/Logo-SENAC-PNG.png" style="width: 300px; height: 150px">
</div>

# Notebook Basics

Notebook é o meio em que se desenvolve e executa código interativo em diversas ferramentas para engenharia de dados, inclusive o Databricks.

Vamos iniciar nosso trabalho com o um estudo básico sobre funcionamento desse ambiente de desenvolvimento.

Notebooks permitem execução de código "célula a célula" e múltiplas linguagens podem ser mescladas. Você pode plotar gráficos, adicionar imagens e textos para melhorar teu código.

No ambiente Databricks torna-se uma ferramenta robusta que provê exploração de dados, _reporting_ e _dashboarding_ e que pode ser facilmente implantada (_deploy_) como código produtivo.


### Executando uma célula
* Para executar uma célula, você pode:
  * **CTRL+ENTER** para executar apenas a célula atual
  * **SHIFT+ENTER** para executar a célula atual e mover para a próxima
  * Usar **Run Cell**, **Run All Above** ou **Run All Below** no canto superior esquerdo da célula

In [0]:
print("Sou engenheiro de dados!")


### Configurando o idioma do Notebook

A célula acima/anterior executou um comando em Python, pois a linguagem deste notebook está configurada para Python.

Notebooks no Databricks suportam Python, SQL, Scala e R. A linguagem de programação pode ser selecionada quando um notebook é criado ou pode ser mudada a qualquer momento.

A linguagem padrão aparece no topo do Notebook, à direita do título. Vamos trabalhar com Python e SQL nas nossas atividades.

No canto superior direito da célula, você também pode mudar a linguagem apenas da mesma.


### Criando e executando uma célula


* Selecione essa célula e tecle a letra **B** no teclado para criar uma nova célula abaixo dessa. Para criar uma célula acima, tecle **A**
* Copie o seguinte código e execute a célula

`%sql`

`SELECT "Estou executando a melhor linguagem: SQL! Nunca muda, nunca morre!" as coluna`

Há diferentes métodos para adicionar, mover ou deletar células. Para mais informações: <a href="https://docs.databricks.com/notebooks/notebooks-use.html#develop-notebooks" target="_blank">Notebooks</a>.

In [0]:
%sql

SELECT "Estou executando a melhor linguagem: SQL! Nunca muda, nunca morre!" as coluna

## Comandos mágicos
* Os comandos mágicos são específicos para Notebooks no Databricks
* Há comandos mágicos em outros produtos similiares ao Notebooks da Databricks
* São comandos que possuem a mesma saída, independente da linguagem padrão do notebook
* O símbolo de percentual (_%_) no começo da célula identifica o comando mágico
  * Você só pode ter um comando mágico por célula
  * O comando mágico deve ser a primeira linha da célula


### Comandos mágicos de linguagem
Comandos mágicos de linguagem permitem a execução de código em linguagens diferentes da padrão do notebook.

* <strong><code>&#37;python</code></strong>
* <strong><code>&#37;sql</code></strong>

Adicionar o comando mágico da linguagem em toda célula de notebook não é necessário, apenas quando a célula tiver comandos de outra linguagem.

Quando mudamos a linguagem padrão do notebook, o tipo da linguagem da célula é automaticamente ajustado.



### Markdown

O comando mágico **&percnt;md** permite que seja escrito Markdown em uma célula:
* Clique duas vezes nesta célula para editá-la
* Aperte **`Esc`** ou **<code>CTRL+ENTER</code>** para sair da edição

# Título 1
## Título 2
### Título 3

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.

Lorem ipsum dolor sit amet, **consectetur adipiscing** elit, sed do eiusmod tempor <strong>incididunt ut labore et dolore magna aliqua</strong>.

Lorem ipsum dolor sit amet, _consectetur adipiscing_ elit, sed do eiusmod tempor <strong>_incididunt ut labore et dolore magna aliqua_</strong>.

Lista ordenada
1. Um
1. Dois
1. Três

Lista não ordenada
* Laranja
* Kiwi
* Pêra

De onde surgiu? <a href="https://en.wikipedia.org/wiki/Markdown" target="_blank">Markdown - Wikipedia</a>

Imagens:
![Spark Engines](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Apache_Spark_logo.svg/320px-Apache_Spark_logo.svg.png)

Tabelas:

| name   | value |
|--------|-------|
| João     | 1     |
| Maria    | 2     |
| José | 3     |


### %run
* Você pode executar um notebook a partir de outro usando o comando **`%run`**
* Notebooks devem ser especificados usando caminho relativo
* O notebook referenciado é executado como se fosse parte do notebook corrrente. Então variáveis e _views_ temporárias estarão disponíveis no notebook chamador

Exemplo para dar erro (não teve a tmp_vw criada antes):

In [0]:
%sql
SELECT * FROM tmp_vw



Execute a célula abaixo para executar o notebook e criar a tabela

In [0]:
%run "./Include/Exemplo Include"

In [0]:
_create_tmp_vw()



O notebook **`"./Include/Exemplo Include"`** possui uma função chamada `_create_tmp_vw()` que cria uma tabela temporária que pode ser referenciada neste notebook.

Caso o nome do notebook referenciado contenha espaços, o caminho deve vir entre aspas

In [0]:
%sql 
SELECT * FROM tmp_vw


## Utilitários Databricks
Notebooks Databricks incluem um utilitário chamado **`dbutils`** que contém uma série de comandos que ajudam a configurar e interagir com o ambiente, principalmente com arquivos: <a href="https://docs.databricks.com/user-guide/dev-tools/dbutils.html" target="_blank">dbutils</a>


In [0]:
dbutils.fs.ls('/')


## display()

Quando se executam consultas SQL das células de notebooks, resultados são sempre mostrados em formato tabular.

Para obter o mesmo resultado quando se executam células Python, pode-se se usar **`display`**



In [0]:
display(dbutils.fs.ls('/'))


O comando **`display()`** possui as seguintes capacidades e limitações:
* Pré-visualização de resultados limitados a 10 mil inhas ou 2 MB, o que for menor
* Os resultados podem ser baixados em CSV



## Baixando Notebooks


* No canto esquerdo do notebook, clique no menu **File**
* No menu que aparecer, selecione **Export** > **Source file**

Códigos-fonte podem ser usados em qualquer workspace Databricks



## Leia mais

* <a href="https://docs.databricks.com/user-guide/index.html#user-guide" target="_blank">User Guide</a>
* <a href="https://docs.databricks.com/user-guide/getting-started.html" target="_blank">Getting Started with Databricks</a>
* <a href="https://docs.databricks.com/user-guide/notebooks/index.html" target="_blank">User Guide / Notebooks</a>
* <a href="https://docs.databricks.com/notebooks/notebooks-manage.html#notebook-external-formats" target="_blank">Importing notebooks - Supported Formats</a>
* <a href="https://docs.databricks.com/repos/index.html" target="_blank">Repos</a>
* <a href="https://docs.databricks.com/administration-guide/index.html#administration-guide" target="_blank">Administration Guide</a>
* <a href="https://docs.databricks.com/user-guide/clusters/index.html" target="_blank">Cluster Configuration</a>
* <a href="https://docs.databricks.com/api/latest/index.html#rest-api-2-0" target="_blank">REST API</a>
