# Introdução ao Big Data com Apache Spark na Plataforma Databricks

Este tutorial tem como objetivo facilitar o entendimento do conceito de Big Data utilizando o Apache Spark no ambiente da Databricks.

## Terminologia da Databricks

Antes de começar o tutorial, temos que explicar alguns conceitos da plataforma Databricks que serão base para o entendimento:

-   ****Workspaces****
    -   Workspaces permitem organizar todo o trabalho que será feito na Databricks. Como uma estrutura de pastas no computador, ele permite salvar os ****notebooks**** e ****libraries**** e compartilhar com outros usuários. Workspaces não são conectados com os dados e não deveriam ser utilizados para armazenar dados, mas para armazenar os ****notebooks**** e ****libraries**** que são utilizados para manipular os dados.
    - Para mais detalhes acesse a documentação do [Workspace](https://docs.databricks.com/user-guide/workspace.html).
-   ****Notebooks****
    -   Notebooks são um conjunto de células utilizados para executar comandos. Células possuem códigos em qualquer uma das seguintes linguagens: `Scala`, `Python`, `R`, `SQL`, or `Markdown`. Notebooks possuem uma linguagem padrão, mas cada célula pode ter uma linguagem sobrescrevendo outra. Isto é feito incluindo `%[language name]` no topo da célula, por exemplo, `%python`.
    -   Notebooks precisam estar conectados a um ****cluster**** para executarem comandos. Entretanto, eles não estão acoplados ao cluster o que permite que os notebooks possam ser compartilhados via web ou baixados na máquina local.
    -   Aqui é possível ver mais detalhes na documentação dos [Notebooks](https://docs.databricks.com/user-guide/notebooks/index.html).
    -   ****Dashboards****
        -   ****Dashboards**** podem ser criados a partir dos ****notebooks**** como uma forma de mostrar a saída das células sem o código que as gera.
    - ****Notebooks**** podem também ser escalonados como ****jobs**** em um clique para executar um pipeline de dados, atualizar um modelo de Machine Learning ou atualizar um dashboard.
-   ****Libraries****
    -   Libraries são pacotes ou módulos que adicionam funcionalidades que for preciso para resolver os problemas de negócio. Elas podem ser escritas em Scala ou Java (com jars), além de Python eggs ou pacotes customizados. As libraries podem ser enviadas de forma manual ou instaladas diretamente através de gerenciadores de pacotes como Pypi ou Maven.
    - Você poderá encontrar mais detalhes aqui na documentação das [Libraries](https://docs.databricks.com/user-guide/libraries.html).
-   ****Tables****
    -   Tabelas são estruturas de dados utilizadas para análise. As tabelas podem existir em diversos lugares: armazenadas no Amazon S3, armazenadas no cluster ou estar na cache em memória. [Para saber mais sobre as tabelas, veja a documentação!](https://docs.databricks.com/user-guide/tables.html).
-   ****Clusters****
    -   Clusters são grupos de computadores que você pode tratar como um único servidor. Os Clusters permitem executar os códigos a partir dos ****notebooks**** ou ****libraries**** em um determinado conjunto de dados.
    - É importante notar que os clusters possuem controle de acesso para que seja possível controlar o acesso dos usuários ao cluster.
    -   Pra mais detalhes, veja a documentação da Databricks sobre os [Clusters](https://docs.databricks.com/user-guide/clusters/index.html#clusters).
-   ****Jobs****
    -   Jobs são a ferramenta pela qual você pode escalonar a execução dos códigos em um já existente ou em novo ****cluster****. Estes códigos podem ser ****notebooks**** como estarem dentro de jars ou scripts Python. Os Jobs podem ser criados manualmente ou via API REST.
    -   Você pode ver aqui a documentação dos [Jobs](https://docs.databricks.com/user-guide/jobs.html).
-   ****Apps****
    -   Apps são integrações de aplicações terceiras com a plataforma Databricks. Incluem aplicações como Tableu.
    
## Documentação do Databricks e Apache Spark

Databricks possui uma variedade de ferramentas para auxiliar no aprendizado da plataforma Databricks e do Apache Spark. Para acessar a documentação clique no ícone de interrogação do canto superior direito da tela.
Este menu de busca irá buscar nas seções de documentação abaixo.

![img](https://docs.databricks.com/_images/help-menu.png)

-   ****Documentation****
    -   Guia de referência que permite uma rápida busca na API da Databricks e do Spark com pequenos trechos de códigos de exemplo.
    -   O guia também inclui uma série de tutoriais introdutórios para cada tópico.
-   ****Documentação do Apache Spark****
    -   A documentação do Apache Spark também está disponível para uma busca rápida.
-   ****REST API Docs****
    -   Documentação da API REST que permite executar comandos diretamente na plataforma Databricks.
-   ****Fórums do Databricks****
    -   [Os fóruns do Databricks](https://forums.databricks.com/) permitem interagir com a comunidade através de perguntas específicas não englobadas pela documentação.
    
# Arquitetura do Apache Spark

Antes de partir para o código, vamos ver uma visão geral da arquitetura do Apache Spark. Esta arquitetura permite que você possa processar seus códigos em várias máquinas como se fosse uma só através da arquitetura master-worker, onde existe um `driver` ou nó master no cluster, acompanhado pelos nós `worker`. O master envia o trabalho para os workers com instruções para carregar os dados da memória ou do disco.

O diagrama abaixo apresenta um exemplo de um cluster com Apache Spark, onde basicamente existe um nó Driver que comunica com os nós executors. Cada um destes nós executors tem slots que são logicamente como núcleos de processsamento.

![spark-architecture](http://training.databricks.com/databricks_guide/gentle_introduction/videoss_logo.png)

O Driver envia Tasks para os slots vazios nos Executors quando o trabalho estiver terminado:

![spark-architecture](http://training.databricks.com/databricks_guide/gentle_introduction/spark_cluster_tasks.png)

Nota: No caso da edição Community da plataforma Databricks, não existe Worker e o Master fica responsável por executar o código inteiro:

![spark-architecture](http://training.databricks.com/databricks_guide/gentle_introduction/notebook_microcluster.png)

Você pode visualizar os detalhes da sua aplicação na interface web do Apache Spark acessível na plataforma Databricks clicando "Clusters" e então no link "Spark UI". O link também está disponível no canto superior esquerdo deste notebook onde você pode selecionar o cluster que está ligado (Attached) a este notebook.

# Executando comandos Linux

A plataforma permite que você execute comandos shell no seu notebook com a adição do comando %sh no início da célula. Você pode adicionar a opção *-e* para falhar a célula se o comando shell tiver um status de saída diferente de zero. Exemplos:

%sh free -mh

%sh -e free -~

%sh ps -fe

%sh ls -l /tmp

In [3]:
%sh free -mh

In [4]:
%sh ls -l /databricks

#Databricks File System - DBFS

[Databricks File System](https://docs.databricks.com/user-guide/dbfs-databricks-file-system.html) (DBFS) é um sistema de arquivos distribuído instalado no cluster da Databricks. Os dados são mantidos mesmo se o cluster for finalizado.

Você pode acessar os arquivos no DBFS usando o [Databricks CLI](https://docs.databricks.com/user-guide/dev-tools/databricks-cli.html#databricks-cli) e a [DBFS API](https://docs.databricks.com/api/latest/dbfs.html#dbfs-api) na máquina local. No cluster da Databricks, você pode utilizar o [Databricks Utilities](https://docs.databricks.com/user-guide/dev-tools/dbutils.html#dbutils), as APIs do Spark e a API local.

In [6]:
# Acessando os datasets da Databricks com o DBUtils
display(dbutils.fs.ls("/databricks-datasets"))

path,name,size
dbfs:/databricks-datasets/README.md,README.md,976
dbfs:/databricks-datasets/Rdatasets/,Rdatasets/,0
dbfs:/databricks-datasets/SPARK_README.md,SPARK_README.md,3359
dbfs:/databricks-datasets/adult/,adult/,0
dbfs:/databricks-datasets/airlines/,airlines/,0
dbfs:/databricks-datasets/amazon/,amazon/,0
dbfs:/databricks-datasets/asa/,asa/,0
dbfs:/databricks-datasets/atlas_higgs/,atlas_higgs/,0
dbfs:/databricks-datasets/bikeSharing/,bikeSharing/,0
dbfs:/databricks-datasets/cctvVideos/,cctvVideos/,0


As células possuem um atalho para acessar o sistema de arquivos utilizando o dbutils usando o comando mágico **%fs**:

In [8]:
%fs
ls /databricks-datasets

path,name,size
dbfs:/databricks-datasets/README.md,README.md,976
dbfs:/databricks-datasets/Rdatasets/,Rdatasets/,0
dbfs:/databricks-datasets/SPARK_README.md,SPARK_README.md,3359
dbfs:/databricks-datasets/adult/,adult/,0
dbfs:/databricks-datasets/airlines/,airlines/,0
dbfs:/databricks-datasets/amazon/,amazon/,0
dbfs:/databricks-datasets/asa/,asa/,0
dbfs:/databricks-datasets/atlas_higgs/,atlas_higgs/,0
dbfs:/databricks-datasets/bikeSharing/,bikeSharing/,0
dbfs:/databricks-datasets/cctvVideos/,cctvVideos/,0


Você também pode utilizar as APIs locais do Python para acessar algum arquivo dentro da estrutura da Databricks. O caminho absoluto inicia com "/dbfs" e o código de leitura do arquivo README.md dentro do diretório de amostras de bases de dados da Databricks pode ser feito da seguinte forma:

In [10]:
%python
with open("/dbfs/databricks-datasets/samples/docs/README.md") as f:
    x = ''.join(f.readlines())

print(x)

É possível acessar os arquivos utilizando a API do Spark. O próximo comando lê o arquivo README.md e cria um DataFrame denominado *textFile*:

In [12]:
textFile = spark.read.text("/databricks-datasets/samples/docs/README.md")
textFile.show()

# Como utilizar o SparkSession - Um ponto de entrada unificado no Apache Spark 2.0

No Spark 2.0, foi introduzido o [SparkSession](https://spark.apache.org/docs/preview/api/python/pyspark.sql.html#pyspark.sql.SparkSession), um novo ponto de entrada que agrega o SparkContext, SQLContext, StreamingContext, and HiveContext. SparkSession possui muitas funcionalidades e nesse notebook vamos apresentar as mais importantes para ilustrar o acesso às funcionalidades do Spark. 

Na plataforma Databricks, o SparkSession é criado para você e armazenado na variável denominada **spark** que pode ser utilizada nos Notebooks.

In [14]:
textFile = spark.read.text("/databricks-datasets/samples/docs/README.md")
textFile.first()

**Q1**: Qual a versão do Spark utilizada neste notebook?

In [16]:
spark.version

In [17]:
spark.sparkContext.version

**Q2**: Quais os bancos de dados disponíveis no catálogo?

In [19]:
display(spark.catalog.listDatabases())

name,description,locationUri
default,Default Hive database,dbfs:/user/hive/warehouse


## Criando Dataframes com Sparksession

O exemplo abaixo mostra a criação de um Dataframe de números de 20 até 100 com incremento de 10 unidades.

In [22]:
spark.range(20, 100, 20).show()

O próximo exemplo mostra a criação de um Dataframe que infere o tipo de cada coluna e dá um nome serial para cada coluna começando com \_1, depois \_2 e assim sucessivamente. Veja na saída da célula que o tipo da primeira coluna foi inferido como String e da segunda coluna como Long.

In [24]:
df = spark.createDataFrame([("Scala", 15), ("SQL", 15), ("Python", 25), ("R", 5), ("Java", 40)])

In [25]:
display(df)

_1,_2
Scala,15
SQL,15
Python,25
R,5
Java,40


Você também pode criar um Dataframe definindo o schema utilizando o [StructType](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.types.StructType) que é uma coleção de [StructFields](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.types.StructField). Cada StructField neste exemplo possui três parâmetros: 1) nome da coluna, 2) tipo da coluna e 3) se a coluna pode ser nula ou não.

In [27]:
from pyspark.sql.types import *
schema = StructType([StructField("linguagem", StringType(), True),
                               StructField("porcentagem", IntegerType(), True)])
df = spark.createDataFrame([("Scala", 15), ("SQL", 15), ("Python", 25), ("R", 5), ("Java", 40), (None, 33)], schema)

In [28]:
display(df)

linguagem,porcentagem
Scala,15
SQL,15
Python,25
R,5
Java,40
,33


Você pode salvar o Dataframe como uma tabela e depois utilizar comandos Sql na manipulação desta tabela. As próximas duas células mostram um exemplo deste cenário.

In [30]:
df.write.saveAsTable("linguagens", mode='overwrite')

In [31]:
%sql select linguagem from linguagens where porcentagem < 25

linguagem
Scala
SQL
R
