d-sandbox

<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://databricks.com/wp-content/uploads/2018/03/db-academy-rgb-1200px.png" alt="Databricks Learning" style="width: 600px">
</div>

# Reviewing and Visualizing data
#### Health tracker data
One common use case for working with Delta Lake is to collect and process Internet of Things (IoT) Data.
Here, we provide a mock IoT sensor dataset for demonstration purposes.
The data simulates heart rate data measured by a health tracker device.

## Notebook Configuration

Before you run this cell, make sure to add a unique user name to the file
<a href="$./includes/configuration" target="_blank">
includes/configuration</a>, e.g.

```
username = "yourfirstname_yourlastname"
```

In [0]:
%run ./includes/configuration

-sandbox
## Transactions

<img
     alt="Transactions"
     src=https://files.training.databricks.com/images/delta-lake-hands-on/01_big_pic_02-sst.jpeg
     width=600px
>

Em um sistema típico, dados de eventos de alto fluxo serão entregues ao sistema por meio de um servidor de processamento de fluxo como o Apache Kafka. Para fins educacionais,
disponibilizamos esses dados para download em arquivos estáticos.

Os comandos que executamos no bloco de notas bruto de ingestão são usados para baixar os dados em nosso sistema e são destina-se a simular a chegada de dados de eventos de alto fluxo. Aqui, vamos simular o streaming de dados que normalmente é feito por um plataforma de processamento de fluxo como Apache Kafka acessando arquivos do diretório bruto. Esses arquivos são arquivos JSON de várias linhas e se parecem com as strings passadas por Kafka.

Um arquivo JSON de várias linhas é aquele em que cada linha é um objeto JSON completo, mas o arquivo inteiro em si não é um arquivo JSON válido. Cada arquivo consiste em cinco usuários cuja frequência cardíaca é medida a cada hora, 24 horas por dia, todos os dias.

Cada linha é uma string que representa um objeto JSON válido e é semelhante ao tipo de string que seria passado por um servidor de processamento de fluxo Kafka.

### Health tracker data sample

```
{"device_id":0,"heartrate":52.8139067501,"name":"Deborah Powell","time":1.5778368E9}
{"device_id":0,"heartrate":53.9078900098,"name":"Deborah Powell","time":1.5778404E9}
{"device_id":0,"heartrate":52.7129593616,"name":"Deborah Powell","time":1.577844E9}
{"device_id":0,"heartrate":52.2880422685,"name":"Deborah Powell","time":1.5778476E9}
{"device_id":0,"heartrate":52.5156095386,"name":"Deborah Powell","time":1.5778512E9}
{"device_id":0,"heartrate":53.6280743846,"name":"Deborah Powell","time":1.5778548E9}
```
This shows a sample of the health tracker data we will be using. Note that each line is a valid JSON object.

### Health tracker data schema
The data has the following schema:



| Column    | Type      |
|-----------|-----------|
| name      | string    |
| heartrate | double    |
| device_id | int       |
| time      | long      |

### Load the Data
Load the data as a Spark DataFrame from the raw directory.
This is done using the `.format("json")` option,
as well as a path to the `.load()` method.

In [0]:
file_path = health_tracker + "raw/health_tracker_data_2020_1.json"

health_tracker_data_2020_1_df = (spark.read.format("json").load(file_path))

## Visualize Data
### Step 1: Display the Data
Strictly speaking, this is not part of the ETL process, but displaying the data gives us a look at the data that we are working with.

In [0]:
display(health_tracker_data_2020_1_df)

device_id,heartrate,name,time
0,52.8139067501,Deborah Powell,1577836800.0
0,53.9078900098,Deborah Powell,1577840400.0
0,52.7129593616,Deborah Powell,1577844000.0
0,52.2880422685,Deborah Powell,1577847600.0
0,52.5156095386,Deborah Powell,1577851200.0
0,53.6280743846,Deborah Powell,1577854800.0
0,52.1760037066,Deborah Powell,1577858400.0
0,90.0456721836,Deborah Powell,1577862000.0
0,89.4695644522,Deborah Powell,1577865600.0
0,88.1490304138,Deborah Powell,1577869200.0


### Step 2: Configure the Visualization
Create a Databricks visualization to visualize the sensor data over time.
We have used the following plot options to configure the visualization:
```
Keys: time
Series groupings: device_id
Values: heartrate
Aggregation: SUM
Display Type: Bar Chart
```
Now that we have a better idea of the data we're working with, let's move on to create a Parquet-based table from this data.

In [0]:
display(health_tracker_data_2020_1_df)

device_id,heartrate,name,time
0,52.8139067501,Deborah Powell,1577836800.0
0,53.9078900098,Deborah Powell,1577840400.0
0,52.7129593616,Deborah Powell,1577844000.0
0,52.2880422685,Deborah Powell,1577847600.0
0,52.5156095386,Deborah Powell,1577851200.0
0,53.6280743846,Deborah Powell,1577854800.0
0,52.1760037066,Deborah Powell,1577858400.0
0,90.0456721836,Deborah Powell,1577862000.0
0,89.4695644522,Deborah Powell,1577865600.0
0,88.1490304138,Deborah Powell,1577869200.0


-sandbox

Observamos alguns fenômenos nos dados:
- Anomalias do sensor - Os sensores não podem registrar frequências cardíacas negativas, portanto, quaisquer valores negativos nos dados são anomalias.
- Ciclo de vigília / sono - Observamos que os usuários têm um ciclo consistente de vigília / sono, alternando entre freqüências cardíacas altas e baixas constantes.
- Atividade elevada - Alguns usuários têm períodos irregulares de alta atividade.

-sandbox
&copy; 2020 Databricks, Inc. All rights reserved.<br/>
Apache, Apache Spark, Spark and the Spark logo are trademarks of the <a href="http://www.apache.org/">Apache Software Foundation</a>.<br/>
<br/>
<a href="https://databricks.com/privacy-policy">Privacy Policy</a> | <a href="https://databricks.com/terms-of-use">Terms of Use</a> | <a href="http://help.databricks.com/">Support</a>