O Azure Databricks é uma plataforma de análise de dados otimizada para a plataforma de Serviços de Nuvem do Microsoft Azure. O Azure Databricks oferece três ambientes para o desenvolvimento de aplicativos com uso intensivo de dados: Databricks SQL, Engenharia de Ciência de Dados do Databricks e Machine Learning.
O Databricks SQL fornece uma plataforma fácil de usar para analistas que desejam executar consultas SQL em data lake, criar vários tipos de visualização para explorar os resultados da consulta de diferentes perspectivas, além de criar e compartilhar painéis.
O objetivo desse laboratório é conhecer as funcionalidades de consulta (Query) da plataforma Azure Databricks, utilizando a linguagem SQL (e as interfaces visuais), explorando os potenciais Analíticos, e ao final, construindo um painel gerencial (Dashboard).
O caso de uso do exercício utiliza uma base de dados de uma Academia de Ginática, onde vamos simular uma análise exploratória interativa para avaliar o perfil dos frequentadores, os tempos de utilização e as filiais mais frequentadas.
CREATE DATABASE IF NOT EXISTS <seu_nome>_dbacademy;
GRANT ALL PRIVILEGES ON DATABASE <seu_nome>_dbacademy TO `learner’s_username`;
USE <seu_nome>_dbacademy;
CREATE TABLE intro_to_databricks_sql_gym_logs
USING JSON
LOCATION ‘wasbs://courseware@dbacademy.blob.core.windows.net/introduction-to-databricks-sql/v01/gym-logs’;
SELECT
*
FROM
<seu_nome>_dbacademy.intro_to_databricks_sql_gym_logs;
SELECT
gym,
count(gym)
FROM
<seu_nome>_dbacademy.intro_to_databricks_sql_gym_logs
GROUP BY
gym
ORDER BY
gym;
SELECT
from_unixtime(min(first_timestamp), “d MMMM y”) First_Date,
from_unixtime(max(last_timestamp), “d MMMM y”) Last_Date
FROM
<seu_nome>_dbacademy.intro_to_databricks_sql_gym_logs;
SELECT
from_unixtime(first_timestamp, “dd”) as day,
avg((last_timestamp - first_timestamp) / 60) as avg_time
FROM
<seu_nome>_dbacademy.intro_to_databricks_sql_gym_logs
group by
day
ORDER BY
from_unixtime(first_timestamp, “dd”); (edited)