# Script para criar o esquema do data warehouse
*autor: André Costa (2019-03-09)* [https://www.linkedin.com/in/a-l-costa]

- Este script define as tabelas que são usadas para armazenar os dados após processados pelo pipeline ETL. As tabelas são armazenadas dentro do HDFS do Hadoop em forma ORC, e são gerenciadas pelo **Hive**.

In [1]:
#spark.sql("drop database geodata cascade")
spark.sql("create database if not exists geodata")
spark.sql("use geodata")
spark.sql("show databases").show()

+------------+
|databaseName|
+------------+
|     default|
|     geodata|
+------------+



## Dimensão CALENDARIO

In [2]:
#spark.sql('drop table calendario')
spark.sql('create table if not exists calendario \
         (id int, ano smallint, mes tinyint, dia tinyint, periodo tinyint,dia_semana tinyint) \
         stored as ORC')
spark.sql("describe formatted calendario").show(truncate=False)

+----------------------------+---------------------------------------------------------------+-------+
|col_name                    |data_type                                                      |comment|
+----------------------------+---------------------------------------------------------------+-------+
|id                          |int                                                            |null   |
|ano                         |smallint                                                       |null   |
|mes                         |tinyint                                                        |null   |
|dia                         |tinyint                                                        |null   |
|periodo                     |tinyint                                                        |null   |
|dia_semana                  |tinyint                                                        |null   |
|                            |                                           

## (mini) Dimensão BAIRRO

In [3]:
#spark.sql('drop table bairro')
spark.sql('create table if not exists bairro \
            (id bigint, codigo bigint, nome string, area float, populacao int, dens_demo float, \
            agencias smallint, empresas int, empregados bigint, renda string, \
            faturamento float, start_date timestamp, \
            end_date timestamp) stored as ORC')

spark.sql('describe formatted bairro').show(truncate=False)

+----------------------------+----------------------------+-------+
|col_name                    |data_type                   |comment|
+----------------------------+----------------------------+-------+
|id                          |bigint                      |null   |
|codigo                      |bigint                      |null   |
|nome                        |string                      |null   |
|area                        |float                       |null   |
|populacao                   |int                         |null   |
|dens_demo                   |float                       |null   |
|agencias                    |smallint                    |null   |
|empresas                    |int                         |null   |
|empregados                  |bigint                      |null   |
|renda                       |string                      |null   |
|faturamento                 |float                       |null   |
|start_date                  |timestamp         

## Dimensão CONCORRENTE

In [4]:
#spark.sql('drop table concorrente')
spark.sql('create table if not exists concorrente \
            (id bigint, codigo bigint, nome string, categoria string, faixa_preco int, \
            endereco string, municipio string, uf string, bairro_id bigint, start_date timestamp, \
            end_date timestamp) stored as ORC')

spark.sql('describe formatted concorrente').show(truncate=False)

+----------------------------+----------------------------+-------+
|col_name                    |data_type                   |comment|
+----------------------------+----------------------------+-------+
|id                          |bigint                      |null   |
|codigo                      |bigint                      |null   |
|nome                        |string                      |null   |
|categoria                   |string                      |null   |
|faixa_preco                 |int                         |null   |
|endereco                    |string                      |null   |
|municipio                   |string                      |null   |
|uf                          |string                      |null   |
|bairro_id                   |bigint                      |null   |
|start_date                  |timestamp                   |null   |
|end_date                    |timestamp                   |null   |
|                            |                  

## Fato FLUXO

In [5]:
#spark.sql('drop table fluxo')
spark.sql('create table if not exists fluxo \
            (concorrente_id bigint, bairro_id bigint, calendario_id int, ocorrencias smallint) stored as ORC')

spark.sql('describe formatted fluxo').show(truncate=False)

+----------------------------+----------------------------------------------------------+-------+
|col_name                    |data_type                                                 |comment|
+----------------------------+----------------------------------------------------------+-------+
|concorrente_id              |bigint                                                    |null   |
|bairro_id                   |bigint                                                    |null   |
|calendario_id               |int                                                       |null   |
|ocorrencias                 |smallint                                                  |null   |
|                            |                                                          |       |
|# Detailed Table Information|                                                          |       |
|Database                    |geodata                                                   |       |
|Table              