# Aula 06 - Data Warehouse


<input type="checkbox" checked><checkbox> Introdução          <br>
<input type="checkbox" checked><checkbox> Modelo dimensional  <br>
<input type="checkbox" checked><checkbox> Star Schema         <br>
<input type="checkbox" checked><checkbox> Snowflake Schema    <br>
<input type="checkbox" checked><checkbox> Modelagem de Data Warehouse    <br>    

![](https://s3-sa-east-1.amazonaws.com/lcpi/f9fa3d43-b846-4a5d-b1a8-75aa51d64500.png)

## 1. Modelo Relacional

Um modelo de banco de dados é uma estrutura lógica que descreve os elementos de dados e suas relações dentro de um banco. A modelagem relacional é o processo de criar um modelo relacional dos dados, descrevendo entidades e seus relacionamentos entre si. A seguir, um exemplo de um `Diagrama de Entidade Relacionamento (DER)` que representa um modelo relacional. 

![](images/der.svg)

Em um modelo relacional, cada entidade é descrita como uma tabela, onde suas colunas são as características dessa entidade, as linhas são exemplos dessa entidade, e as relações são as formas como as entidades são associadas umas as outras.
Por exemplo, no diagrama acima `users` possui uma relação com `teams`, isto é, um usuário está relacionado a um ou mais times, bem como um time pode ter um ou mais usuários (cardinalidade de * <-> *). 

## 2. Modelo dimensional

O modelo dimensional surge como alternativa ao modelo tradicional de entidade e relacionamento para facilitar a criação de bancos de dados analíticos. O objetivo da modelagem dimensional é facilitar a análise de dados e construção de indicadores.

> - No contexto dimensional, processos de negócio e suas medidas são <u>fatos</u>. 
> - Atributos que detalham ou filtram fatos são chamados de <u>dimensões</u> na modelagem dimensional.

#### OLTP x OLAP

O sistema OLTP (Online Transaction Processing) captura e mantém os dados das transações em um banco de dados. Cada transação envolve registros de banco de dados individuais compostos de vários campos ou colunas. Os exemplos incluem atividades bancárias e de cartão de crédito ou digitalização de caixas de varejo.

OLAP (Online Analytical Processing) aplica consultas complexas a grandes quantidades de dados históricos, agregados de bancos de dados OLTP e outras fontes, para mineração de dados, análises e projetos de inteligência de negócios.

![](https://s3-sa-east-1.amazonaws.com/lcpi/bae11065-19ff-401b-925b-601b763e970e.svg)

##### OLTP
- Foco: Operações diárias
- DB: Específico da aplicação
- Modelo de dados: Relacional
- Tempo: atual
    
##### OLAP
- Foco: Análises e Analytics
- DB: Orientado ao negócio
- Modelo de dados: Dimensional    
- Tempo: Histórico    

## 2. Star Schema

Um esquema em estrela é uma estrutura organizacional de banco de dados otimizada para uso em data warehouse ou inteligência de negócios que usa uma única grande `tabela de fatos` para armazenar dados transacionais ou medidos e uma ou mais `tabelas dimensionais` menores que armazenam atributos sobre os dados. É chamado de esquema em estrela porque a tabela de fatos fica no centro do diagrama lógico e as pequenas tabelas dimensionais se ramificam para formar os pontos da estrela.

### Componentes

A **`tabela de fatos`** armazena dois tipos de informações: valores numéricos e valores de atributo de dimensão . Usando um banco de dados de vendas como exemplo:

> As `células de valor numérico` são exclusivas para cada linha ou ponto de dados e não se correlacionam ou se relacionam com os dados armazenados em outras linhas. Podem ser fatos sobre uma transação, como ID do pedido, valor total, lucro líquido, quantidade do pedido ou hora exata.

> Os `valores de atributo de dimensão` não armazenam dados diretamente, mas armazenam o valor da chave estrangeira para uma linha em uma tabela dimensional relacionada. Muitas linhas na tabela de fatos farão referência a esse tipo de informação. Assim, por exemplo, ele pode armazenar o ID do funcionário de vendas, um valor de data, um ID de produto ou um ID de filial.

As **`tabelas de dimensões`** armazenam informações de suporte na tabela de fatos. Cada banco de dados de esquema em estrela tem pelo menos uma tabela de dimensão, mas muitas vezes terá muitas. Cada tabela de dimensão se relacionará a uma coluna na tabela de fatos com um valor de dimensão e armazenará informações adicionais sobre esse valor.

 Por exemplo:

 > A tabela de dimensões do funcionário pode usar a ID do funcionário como um valor-chave e pode conter informações como nome, sexo, endereço ou número de telefone do funcionário.

 > Uma tabela de dimensões do produto pode armazenar informações como o nome do produto, custo de fabricação, cor ou data de lançamento no mercado.

![](https://s3-sa-east-1.amazonaws.com/lcpi/a198f088-9357-4cc7-87be-e42cf1298232.png)

### 2.1 Fatos

**Fatos** são eventos ou medidas geradas no processo de negócio da empresa. <br>
Ex.: Venda, Boleto emitido, Chamado de Suporte, etc. Em geral, uma tabela fato contém apenas chaves estrangeiras e medidas.

**Medidas** são métricas ou medidas relevantes para a tabela fato. <br>
Ex.: Unidades Vendidas, Preço. O grão ou granularidade de uma tabela fato é dado pela combinação das suas dimensões e deve ser o mesmo para todas as medidas.

Exemplo de tabela fato:

![](images/ex_tabela.png)

##### Tipos de tabela fatos

 > - Transacional: o grão é definido ao nível de um registro individual como um contrato ou transação.
 > - Snapshot Periódico: grão definido ao nível de algum período específico, como dia, semana, etc.
 > - Snapshot Acumulativo: grão é um processo que tem um início e fim claro, por exemplo um atendimento de suporte ou um chamado de seguro.


##### Tipos de Medidas
> Sempre que possível queremos manter as medidas aditivas. Isso facilita o entendimento do usuário e evita problemas, porém em alguns tipos de medidas isso não é possível (e.x contar distinto). Existem três tipos de medidas utilizadas:

> - Aditivas: medidas que podem ser somadas ao longo das dimensões Ex.: Unidades Vendidas;
> - Não Aditivas: medidas que não podem ser somadas ao longo das dimensões. Ex.: característica categórica;
> - Semi aditivas: medidas que podem ser somadas ao longo de algumas dimensões e não de outras. Ex.: Saldo do estoque.

### 2.2 Dimensões

Dimensões são informações de negócios que descrevem os fatos; por exemplo, cidade, produtos, clientes, datas, etc. De forma geral, podem ser filtradas/agrupadas ou usadas como rótulos em Relatórios e Gráficos. É comum que uma mesma Tabela Dimensão possa estar relacionada a muitas tabelas Fato, relação essa que é feita por um chave (código que representa uma informação).

#### Tipos de chaves

 > - **`Chave natural ou de negócio`**: Atributo único de registro. Ex.: número de documento.
 > - **`Chave primária, candidata ou alternativa`**: <br>
     - `Chave primária`: Atributo único principal de registro;<br>
     - `Chave alternativa`: Atributo único secundário de registro;<br>
     - `Chave candidata`: Todo atributo único pode ser uma chave candidata;
 > - **`Chave Surrogate (SK)`**: Uma chave candidata única dentro da uma dimensão.
 > - **`Chave estrangeira (FK)`**: Uma chave na tabela fatos que aponta para uma sk na tabela dimensão;  

### Vantagens e desvantagens do esquema em estrela
#### Vantagens
 - design simples;
 - leitura rápida e consultas;
 - fácil agregação de dados; e
 - fácil integração com sistemas OLAP e cubos de dados.

#### Desvantagens
 - dados redundantes permitem maior armazenamento em disco;
 - potencial para anormalidades, erros e inconsistências de dados;
 - consultas mais lentas;
 - flexibilidade limitada em dados não dimensionais.

### Exemplo


A implementação do modelo dimensional em um banco de dados relacional é chamada de **`esquema estrela`** (do inglês, star schema). O centro de um esquema estrela é composto por uma **`tabela fato`** que agrupa medidas de um processo de negócio específico (ex. pedidos). A tabela fato é relacionada por diferentes **`tabelas dimensão`** que agrupam dimensões relacionadas entre si (ex. clientes, locais, produtos).

Ao conjunto de esquemas estrela de áreas específicas é dado o nome de Data Mart. Uma empresa pode, por exemplo, possuir um **`data mart`** dos processos da área comercial, outro da produção, marketing, financeiro etc. O grau de compatibilidade entre diferentes marts depende da forma como o data warehouse foi desenvolvido e também pode variar entre as diferentes arquiteturas de data warehouses.

Para cada tabela dimensão é gerada uma chave única, em geral sem significado de negócio, chamada de **`surrogate key (SK)`**. Nas tabelas fato, essas chaves são tratadas como chaves estrangeiras para as tabelas dimensão e sua combinação define o grão, ou granularidade, da tabela fato. Em geral, as tabelas dimensão não possuem chaves estrangeiras de modo que um esquema estrela só possui um nível de relacionamentos ou JOINS, facilitando as análises de negócio ad-hoc e por ferramentas de BI.

![](https://s3-sa-east-1.amazonaws.com/lcpi/652c9590-7c10-4edb-b8c0-ed988290d4c9.png)

Consulta em um banco normalizado Start Schema: 

```sql

SELECT
	datas.mes,
	locais.cidade,
	produto.nome_do_produto,
	representante.nome_do_representante,
	SUM(fato_vendas.valor_total)
FROM
	datas,
	locais,
	produto,
	representante,
	fato_vendas
WHERE
	datas.chave_data = fato_vendas.chave_data
	AND locais.chave_local = fato_vendas.chave_local
	AND produto.chave_produto = fato_vendas.chave_produto
	AND representante.chave_representante = fato_vendas.chave_representante

```

Em alguns casos pode ser necessária a inclusão de tabelas normalizadas em um data mart. Quando isso ocorre, o esquema resultante é chamado de modelo **`snowflake`**. Existem ainda outros tipos de tabelas como bridge e hierarquias que respondem a problemas práticos que não são completamente satisfeitos pelo esquema estrela tradicional. Em geral, a omissão ou utilização de outras estruturas no design do data warehouse possuem prós e contras e precisam ser avaliadas caso a caso pelo analista.

### 3. Snowflake Schema

Um **`snowflake`** (floco de neve) schema é um modelo de dados multidimensional que é uma extensão de um star schema, onde as tabelas de dimensão são divididas em subdimensões lógicas. Isso torna o modelo de dados mais complexo, mas pode ser mais fácil para os analistas trabalharem, especialmente para determinados tipos de dados.

#### Exemplo
![](https://s3-sa-east-1.amazonaws.com/lcpi/160397a6-5791-4ef7-a098-d478b4a55f20.png)

#### Vantagens e desvantagens de um esquema snowflake
##### Vantagens
 - Recuperação rápida de dados
 - Aplica a qualidade dos dados
 - Modelo de dados simples e comum para armazenamento de dados
 
##### Desvantagens
 - Muita sobrecarga na configuração inicial
 - Modelo de dados rígido
 - Altos custos de manutenção

## Modelagem relacional -> dimensional

**Etapa 1**: Identificar os processos de negócio<br>
**Etapa 2**: Identificar fatos e dimensões em seu modelo de dados dimensionais<br>
**Etapa 3**: identificar os atributos para as dimensões<br>
**Etapa 4**: Definir a granularidade dos fatos comerciais<br> 

## 4. Modelagem de um Data Warehouse

#### O que é um Data Warehouse?

Data Warehouse (DW), do inglês "Armazém de dados", é um repositório central de informações que podem ser analisadas para tomar decisões mais adequadas. Os dados fluem de sistemas transacionais, bancos de dados relacionais e de outras fontes para o data warehouse, normalmente com uma cadência regular. Analistas de negócios, engenheiros de dados, cientistas de dados e tomadores de decisões acessam os dados por meio de ferramentas de inteligência de negócios (BI), clientes SQL e outros aplicativos de análise. 

![](https://s3-sa-east-1.amazonaws.com/lcpi/002867c0-b0a8-4bd7-b3d8-2da865bca0dc.svg)

De forma dinâmica:

![](https://s3-sa-east-1.amazonaws.com/lcpi/8d1e73d3-a12f-4a47-a504-5cf5325ce70a.gif)

## Camadas
 - **RAW** : Dados brutos
 - **SILVER**: Dados tratados
 - **GOLD**: Dados agregados
 
**Referência:** https://www.databricks.com/glossary/medallion-architecture 

![](https://s3-sa-east-1.amazonaws.com/lcpi/c164936e-387c-4487-a313-a838d9930232.png)

#### Principais características:
 - Integração de dados
 - Modelagem dimensional
 - Estruturado
 - Não volátil (batch)

### 5. ETL (Extract-Transform-Load)

ETL é o processo de extração, transformação e armazenamento de um conjunto de bases que compõem o DW. O objetivo é fazer a integração e disponibilização de um conjunto de dados de forma que estes possam ser acessados e analisados pelas equipes de dados. 

O processo se inicia com a extração dos dados das fontes de origem. As fontes podem ser diferentes bancos de dados, planilhas e arquivos. Em seguida, os dados são transformados, agregados e modelados dimensionalmente. Nesta etapa, pode ocorrer a limpeza das bases, tratamentos de valores faltantes e de tipos de dados, agregação, sumarização e codificação. Na etapa final de carregamento, os dados são armazenados e disponibilizados no data warehouse. 

![](https://s3-sa-east-1.amazonaws.com/lcpi/b594f142-2d50-429f-94e7-88246f85ad2c.svg)

#### Data Marts

Algumas empresas podem adicionar mais uma camada de abstração na organização de seus dados, categorizandos em `data marts`. Um **`Data Mart`** é um divisão do data warehouse para uma parte específica da empresa. Por exemplo, uma empresa poderia dividir seu data warehouse em setores tais como: financeiro, vendas, publicidade, etc. Cada setor teria um data mart próprio. 

**Referências**: 
 - https://www.engdeanalytics.com.br/chapters/08/03/esquema_estrela.html
 - https://www.techtarget.com/searchdatamanagement/definition/star-schema
 - https://www.databricks.com/blog/2022/06/24/data-warehousing-modeling-techniques-and-their-implementation-on-the-databricks-lakehouse-platform.html
 - https://www.databricks.com/glossary/snowflake-schema
 - https://www.astera.com/type/blog/data-warehouse-concepts/