# Data Warehouse
## Business Intelligence
Antes de abordamos **Data Warehouses**, é preciso compreender o conceito de **Business Intelligence** (BI), que foi definido pelo Gartner Group como:
 
> "Um termo genérico que inclui aplicações, infraestrutura, ferramentas e melhores práticas que permite o acesso e análise de informações para melhorar e otimizar decisões e desempenho".
Fonte: [Gartner](https://www.gartner.com/en/information-technology/glossary/business-intelligence-bi)
 
## Business Intelligence x Data Science
| Análise                             | BI | Data Science |
|-------------------------------------|:--:|:------------:|
| Descritiva - O que aconteceu?       |  x |       x      |
| Diagnóstica - Por que aconteceu?     |  x |       x      |
| Preditiva - O que acontecerá?       |    |       x      |
| Prescritiva - O que deve ser feito? |    |       x      |
 
### OLTP x OLAP
Ambas as siglas são amplamente utilizadas dentro do universo do BI e representam conceitos e arquiteturas de software bem diferentes.
 
#### OLTP
**OLTP**, do inglês "On-line Transaction Processing", é o termo utilizado para se referir a sistemas transacionais, que fazem, portanto, parte da operação da empresa. Enquadram-se aqui: e-commerces, ERPs e todo sistema mais tradicional.
No que diz respeito a seus bancos de dados, por terem como característica o frequente recebimento de novos registros (escrita), seu modelo de dados é, em geral, projetado considerando um processo que chamamos de **normalização**.
 
> Normalização é o processo de organização de dados em um banco de dados. Isso inclui a criação de tabelas e o estabelecimento de relações entre essas tabelas de acordo com as regras projetadas para proteger os dados e tornar o banco de dados mais flexível, eliminando a redundância e a dependência inconsistente. Há diferentes formas normais que, quanto mais avançadas, mais exigentes são com o desenho da base para atingir os objetivos anteriormente citados o mais acentuadamente possível.
 
Fonte: [Microsoft](https://docs.microsoft.com/pt-br/office/troubleshoot/access/database-normalization-description)
 
Sendo assim, o banco de dados de um sistema OLTP costuma possuir mais tabelas que um OLAP (acréscimo esse que varia conforme a forma normal adotada) e para reduzir a redundância de dados e facilitar a escrita. Entretanto, um modelo como este exige de leituras e criações de relatórios mais cruzamentos entre tabelas (joins, em SQL), o que é significativamente custoso em termos de processamento.
 
#### OLAP
**OLAP**, do inglês “On-line Analytical Processing“, se refere a bases construídas para análise de dados, comumente gerados em OLTPs e então armazenados em um Data Warehouse.
 
## Data Warehouse (DW) - Definição
**Data Warehousing** é uma estratégia que reconhece a necessidade de se *armazenar dados*, separadamente, em sistemas de informação e *consolidá-los*, de forma a assistir diversos profissionais de uma empresa na tomada de decisões de modo rápido e eficaz.
 
De forma simplista, um DW pode muitas vezes ser um banco de dados comum (muitas vezes relacional), mas que possui especificidades em sua construção que visam facilitar análises (leitura), mesmo que em detrimento do espaço em disco ou velocidade de escrita. Normalizações severas não são comuns por aqui!
 
### Características:
- Os aspectos interpretativos se sobrepõem aos transacionais;
- Os dados são organizados por assuntos e não voltado para aplicações ou funções de negócio operacional.
 
![DW](https://s3-sa-east-1.amazonaws.com/lcpi/446de15e-dcfd-4095-9e61-52a17944b7c6.png)
Fonte: [DataValue](https://547785-1757227-raikfcquaxqncofqfm.stackpathdns.com/wp-content/uploads/2020/06/Data-Wharehouse.jpg)
 
## Data Warehouse Schemas
Os Schemas mais comuns para modelos de Data Warehouses são: 
- Star Schema (Esquema Estrela);
- Snow Flake Schema (Esquema Floco de Neve).
 
### Star Schema
O Star Schema, idealizado por Ralph Kimball, é o modelo mais popular para modelagem dimensional de um **Data Warehouse**. Em seu desenho, as tabelas são divididas em "Fatos" e "Dimensões", onde a presença de uma fato centralizado, com várias dimensões ao redor, lhe atribuem um aspecto de *estrela*.
 
![StarSchema](https://s3-sa-east-1.amazonaws.com/lcpi/4f766dbe-7b0c-4ff6-b268-fb138d5c37d3.png)
Fonte: própria
 
### SnowFlake Schema
Snowflake, idealizado por Bill Inmon, foi idealizado sob os mesmos propósitos do Star Schema, mas visando economia de espaço em disco ainda que em detrimento da performance durante a leitura de uma **dimensão**. Como podemos notar no exemplo abaixo, a similaridade é grande com o modelo anterior, mas com algum nível de **normalização** nas tabelas dimensão.
 
![SnowFlakeSchema](https://s3-sa-east-1.amazonaws.com/lcpi/d88e9460-e69c-41f4-94e8-abc8f2a162b2.png)
Fonte: própria
 
### Tabela Fato
**Tabela Fato** é onde os fatos ocorridos são armazenados. Costumeiramente numéricos, estes fatos são *métricas* do negócio que podem ser agregadas por soma, média e outras operações.
 
#### Características
- Contém métricas numéricas do negócio;
- Tabela com maior volume de dados;
- Cresce rapidamente;
- Pode conter dados base, derivados e sumarizados;
- São relacionadas à duas ou mais **tabelas dimensão** com chaves estrangeiras que referenciam as chaves primárias das **tabelas dimensão**.
 
### Tabela Dimensão
Uma **dimensão** pode ser definida como conjunto de objetos com papel descritivo, acerca de fatos, através de seus atributos. Com estes atributos somos capazes de realizar operações importantes sobre as *fatos*, tais quais agregações, navegações hierárquicas e filtros.
 
#### Características
- Contém informação textual que representa atributos de negócio;
- Contém dados relativamente estáticos;
- São relacionadas com a **tabela fato** através de chaves estrangeiras.
 
## Indicações e Bibliografia
[Data Warehouse, Data Lake e Data Mart](https://aws.amazon.com/pt/data-warehouse/#:~:text=Um%20data%20warehouse%20%C3%A9%20um,normalmente%20com%20uma%20cad%C3%AAncia%20regular.)
 
[Business Intelligence Definition](https://www.gartner.com/en/information-technology/glossary/business-intelligence-bi)
 
[Data Warehouse - Definição](https://www.oracle.com/br/database/what-is-a-data-warehouse/)
 
[Normalização de dados - Microsoft](https://docs.microsoft.com/pt-br/office/troubleshoot/access/database-normalization-description)
 
Livro - [The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling](https://www.oreilly.com/library/view/the-data-warehouse/9781118530801/)
 

