# Data Lake
Um **Data Lake** (lago de dados) é um repositório capaz de armazenar uma *grande quantidade* de dados estruturados, semiestruturados e não estruturados.
 
## Características
- Visão única dos dados;
- Análises complexas;
- Permite aprendizagem de máquina.
 
![datalake](https://s3-sa-east-1.amazonaws.com/lcpi/ae0a0894-73bb-4d70-a20e-7c19aac4f12a.png)

Fonte: [Solvimm](https://solvimm.com/wp-content/uploads/2018/12/Data-Lake-1024x541.png)
 
## Data Warehouse x Data Lake
|               | Data Warehouse                                                                 | Data Lake                                                     |
|---------------|---------------------------------------------------------------------------|--------------------------------------------------------------------|
| Dados         | Dados relacionais de sistemas transacionais, bancos de dados operacionais e aplicativos de linha de negócios.| Todos os dados, incluindo estruturados, semiestruturados e não estruturados. |
| Esquema | Geralmente projetado antes da implementação do data warehouse, mas também pode ser gravado no momento da análise (esquema na gravação ou esquema na leitura).| Gravado no momento da análise (esquema na leitura).|
| Preço/performance | Resultados de consulta mais rápidos, usando armazenamento local. | Resultados da consulta cada vez mais rápidos usando armazenamento de baixo custo e desacoplamento de computação e armazenamento.                          |
| Qualidade dos dados | Dados altamente organizados, que representam a versão central da verdade. | Quaisquer dados, organizados ou não (ou seja, dados brutos).                                     |
| Usuários | Analistas de negócios, cientistas de dados e desenvolvedores de dados. | Analistas de negócios (usando dados organizados), cientistas de dados, desenvolvedores de dados, engenheiros de dados e arquitetos de dados. |
| Análises | Geração de relatórios em lote, BI e visualizações. | Machine learning, análise exploratória, descoberta de dados, streaming, análise operacional, big data e criação de perfil. |

Fonte: [AWS](https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/)
 
É possível incluir neste comparativo mais repositórios, como em [TechTarget](https://cdn.ttgtmedia.com/rms/onlineimages/data_management-data_repository_cheat_sheet.png)
 
## Por que usar um Data Lake?
Em aulas anteriores discutimos *Big Data* e seus Vs. Sendo assim, considerando a variedade, velocidade e volume demandados por aplicações modernas, era notável que um *Data Warehouse* não seria mais suficiente. É importante entender que um não substitui o outro! Ambos podem e rotineiramente são utilizados em conjunto pois a necessidade de analisar o passado jamais deixará de ser relevante para uma organização. Entretanto, faz-se necessário a presença de um *Data Lake* para armazenar e tratar dados de diferentes tipos e em estágios mais brutos.
 
## E o Apache Hadoop?
Tendo compreendido as razões por trás do uso de um *Data Lake*, e suas características, é perceptível onde o Apache Hadoop pode ser aproveitado.
 
Anteriormente, quando apresentamos o framework, discutimos todo seu potencial envolvendo escalabilidade (via computação paralela e distribuída), tolerância a falhas e mais. Sendo assim, é natural pensar em um **Data Lake** que baseado em Hadoop e seu ecossistema (HDFS, MapReduce etc.) para armazenar e processar dados.
 
### Data Lake em nuvem
Para arquiteturas em nuvem existem soluções de armazenamento para criação de *Data Lakes* em todas grandes plataformas, como o S3 na AWS, Blob Storage na Azure e Google Cloud Storage na GCP e sim, consultando suas respectivas documentações, você perceberá que elementos do Hadoop foram aproveitados em suas construções. Além das soluções de armazenamento citadas, há também produtos específicos que facilitam o gerenciamento e criação de *Data Lakes*, como o Azure Data Lake e o Lake Formation, da AWS.
 
## Arquitetura
Se tratando de um *Data Lake*, que nada mais é que um grande repositório repleto de diretórios e arquivos de todos os tipos, é natural imaginar que profissionais responsáveis por sua modelagem tenham muita liberdade. Todavia, existem padrões que podem ser utilizados como guias, e o principal deles divide um *Data Lake* em diferentes camadas/zonas.
 
Exemplo de *Data Lake* com três camadas:
![Data Lake](https://s3-sa-east-1.amazonaws.com/lcpi/5888b668-37ae-47c3-85d2-5c4c121571b3.jpg)

Fonte: [dwbi1](https://dwbi1.files.wordpress.com/2022/01/2.-raw-clean-curated.jpg)
 
### Camada Raw
**Raw**, ou **landing zone**, é uma área que funciona como porta de entrada para um *Data Lake*. Aqui dados brutos, frutos de processos de ingestão, são armazenados para aguardarem por transformações e consultas.
 
É importante frisar que um Data Warehouse recebe sempre dados estruturados já tratados, mas um *Data Lake*, que comumente oferece poder de processamento muito alto por todas as questões envolvendo ambientes Big Data, recebe dados brutos para que sejam tratados dentro dele. Estes dados podem possuir muitas origens distintas e apresentar todos os tipos de extensões possíveis, exigindo do profissional responsável organização em sua estrutura de diretórios.
 
### Staging Area
Staging area, ou simplesmente **Stage**, é uma camada subsequente a *Raw* utilizada para tratamento dos dados. Em geral, não há muita definição de sua estrutura, pois serve como apoio há processos quando eles precisam gravar arquivos temporários, ou cópias, para manipulá-los.
 
### Curated
Se na *Raw* temos dados brutos e na *Staging* cópias e arquivos temporários sendo processados, na camada **Curated** estão armazenados dados tratados e prontos para uso.
 
Caso seja interessante ao negócio integrar seu *Data Lake* com seu Data Warehouse, é nesta camada que o DW seria inserido. Conectando assim ferramentas de visualização e de aprendizado de máquina para extração de valor.
 
### Camadas extras
Não é incomum encontrar em *Data Lakes* camadas chamadas de **Sandboxes**, que são compostas por diretórios criados por/para usuários e cientistas de dados realizarem testes e experimentos.
 
A presença de uma camada **Refined** também é possível para armazenar dados enriquecidos por fontes externas e com mais tratamentos que os presentes na **Curated** (e claro, conectar aqui ferramentas de visualização etc.).
 
### Riscos e sugestões
Como comentado anteriormente, o objetivo é apresentar uma orientação geral e guia terminológico envolvendo arquiteturas de *Data Lakes*, mas menos regras que as vistas em schemas de Data Warehouses, pois aqui há uma liberdade muito maior em suas construções.
 
O importante é investir tempo e recursos para definição de uma arquitetura que atenda as demandas do negócio, tendo camadas com papéis bem definidos, boa manutenibilidade, e segurança em termos de controle de acesso e criptografia de dados sensíveis (LGPD).
 
Por fim, é necessário se atentar ao risco que um grande repositório, com alto poder de processamento e armazenamento, nos induz: ter um *Data Lake* transformado em um **Data Swamp** (pântano de dados). Usamos esse termo para definir *Data Lakes* que, por receberem dados de tantas origens e tipos diferentes, possuem grande parcela de seu espaço consumido por dados que não estão sendo utilizados, não foram devidamente catalogados e consequentemente pouco compreendidos, gerando apenas custo e nada de valor.
 
## Indicações e Bibliografia
[Data Lake - Definição AWS](https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/)
 
[Data Lake - Definição GCP](https://cloud.google.com/learn/what-is-a-data-lake?hl=pt-br)
 
[Camadas Data Lake](https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/best-practices/data-lake-zones)
 
[O que você precisa saber sobre LGPD](https://letscode.com.br/blog/o-que-voce-precisa-saber-sobre-lgpd-politicas-de-privacidade-e-cookies)
 
Livro - [The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science](https://www.oreilly.com/library/view/the-enterprise-big/9781491931547/)
 
Livro - [Data Lake Development with Big Data](https://www.oreilly.com/library/view/data-lake-development/9781785888083/)
