## Data Lake vs Data Lakehouse: Implementação prática com Spark

![capa](images/capa.png)

### Evolução das Arquiteturas de Dados

![data_architectures](images/data_architectures.png)

**Data Warehouse**

* Os data warehouses têm um longo histórico de suporte à decisão e aplicativos de inteligência de negócios, embora não sejam adequados ou caros para lidar com dados não estruturados, dados semiestruturados e dados com alta variedade, velocidade e volume.

**Data Lakes**

* Data lakes surgiram para lidar com dados brutos em uma variedade de formatos em armazenamento barato para ciência de dados e aprendizado de máquina, embora carecessem de recursos essenciais do mundo dos armazéns de dados: eles não suportam transações, não impõem a qualidade dos dados e sua falta de consistência/isolamento torna quase impossível misturar acréscimos e leituras e trabalhos em lote e streaming.

**Data Lakehouse**

* Data Lakehouse é uma nova arquitetura de gerenciamento de dados aberta que implementa estruturas de dados e recursos de gerenciamento de dados semelhantes aos de um Data Warehouse, diretamente no tipo de armazenamento de baixo custo usado para Data Lakes. 

* Mesclá-los em um único sistema significa que as equipes de dados podem se mover mais rapidamente, pois podem usar os dados sem a necessidade de acessar vários sistemas. 

* Data Lakehouses também garantem que as equipes tenham os dados mais completos e atualizados disponíveis para projetos de ciência de dados, aprendizado de máquina e análise de negócios.

In [None]:
spark = pyspark.sql.SparkSession.builder.appName("Datalakehouse") \
    .config("spark.jars.packages", "io.delta:delta-core_2.12:0.8.0") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .config("spark.databricks.delta.schema.autoMerge.enabled","true") \
    .config("spark.databricks.delta.autoOptimize.optimizeWrite","true") \
    .config("spark.databricks.delta.optimizeWrite.enabled","true") \
    .config("spark.databricks.delta.vacuum.parallelDelete.enabled","true") \
    .getOrCreate()

In [None]:
from delta import *
from pyspark.sql.functions import *

### Referências:

* [Data Lakehouse](https://databricks.com/glossary/data-lakehouse)