<a href="https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/A02_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/mack_logo.png?raw=true" height="70" align="right"/></a>






<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisCover.png?raw=true" height="250" align="left"/></a>

# Exercícios

1. Acesse [aqui](https://docs.google.com/presentation/d/1in7NTpDe8rk3HnV-W767WM4leSUSP_K5FKzQmIyHU6Q/edit?usp=sharing) um template de plano de dados da Google. Avalie em um grupo considerando algum caso de uso da empresa de um dos participantes, a relevância desse plano e criando plano hipotético de dados considerando alguns dos aspectos discutidos em sala.

2. Em grupo, tratem as seguintes questões segundo o autor:

> 1. Defina e caracterize no contexto de dados a **observabilidade**? Qual o seu papel/importância nesse contexto? (Capítulo 2: The Data Engineering Lifecycle)

> 2. São várias as opções de arquitetura de dados que devemos fazer.  Leia no capítulo 4 as opções sobre localização (Cloud $\times$ On Premisse) e Serverless $\times$ Servers, e discuta resumidamente essas alternativas. Leve em consideração, em especial no primeiro, o cenário nacional. (Capítulo 4: Choosing Technologies Across the Data Engineering Lifecycle)

> 3. O que o autor quer dizer com **“batch as a special case of streaming”**? (Capítulo 3: Designing Good Data Architecture)








# Introdução à Engenharia de Dados
Em um **contexto centrado em dados**, a engenharia de dados é uma disciplina essencial no ecossistema de dados moderno. Há destaque para importância da qualidade dos dados e como a engenharia de dados se integra com outras funções, como ciência de dados, análise de negócios, desenvolvimento de aplicações etc.

* Definição de engenharia de dados
* Importância dos dados na tomada de decisões
* Integração com ciência de dados e análise
* Desafios enfrentados por engenheiros de dados

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisUpDown.png?raw=true" height="80" align="left"/></a>

## Engenharia de Dados

> A **engenharia de dados** é uma disciplina que se concentra na **construção e manutenção de sistemas que permitem a coleta, armazenamento, processamento e análise de dados**. Ela serve como a base para a análise e ciência de dados, garantindo que os dados estejam disponíveis, acessíveis e em um formato utilizável para os cientistas de dados.

> Ela envolve a criação de **pipelines de dados, a implementação de arquiteturas de dados robustas e a aplicação de práticas de qualidade e governança de dados** para garantir um eficaz e eficiente ciclo de vida dos dados.

## Desafios da Engenharia de Dados

### Hard Skills

1. Qualidade dos Dados: Garantir que os dados sejam precisos, completos e consistentes ao longo de todo o ciclo de vida.

1. Integração de Dados: Combinar dados de diferentes fontes e formatos, o que pode ser complexo devido à diversidade de sistemas e tecnologias.

1. Escalabilidade: Construir sistemas que possam lidar com volumes crescentes de dados sem comprometer o desempenho.

1. Gerenciamento de Dados em Tempo Real: Implementar soluções de processamento e a análise de dados em tempo real.

1. Segurança e Privacidade

1. Manutenção e Operação: Manter e operar os sistemas de dados de maneira eficiente e eficaz.

### Soft Skills

1. Colaboração Interdisciplinar: Trabalhar em conjunto com cientistas de dados, analistas etc.

1. Mudanças Tecnológicas: Adaptar-se rapidamente a novas soluções

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisBalance.png?raw=true" height="80" align="left"/></a>

# O que é o ciclo de vida da engenharia de dados?

O ciclo de vida da engenharia de dados compreende estágios que transformam insumos de dados brutos em um
produto final útil, pronto para consumo por analistas, cientistas de dados e engenheiros de ML. O ciclo de vida da engenharia de dados pode ser dividido em cinco estágios:

* **Geração**

> A fase onde os dados são criados ou coletados a partir de diversas fontes, como sensores, aplicativos ou interações de usuários.

* **Armazenamento**

> A fase que envolve a organização e a preservação dos dados em sistemas de armazenamento apropriados, como bancos de dados ou data lakes.

* **Ingestão**

> O processo de mover dados de suas fontes para os sistemas de armazenamento, garantindo que os dados sejam capturados de forma eficiente e em tempo hábil.

* **Transformação**

> A fase em que os dados são processados e transformados em um formato adequado para análise, incluindo limpeza, enriquecimento e agregação.

* **Serviço de Dados**

A fase final onde os dados transformados são disponibilizados para consumo por analistas, cientistas de dados e outros  interessados, através de APIs, relatórios, dashboards.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisLifeCycle.png?raw=true" height="300" align="left"/></a>

# Fundamentos de Dados

* Tipos de dados e suas características
* Estruturas de dados comuns
* Modelos de dados (relacional, NoSQL, etc.)
* Sistemas de gerenciamento de banco de dados
* Princípios de normalização

# Arquitetura de Dados
O foco aqui é a arquitetura de dados como crucial para a construção de sistemas de dados escaláveis e eficientes.

* Diferença entre data lakes e data warehouses (Data Lakehouses? :-()
* Arquiteturas de dados em nuvem(*)
* Design de sistemas escaláveis
* Integração de dados
* Melhores práticas de arquitetura(*)

## Data lakes $\times$ data warehouses

### Estrutura de Dados

**Data Lakes**: Armazenam dados em seu formato bruto, incluindo dados estruturados, semiestruturados e não estruturados. Isso permite uma flexibilidade maior na ingestão de dados de diversas fontes.

**Data Warehouses**: Armazenam dados em um formato estruturado e organizado, geralmente após um processo de transformação (ETL). Os dados são otimizados para consultas e análises.

### Objetivo

**Data Lakes**: Focados em armazenar grandes volumes de dados para análise futura, permitindo que os usuários explorem e analisem dados de maneiras variadas.

**Data Warehouses**: Projetados para fornecer relatórios e análises rápidas e eficientes, com dados prontos para uso em decisões de negócios.

### Processamento de Dados

**Data Lakes**: Utilizam um modelo de processamento de dados em que os dados são armazenados primeiro e processados posteriormente (ELT - Extract, Load, Transform).

**Data Warehouses**: Seguem um modelo de processamento onde os dados são transformados antes de serem carregados (ETL - Extract, Transform, Load).

### Custo e Escalabilidade

**Data Lakes**: Geralmente mais econômicos para armazenar grandes volumes de dados, pois utilizam armazenamento de baixo custo e podem escalar facilmente.

**Data Warehouses**: Podem ser mais caros devido à necessidade de armazenamento estruturado e otimizado, mas oferecem desempenho superior para consultas complexas.

### Usuários e Casos de Uso

**Data Lakes**: Frequentemente utilizados por cientistas de dados e analistas que precisam de acesso a dados brutos para exploração e modelagem.

**Data Warehouses**: Usados por analistas de negócios e executivos que necessitam de relatórios e insights rápidos a partir de dados organizados.

# Processamento de Dados

Este item tem um forte impacto no desenho das soluções para manipular grandes volumes de dados.

* Processamento em lote vs. processamento em tempo real
* Ferramentas e frameworks de processamento
* Arquitetura de fluxo de dados


## Processamento em Lote $\times$ Processamento em Tempo Real

O **processamento em lote** envolve a coleta e o processamento de dados em grupos ou "lotes" em intervalos de tempo predefinidos, horas, dias ou meses. Já o **processamento em tempo real** envolve a análise e o processamento de dados à medida que são gerados ou recebidos, permitindo respostas imediatas.

Eles diferem quando a:

* Latência
* Casos de Uso (Sugestões? :-))
* Simplicidade $⇒$ Complexo
* Custo Baixo $⇒$ Custo Alto

# Qualidade de Dados

A qualidade dos dados e vai de técnicas para monitorar e melhorar a qualidade dos dados ao longo do tempo até a governança dos dados.

* Definição de qualidade de dados
* Métricas de qualidade
* Técnicas de limpeza de dados
* Monitoramento de qualidade de dados
* Importância da governança de dados

## Métricas de Qualidade

* Precisão (*basicamente sem erros ou imprecisões*)
* Completude (*todos os dados estão presentes?*)
* Consistência
* Validade
* Atualidade
* Acessibilidade
* Relevância

#  Integração de Dados

Existem diversas estratégias e ferramentas para integrar dados de diferentes fontes.

* Conceitos de ETL e ELT
* Ferramentas de integração de dados
* Desafios na integração de dados
* Estratégias para integração em tempo real
* Casos de uso de integração de dados

## ETL (Extract, Transform, Load) $\times$ ELT (Extract, Load, Transform)

Note que esses processos apresentam uma ordem diferente das operações! Isso tem forte impacto nas soluções e arquitetura empregadas. Por exemplo, o ELT pode aproveitar a capacidade de processamento do sistema de destino para realizar a transformação (vamos  ver mais adiante o HDFS e eco-sistema Hadoop).

O ETL é mais comum em ambientes onde a qualidade e a estrutura dos dados são críticas ou garantidas antes do carregamento.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisETL.png?raw=true" height="180" align="left"/></a>



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisELT.png?raw=true" height="160" align="left"/></a>

## Estratégias para integração em tempo real

Algumas (não todas aqui) das estratégias para integração em tempo real incluem:

* Streaming de Dados $⟶$ Apache Kafka, Confluence
* Mensageria $⟶$ RabbitMQ
* APIs em Tempo Real  $⟶$ Websockets
* Processamento de Eventos $⟶$ Apache Flink

# Armazenamento de Dados

* Tipos de armazenamento de dados
* Comparação entre bancos de dados relacionais e NoSQL
* Armazenamento em nuvem
* Custos e desempenho do armazenamento


<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisStorage2.png?raw=true" height="200" align="left"/></a>



## Tipos de Armazenamento

* **Bancos de dados relacionais** (RDBMS) como MySQL, PostgreSQL e Oracle.
* **Bancos de dados NoSQL**, como Bancos de dados de documentos (ex: MongoDB), chave-valor (ex: Redis), colunares (ex: Cassandra) e grafos (ex: Neo4j).
* **Armazenamento em Nuvem**, Amazon S3, Google Cloud Storage e Azure Blob Storage. *Recentemente, o Amazon S3, dá suporte nativo ao SQL.*
* **Data Warehouses**, Amazon Redshift, Google BigQuery, Snowflake.
* **Data Lakes**, DataBricks, AWS Lake Formation e Azure Data Lake (ou próprio)
* **Data Warehouses**, Amazon Redshift, Google BigQuery, Snowflake.
* **Armazenamento em Tempo Real**, Apache Druid e ClickHouse.
* **Sistemas de Arquivos**, HDFS



> Nota: O BigQuery não é um banco de dados relacional tradicional, mas é baseado no SQL e pode ser considerado um banco de dados relacional. Em vez de tabelas, o BigQuery usa um formato de armazenamento em colunas, que é otimizado para consultas analíticas. De fato, muito poucos bancos de dados são 100% relacionais, sendo a maior parte, conceitualmente *objeto-relacionais*.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A_02_JoeReisStorage.png?raw=true" height="350" align="left"/></a>



# Segurança e Governança de Dados

A segurança e a governança de dados são temas críticos em qualquer questão de dados.

* Princípios de segurança de dados
* Governança de dados e conformidade
* Ferramentas de segurança e Políticas de acesso a dados
* Importância da transparência e ética

# Futuro da Engenharia de Dados

* Tendências emergentes em engenharia de dados
* Impacto da inteligência artificial
* Automação de processos de dados


## Automação de processos de dados

1. Eficiência Operacional
1. Redução de Erros
1. Escalabilidade
1. Integração de Ferramentas
1. DataOps
1. Monitoramento e Manutenção

## Tendências

* **Data Mesh**: Uma abordagem descentralizada para a arquitetura de dados, onde equipes de produto são responsáveis por seus próprios domínios de dados.

* **Data Fabric**: integra dados de diferentes fontes e formatos (:-()

* **Integração de Dados em Tempo Real**   (:-()

* **Automação e Machine Learning**   (:-()

* **DataOps**: Práticas DevOps à engenharia de dados (:-|)

* **Armazenamento em Nuvem e Data Lakes** (:-()

* **Privacidade e Governança de Dados** (:-()

...

...



# **EXTRA** - Arquiteturas de Referência

As arquiteturas para Ciência de Dados mais atuais empregam soluções de Big Data, muitas vezes não obstante o volume de dados utilizado e diferem bastante de arquiteturas mais antigas de data warehouse baseadas em grandes bancos de dados relacionais.  

As  Khalifa, Shadi et al. [**“The Six Pillars for Building Big Data Analytics Ecosystems.”**](https://www.semanticscholar.org/paper/The-Six-Pillars-for-Building-Big-Data-Analytics-Khalifa-Elshater/45f9f16d144998bfa4ed121e986fe3095f48a52e)

<br>

<img src="https://d3i71xaburhd42.cloudfront.net/45f9f16d144998bfa4ed121e986fe3095f48a52e/3-Figure1-1.png" width=900, align="center">



<br>
<br>
<br>

<img src="https://d3i71xaburhd42.cloudfront.net/45f9f16d144998bfa4ed121e986fe3095f48a52e/27-TableI-1.png" width=700, align="center">

<br>
<br>
<br>



Merecem destaque nessa arquitetura dois componentes, o HDFS e o Mapreduce. Esses elementos trabalham em conjunto para fornecer uma plataforma de armazenamento distribuído, eficiente, resiliente e paralelizável, capaz de permitir o processamento de milhões de dados com tempos bastante aceitáveis e são um padrão comum a quase todas as plataformas comerciais.




<img src="https://d3i71xaburhd42.cloudfront.net/45f9f16d144998bfa4ed121e986fe3095f48a52e/5-Figure2-1.png" width=300, align="left">
<br>
<img src="https://d3i71xaburhd42.cloudfront.net/45f9f16d144998bfa4ed121e986fe3095f48a52e/8-Figure3-1.png" width=300, align="right">

