# Data Generation in Source Systems


A primeira etapa do ciclo de vida da engenharia de dados é a geração de dados e sistemas de origem. No seu papel como engenheiro de dados, você consumirá dados de diversas fontes. Por exemplo, se você trabalha em uma empresa de comércio eletrônico, pode construir um pipeline de dados que consome dados de transações de vendas de um banco de dados interno de vendas e dados de catálogo de produtos de arquivos. 

![image.png](attachment:image.png)

A equipe de marketing pode precisar que você obtenha dados de redes sociais por meio de uma API e conjuntos de dados de pesquisas de mercado de uma plataforma de compartilhamento de dados. Você pode até se ver trabalhando com dados provenientes de dispositivos da Internet das Coisas (IoT), como rastreadores de GPS para coletar dados de localização e movimento para atualizações de entrega de produtos. Esses sistemas são normalmente criados e mantidos por outras equipes, incluindo engenheiros de software de outros departamentos internos, fornecedores externos ou plataformas de terceiros. Como engenheiro de dados, esses sistemas estão, em grande parte, fora do seu controle. Mas é importante entender como esses sistemas funcionam, porque os pipelines de dados que você constrói dependerão dos dados gerados a partir dessas fontes.

Vamos começar analisando mais de perto alguns dos sistemas de origem comuns com os quais você trabalhará como engenheiro de dados.

### Bancos de Dados

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

Os sistemas de origem mais comuns são os bancos de dados, que podem ser bancos de dados relacionais, representados como tabelas de dados relacionados, ou outros tipos de sistemas NoSQL, incluindo bancos de dados de chave-valor, repositórios de documentos e outros. Esses bancos de dados podem fazer parte do back-end de uma aplicação web ou móvel, ou você pode estar armazenando dados de algum outro sistema.

### Arquivos

![image-2.png](attachment:image-2.png)

Além dos sistemas de origem baseados em banco de dados, você também pode estar consumindo dados na forma de arquivos, como arquivos de texto, arquivos de áudio (como MP3s) ou mesmo vídeos e outros tipos de arquivos. Embora arquivos individuais como esses possam não parecer algo que se possa chamar de sistema de origem, você descobrirá que, em muitos casos, no seu trabalho como engenheiro de dados, você precisa baixar ou ter acesso a arquivos para iniciar seu trabalho.

### APIs

![image-5.png](attachment:image-5.png)

Outro sistema de origem comum que você encontrará como engenheiro de dados é uma API, que é a sigla para interface de programação de aplicações. Simplificando, uma API permite que você faça uma requisição web por dados e, em seguida, receba esses dados em um determinado formato, como XML ou JSON.

### Plataformas de Compartilhamento de Dados

Você também pode obter dados por meio de uma plataforma de compartilhamento, que é algo que organizações podem configurar para compartilhar dados internamente ou com terceiros.

### Dispositivos IoT

![image-6.png](attachment:image-6.png)

Como mencionado anteriormente, os dispositivos IoT representam mais um tipo de sistema de origem que se torna cada vez mais comum. Nesse tipo de sistema, você pode ter muitos dispositivos individuais – o que é conhecido como um enxame de dispositivos IoT – transmitindo dados em tempo real. Esses dados em streaming são tipicamente enviados para um banco de dados, e o proprietário do sistema de origem pode disponibilizar esses dados por meio de uma API ou de uma plataforma de compartilhamento de dados. Em outros casos, pode ser necessário ingerir e combinar todas essas transmissões individuais de dados para uso nos seus próprios fluxos de trabalho posteriores.

### Desafios com Sistemas de Origem

Em um mundo ideal, os sistemas de origem dos quais você depende forneceriam os dados necessários de maneira consistente e pontual, permitindo que você construísse sistemas downstream que se baseassem na previsibilidade desse sistema de origem. No entanto, no mundo real, os sistemas de origem são imprevisíveis. Esses sistemas, às vezes, ficam fora do ar, a equipe que gerencia o sistema pode alterar o formato ou o esquema dos dados, ou talvez o esquema permaneça o mesmo, mas os dados em si mudem.

Quando comecei a trabalhar como engenheiro de dados, lembro-me de ter trabalhado com um banco de dados mantido por uma equipe interna de engenheiros de software. Um dia, essa equipe decidiu rearranjar as colunas do banco de dados de sua aplicação e não me informou sobre essas mudanças. Descobri que as colunas das quais meus pipelines de dados dependiam foram alteradas, renomeadas e algumas até deletadas. Isso paralisou completamente alguns dos fluxos de trabalho de dados downstream, e tive que responder a alguns stakeholders bastante insatisfeitos, o que não foi nada bom.

### Importância do Entendimento dos Sistemas de Origem

Ao acessar dados de sistemas de origem, é essencial entender como esses sistemas estão configurados e quais mudanças nos dados ou no sistema você pode esperar. Isso significa que, como engenheiro de dados, você terá mais sucesso se trabalhar diretamente com os responsáveis pelos sistemas de origem para compreender como esses sistemas funcionam, como eles geram dados, como esses dados podem estar sujeitos a mudanças ao longo do tempo e, em última instância, como essas mudanças afetarão os sistemas downstream que você constrói. Em minha experiência, desenvolver bons relacionamentos de trabalho com os stakeholders dos sistemas de origem é uma parte subestimada, porém crucial, do sucesso na engenharia de dados.

Dependendo dos seus sistemas de origem e dos seus objetivos, a próxima grande fase do ciclo de vida da engenharia de dados – a ingestão – pode se apresentar de maneiras bastante diferentes de um projeto para outro.

# Ingestion

**Como engenheiro de dados, você construirá arquiteturas que começam com o passo de ingestão de dados a partir dos sistemas de origem, o que significa mover dados brutos dos sistemas de origem para o seu pipeline de dados para processamento posterior.**  
Na minha experiência, os sistemas de origem e a ingestão de dados representam os maiores gargalos no ciclo de vida da engenharia de dados.

**Entendimento dos Sistemas de Origem**  
Se você começou trabalhando diretamente com os responsáveis pelos sistemas de origem para entender como esses sistemas funcionam, como eles geram dados, de que maneira esses dados podem estar sujeitos a alterações ao longo do tempo e, por fim, como essas mudanças impactarão os sistemas a jusante que você construir, então estará bem posicionado para evitar armadilhas comuns na fase de ingestão.

**Decisão Crítica: Frequência da Ingestão de Dados**  
Uma das decisões críticas que você precisa tomar ao projetar processos de ingestão de dados é com que frequência você precisa ingerir os dados, ou seja, com que regularidade mover os dados desses sistemas de origem – mostrados à esquerda – para o seu pipeline de dados para processamento posterior.  
Você pode optar por ingerir dados periodicamente em lotes, como uma vez por hora ou uma vez ao dia. Outra abordagem, que vem se tornando cada vez mais comum, é ingerir dados como um fluxo constante de eventos em quase tempo real.

**Padrões de Ingestão: Lote versus Streaming**  
Focarei na introdução desses dois principais padrões de ingestão de dados, lote versus streaming.

![image.png](attachment:image.png)

- **Ingestão em Lote:**  
  Você pode pensar nos dados produzidos como uma série contínua de eventos – esses eventos podem ser cliques em um site, medições de sensores ou outros. No mundo, eventos como esses acontecem continuamente. Em certo sentido, quase todos os dados podem ser vistos como sendo transmitidos em tempo real em sua origem. A ingestão em lote é apenas uma maneira conveniente de processar esse fluxo de eventos em grandes blocos, seja em intervalos de tempo predeterminados ou à medida que os dados atingem um limite de tamanho pré-estabelecido. 
  
  ![image-2.png](attachment:image-2.png)
  
  Por exemplo, você pode processar todos os dados de um dia inteiro em um único lote. Por muito tempo, o processamento em lote foi a forma padrão de ingerir dados. Hoje, existem mais opções para a ingestão, mas o processamento em lote continua sendo uma abordagem prática e popular, especialmente em casos onde os dados são usados para análises e aprendizado de máquina.

- **Ingestão via Streaming:**  

  ![image-3.png](attachment:image-3.png)

  Com a ingestão em streaming, por outro lado, você está ingerindo e fornecendo dados aos sistemas a jusante de forma contínua e quase em tempo real. Quando digo que está ingerindo dados em quase tempo real, quero dizer que está disponibilizando esses dados para os sistemas a jusante em um curto período após sua produção – possivelmente em menos de um segundo. Nesse caso, é necessário usar ferramentas específicas, como plataformas de streaming de eventos ou filas de mensagens, para ingerir continuamente os fluxos de eventos. Com essas ferramentas se tornando mais onipresentes, a ingestão via streaming tornou-se mais acessível e popular.


**Considerações e Trade-offs na Escolha da Abordagem**  
No entanto, a ingestão via streaming não é necessariamente a melhor escolha para todos os casos de uso. Existem trade-offs significativos a serem considerados ao decidir se a ingestão via streaming é a opção apropriada em vez da abordagem mais simples de ingestão em lote. Para trabalhar em uma solução de processamento de fluxo, você deve se perguntar:

- Quais ações podem ser realizadas com os dados em tempo real que representem uma melhoria em relação aos dados processados em lote?
- A ingestão via streaming custa mais do que a ingestão em lote em termos de tempo, dinheiro, manutenção e possíveis períodos de inatividade?
- Como a escolha entre ingestão via streaming e ingestão em lote influenciará o restante do seu pipeline de dados?

A ingestão em lote é uma excelente abordagem para muitos casos de uso comuns, como negociações de modelos e relatórios semanais. Meu conselho é adotar um sistema de ingestão via streaming somente depois de identificar um caso de uso de negócio que justifique os trade-offs de utilizá-lo em comparação ao lote.

**Coexistência de Ingestão via Streaming e Lote**  
É importante notar que a ingestão via streaming geralmente coexiste com o processamento em lote. Por exemplo, modelos de aprendizado de máquina são geralmente treinados com base em processamento em lote. Contudo, esses mesmos dados de treinamento podem ter sido originalmente ingeridos via streaming devido a algum objetivo separado da sua arquitetura, como a detecção de anomalias em tempo real. Raramente os engenheiros de dados têm a opção de construir um pipeline de dados puramente em streaming sem componentes de lote. Em vez disso, você escolherá onde ocorrerão as divisões entre lote e streaming.

**Outras Nuances na Ingestão de Dados**  
Além de decidir entre uma abordagem de lote versus streaming, existem outras nuances importantes na etapa de ingestão, tais como:

- **Uso de Change Data Capture (CDC):**  
  Utilizar CDC para acionar certos processos de ingestão baseados nas alterações dos dados no sistema de origem.
  
- **Abordagem Push versus Pull:**  
  Decidir se o sistema de origem enviará os dados para você (push) ou se você os buscará ativamente a partir da origem (pull).

# Storage

**Interagindo com Sistemas de Armazenamento de Dados no Dia a Dia**

Gostaria que você refletisse por um momento sobre as diversas formas de interação que tem com os sistemas de armazenamento de dados diariamente. No seu laptop, por exemplo, você pode criar ou excluir arquivos ou mover arquivos entre diferentes pastas. Ao fazer isso, você está alterando a forma como as informações são armazenadas no seu disco rígido ou drive de estado sólido. Quando você abre aplicativos, você os carrega na memória de acesso aleatório (RAM), que é simplesmente outro tipo de armazenamento que permite acesso mais rápido; ou você pode baixar novos arquivos ou aplicativos da Internet ou ter alguns de seus arquivos automaticamente copiados para um armazenamento em nuvem.

Com o seu smartphone, da mesma forma, você pode estar enviando ou recebendo mensagens ou interagindo com aplicativos, efetivamente movendo dados entre os diversos componentes de armazenamento do seu dispositivo, bem como na nuvem. Quase toda ação que você realiza em um dispositivo digital ou online envolve a interação com sistemas de armazenamento de dados, e você pode se deparar com os limites desses sistemas, como ficar sem espaço para armazenar fotos no seu telefone ou tentar enviar arquivos que são muito grandes. A função, o desempenho e as limitações que você encontra terão muito a ver com a forma como esses sistemas estão configurados.

**Hardware Básico de Armazenamento**

![image.png](attachment:image.png)

Da mesma forma, no seu trabalho como engenheiro de dados, a função, o desempenho e as limitações dos sistemas que você constrói terão muito a ver com as soluções de armazenamento que você escolhe para suportar esses sistemas. Para começar, vamos dar uma olhada em alguns dos ingredientes físicos brutos do armazenamento. No seu dia a dia, você provavelmente já se familiarizou com diversas formas de armazenamento em estado sólido, como cartões de memória flash ou drives de estado sólido do seu laptop ou smartphone. Em contrapartida, é provável que você não tenha lido dados de um disquete recentemente.

Pode-se perdoar o pensamento de que o mundo deixou para trás os discos magnéticos como solução de armazenamento de dados. No entanto, a verdade é que os discos magnéticos ainda formam a espinha dorsal dos sistemas modernos de armazenamento, e isso se deve principalmente ao baixo custo do armazenamento em disco. Atualmente (2024), o armazenamento em disco é cerca de 2 a 3 vezes mais barato que o armazenamento em estado sólido.

A RAM, comumente referida como memória, é outra forma de armazenamento físico com a qual você pode estar familiarizado. A RAM oferece velocidades de leitura e escrita muito mais rápidas do que os drives de estado sólido ou discos, tornando-se um componente crítico de muitas aplicações e arquiteturas. Contudo, o armazenamento em RAM pode ser de 30 a 50 vezes mais caro que o armazenamento em estado sólido. Além disso, a RAM é volátil no sentido de que, se o seu sistema perder energia, na maioria das vezes, dependendo do tipo de RAM que você utiliza, a memória é perdida instantaneamente.

Em muitas arquiteturas modernas, os dados passam por armazenamento magnético, drives de estado sólido e memória enquanto percorrem as várias fases de processamento de um pipeline. No entanto, os componentes físicos de armazenamento são apenas um aspecto de como o armazenamento de dados é implementado em toda a sua arquitetura.

**Sistemas Modernos e em Nuvem de Armazenamento de Dados**

Os sistemas modernos e em nuvem de armazenamento de dados são comumente distribuídos por múltiplos clusters e data centers. Isso significa que itens como rede, CPU, serialização, compressão e cache são todos ingredientes brutos críticos para armazenar dados em sistemas de dados modernos.

Como engenheiro de dados, tipicamente você não será responsável por gerenciar os detalhes granulares de como os seus dados se movem e são armazenados em uma rede de data centers e dispositivos físicos de armazenamento. Em vez disso, você trabalhará com sistemas de armazenamento como sistemas de gerenciamento de banco de dados ou plataformas de armazenamento de objetos, como o Amazon S3. Dependendo dos requisitos da sua arquitetura, você também pode estar trabalhando com sistemas como Apache Iceberg ou Hoody, sistemas de armazenamento baseados em cache e memória, ou mesmo armazenamento para streaming. Todos esses sistemas de armazenamento de dados são construídos sobre os ingredientes físicos e outros ingredientes brutos que existem dentro de servidores e clusters, permitindo que esses sistemas ingiram e recuperem dados usando diferentes protocolos de acesso.

**Abstrações de Armazenamento**

Por fim, no seu trabalho como engenheiro de dados, é provável que você não trabalhe apenas com sistemas individuais de armazenamento, mas com combinações de sistemas organizados em abstrações de armazenamento, como um data warehouse, um data lake ou, mais recentemente, a combinação desses conceitos: o data lake house. Com as ferramentas de abstração de armazenamento, em vez de se preocupar com os detalhes de como os componentes subjacentes estão organizados, você escolherá vários parâmetros de configuração que permitem atender aos requisitos do seu sistema em termos de latência, escalabilidade e custo.

![image-2.png](attachment:image-2.png)

Se você pensar no armazenamento como uma hierarquia, como organizaria os diferentes aspectos do armazenamento? No nível mais básico, estão os ingredientes brutos do armazenamento de dados, incluindo os diversos componentes físicos, como disco, RAM e armazenamento em estado sólido, bem como os diversos ingredientes brutos não físicos, como rede e serialização. Em seguida, sobre esses, existem os sistemas de armazenamento que são construídos a partir desses ingredientes brutos, os quais incluem sistemas de banco de dados, armazenamento de objetos e muito mais. Finalmente, no topo da hierarquia, encontram-se as abstrações de armazenamento, que são combinações de sistemas de armazenamento que permitem atingir as necessidades de armazenamento de dados em um nível mais alto, sem se preocupar tanto com os detalhes de baixo nível.

Como engenheiro de dados, é perfeitamente possível que você passe grande parte do seu tempo operando no nível superior dessa hierarquia, o que significa que você não precisará se preocupar com os detalhes de como exatamente os seus dados estão se movendo entre os diferentes componentes e sistemas de armazenamento. No entanto, você será mais eficaz no seu trabalho se dedicar um tempo para entender o funcionamento interno, as capacidades e as limitações de toda a solução de armazenamento, até mesmo nos seus ingredientes brutos.

A verdade é que muitos engenheiros de dados atualmente não entendem profundamente os detalhes dos sistemas de armazenamento que constroem. Isso leva a consequências infelizes quando se trata de desempenho e custo. Por exemplo, uma vez, eu estava prestando consultoria para uma equipe que falhou em considerar esses detalhes. Eles precisavam mover um grande conjunto de dados para o data warehouse e, sem saber, escolheram uma abordagem de inserir diretamente cada linha de dados individualmente, ou seja, estavam ingerindo e escrevendo uma linha de cada vez no data warehouse. Isso não só se revelou muito lento, como também muito caro, pois inserções diretas são geralmente cobradas por uso. No final, eles descobriram o erro e migraram para uma abordagem de ingestão em massa, mas somente depois de terem desperdiçado um tempo significativo e consumido metade do orçamento anual para o data warehouse em apenas uma semana.

# Queries, Modeling, and Transformation

**A etapa de transformação no ciclo de vida da engenharia de dados é realmente onde você, como engenheiro de dados, começa a agregar valor.**  
Isso ocorre porque a etapa que vem antes da transformação, a saber, a ingestão e o armazenamento de dados brutos provenientes dos sistemas de origem, não agrega valor direto para as partes interessadas a jusante. Como mencionado anteriormente, em seu papel de engenheiro de dados, o panorama geral é que você obtém dados brutos de algum lugar, os transforma em algo útil e, em seguida, os disponibiliza para os usuários finais. A transformação é a etapa em que esses dados se tornam úteis.

**Exemplificando o que significa "útil":**  
Imagine, por exemplo, um analista de negócios como seu usuário a jusante. Suponha que ele tenha a tarefa de reportar as vendas diárias de uma variedade de produtos. Esse analista pode precisar de informações como IDs de clientes, nomes de produtos, preços, quantidades, horários de venda, entre outros. Embora os analistas de dados geralmente dominem SQL, eles contarão com você para transformar os dados brutos e fornecê-los em um formato que seja rápido e fácil de consultar.

**Outro exemplo: cientistas de dados e engenheiros de machine learning**  
Imagine que o seu usuário a jusante seja um cientista de dados ou um engenheiro de machine learning. Além do SQL, eles podem até ser fluentes em várias abordagens potenciais para transformação de dados, mas sua função principal é realmente utilizar os dados para análises preditivas. Você pode agregar um valor tremendo ao lidar com a transformação dos dados em estruturas e características que podem ser usadas diretamente para o treinamento de seus modelos ou análises.

**Divisão da etapa de transformação:**  
Chamamos essa parte do ciclo de vida da engenharia de dados de transformação. Na realidade, essa etapa é composta por três partes: consultas, modelagem e transformação. Incluo consultas e modelagem como separadas da transformação, pois esses são componentes críticos de qualquer pipeline de dados que realmente agregam valor quando executados corretamente e apresentam riscos quando feitos de forma inadequada.

**Consultas:**  
Para ilustrar, vamos começar com as consultas. Quando você consulta dados, está emitindo um pedido para ler registros de um banco de dados ou outros sistemas de armazenamento. Por exemplo, pode ser necessário consultar dados tabulares e semi-estruturados que estão armazenados em um data warehouse na nuvem. Existem muitas linguagens que você pode usar para consultar dados, mas focaremos na linguagem de consulta estruturada, ou SQL, que continua sendo uma linguagem de consulta popular e universal.  
Sua consulta pode envolver a limpeza, junção e agregação de dados em vários conjuntos de dados. Você pode usar expressões SQL para filtrar os dados de modo que apenas registros específicos sejam recuperados.  

Há mais de uma maneira de escrever uma consulta, e consultas mal escritas podem ter consequências negativas, como impactar a performance de um banco de dados de origem ou causar uma situação conhecida como “explosão de linhas”, onde uma consulta que inclui uma junção entre tabelas produz muitos mais registros do que o esperado, o que pode comprometer sua infraestrutura de armazenamento. Em outras circunstâncias, consultas mal escritas podem simplesmente ser lentas ou abrangentes, causando atrasos a jusante em relatórios ou análises.  
Na prática, acontece que a maioria dos engenheiros de dados sabe ler e escrever SQL, mas não estão familiarizados com o funcionamento interno das consultas. Isso pode ter consequências imprevistas nas arquiteturas que eles constroem.

**Modelagem de Dados:**  
O próximo ponto a ser abordado é a modelagem de dados. Um modelo de dados representa a forma como os dados se relacionam com o mundo real. A modelagem de dados envolve a escolha deliberada de uma estrutura coerente para os seus dados e é um passo crucial para tornar os dados úteis para o negócio.  
Por exemplo, voltando ao caso do analista de negócios que precisa criar relatórios de vendas de produtos, pode ser que você tenha ingerido dados "normalizados" de um banco de dados relacional de origem que contém tabelas separadas para informações de produtos, detalhes de pedidos, informações de clientes, etc. Esses dados frequentemente possuem relações complexas entre si.  
Para atender às necessidades desse analista, pode ser necessário realizar o que chamamos de desnormalização desses dados, modelando-os de uma maneira que permita aos analistas consultar e obter rapidamente os dados necessários para os relatórios.  
Um bom modelo de dados é projetado para refletir da melhor forma possível os processos, definições, fluxos de trabalho e lógicas da sua organização. Por exemplo, o termo "cliente" pode ter significados diferentes para diferentes departamentos da sua empresa. Para ter sucesso na modelagem de dados, você precisa trabalhar com as partes interessadas para entender sua terminologia – como o que o termo "cliente" significa para eles – bem como os objetivos de negócio para os dados.  

**Transformação dos Dados:**  
Além de consultar e modelar os dados, estes também precisam ser transformados, isto é, manipulados, aprimorados e preparados para o uso a jusante.  
Como mencionei anteriormente, você normalmente transformará os dados várias vezes ao longo do ciclo de vida da engenharia de dados.  
Por exemplo, os dados podem ser transformados antes mesmo de serem acessados por você, como a adição de um carimbo de data/hora a um registro enquanto ele ainda está em um sistema de origem, ou você pode aplicar transformações enquanto os dados estão em trânsito durante a ingestão; logo após a ingestão, pode-se configurar transformações básicas para mapear os dados para os tipos corretos e colocar os registros em formatos padronizados.  
Você pode enriquecer um registro dentro de um pipeline de streaming com campos adicionais e cálculos antes que ele seja enviado para um data warehouse.  
Ainda mais a jusante, pode ser necessário transformar o esquema dos dados e aplicar desnormalização, agregações em larga escala para relatórios ou criar dados com características específicas (featurização) para o treinamento de modelos de machine learning.

# Serving Data

Uma vez que você ingeriu, transformou e armazenou seus dados, está pronto para a etapa final do ciclo de vida da engenharia de dados. Servir os dados, nesta fase, vai além de simplesmente disponibilizá-los. É, na verdade, o momento em que você oferece aos stakeholders a oportunidade de extrair valor comercial a partir dos dados. E, como mencionei anteriormente, o que significa "valor" pode ser diferente para cada stakeholder. De modo geral, os dados adquirem valor quando são utilizados em casos de uso práticos, como análises, aprendizado de máquina, reverse ETL ou outros cenários.

Ao invés de discutir mecanismos específicos para servir os dados, faremos uma breve análise de cada um desses casos de uso finais para fornecer um contexto maior sobre como a forma de servir os dados pode variar conforme o cenário.

### Análises

**Definição e Objetivos:**  
Análises envolvem o processo de identificar insights e padrões chave dentro dos dados. Como engenheiro de dados, é quase certo que você servirá dados que alimentam uma ou mais das três formas mais comuns de análises:
- **Business Intelligence (BI)**
- **Análises Operacionais**
- **Análises Incorporadas (Embedded Analytics)**

**Business Intelligence (BI):**  
O BI consiste na exploração de dados históricos e atuais da empresa para a descoberta de insights. Nesse contexto, o papel do engenheiro de dados é fornecer dados que, por fim, são apresentados na forma de relatórios ou dashboards, auxiliando os usuários a tomar decisões estratégicas e acionáveis.  
- **Exemplo:** Analistas das equipes de vendas e marketing podem usar os relatórios e dashboards de BI para identificar padrões e tendências, bem como para monitorar métricas como engajamento em campanhas de marketing, vendas por região e índices de experiência do cliente.  
- **Exemplo Adicional:** Imagine um cenário em que um analista percebe um aumento repentino nas devoluções de produtos. Esse analista pode investigar os relatórios ou dashboards existentes para comparar o fenômeno com tendências históricas, ou ainda executar consultas SQL no banco de dados que você forneceu, ou solicitar que dados adicionais sejam servidos para análises ad hoc.

**Análises Operacionais:**  
Diferente do BI, que é orientado para insights e reflexões, as análises operacionais concentram-se em monitorar dados em tempo real para ações imediatas.  
- **Exemplo:** Uma equipe de uma plataforma de e-commerce pode precisar monitorar um dashboard com métricas de desempenho do site em tempo real. Se o site ficar fora do ar — seja devido a um pico de tráfego ou a problemas no data center —, é necessário que a equipe seja notificada imediatamente para que possa tomar medidas corretivas e restabelecer o funcionamento do site.  
- **Papel do Engenheiro de Dados:** Nesse caso, você seria responsável por ingerir, transformar e servir os dados de eventos provenientes dos logs de aplicação do site para alimentar o dashboard da equipe.

**Análises Incorporadas (Embedded Analytics):**  
Embora o BI e as análises operacionais sejam práticas de dados voltadas para o uso interno e já estejam em uso há muitas décadas, uma tendência mais recente são as análises incorporadas, que são voltadas para o cliente.  
- **Exemplo:** Você provavelmente já interagiu com diversas aplicações de análises incorporadas. Por exemplo, seu banco pode fornecer dashboards que mostram tendências históricas dos seus gastos ou a distribuição das suas compras em categorias como alimentação, varejo e serviços públicos.  
- **Exemplo Adicional:** Talvez você possua um termostato inteligente conectado a um aplicativo móvel, o qual exibe não só a temperatura atual da sua residência, mas também métricas históricas, como a variação da temperatura ao longo do tempo.  
- **Papel do Engenheiro de Dados:** No contexto das análises incorporadas, você terá a responsabilidade de servir dados em tempo real e históricos para aplicações voltadas ao usuário.

### Aprendizado de Máquina

Com o avanço do aprendizado de máquina nas últimas décadas, é bastante provável que o seu papel como engenheiro de dados também envolva servir dados para casos de uso dessa área.  
- **Complexidades Adicionais:** Trataremos o aprendizado de máquina de forma separada dos outros casos de uso para servir dados, justamente porque ele pode envolver complexidades adicionais que serão examinadas em detalhes.  
- **Exemplos de Casos de Uso:**  
  - Servir *feature stores* (repositórios de características) que facilitam o treinamento dos modelos.
  - Servir dados para inferência em tempo real.
  - Suportar sistemas de metadados e catalogação que rastreiam o histórico e a linhagem dos dados.

Mais adiante, esses cenários serão analisados de forma mais aprofundada.

### Reverse ETL

Além de análises e aprendizado de máquina, outro caso de uso comum para servir dados é o que, pelo menos atualmente, é conhecido como reverse ETL.  
- **Definição:**  
  Com o reverse ETL, você pega os dados já transformados — assim como os resultados das análises e, possivelmente, a saída de modelos de aprendizado de máquina — e os reintroduz nos sistemas de origem.  
- **Exemplo:**  
  Suponha que você tenha ingerido dados de um sistema de CRM (Customer Relationship Management), contendo informações como nomes, contatos, dados de formulários e outras informações relevantes dos clientes, e que esses dados tenham sido transformados para o formato apropriado e armazenados em um data warehouse. Em seguida, os analistas podem utilizar esses dados para treinar um modelo de pontuação de leads, que visa identificar quais clientes têm maior potencial para determinados engajamentos ou ofertas de produtos. Os resultados do modelo podem então ser enviados de volta para o data warehouse e, posteriormente, integrados ao CRM, aprimorando as informações já existentes dos clientes.  
- **Observação:**  
  O termo reverse ETL não busca descrever exatamente o que está acontecendo, mas sim preencher a lacuna por não haver um nome melhor para esse processo que, na verdade, é bastante antigo. De qualquer forma, essa prática está se tornando cada vez mais comum e, em sua atuação como engenheiro de dados, é provável que você se envolva com reverse ETL — ou como quer que venha a ser chamado futuramente — como parte das suas funções.


# Introduction to the Undercurrents

Temos analisado o ciclo de vida da engenharia de dados e como você irá ingerir dados dos sistemas de origem, transformá-los, armazená-los e disponibilizá-los para os usuários finais. Como área, a engenharia de dados está amadurecendo rapidamente; há apenas uma década, o papel do engenheiro de dados estava focado principalmente na camada tecnológica.

**Expansão do Papel do Engenheiro de Dados**

A contínua abstração e simplificação de ferramentas ampliou o escopo dessa função. Atualmente, a engenharia de dados abrange muito mais do que apenas ferramentas e tecnologias. Em outras palavras, o campo está avançando na cadeia de valor, o que representa uma ótima notícia para você, engenheiro de dados.

**Integração de Práticas Tradicionais e Modernas**

A engenharia de dados moderna incorpora práticas empresariais tradicionais, como a gestão de dados e a otimização de custos, bem como práticas mais recentes, como o DataOps. No que diz respeito ao trabalho do engenheiro de dados, há um conjunto dessas práticas que se aplicará em todo o ciclo de vida.

**As Correntes Subjacentes no Ciclo de Vida da Engenharia de Dados**

No livro *Fundamentals of Data Engineering*, descrevemos essas práticas como as "correntes subjacentes" do ciclo de vida da engenharia de dados. Essas correntes incluem:
- Segurança
- Gestão de dados
- DataOps
- Arquitetura de dados
- Orquestração
- Engenharia de software

# Security

Gostaria que você refletisse por um momento sobre como as preocupações de segurança se aplicam aos seus dados pessoais no dia a dia. Por exemplo, provavelmente você não fornece suas informações bancárias a qualquer pessoa, e não publica as senhas de todas as suas contas online onde outros possam vê-las. Da mesma forma, você não entregaria as chaves da sua casa a alguém que não conheça e em quem não confie.

**Responsabilidade com Dados Sensíveis**  
No seu papel como engenheiro de dados, você recebe a responsabilidade por dados sensíveis, sejam eles informações pessoais e privadas dos seus clientes ou informações empresariais proprietárias. Os proprietários desses dados confiam que você manterá suas informações seguras. É importante reconhecer seu papel em reunir o conjunto correto de princípios, protocolos e práticas culturais para garantir a segurança nos sistemas que você constrói.

**Princípios e Melhores Práticas para a Segurança de Dados**  
Ao gerenciar um pipeline de dados e fornecer dados para os usuários finais, será necessário conceder acesso aos dados e recursos do sistema a outros usuários ou aplicações. Um princípio de segurança crucial a ser lembrado ao fazer isso é o **princípio do menor privilégio**. Isso significa que você deve conceder a usuários ou aplicações acesso apenas aos dados e recursos essenciais que eles necessitam para desempenhar suas funções, e somente pelo tempo necessário.

**Aplicação do Princípio do Menor Privilégio**  
Você precisa aplicar o princípio do menor privilégio não apenas para os outros na sua organização, mas também para si mesmo. Por exemplo, assim como você não concede a todos acesso de administrador de equipe, no seu próprio trabalho, evite operar no shell root quando não for necessário e não utilize permissões de administrador ou superusuário a menos que seja absolutamente essencial.

**Segurança: Acesso e Sensibilidade dos Dados**  
Ao pensar na melhor forma de proteger os dados no seu trabalho, é necessário considerar não apenas o acesso aos dados, mas também a sensibilidade dos mesmos. Seguir o princípio do menor privilégio implica tornar informações sensíveis visíveis aos usuários somente quando absolutamente necessário. Além disso, a melhor maneira de proteger dados sensíveis é não ingeri-los no seu sistema em primeiro lugar. Se você não tiver um propósito claro para ingerir e armazenar dados sensíveis, simplesmente não o faça, eliminando assim o risco de vazá-los acidentalmente.

**Segurança na Era da Nuvem**  
No mundo atual, centrado na nuvem, a segurança adquire outra dimensão, exigindo que você compreenda aspectos como gerenciamento de identidade e acesso (IAM), métodos de criptografia e protocolos de rede. Você verá mais sobre esses tópicos ao longo da especialização, à medida que aprofundamos na garantia da segurança dos seus pipelines de dados.

**A Importância da Cultura de Segurança**  
Além dos princípios e protocolos, a segurança também está relacionada às pessoas. A segurança começa e termina com você, o indivíduo, assim como com outros indivíduos em toda a sua organização. Ao lidar com segurança, adote uma mentalidade defensiva. Sempre seja cauteloso quando solicitado a fornecer credenciais ou dados sensíveis e confidenciais. Imagine possíveis cenários de ataque e vazamento e projete seus pipelines e sistemas de armazenamento de dados considerando esses riscos.

**Erros Comuns e Brechas de Segurança**  
No mundo real, muitos dos maiores vazamentos de dados tiveram origem em falhas individuais. Pessoas que ignoram precauções básicas, como compartilhar suas senhas de forma insegura, ou que caem em ataques de phishing — em que um atacante tenta obter informações sensíveis ao se passar por uma figura de autoridade ou por alguém de confiança —, ou ainda agem de forma irresponsável ao trabalhar nos sistemas e dados da empresa, são exemplos comuns. Em segurança e engenharia de dados, é impressionante ver com que frequência engenheiros de dados deixam buckets do AWS S3, servidores ou bancos de dados expostos à internet pública quando isso não era intencional. Existem correções simples para evitar que isso aconteça, mas muitas vezes isso ocorre porque o engenheiro de dados simplesmente não conhece as melhores práticas de segurança ou esquece de aplicá-las.

**Segurança no Nível Organizacional**  
Em nível organizacional, frequentemente observo que as empresas são estruturadas com uma fachada de segurança. Pode haver um conjunto de itens de verificação para demonstrar conformidade com regulamentações ou padrões, mas falta um espírito mais profundo de segurança na cultura da organização. Essa abordagem de aderir apenas à letra das regras de segurança, sem cultivar uma cultura e um espírito de segurança, é o que eu chamo de “teatro de segurança”. A verdadeira segurança surge de uma cultura na qual cada membro da equipe reconhece seu papel na proteção dos dados e todos, do topo à base, adotam a segurança como prioridade e hábito.

**Considerações Finais**  
Na sua jornada como engenheiro de dados, lembre-se de que, embora os princípios e protocolos, bem como as ferramentas e tecnologias, sejam aliados na proteção dos dados, uma cultura de segurança verdadeira emana de uma compreensão compartilhada das responsabilidades e vulnerabilidades em toda a organização.

# Data Management

Independentemente do que você esteja desenvolvendo como engenheiro de dados, é preciso pensar em como o seu trabalho agrega valor aos stakeholders da sua organização. Os dados podem ser um ativo comercial incrivelmente valioso, mas somente quando são gerenciados de forma adequada.

**Importância da Gestão de Dados**

A gestão de dados é tão importante que existe uma organização internacional, a Data Management Association International (DAMA), dedicada exclusivamente a fornecer recursos para que empresas e indivíduos façam a gestão de dados de forma correta. A DAMA disponibiliza uma publicação interessante, o Data Management Book of Knowledge, ou DMBOK, em abreviação. Como se pode ver, há muito a aprender quando o assunto é gestão de dados. Mas, antes que você entre em pânico, deixe-me dizer que, como engenheiro de dados, você não precisa decorar tudo o que está neste livro. Na verdade, ele serve como um ótimo volume de referência. No seu trabalho, você se concentrará em um subconjunto das tarefas de gestão de dados, compartilhando a responsabilidade total da gestão dos dados com equipes, incluindo engenharia de software, TI e outros.

**Aspectos Chave da Gestão de Dados para o Engenheiro de Dados**

Destacarei rapidamente os principais aspectos da gestão de dados que você precisa considerar como engenheiro de dados.

- **Definição de Gestão de Dados**  
  Segundo o DMBOK, a gestão de dados é definida como o desenvolvimento, execução e supervisão de planos, programas e práticas que entregam, controlam, protegem e aprimoram o valor dos ativos de dados e informações ao longo de seus ciclos de vida. Essa definição pode parecer um pouco complexa e até vaga, mas vamos dividi-la.

- **Multifacetada e Multidisciplinar**  
  Como campo, a gestão de dados consiste em diversas facetas e disciplinas, cada uma com seu conjunto de responsabilidades. Isso pode tornar o ambiente de gestão de dados confuso. O DMBOK divide as diferentes facetas da gestão de dados em 11 áreas de conhecimento de dados, que incluem:  
  - Governança de dados  
  - Modelagem de dados  
  - Integração de dados e interoperabilidade  
  - Metadados  
  - Segurança  
  - Entre outras.  
  
  Essas áreas são organizadas em um diagrama, no qual se pode observar que a governança de dados permeia todas as outras áreas da gestão de dados. Muitas das outras áreas interagem entre si por meio de práticas de governança de dados.

**Foco na Governança de Dados**

Concentrarei a atenção na governança de dados, considerando sua relação com várias áreas que serão importantes na sua função de engenheiro de dados. De acordo com outro livro, chamado *Data Governance, The Definitive Guide*, a governança de dados é, antes de mais nada, uma função de gestão de dados que garante a qualidade, integridade, segurança e usabilidade dos dados coletados de uma organização. Essa definição deixa claro que a governança de dados abrange uma ampla gama de aspectos, desde segurança e privacidade dos dados até qualidade e usabilidade.

**Foco na Qualidade dos Dados**

Gostaria de focar na qualidade dos dados, que está intimamente relacionada com termos-chave como integridade, usabilidade e confiabilidade. A qualidade dos dados é um tópico profundo e complexo, mas, em sua essência, o conceito é relativamente simples:

- **Dados de Alta Qualidade:**  
  São precisos, completos, facilmente localizáveis e disponíveis de forma oportuna. Além disso, dados de alta qualidade representam exatamente o que os stakeholders esperam que representem, em termos de esquema bem definido e definições de dados. Dados que atendem aos padrões de qualidade são uma ferramenta poderosa na tomada de decisões e agregam grande valor à organização.

- **Dados de Baixa Qualidade:**  
  Podem ser imprecisos, incompletos ou, de alguma forma, inutilizáveis. Dados de baixa qualidade podem levar os stakeholders a desperdiçar tempo, tomar decisões equivocadas ou até mesmo resultar na demissão de toda a equipe de dados.

# Data Architecture

Você pode pensar em arquitetura de dados como um roteiro ou um projeto para seus sistemas de dados. Falamos sobre a coleta de requisitos e como pensar em transformar as necessidades dos stakeholders em requisitos específicos que você pode usar para fazer escolhas de design e tecnologia. Para mapear os requisitos a um design bem-sucedido para o seu sistema, você precisa pensar como um arquiteto. Agora, apenas para deixar claro, no seu papel como engenheiro de dados, dependendo de onde você trabalha, pode ser que você não seja diretamente responsável por tomar decisões de arquitetura e design. Sua organização pode ter alguém no papel de arquiteto de dados, que é responsável por estabelecer o design e repassá-lo para você implementar. No entanto, na minha experiência, ser capaz de pensar como um arquiteto fará você ter mais sucesso na sua função de engenheiro de dados. Em algumas circunstâncias, como se você estiver trabalhando em uma pequena startup, pode de fato ser tanto o arquiteto quanto o engenheiro. De qualquer forma, eu gostaria que alguém tivesse me ensinado a pensar como um arquiteto quando comecei na engenharia de dados.

Vou introduzir brevemente alguns dos princípios fundamentais que fazem parte de pensar como um arquiteto. Ao longo destes cursos, revisaremos esses princípios para que você se sinta confiante em sua capacidade de projetar e construir sistemas de dados robustos.

No nosso livro *Fundamentos da Engenharia de Dados*, Matt Housley e eu definimos arquitetura de dados como o design de sistemas para suportar as necessidades de dados em evolução de uma empresa, alcançado por meio de decisões flexíveis e reversíveis, tomadas através de uma avaliação cuidadosa dos trade-offs. Vamos dedicar um minuto para analisar essa definição.

### Análise da Definição

**Suporte às Necessidades em Evolução:**  
Primeiro, você notará que a arquitetura de dados precisa suportar as necessidades de dados em evolução da organização. Isso significa que um bom design suporta não apenas as necessidades de dados de hoje, mas também as de amanhã. Na prática, isso quer dizer que a arquitetura de dados é um esforço contínuo, e não algo que você faz uma única vez e termina.

**Decisões Flexíveis e Reversíveis:**  
A próxima parte desta definição diz que um bom design é alcançado por meio de decisões flexíveis e reversíveis. Isso destaca o fato de que as necessidades de dados da sua empresa podem evoluir de maneiras que você não havia previsto e que será necessário atualizar sua arquitetura com o tempo. Se suas escolhas iniciais de design forem flexíveis e reversíveis, você terá muito mais facilidade em evoluir sua arquitetura para atender às novas necessidades da organização.

**Avaliação Cuidadosa dos Trade-offs:**  
Por fim, a definição menciona que tudo isso é alcançado através de uma avaliação cuidadosa dos trade-offs, que podem incluir compensações em desempenho, custo, escalabilidade ou outros parâmetros. Vale mencionar que, quando praticamente todas as arquiteturas de dados eram construídas como sistemas on-premises, tomar decisões flexíveis e reversíveis era muito mais difícil, em alguns casos, impossível. Por exemplo, se você decidisse comprar e instalar milhões de dólares em hardware de servidor, provavelmente estaria comprometido com esse sistema por vários anos, goste você ou não. Hoje em dia, com a maioria das arquiteturas de dados sendo construídas na nuvem, você pode, de certa forma, mudar de ideia quantas vezes quiser sobre as escolhas tecnológicas que fez para sua arquitetura, desde que tenha tomado decisões flexíveis e reversíveis desde o início.

### Princípios de uma Boa Arquitetura de Dados

Para expandir um pouco mais essas ideias, vamos analisar um conjunto de princípios de uma boa arquitetura de dados que revisitaremos ao longo destes cursos. Antes de entrar neles, quero dizer que você não precisa se preocupar em memorizar tudo neste momento. Apenas quero dar uma prévia do que está por vir nestes cursos e iniciar o seu pensamento como um arquiteto.

**Escolha Componentes Comuns com Sabedoria:**  
   Componentes comuns são as partes da sua arquitetura que serão usadas por múltiplos indivíduos e equipes em sua organização. Uma boa escolha de componentes comuns é aquela que fornece o conjunto certo de funcionalidades para projetos individuais e, simultaneamente, facilita a colaboração entre equipes.

**Planeje para o Fracasso:**  
   Isso significa exatamente o que diz. Uma boa arquitetura é projetada não apenas para o caso em que tudo funciona como esperado, mas também para quando as coisas dão errado.

**Arquiteture para a Escalabilidade:**  
   Sistemas escaláveis podem aumentar sua capacidade para atender à demanda conforme necessário e diminuir para minimizar custos quando a demanda recua. Ao incorporar a escalabilidade em sua arquitetura, você pode responder a uma demanda em mudança e otimizar os custos ao mesmo tempo.

**Arquitetura é Liderança:**  
   Embora o princípio da arquitetura como liderança possa não se aplicar diretamente ao seu papel como engenheiro de dados, se você trabalhar para pensar como um arquiteto e buscar mentoria de arquitetos de dados, estará melhor preparado para liderar e orientar outros membros da equipe conforme suas habilidades se desenvolvem e você assume posições de maior responsabilidade. Eventualmente, você pode assumir o papel de arquiteto de dados.

**Esteja Sempre Arquitetando:**  
   Como mencionei anteriormente, o design da arquitetura não é algo que acontece apenas uma vez. Em vez disso, você estará constantemente avaliando seus sistemas em relação às necessidades em evolução da sua organização e re-arquitetando de forma contínua.

**Construa Sistemas Acoplados de Forma Solta e Tome Decisões Reversíveis:**  
   Um sistema acoplado de forma solta é aquele construído a partir de componentes individuais que podem ser facilmente substituídos por outros, sem que seja necessário reconfigurar toda a arquitetura. Ao optar por construir com componentes facilmente intercambiáveis, você está tomando um conjunto de decisões reversíveis, ou seja, se mudar de ideia ou se as necessidades da organização evoluírem, você pode facilmente reverter suas decisões anteriores e trocar os componentes da sua arquitetura para atender às novas especificações de design.

**Priorize a Segurança:**  
   Já analisamos alguns princípios de segurança, como o princípio do menor privilégio, e mais adiante, em nossas discussões sobre arquitetura, abordaremos outros, como o princípio de confiança zero. A principal conclusão de todos esses princípios é que a segurança é central para o seu papel como engenheiro de dados.

**Adote o FinOps:**  
   A estrutura de custos dos dados evoluiu drasticamente na era da nuvem. O FinOps é um movimento que une as prioridades empresariais das finanças e do DevOps, ou neste caso, do DataOps. Na nuvem, a maioria dos sistemas de dados funciona no modelo “pague conforme o uso” e é facilmente escalável. Ao adotar o FinOps, você pode projetar seus sistemas para serem otimizados simultaneamente em termos de custo e potencial geração de receita.

# DataOps

Por volta de 2007, surgiu um framework chamado DevOps no desenvolvimento de software com o objetivo de quebrar as barreiras entre as equipes de desenvolvimento de software – responsáveis por escrever e testar o código – e as equipes de implantação de software, encarregadas de implantar e manter o código. O DevOps incorpora conceitos de outras metodologias bem conhecidas, como lean e agile, para alcançar objetivos como a remoção de gargalos, a redução de desperdícios, a rápida identificação de problemas e a iteração ágil. O movimento DevOps resultou em ciclos de lançamento mais curtos e na melhoria da qualidade dos produtos de software.

À medida que a área de dados amadureceu, adotamos uma abordagem semelhante, conhecida como DataOps, para o desenvolvimento de produtos de dados. Assim como o DevOps melhora o processo de desenvolvimento e a qualidade dos produtos de software, o DataOps tem como objetivo aprimorar o processo de desenvolvimento e a qualidade dos produtos de dados.  

**Cultura e Práticas do DataOps**  
O DataOps é, antes de tudo, um conjunto de hábitos culturais e práticas que podem ser adotados. Entre eles, destacam-se:  
- Priorização da comunicação e colaboração com outros stakeholders do negócio.  
- Aprendizado contínuo a partir dos sucessos e fracassos.  
- Adoção de uma abordagem iterativa e rápida para promover melhorias nos sistemas e processos.  

Esses hábitos culturais e práticas também são características do DevOps, derivadas diretamente da metodologia agile, que é um framework de gerenciamento de projetos focado na entrega incremental e iterativa do trabalho.

**Os Três Pilares Técnicos do DataOps**  
Em termos de elementos técnicos, o DataOps se sustenta em três pilares fundamentais:  
**Automação:**  
   - Um dos métodos do DevOps que acelerou o ciclo de desenvolvimento de software é o conhecido como integração contínua e entrega contínua, ou CI/CD. Com o CI/CD, os desenvolvedores podem automatizar muitos dos processos manuais necessários para construir, testar e implantar o código. Essa automação resulta não só em ciclos de revisão e implantação mais rápidos, mas também em menos erros, tornando as equipes de software mais eficientes e eficazes na construção de produtos de alta qualidade.
   - O DataOps emprega um framework de automação similar para o processamento de dados, aplicando o mesmo princípio de gerenciamento automatizado de mudanças. Por exemplo, além de gerenciar mudanças no código, configuração ou ambiente, o DataOps foca no gerenciamento de mudanças em pipelines de processamento de dados e nos próprios dados.
   - Imagine que você acaba de iniciar em uma pequena organização e foi encarregado de construir um pipeline de dados que começa com a ingestão de dados de múltiplas fontes – talvez um banco de dados, alguns arquivos, uma API ou uma plataforma de compartilhamento de dados. Em seguida, você realiza algumas transformações durante o processo de ingestão, armazena os dados ingeridos em um sistema de armazenamento, como um banco de dados, e atende a duas finalidades de uso: uma para análises e outra para machine learning. Dessa forma, você possui essencialmente dois pipelines para as etapas de transformação e atendimento.
   - Inicialmente, você pode optar por executar manualmente as diversas tarefas deste pipeline – iniciando cada processo de ingestão, seguido pelos passos de transformação, armazenamento e atendimento. Embora essa abordagem permita um rápido protótipo do pipeline, ela é propensa a erros e ineficiente, já que cada tarefa é iniciada manualmente com pouca automação.
   - Uma abordagem mais estruturada seria adotar uma estratégia de agendamento, definindo um horário específico para iniciar cada tarefa – por exemplo, iniciar todos os processos de ingestão à meia-noite, estimar o tempo necessário para concluir a ingestão e carregar os dados no sistema de armazenamento, e, em seguida, agendar as tarefas de transformação para começar após a conclusão das anteriores.
   - Para elevar o nível de automação no DataOps, pode-se adotar um framework de orquestração, como o Airflow. Esses frameworks verificam as dependências entre as tarefas do pipeline antes de executá-las. Você define o horário e a frequência para iniciar a primeira tarefa, e o framework automaticamente inicia as tarefas subsequentes assim que as anteriores são concluídas com sucesso. Além disso, o framework pode notificá-lo em caso de erro, evitando que tarefas dependentes sejam iniciadas em momentos inadequados. Muitos desses frameworks não só automatizam a execução das tarefas, mas também facilitam o desenvolvimento dos pipelines, permitindo a verificação e implantação automática de novas funcionalidades, similar ao processo CI/CD para implantação de software.

**Observabilidade e Monitoramento:**  
   - Um ponto crucial é que qualquer pipeline de dados que você configure está sujeito a falhas. Para citar Werner Vogels, CTO da Amazon Web Services, "tudo falha o tempo todo". Isso significa que, se você não monitorar e observar de perto seus sistemas de dados, poderá ser pego de surpresa quando ocorrerem falhas.
   - Em um cenário extremo, você pode descobrir as falhas dos sistemas apenas quando os stakeholders notam os problemas em seus próprios relatórios ou dashboards analíticos. Em experiências com clientes, é comum encontrar casos em que dados incorretos permanecem em relatórios por meses ou até anos devido a falhas não identificadas nos sistemas de processamento de dados.
   - Essas falhas podem resultar em desperdício de tempo e dinheiro, levar a decisões mal informadas e, em última instância, prejudicar sua reputação profissional se os stakeholders perderem a confiança no seu trabalho. Por isso, a observabilidade e o monitoramento são aspectos essenciais nos sistemas de dados que você constrói.

**Resposta a Incidentes:**  
   - O terceiro pilar do DataOps é a resposta a incidentes, que envolve utilizar as capacidades de observabilidade e monitoramento para identificar rapidamente as causas-raiz de um incidente e resolvê-lo da forma mais rápida e confiável possível.
   - Como mencionado, falhas são inevitáveis. Com a resposta a incidentes, não se trata apenas das tecnologias e ferramentas usadas para identificar e responder a um problema, mas também da comunicação aberta e isenta de culpa, bem como da coordenação dos esforços da equipe de dados e de outros membros da organização.
   - Como engenheiro de dados, é importante que você seja proativo na identificação de problemas, antes que eles sejam reportados por outros stakeholders.

# Orchestration

Quando você ouve a palavra “orquestração”, o que vem à mente? Talvez um maestro, conduzindo uma orquestra ou um coral, sinalizando quando vários instrumentos ou vozes devem ser destacados, além de indicar mudanças, como variações de tempo e intensidade, tudo isso em um esforço para produzir uma boa música. Assim como em uma orquestra, um pipeline de dados possui muitas partes móveis que precisam ser coordenadas para se obter um bom resultado. Como engenheiro de dados, você é o maestro responsável por coordenar e gerenciar as tarefas em seus pipelines de dados.

### Orquestração no Contexto de Data Ops

Mencionamos brevemente a orquestração como um componente central do data ops. Aqui, falarei um pouco mais sobre como a orquestração desempenha um papel fundamental como uma corrente subjacente no ciclo de vida da engenharia de dados. Como mencionei anteriormente, se você está começando, talvez como o primeiro engenheiro de dados em uma pequena startup ou nos estágios de prototipagem de um novo projeto em qualquer organização, você pode inicialmente configurar um pipeline de dados onde executa manualmente cada uma das tarefas em cada etapa.

### Execução Manual e Abordagem Baseada em Agendamento

Analisamos um pipeline no qual você está ingerindo dados de várias fontes para seus sistemas de armazenamento, aplicando algumas transformações durante o trânsito dos dados. Em seguida, a jusante, há mais processos para transformar, armazenar e servir os dados aos usuários finais para casos de uso em machine learning e análises. A execução manual de todas essas etapas, ou seja, acionar manualmente cada etapa conforme necessário, pode ser útil na prototipagem de diversos aspectos do seu sistema. Contudo, a longo prazo, esse método não é sustentável para o processamento de dados.

Depois de identificar quais tarefas precisam ser executadas em seu pipeline de dados, você pode optar por uma abordagem puramente baseada em agendamento, fazendo com que essas tarefas sejam executadas automaticamente em horários específicos ou com determinadas frequências. Por exemplo, você pode agendar que a ingestão e o teste inicial de armazenamento comecem no mesmo horário todos os dias. Em seguida, pode agendar que as etapas de transformação sejam iniciadas uma hora depois do momento em que se espera que todos os dados ingeridos estejam presentes no sistema de armazenamento.

### Problemas com o Agendamento Puro

O agendamento puro tem sido uma abordagem amplamente utilizada historicamente para várias tarefas de processamento de dados. No entanto, podem surgir problemas com essa abordagem. Por exemplo, se a tarefa agendada de ingestão de dados falhar, isso pode causar a falha das tarefas de transformação a jusante. Ou, se essa tarefa de transformação simplesmente demorar mais do que o esperado e a próxima tarefa de transformação for iniciada antes que a anterior termine, você pode acabar com dados incompletos, desatualizados ou problemáticos sendo propagados ao longo do pipeline.

### Surgimento de Frameworks de Orquestração

Não há muito tempo, frameworks de orquestração mais sofisticados do que os agendadores puros estavam disponíveis apenas para grandes empresas que tinham recursos para construir suas próprias soluções personalizadas. Mas, atualmente, existem diversos frameworks de orquestração open source que possibilitam a construção de uma orquestração sofisticada em seus próprios pipelines de dados, independentemente do tamanho da equipe ou da empresa. O framework mais popular atualmente é o Apache Airflow, embora outros frameworks open source mais recentes, como Dagster, Prefect e Mage, também estejam ganhando espaço.

### Automatizando Pipelines com Dependências e Monitoramento

Esses frameworks permitem automatizar seus pipelines de dados e incorporar dependências complexas e capacidades de monitoramento. Você pode optar pelo agendamento baseado em tempo, se desejar, mas também pode, por exemplo, criar uma dependência que verifique se a primeira tarefa de transformação foi concluída antes de iniciar a próxima. Ou, ao invés de definir um horário ou frequência pré-determinada para iniciar uma tarefa, você pode configurar tarefas que sejam acionadas por eventos. Por exemplo, você pode configurar a etapa de sugestão para começar quando houver uma certa quantidade de novos dados disponíveis no banco de dados de origem.

Além disso, é possível implementar monitoramento dentro do framework de orquestração e configurar alertas para notificá-lo se, por exemplo, uma tarefa de transformação falhar em ser executada ou não tiver sido concluída até um determinado horário.

### Conceito de Grafo Acíclico Dirigido (DAG)

Muitos frameworks de orquestração exigem que você configure seu pipeline de dados como um **grafo acíclico dirigido** (DAG, na sigla em inglês), que é apenas um termo elaborado para descrever como os dados fluem através do pipeline. Vamos analisar como um DAG seria representado para o pipeline mencionado:

- **Fontes de Dados:** Existem vários ícones representando diferentes tarefas ou fontes no pipeline, e as setas indicam como os dados se movem de uma tarefa para a outra.
- **Representação Explícita:** Agora, vamos modificar a visualização para que funcione explicitamente como um DAG. Neste exemplo, os nós são denominados “sistemas de origem”, “fonte 1”, “fonte 2”, “fonte 3” e “fonte 4”. Os dados são ingeridos ou extraídos de todas essas fontes, havendo uma transformação em trânsito na “fonte 4”.
- **Armazenamento e Ramificação:** Após a extração, todos os dados são armazenados. Depois disso, o pipeline se divide em dois ramos:
  - **Ramo Superior:** Neste ramo, há duas etapas adicionais de transformação seguidas por armazenamento que atenderá aos casos de uso de machine learning.
  - **Ramo Inferior:** Neste ramo, há uma etapa de transformação seguida por armazenamento que atenderá aos casos de uso de análises.

O termo **"direcionado"** indica que o fluxo de dados segue apenas em uma direção. **"Acíclico"** indica que não há ciclos, ou seja, os dados não retornam a uma etapa anterior. Pode ser descrito como um gráfico porque é composto de nós (tarefas) e arestas (fluxo de dados). Você pode pensar em um DAG como um fluxograma que mostra como os dados se movem através dos seus pipelines. Você construirá e implantará DAGs dentro do framework de orquestração de sua escolha, onde poderá especificar critérios e dependências para acionar cada tarefa, além de configurar monitoramento e alertas.

# Software Engineering

Até agora, temos discutido assuntos bastante complexos relacionados aos fundamentos do ciclo de vida da engenharia de dados, como segurança, arquitetura de dados, operações e gerenciamento, bem como a orquestração de pipelines de dados. Dentre todos esses fundamentos, talvez o mais simples de compreender seja o último: a engenharia de software.  
   
O que isso significa é que, como engenheiro de dados, você precisa saber ler e escrever código. Não se trata apenas de juntar um código que faça o que você precisa neste exato momento, mas sim de escrever um código de nível de produção que seja limpo, legível, testável e implantável. Assim, engenharia de software é o design, desenvolvimento, implantação e manutenção de aplicações de software.  
   
E esses conceitos não estão tão distantes. No passado, não existia a engenharia de dados como uma profissão oficial. Existiam apenas engenheiros de software que, ocasionalmente, lidavam com dados em seu trabalho. Com o tempo, à medida que as empresas passaram a reconhecer o valor dos dados, os engenheiros de software começaram a assumir vários aspectos da engenharia de dados como parte de suas funções.  
   
Com a crescente diversidade e volume de dados nas últimas décadas, o componente orientado a dados da engenharia de software se tornou muito mais intenso e, eventualmente, emergiu como um campo próprio. Ao longo dos anos, esses engenheiros de software que atuavam na engenharia de dados criaram uma variedade de soluções fantásticas, de forma que, atualmente, como engenheiro de dados, você tem acesso a uma ampla gama de serviços gerenciados e aplicações que permitem realizar o trabalho de forma mais eficiente. E isso é algo muito positivo.  
   
Esses serviços e aplicações existentes permitem que você dedique mais tempo aos aspectos mais importantes de agregar valor real à sua organização. De certa forma, eles possibilitam que você se mova para níveis superiores na cadeia de valor. Isso também significa que, como engenheiro de dados hoje, frequentemente você precisará escrever muito menos código do que seus antecessores, voltados para a engenharia de software, de uma ou duas décadas atrás.  
   
Contudo, isso não significa que a codificação não seja importante no seu trabalho como engenheiro de dados. Na verdade, é mais importante do que nunca que você saiba escrever um ótimo código e que o código que você produza seja da mais alta qualidade. Por exemplo, você será requisitado a escrever código fundamental para o processamento de dados em todas as etapas do ciclo de vida da engenharia de dados.  
   
Desde a ingestão até a transformação e a disponibilização, você precisará ser proficiente em frameworks e linguagens como SQL, Spark ou Kafka. Também é provável que você se depare com Python ou linguagens da máquina virtual Java, como Java ou Scala, além de Bash para operar na linha de comando. Pode ser necessário trabalhar em outras linguagens também, como Rust ou Go. No entanto, se você focar em construir sólidas habilidades fundamentais de engenharia de software, não terá grandes dificuldades para transitar entre as linguagens.  
   
Nesta especialização, focaremos principalmente em SQL, Python e Bash nos exercícios práticos, pois essas são as formas mais comuns de interação com os dados como engenheiro de dados. Além disso, como engenheiro de dados, é provável que você se envolva no desenvolvimento de frameworks de código aberto. Normalmente, isso acontece da seguinte maneira: você adota um framework de código aberto para resolver um problema específico e, então, passa a desenvolver o framework ainda mais para atender ao seu caso de uso. Desde que você escreva um bom código, pode fazer uma solicitação de pull request e adicionar suas contribuições ao projeto de código aberto para ajudar outros a resolver problemas semelhantes.  
   
Outros esforços em que você poderá se envolver incluem o desenvolvimento de soluções conhecidas como “infraestrutura como código” ou “pipeline como código”, sobre os quais falaremos mais adiante nestes cursos.  
   
Além dessas instâncias específicas em que você escreverá código em seu papel como engenheiro de dados, também será necessário criar códigos para a resolução de problemas gerais do dia a dia em todas as etapas do ciclo de vida da engenharia de dados.  
   
Portanto, como mencionado, como engenheiro de dados, você precisará saber ler e escrever código. A codificação fará parte do seu trabalho diário, e sua capacidade de escrever um código limpo, legível, testável e implantável se traduzirá em valor para a sua organização. Vale muito a pena fazer amizade com os engenheiros de software da sua organização e aprender com eles como escrever um ótimo código.  