# What is Data Architecture?

Antes de entrar nos detalhes da arquitetura de dados, gostaria de ampliar a visão e analisar como a arquitetura de dados se encaixa no contexto mais amplo do que chamamos de arquitetura empresarial. Esse conceito pode, admitidamente, parecer um tanto vago e abstrato. Em termos de definição, não há um consenso claro, pois diferentes grupos o definem de maneiras distintas. Contudo, aqui está uma definição adotada no livro *Fundamentos de Engenharia de Dados*:

**Arquitetura Empresarial:**  
*É o design de sistemas para suportar mudanças em uma empresa, alcançado por meio de decisões flexíveis e reversíveis, tomadas após uma avaliação cuidadosa dos trade-offs.*

Você pode pensar: "Espere um minuto, essa definição não já foi apresentada no contexto da arquitetura de dados?" E, de fato, você estaria correto. A definição de arquitetura de dados apresentada anteriormente foi:

**Arquitetura de Dados:**  
*É o design de sistemas para suportar as necessidades de dados em evolução de uma empresa, alcançado por meio de decisões flexíveis e reversíveis, tomadas após uma avaliação cuidadosa dos trade-offs.*

Dada a semelhança entre essas definições, fica evidente que a arquitetura de dados está intimamente alinhada com a arquitetura empresarial. Na verdade, a arquitetura empresarial abrange diversos domínios, que podem ser divididos em quatro áreas principais:

1. **Arquitetura de Negócios:**  
   Relaciona-se à estratégia de produto ou serviço e ao modelo de negócio da empresa.

2. **Arquitetura de Aplicações:**  
   Descreve a estrutura e a interação das principais aplicações que atendem às necessidades do negócio.

3. **Arquitetura Técnica:**  
   Envolve os componentes tecnológicos de software e hardware necessários para suportar a implantação dos sistemas e aplicações empresariais.

4. **Arquitetura de Dados:**  
   Concentra-se em apoiar as necessidades de dados em evolução da empresa.

Assim, a arquitetura de dados pode ser vista como um elemento integrante da arquitetura empresarial, demonstrando como o trabalho do engenheiro de dados está diretamente ligado aos objetivos estratégicos e à estrutura organizacional.


### Gerenciamento de Mudanças na Arquitetura

Como a estrutura de uma organização pode mudar ao longo do tempo, surge o conceito fundamental de **gerenciamento de mudanças**, que está no cerne tanto da arquitetura empresarial quanto da arquitetura de dados. As necessidades da organização estão em constante evolução, e, consequentemente, a arquitetura de dados deve ser capaz de se adaptar a essas mudanças.

Jeff Bezos, ex-CEO da Amazon, é creditado por introduzir a ideia das **portas de sentido único e de duas vias** no contexto das decisões organizacionais:

- **Porta de Sentido Único:**  
  Uma decisão quase impossível de reverter. Uma vez tomada, a porta se fecha e se tranca, sem possibilidade de retorno. Por exemplo, ao quebrar um ovo para cozinhar, não é possível "desquebrar" o ovo e voltar atrás. Analogamente, se a Amazon decidisse vender a AWS ou encerrá-la, seria quase impossível reconstruir uma nuvem pública com a mesma posição de mercado.

- **Porta de Duas Vias:**  
  Uma decisão facilmente reversível. Você pode "atravessar a porta" e, se gostar do que vê, prosseguir; caso contrário, pode voltar. Por exemplo, ao escolher uma classe de armazenamento para dados no S3, se você optar pela classe padrão e, posteriormente, suas necessidades mudarem, é possível migrar para outra classe mediante uma taxa. Essa decisão é reversível.

A ideia é que, ao optar por decisões de duas vias sempre que possível, as organizações podem iterar e melhorar rapidamente a forma como coletam, utilizam e armazenam dados. Se deparar com uma decisão de porta de sentido único pode ser evitado, na medida do possível, dividindo-a em uma série de decisões menores e reversíveis.


### A Importância da Arquitetura na Resolução de Problemas de Negócio

A arquitetura não se resume apenas a mapear processos de negócios, TI ou dados e olhar vagamente para um futuro utópico. Os arquitetos devem estar ativamente envolvidos na resolução de problemas de negócio e na criação de novas oportunidades. Pensar como um arquiteto no papel de engenheiro de dados implica desenvolver soluções técnicas que não existam apenas por si mesmas, mas que estejam diretamente alinhadas com os objetivos do negócio.


### Introdução à Lei de Conway

Em seguida, serão abordados os princípios de uma boa arquitetura de dados. Contudo, antes disso, é importante destacar um fenômeno interessante conhecido como **Lei de Conway**, que afeta a arquitetura de todos os sistemas de dados.

# Conway's Law

Quero que você tenha em mente que os diversos princípios e padrões de arquitetura que discutimos se aplicarão a diferentes cenários, dependendo do tipo de arquitetura e dos sistemas que você está construindo para apoiar os objetivos da sua organização. No entanto, há um princípio orientador muito importante que afetou todas as arquiteturas e sistemas que já encontrei. Quero apresentar a você o que é conhecido como Lei de Conway.

A Lei de Conway foi melhor descrita por seu autor, Melvin Conway, que afirmou que qualquer organização que projeta um sistema produzirá um design cuja estrutura é uma cópia da estrutura de comunicação da própria organização. Isso pode parecer uma afirmação um tanto forçada, mas vejamos como isso funciona na prática.

Imagine uma empresa com quatro departamentos distintos: vendas, marketing, finanças e operações. Se esses departamentos operarem em silos relativamente isolados, seus padrões de comunicação também serão isolados e compartimentalizados. Ao construir arquiteturas e sistemas de dados, inevitavelmente serão desenvolvidos quatro sistemas relativamente isolados e segmentados. Em outras palavras, o departamento de vendas desenvolverá um sistema de dados, o marketing criará outro, as finanças outro e, por fim, operações ainda outro. A ideia é essa.

Por outro lado, se os quatro departamentos da mesma organização se comunicarem de forma transversal, compartilharem ideias e colaborarem entre si, os sistemas de dados que eles construírem refletirão uma cultura de colaboração e comunicação interfuncional.

Sei que isso pode parecer estranho, mas, por mais inusitado que pareça, a Lei de Conway se mostra notavelmente consistente em todos os tipos de organizações. A principal lição para você, como engenheiro de dados, é que, para entender qual tipo de arquitetura de dados funcionará para a sua organização, é fundamental prestar atenção e compreender a estrutura de comunicação da empresa. Se você tentar construir uma arquitetura de dados que entre em conflito com essa estrutura de comunicação, certamente enfrentará problemas.

# Principles of Good Data Architecture

Mencionei brevemente nove princípios a serem considerados em sua abordagem de arquitetura de dados. Aqui estão eles novamente para refrescar sua memória. Revisaremos esses princípios ao longo da especialização. Assim, gostaria de dedicar um pouco mais de tempo aos detalhes de cada um desses princípios antes de entrarmos em arquiteturas específicas. Em certo sentido, esses princípios estão todos relacionados entre si. Mas, para os propósitos desta discussão, gostaria de dividi-los em três grupos, que você pode ver aqui.

![image.png](attachment:image.png)

Para mim, o que esses dois princípios no primeiro grupo têm em comum é que ambos se relacionam com a forma como a arquitetura de dados impacta outras equipes e indivíduos na sua organização. O segundo grupo de princípios trata do fato de que a arquitetura de dados é um processo contínuo e que você pode esperar que sua arquitetura evolua com o tempo. Este terceiro grupo é um conjunto de prioridades tácitas, mas compreendidas, que fundamentam qualquer arquitetura de dados, ou seja, que você precisa pensar em aspectos como custo, segurança, escalabilidade e modos de falha para qualquer sistema que você construa.

Aqui, escolhi “componentes comuns sabiamente” e “arquitetura é liderança”. Uma das funções primárias de um arquiteto de dados, e potencialmente parte do seu trabalho como engenheiro de dados, é escolher componentes e práticas comuns que possam ser usados amplamente em uma organização. Componentes comuns podem ser qualquer coisa que tenha aplicabilidade ampla dentro de uma organização, incluindo itens como armazenamento de objetos, sistemas de controle de versão, sistemas de observabilidade, monitoramento e orquestração, e motores de processamento de dados.

Plataformas de nuvem são um lugar ideal para adotar componentes comuns. Por exemplo, a separação entre armazenamento computacional em sistemas de dados na nuvem significa que você pode atender dados a diferentes equipes na organização com uma camada de armazenamento compartilhada que permite aos usuários consultar os dados para seu caso de uso particular.

Quando você escolhe componentes comuns sabiamente, eles se tornam parte do tecido organizacional, facilitando a colaboração entre equipes e quebrando barreiras entre departamentos. Isso não significa que sempre existam componentes comuns que possam oferecer a solução ideal para cada equipe. Fazer uma escolha sábia de componentes comuns significa identificar casos de uso em que as equipes podem se beneficiar do uso das mesmas ferramentas e práticas de dados, sem criar obstáculos à produtividade ao aplicar cegamente uma abordagem “tamanho único” em seus sistemas de dados.

Como engenheiro de dados, você pode exercer liderança em arquitetura identificando os componentes comuns adequados em consulta com os membros da sua organização. À medida que você se torna mais sênior e assume mais responsabilidades, pode ser você a pessoa que orienta os outros e fornece o treinamento adequado sobre esses componentes também. Como eu disse antes, como engenheiro de dados, também recomendo que você busque mentoria de arquitetos de dados na sua organização ou em outros lugares, porque, eventualmente, você poderá ocupar o papel de arquiteto.

# Always Architecting

Mencionei a ideia das portas de mão única e das portas de mão dupla, onde as portas de mão única representam aquelas decisões que você toma e que são difíceis ou impossíveis de reverter, enquanto as portas de mão dupla representam decisões reversíveis. Sistemas construídos em torno de decisões reversíveis permitem que você esteja sempre arquitetando.

Para mencionar outro conceito que surgiu na Amazon, temos o chamado mandato de APIs, que chegou na forma de um e-mail de Jeff Bezos para todos os funcionários da Amazon em 2002. O cerne deste mandato era o seguinte: todas as equipes devem utilizar interfaces de serviço, também conhecidas como interfaces de programação de aplicações ou APIs, tanto para se comunicarem quanto para fornecer dados e funcionalidades. O mandato também foi encerrado com Jeff Bezos afirmando que aqueles que não seguissem essa determinação seriam demitidos. Isso demonstra o quão a sério ele encarava a ideia das APIs na Amazon.

O que isso significava era que, não importava o quão complicada fosse a bagunça interna de qualquer equipe em seus próprios sistemas, elas seriam obrigadas a fornecer quaisquer dados, funcionalidades e comunicações para as demais equipes através de uma interface de serviço estável e previsível. Isso permitiu que as equipes da Amazon funcionassem juntas como um sistema acoplado de forma frouxa, onde as equipes individuais se conectavam umas às outras através dessas interfaces de serviço, e qualquer reconfiguração ou reestruturação dentro de uma equipe não afetava as outras.

Outra parte do mandato de APIs era que todas as interfaces de serviço ou APIs deveriam ser construídas do zero com o objetivo de, eventualmente, serem voltadas ao público de desenvolvedores externos. Essa reorientação para as interfaces de serviço lançou as bases para o que eventualmente se tornaria a Amazon Web Services (AWS), que grande parte do mundo agora utiliza como uma plataforma de nuvem.

No próximo grupo de princípios, abordo "tomar decisões reversíveis", "construir sistemas acoplados de forma frouxa" e "estar sempre arquitetando". Como você já sabe, as decisões reversíveis são as suas portas de mão dupla, ou seja, as decisões que você pode facilmente desfazer se não gostar do resultado. Uma maneira fundamental de garantir que suas decisões sejam reversíveis é construir seu sistema de dados a partir de componentes acoplados de forma frouxa. Por "acoplados de forma frouxa", no contexto da arquitetura, refiro-me a componentes que podem ser substituídos relativamente fácil, sem a necessidade de redesenhar todo o sistema.

Com um sistema construído a partir de componentes acoplados de forma frouxa e decisões reversíveis, você terá sempre a capacidade de continuar arquitetando. Como já abordamos, a arquitetura de dados precisa suportar as necessidades de dados em constante evolução da sua organização, e isso significa que a própria arquitetura de dados também deve ser capaz de evoluir. Como engenheiro de dados, seu trabalho não é apenas construir sistemas que atendam às necessidades de dados da sua organização hoje, mas também ter uma visão voltada para o futuro, de modo que você possa constantemente se adaptar às mudanças, aos requisitos do negócio e às tecnologias disponíveis.

# When your Systems Fail

Além de construir sistemas de dados que atendam às necessidades das partes interessadas, quebrar barreiras entre as equipes e evoluir conforme as necessidades da sua organização mudam, é preciso também antecipar o que acontece quando as coisas dão errado. Acredite, as coisas vão dar errado. No próximo grupo de princípios, planejei para a falha, projetei para escalabilidade, priorizei a segurança e abracei o FinOps.

### Abordagem Prática para Modos de Falha

Quando se trata dos modos de falha nos seus sistemas, o melhor é adotar uma abordagem prática e quantitativa, assim como você faria com qualquer outro aspecto do desempenho do seu sistema. Agora, vamos definir de forma mais explícita o que significam termos que descrevem as métricas do seu sistema, como disponibilidade, confiabilidade e durabilidade dos seus sistemas de dados.

- **Disponibilidade** – Frequentemente chamada de uptime, é a porcentagem de tempo em que um serviço ou componente deve estar em estado operável. Se você observar as diferentes classes de armazenamento e o armazenamento de objetos do Amazon S3, por exemplo, verá que eles variam em disponibilidade de 99,5% até 99,99% ao longo do ano. Embora 99,5% e 99,99% possam parecer números altos e até muito semelhantes, lembre-se de que uma disponibilidade anual de 99,5% significa que você pode esperar que seu sistema de armazenamento esteja indisponível por aproximadamente 44 horas ao longo do ano, enquanto 99,99% indica cerca de uma hora de inatividade por ano. Infelizmente, 100% de disponibilidade nunca é possível garantir, pois cenários de falha podem incluir quedas inesperadas de energia ou falhas em dispositivos de rede. Dependendo das necessidades do seu sistema, você pode escolher uma classe de armazenamento com a disponibilidade exigida.

- **Confiabilidade** – Semelhante à disponibilidade, mas refere-se à probabilidade de que um determinado serviço ou componente desempenhe sua função pretendida dentro de um intervalo de tempo especificado e dentro de padrões de desempenho bem definidos.

- **Durabilidade** – Refere-se à capacidade de um sistema de armazenamento resistir à perda de dados devido a falhas de hardware, erros de software ou desastres naturais. Na nuvem, a durabilidade é crucial, pois as empresas dependem dos serviços em nuvem para armazenar e acessar dados críticos. Por exemplo, o Amazon S3 ostenta uma durabilidade extremamente alta de 99,99999999.  
  Isso pode parecer um número excessivo de noves para se pronunciar, mas corresponde a um total de 11 noves na durabilidade dos dados, o que significa que a perda de objetos no Amazon S3 é extremamente rara.

### Objetivos de Recuperação: RTO e RPO

Relacionados aos conceitos de disponibilidade, confiabilidade e durabilidade estão os objetivos de tempo de recuperação (RTO) e os objetivos de ponto de recuperação (RPO).

- **RTO (Recovery Time Objective)** – É o tempo máximo aceitável para a interrupção de um serviço ou sistema. Para estabelecer um RTO para a sua aplicação, é necessário considerar o impacto para os clientes internos e externos caso a aplicação fique indisponível. Assim, você pode, por exemplo, decidir pela classe de armazenamento S3 que atenda a esse critério.

- **RPO (Recovery Point Objective)** – Define o estado aceitável após a recuperação. Por exemplo, ao falar de um sistema de armazenamento de dados, o RPO pode referir-se à perda máxima de dados que o seu sistema pode tolerar devido a uma falha.

Ser deliberado quanto ao RTO e RPO para os sistemas que você constrói ajudará a escolher componentes com as especificações corretas de disponibilidade, confiabilidade e durabilidade para atender às suas necessidades. Esse é um dos aspectos de se planejar para a falha.

### Segurança e o Modelo Zero Trust

Outra forma de seu sistema falhar é por meio de violações de segurança. Por isso, o princípio de planejar para a falha e o de priorizar a segurança caminham lado a lado. Já falamos um pouco sobre cultivar uma cultura de segurança e o princípio do menor privilégio. Aqui, também quero apresentar o conceito de segurança zero trust.

Para entender o que significa zero trust, é útil observar uma abordagem mais tradicional de segurança, conhecida como segurança de perímetro reforçado (hardened perimeter security). Essa abordagem equivale a construir um grande muro ao redor dos seus sistemas, onde tudo e todos fora do muro não são confiáveis, enquanto tudo e todos dentro do muro são confiáveis, no sentido de terem acesso a dados e sistemas sensíveis. O problema dessa abordagem é que os invasores só precisam ultrapassar o muro para obter acesso irrestrito a todos os seus dados e sistemas. Na era da nuvem, a ideia de construir um perímetro reforçado tem o problema adicional de que realmente não existe um perímetro físico, já que dados e sistemas se conectam pela internet.

Por outro lado, o zero trust significa que cada ação requer autenticação, e você projeta o seu sistema de forma que nenhuma pessoa ou aplicação – interna ou externa – seja confiada por padrão. Em vez disso, o acesso é concedido apenas quando necessário.

### Custos e Escalabilidade

Seu sistema também pode falhar quando você incorre em custos imprevistos elevados ou perde oportunidades de receita. Por exemplo, custos imprevistos podem ocorrer quando você executa, acidentalmente, serviços em nuvem caros, de modo que o orçamento anual inteiro seja consumido em um mês ou menos – algo que, acredite ou não, já vi acontecer com frequência. Por outro lado, uma oportunidade perdida pode ser um súbito pico de demanda pelos seus produtos, levando o sistema inteiro a entrar em colapso porque você não estava preparado para escalar rapidamente.

Nesse sentido, os princípios de abraçar o FinOps e projetar para escalabilidade estão conectados ao princípio de planejar para a falha. Como engenheiro de dados, você precisa pensar nas estruturas de custos dos sistemas em nuvem. Por exemplo, ao executar um cluster distribuído, qual é a mistura apropriada entre instâncias sob demanda da AWS (EC2) e instâncias spot – que são instâncias EC2 não utilizadas e disponíveis com um grande desconto? Qual seria a abordagem mais adequada para executar uma tarefa diária de grande porte, levando em conta a relação entre custo e desempenho?

Na era da nuvem, a maioria dos sistemas de dados adota um modelo “pague conforme o uso” e é facilmente escalável. Os sistemas podem operar com base em um modelo de custo por consulta, por capacidade de processamento ou outra variante do modelo “pague conforme o uso”. Agora é possível aumentar a escala para obter alto desempenho e depois reduzir a escala para economizar dinheiro. Contudo, essa abordagem torna os gastos muito mais dinâmicos. O novo desafio para os engenheiros de dados é gerenciar orçamentos, prioridades e eficiência ao construir e manter seus sistemas.

# Batch Architectures

Analisamos brevemente os conceitos de processamento em lote versus streaming no contexto da ingestão de dados. Agora, gostaria de focar em como alguns desses conceitos aparecem em alguns padrões arquiteturais bem estabelecidos com os quais você se deparará como engenheiro de dados. O objetivo aqui é fazê-lo refletir sobre alguns dos trade-offs e implicações das diferentes escolhas que você pode fazer com suas arquiteturas.

Vamos examinar mais de perto as arquiteturas de processamento em lote, e, posteriormente, vamos explorar as arquiteturas de streaming. A arquitetura de dados em lote é o que você pode chamar de abordagem tradicional para o processamento de dados, onde você ingere, transforma e armazena dados em lotes ou blocos. O processamento em lote é mais prático quando a análise em tempo real não é crítica.

Normalmente, um lote de dados consiste em dados coletados durante um determinado período fixo, talvez ao longo de um dia. Por exemplo, em uma empresa de comércio eletrônico, um analista de dados pode ter interesse em analisar o histórico de vendas de um determinado produto diariamente. Assim, você poderia configurar uma arquitetura em lote onde os dados são ingeridos e processados uma vez por dia.

Como isso pode ser estruturado? Isso pode representar o início de um pipeline chamado de extração, transformação e carregamento, ou ETL, onde primeiro você ingere ou extrai lotes de dados de uma ou múltiplas fontes, talvez para uma área de staging. Em seguida, são aplicadas algumas transformações para limpar, padronizar e modelar os dados, e então carregá-los em um data warehouse para armazenamento e distribuição.

Existe também uma variação desse padrão, conhecida como extração, carregamento e transformação, ou ELT. Com o ELT, a ideia é que, após a ingestão dos dados, você os carrega em seu data warehouse e, em seguida, executa as transformações diretamente dentro do data warehouse. Essa arquitetura ou padrão ELT tem se tornado mais popular atualmente, dada a capacidade computacional expandida em muitos data warehouses modernos na nuvem e outras abstrações de armazenamento.

![image.png](attachment:image.png)

O que acontece a seguir, independentemente de você estar trabalhando com uma arquitetura ETL ou ELT, é que você disponibiliza os dados para casos de uso downstream, que eu representarei no lado direito do data warehouse aqui. Esses casos podem ser tipicamente voltados para análises ou aprendizado de máquina, mas outra possibilidade, como mencionei anteriormente, é que seu caso de uso final seja o chamado reverse ETL, onde uma análise é realizada e, em seguida, os dados processados são efetivamente enviados de volta para os sistemas de origem que estão no início do seu pipeline de dados.

![image-2.png](attachment:image-2.png)

Você também pode ter uma camada adicional entre o seu data warehouse e seu caso de uso final para algo chamado data mart. Um data mart é um subconjunto mais refinado de um data warehouse, focado em um departamento, função ou área de negócio específica. Um data mart é projetado para atender às necessidades de análises e relatórios. Assim, você pode ter um data mart focado em vendas, outro para marketing e outro para operações. Essa configuração pode tornar os dados mais facilmente acessíveis aos analistas e àqueles que precisam criar relatórios.

Com os data marts, você também pode fornecer uma etapa adicional de transformação além da proporcionada pelos pipelines ETL ou ELT iniciais. Essas transformações adicionais podem incluir, por exemplo, junções adicionais entre tabelas ou agregações que ajudam a melhorar o desempenho de consultas em tempo real.

Estes são alguns exemplos de arquiteturas típicas de processamento em lote. Se você estiver configurando uma arquitetura como essa para a sua organização, há várias coisas a serem consideradas em termos dos princípios de uma boa arquitetura de dados. Por exemplo, se você estiver atendendo a múltiplos casos de uso final para diferentes equipes ou departamentos, como pode escolher componentes comuns para o seu data warehouse e pipelines de dados que facilitem a colaboração e a interoperabilidade entre as equipes?

Quando se trata de planejamento para falhas, você deve pensar no que acontece, por exemplo, se um sistema de origem ficar offline ou se o esquema de dados upstream mudar. Conectar-se com os responsáveis pelos sistemas de origem seria um ótimo primeiro passo para construir um sistema que possa lidar com mudanças na fonte. Você também deverá considerar as especificações de disponibilidade e confiabilidade para cada um dos componentes do seu pipeline, além de determinar como construir flexibilidade no seu sistema. Por exemplo, se você decidir, posteriormente, mudar a cadência de ingestão ou se espera que o volume de cada lote de dados seja dramaticamente diferente ao longo do tempo para adotar práticas de finops, você também estará realizando uma análise de custo-benefício para entender que tipo de trade-offs pode ser necessário considerar no que diz respeito ao desempenho dos diferentes componentes do seu sistema, assim como o tipo de valor que pode ser fornecido para o negócio sob diferentes cenários.

# Streaming Architectures

Os dados geralmente são produzidos e atualizados de forma contínua. Com pipelines de dados em lote, você espera que os dados se acumulem e, em um intervalo de tempo predefinido ou quando os dados atingem um determinado limite de tamanho, você processa um lote de dados. Dessa forma, você está processando um fluxo de dados em uma série de blocos.

### Pipelines de Processamento: Lote versus Streaming

Por outro lado, em um pipeline de dados em streaming, você ingere e fornece dados para sistemas downstream de forma contínua e em quase tempo real. Quando digo quase tempo real, quero dizer que você torna os dados disponíveis para os sistemas downstream em um curto período após serem produzidos, possivelmente em menos de um segundo.

No sentido mais simples, você pode pensar em um sistema de streaming como composto por:
- **Produtor:** A fonte dos dados, que pode ser dados de fluxo de cliques vindos de um aplicativo ou medições vindas de um dispositivo IoT.
- **Consumidor:** Pode ser, por exemplo, um serviço ou aplicativo que processará os dados, ou ainda um data lake ou data warehouse.
- **Broker de Streaming:** Coordena os dados entre produtores e consumidores.

A jusante do consumidor, pode haver casos de uso de análises em tempo real ou aplicações de machine learning.

### A Explosão do Streaming de Dados

No início a meados da década de 2010, a popularidade de trabalhar com dados de streaming explodiu com o surgimento do Kafka, uma plataforma de streaming de eventos altamente escalável, e de outros frameworks de processamento de streaming, como Apache Storm e Samza, para análises em tempo real. Essas tecnologias permitiram que empresas realizassem novos tipos de análises e modelagem sobre grandes quantidades de dados, como agregação e ranqueamento de usuários e recomendações de produtos.

### A Arquitetura Lambda

Essa nova demanda por soluções de dados em streaming não significou que o processamento em lote desapareceu. Ao invés disso, os engenheiros de dados precisavam encontrar uma forma de reconciliar dados em lote e streaming em uma única arquitetura. A arquitetura conhecida como **Lambda** foi uma das primeiras respostas populares para esse problema.

Na arquitetura Lambda, você tem sistemas de processamento em lote, streaming e de serviço operando de forma independente. O sistema fonte transmite os dados simultaneamente para dois destinos:
- Um para processamento de streaming, onde os dados processados podem ser armazenados em um banco de dados NoSQL.
- Outro para processamento em lote, que pode usar um data warehouse para transformar e armazenar os dados processados e agregados para fins analíticos.

A camada de serviço dessa arquitetura então fornece uma visão combinada agregando os resultados de consultas das camadas de lote e streaming.

Quero mencionar a arquitetura Lambda apenas para que você a conheça, mas vale ressaltar que essa arquitetura vem acompanhada de vários desafios e problemas, como a gestão de sistemas paralelos com bases de código diferentes, entre outros.

### A Evolução para a Arquitetura Kappa

De muitas maneiras, as tecnologias e práticas evoluíram além da arquitetura Lambda. No entanto, a Lambda ainda serve como um bom ponto de referência para os designs de arquiteturas e ferramentas de streaming que surgiram posteriormente, em resposta às limitações da Lambda.

Na verdade, um dos autores originais do Apache Kafka, J. Kreps, propôs uma alternativa chamada **Arquitetura Kappa**. A ideia central da arquitetura Kappa é usar uma plataforma de processamento de streaming como a espinha dorsal para toda a manipulação, ingestão, armazenamento e serviço de dados. Isso facilita uma verdadeira arquitetura baseada em eventos, ou seja, em vez de esperar que os sistemas verifiquem periodicamente se há atualizações quando algo acontece e os dados são produzidos, as informações são automaticamente enviadas aos consumidores relevantes que precisam da atualização, permitindo que esses consumidores reajam de forma mais imediata.

Com a plataforma de processamento de streaming como base, você pode aplicar o processamento em tempo real lendo o fluxo de eventos ao vivo. Ao mesmo tempo, pode configurar o processador de stream para reter uma certa quantidade de dados históricos à medida que lê o fluxo ao vivo. Isso efetivamente permite que você aplique processamento em lote quando desejar, ao reproduzir grandes blocos dos dados retidos do mesmo fluxo.

### Unificando Processamento em Lote e Streaming

Embora a arquitetura Lambda tenha caído em desuso e a Kappa nunca tenha sido amplamente adotada, ambas forneceram inspiração e bases para superar o desafio central de unificar o processamento em lote e streaming. Um dos problemas centrais na gestão de ambos os tipos de processamento é a unificação de múltiplos caminhos de código.

Hoje, os engenheiros buscam resolver isso de várias maneiras. O Google desenvolveu o modelo Dataflow e o framework Apache Beam que implementa esse modelo. A ideia central no modelo Dataflow é ver todos os dados como eventos. Fluxos de eventos em tempo real contêm dados ilimitados, enquanto os lotes de dados são simplesmente fluxos de eventos limitados, onde os limites fornecem uma janela natural. Assim, o processamento em tempo real e em lote pode ocorrer no mesmo sistema usando códigos quase idênticos.

Ferramentas de processamento de streaming, como o Apache Flink, são amplamente utilizadas atualmente, e veremos essas e outras ferramentas neste curso. Na engenharia de dados atual, a filosofia de que o processamento em lote é um caso especial do processamento em streaming é mais disseminada do que nunca.

### Desafios e Conformidade na Engenharia de Dados

No seu trabalho como engenheiro de dados, você pode esperar enfrentar desafios relacionados à gestão de pipelines tanto em lote quanto em streaming. Ao enfrentar esses desafios, é fundamental manter os princípios de uma boa arquitetura de dados em mente: escolher os componentes adequados para os sistemas, construir para flexibilidade e escalabilidade, e antecipar possíveis modos de falha.

Um aspecto essencial, independentemente do sistema que você está construindo, é a conformidade. Em resumo, conformidade significa garantir que seus sistemas de dados estejam em conformidade com leis, regulamentos e com os próprios acordos de privacidade e políticas de termos de serviço da sua organização.

# Architecting for Compliance

Não acredito que alguém realmente queira conversar sobre leis e regulamentações, especialmente quando poderíamos estar falando sobre o trabalho com dados e tecnologias interessantes, certo? Concordo com essa visão e também sinto que estaria falhando com você se não dedicasse um tempo para explicar como a conformidade regulatória se encaixa no seu papel como engenheiro de dados. Isso se deve, principalmente, ao fato de que uma das maneiras mais espetaculares pelas quais os seus sistemas de dados podem falhar é infringir as regulamentações, fazendo com que sua organização seja processada e sofra multas elevadas. Isso realmente acontece.

**Regulamentações Relacionadas a Dados**

Mas, de que regulamentações estamos falando quando o assunto é dados? Uma grande regulamentação é o Regulamento Geral sobre a Proteção de Dados, ou GDPR, que foi promulgado na União Europeia em 2018. Em resumo, o GDPR trata da proteção da privacidade e dos dados pessoais dos indivíduos. No entanto, o que constitui dado pessoal segundo o GDPR é relativamente amplo, englobando não apenas informações de identificação pessoal (PII), mas também outros dados que, quando combinados, podem identificar um indivíduo.

**Requisitos para Conformidade com o GDPR**

Para estar em conformidade com o GDPR, você precisa garantir que possui o consentimento apropriado dos indivíduos dos quais está coletando dados, bem como a capacidade de excluir esses dados de maneira oportuna. Se um indivíduo desejar que seus dados sejam removidos dos seus sistemas, você pode estar se perguntando: "E se minha empresa não estiver sediada na UE? Ou se não atendemos clientes na UE?" Tecnicamente, sim, a localização da sua empresa e dos seus clientes desempenhará um papel na determinação de se as regulamentações se aplicam a você.

**Expansão Global das Regulamentações**

Contudo, desde a promulgação do GDPR, dezenas de países ao redor do mundo, assim como estados individuais dentro dos EUA, adotaram regulamentações semelhantes. Como engenheiro de dados, você será responsável por construir sistemas que não apenas estejam em conformidade com as regulamentações atuais, mas também com as futuras. E essas futuras regulamentações podem ser novas leis promulgadas no local onde você opera atualmente ou regulamentações já existentes nas áreas para as quais sua empresa venha a se expandir. No futuro, será sua responsabilidade manter seus sistemas atualizados e em conformidade com o conjunto de regulamentações aplicáveis ao seu negócio.

**Abordagem Estratégica na Construção de Sistemas**

A abordagem inteligente é construir sistemas que estejam em conformidade com as modernas regulamentações de proteção de dados, como o GDPR, mesmo que as regulamentações locais sejam menos rigorosas, e construir sistemas flexíveis e desacoplados que permitam se adaptar a mudanças regulatórias.

**Regulamentações Específicas por Setor**

Além da localização da sua empresa e dos seus clientes, o setor em que você opera também pode ter suas próprias regulamentações. Por exemplo:

- **Dados de Saúde:** Se você trabalha com dados de saúde nos EUA, será necessário cumprir a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA), que trata de dados sensíveis de pacientes. Leis semelhantes foram promulgadas em vários países em relação a dados médicos.
- **Dados Financeiros:** Se você trabalha com dados financeiros, deverá aderir à Lei Sarbanes-Oxley nos EUA ou a leis semelhantes em outros países, que impõem práticas específicas de relatórios financeiros e manutenção de registros.

**Conclusão**

O principal ponto a ser levado em consideração é que, independentemente de onde você esteja localizado no mundo ou do setor em que atua, existem leis e regulamentações que se aplicam aos sistemas que você constrói. Como engenheiro de dados, uma forma de agregar valor à sua organização é evitar os processos judiciais e as multas decorrentes do descumprimento das regulamentações necessárias.

# Choosing Tools and Technologies

Analisamos o que significa projetar uma boa arquitetura de dados e por que isso é importante. Enfatizo que você precisa considerar as compensações entre diferentes escolhas de design e construir sistemas flexíveis e fracamente acoplados que possam acomodar as necessidades de dados em constante evolução da sua organização.

Vou focar em como escolher as ferramentas e tecnologias adequadas para construir esse tipo de arquitetura. No campo da engenharia de dados, não há escassez de opções quando se trata de ferramentas e tecnologias para realizar o trabalho. Muito pelo contrário, na verdade. Como engenheiros de dados, sofremos com um excesso de riquezas.

Seja qual for a solução que você esteja considerando para ingestão, armazenamento, transformação ou disponibilização, você se deparará com diversas opções, incluindo open source, open source gerenciado, serviços de software proprietários e muito mais. Ao enfrentar essas decisões, é importante manter seu objetivo final em mente, ou seja, entregar produtos de dados de alta qualidade que atendam aos requisitos dos seus usuários finais.

Em outras palavras, sua arquitetura de dados é o quê, o porquê e o quando de atender às necessidades de dados do negócio. As ferramentas e tecnologias que você escolhe para transformar essa arquitetura em realidade são o como.

Neste ponto, você pode estar pensando: "Bem, claro, isso faz sentido. Escolha as ferramentas que levarão a um resultado bem-sucedido." Isso é ótimo. Obrigado, Joe. Infelizmente, há várias maneiras de isso dar errado, e é sobre isso que vamos conversar nesta lição, para que você esteja preparado para o sucesso.

Primeiro, examinaremos a localização, ou seja, as compensações entre construir seus sistemas localmente (on-premises), na nuvem ou em uma combinação híbrida dos dois. Em seguida, abordaremos a otimização de custos e como você pode pensar se deve construir suas próprias ferramentas para determinadas funções ou adquirir soluções prontas, considerando aspectos como o tamanho e as capacidades da sua equipe e quais atividades realmente geram valor para o seu negócio.

# Location

Não há muito tempo, talvez há apenas duas décadas ou mais. Construir sistemas de dados locais era realmente a sua única opção para qualquer tipo de necessidade de armazenamento ou processamento de dados. Isso se devia simplesmente ao fato de que as modernas plataformas de dados na nuvem ainda não existiam.

**Sistemas Locais**

Um sistema local é aquele em que a empresa possui e mantém o hardware e o software para toda a pilha de dados. Isso significa que a empresa é operacionalmente responsável pelo provisionamento, manutenção, atualização e escalabilidade de seu hardware e do software que o executa.

**Sistemas de Dados na Nuvem**

Hoje em dia, muitas empresas constroem seus sistemas de dados inteiramente na nuvem. Com esses sistemas, o provedor de nuvem – como a AWS, por exemplo – é responsável por construir e manter o hardware e os data centers para atender às necessidades dos clientes. Se você constrói seus sistemas de dados na nuvem, está essencialmente alugando os recursos de computação e armazenamento necessários para o seu sistema. 

A grande vantagem da computação e armazenamento na nuvem é a facilidade de escalar para atender à demanda ou reduzir a escala para economizar custos quando os recursos não são tão necessários. Você não precisa manter ou provisionar nenhum hardware, e pode mudar de ideia relativamente rápido sobre quais ferramentas ou tecnologias deseja utilizar em seu sistema.

**Tendências na Indústria**

Atualmente, muitas empresas optam por construir sistemas de dados inteiramente na nuvem. Outras ainda mantêm sistemas locais ou adotam uma abordagem híbrida, combinando componentes locais com componentes na nuvem. A tendência na indústria é, sem dúvida, a de que mais empresas escolham a nuvem em vez dos sistemas locais ou migrem dos sistemas locais para a nuvem, devido às vantagens óbvias que a nuvem oferece em termos de flexibilidade e escalabilidade.

**Exceções e Cenários Específicos**

No entanto, há empresas que, por escolha ou por necessidade – seja por causa da natureza do negócio, regulamentações, questões de segurança ou privacidade dos clientes – optam ou são obrigadas a manter parte ou a totalidade de seus sistemas de dados localmente.

**Perspectiva para Engenheiros de Dados**

Como engenheiro de dados hoje, é possível que você trabalhe em uma empresa que possua alguns sistemas locais ou em uma que esteja em processo de migração para a nuvem. Nos cursos que acompanham este material, o foco será exclusivamente na construção de sistemas de dados na nuvem, pois, para a grande maioria dos casos de uso empresarial atualmente, essa é a melhor escolha. A indústria está se movendo na direção de mais soluções na nuvem e menos em sistemas locais. 

Como um aspirante a engenheiro de dados, acredito que o seu tempo será melhor investido aprendendo sobre a construção de sistemas de dados na nuvem.

# Monolith vs Modular Systems

Outro conceito em engenharia de dados que quero abordar brevemente aqui, enquanto discutimos sistemas que contêm dependências rígidas e flexibilidade limitada versus aqueles que são fortemente acoplados e flexíveis, é a ideia de arquitetura monolítica versus modular.

**Sistemas Monolíticos**

Sistemas monolíticos são sistemas autossuficientes compostos por componentes fortemente acoplados. No desenvolvimento de software, arquiteturas monolíticas têm sido uma referência tecnológica por décadas, onde grandes equipes trabalham juntas para entregar uma única base de código funcional. Todos os componentes dessa base de código do produto de software são construídos e implantados como uma única aplicação.

Uma vantagem de um sistema monolítico é a simplicidade. Toda a funcionalidade está concentrada em um único lugar, o que significa que é fácil compreender um sistema monolítico. Em vez de lidar com dezenas ou centenas de tecnologias, você tem apenas uma tecnologia e, normalmente, uma linguagem de programação principal. Monólitos são uma excelente opção se você busca simplicidade e clareza no raciocínio sobre sua arquitetura e processos.

No entanto, monólitos também são muito difíceis de manter à medida que crescem. Como um monólito consiste em componentes fortemente acoplados, se você precisar atualizar um componente, poderá ter que atualizar outros também. Frequentemente, uma aplicação inteira precisa ser reescrita. Por exemplo, uma vez trabalhei em uma empresa que tinha um pipeline ETL monolítico que levava pelo menos 48 horas para ser executado. Se algo quebrasse em qualquer parte desse pipeline, todo o processo precisava ser reiniciado. Enquanto isso, usuários de negócios ansiosos, que dependiam dos relatórios, ficavam esperando, já que os relatórios estavam, por padrão, dois dias atrasados e frequentemente chegavam muito mais tarde. A equipe responsável por esse pipeline desejava desesperadamente substituí-lo, mas isso exigiria semanas de inatividade para o sistema inteiro. Eles continuaram de maneira precária e aceitaram um desempenho subótimo porque atualizar o sistema era uma tarefa simplesmente assustadora e dispendiosa.

**Sistemas Modulares**

Em contraste, sistemas modulares consistem em componentes fracamente acoplados. Em vez de depender de um monólito massivo que combina todas as funcionalidades de uma aplicação, os sistemas modulares se baseiam em dividir a aplicação em áreas de responsabilidade autônomas. No desenvolvimento de software, sistemas verdadeiramente modulares surgem com o advento dos microserviços. Com os microserviços, em vez de combinar os componentes correspondentes a múltiplos serviços em uma única entidade implantável, cada serviço é implantado como uma unidade única.

A engenharia de dados moderna e as tecnologias de processamento de dados migraram para um modelo modular, oferecendo forte suporte à interoperabilidade. Isso significa que a maioria das ferramentas de processamento de dados disponíveis hoje pode ser facilmente integrada a ferramentas que suportam as outras etapas do ciclo de vida da engenharia de dados. Por exemplo, dados armazenados em armazenamento de objetos em um formato padrão, como Parquet, podem ser combinados com qualquer ferramenta de processamento que suporte o formato Parquet.

A capacidade de substituir ferramentas conforme a tecnologia evolui é inestimável. Isso ajuda a construir uma boa arquitetura de dados, permitindo decisões flexíveis e reversíveis, além de melhorias contínuas.

# Cost Optimization and Business Value

Como eu disse antes, em cada etapa do ciclo de vida da engenharia de dados, você terá múltiplas ferramentas e tecnologias para escolher a fim de realizar o trabalho. Cada uma dessas escolhas tem um custo, e não estou me referindo apenas ao preço e ao software ou serviço ao qual você está assinando. Há também um custo associado à implementação – ou seja, pagar uma equipe para dedicar o tempo necessário para implantar e manter o sistema – e ainda há custos de oportunidade, o que significa que, ao escolher uma ferramenta, você, por um período, abre mão da oportunidade de escolher outra. Dessa forma, suas escolhas de ferramentas e tecnologias terão um impacto significativo no seu orçamento.

Como engenheiro de dados, seu papel é proporcionar um retorno positivo sobre o investimento que sua organização faz em seus sistemas de dados. Examinaremos os custos através de três principais perspectivas. Primeiro, focarei no custo total de propriedade, ou TCO (Total Cost of Ownership). Em seguida, daremos uma breve olhada no custo total de oportunidade de propriedade, ou TOCO (Total Opportunity Cost of Ownership). Por fim, revisaremos o FinOps, que mencionamos brevemente.


**Custo Total de Propriedade (TCO)**  
O custo total de propriedade, ou TCO, é o custo total estimado de um projeto ou iniciativa de solução durante todo o seu ciclo de vida. O termo TCO não é exclusivo da engenharia de dados; ele é um conceito geral de negócios utilizado para descrever o investimento total em um projeto, incluindo os custos diretos e indiretos dos produtos e serviços que você utiliza. Isso abrange itens como a aquisição de hardware e software, o custo de gestão, manutenção e reparos, bem como qualquer treinamento necessário.

- **Custos Diretos:**  
  São os custos tangíveis e facilmente identificáveis que são diretamente atribuídos ao desenvolvimento de um produto de dados. Por exemplo, os custos diretos incluem os salários da equipe que trabalha na iniciativa, a fatura da AWS para todos os serviços utilizados e quaisquer taxas ou custos de licenciamento de assinaturas de software.

- **Custos Indiretos:**  
  Também conhecidos como despesas gerais, são os custos que não são diretamente atribuídos ao desenvolvimento de um produto de dados. Exemplos incluem custos decorrentes de tempo de inatividade da rede, suporte contínuo de TI ou a perda de produtividade de certos membros da equipe. É importante incluir os custos indiretos na estimativa do TCO, pois eles podem ser significativos.


**CapEx e OpEx**  
No que diz respeito ao custo de hardware e software, essas despesas geralmente se dividem em dois grandes grupos:

- **Despesas de Capital (CapEx):**  
  CapEx é o pagamento efetuado para adquirir ativos fixos de longo prazo. Esse tipo de despesa para sistemas de dados era comum antes da existência das plataformas de nuvem. As empresas faziam um pagamento inicial para comprar hardware e software e os instalavam em data centers. Esses investimentos iniciais – muitas vezes centenas de milhares a milhões de dólares ou mais – eram tratados como ativos de CapEx, depreciando lentamente ao longo do tempo. Atualmente, com a migração para a nuvem, muitas empresas estão construindo sistemas de dados com praticamente zero CapEx.

- **Despesas Operacionais (OpEx):**  
  OpEx é a despesa associada à execução das operações do dia a dia, distribuída ao longo do tempo. Em sistemas de dados, o OpEx geralmente se manifesta como uma despesa “pague conforme o uso”, na forma de assinaturas recorrentes ou o custo de utilização de um determinado serviço de nuvem. No contexto de construir sistemas de dados on premises versus baseados em nuvem, construir localmente geralmente acarreta um grande custo de CapEx, enquanto os sistemas baseados em nuvem podem ser quase inteiramente OpEx.

Antes das plataformas de nuvem existirem, uma abordagem prioritariamente OpEx não era realmente uma opção para grandes projetos de dados. Isso mudou com o advento da nuvem, já que os serviços de plataforma de dados permitem pagar com base no consumo. Investimentos de hardware a longo prazo para projetos de dados inevitavelmente se tornarão obsoletos, por isso sugiro adotar uma abordagem centrada na nuvem e baseada em OpEx, escolhendo tecnologias flexíveis de “pague conforme o uso” para seus pipelines de dados.

**Custo Total de Oportunidade de Propriedade (TOCO)**  
Em contraste com o TCO, o que chamo de custo total de oportunidade de propriedade, ou TOCO, é o custo das oportunidades perdidas que você incorre ao escolher uma determinada ferramenta ou tecnologia. Embora seja mais difícil de quantificar, essencialmente significa que qualquer escolha feita exclui outras possibilidades. Por exemplo, se você optar pelo stack de dados A, que inclui um certo conjunto de tecnologias para construir seus pipelines de dados, você estará escolhendo os benefícios do stack A em detrimento de outras opções – efetivamente excluindo, por exemplo, os stacks B, C, D, etc. Nesse caso, o custo total de oportunidade de propriedade é o custo de ficar preso ao stack de dados A, sem mais se beneficiar de outros stacks. Se o stack A se revelar a melhor escolha possível, então, parabéns: o custo total de oportunidade de propriedade é, essencialmente, zero.

Na realidade, contudo, as ferramentas e tecnologias de engenharia de dados estão evoluindo muito rapidamente. Mesmo que você faça as melhores escolhas possíveis hoje, será necessário evoluir seus sistemas de dados no futuro. Se alguns componentes do stack de dados A – que eram as melhores escolhas até ontem – se tornarem obsoletos, haverá um custo associado à transição para componentes diferentes ou até mesmo para um stack completamente novo.


**Construindo Sistemas Flexíveis**  
Para garantir que o seu custo total de propriedade seja minimizado, será necessário construir sistemas flexíveis e fracamente acoplados, que sejam fáceis de atualizar conforme suas necessidades de dados mudam e o cenário de ferramentas e tecnologias evolui. Uma forma de fazer isso é identificar, desde o início, quais componentes dos seus pipelines de dados são mais propensos a mudanças. Em outras palavras, separar as tecnologias imutáveis das tecnologias transitórias:

- **Tecnologias Imutáveis:**  
  São aquelas que resistiram ao teste do tempo. Por exemplo, no armazenamento em nuvem, tecnologias como armazenamento de objetos e redes. Outro exemplo é o SQL como linguagem de consulta, que existe há décadas e não desaparecerá tão cedo.

- **Tecnologias Transitórias:**  
  São aquelas que estão na vanguarda e em áreas do stack de dados que evoluem rapidamente, como processamento de fluxo, orquestração e inteligência artificial, por exemplo.


**FinOps e Otimização de Custos**  
Ao pensar em escolhas tecnológicas no contexto da otimização de custos, o FinOps é um conceito intimamente relacionado ao TCO e ao TOCO. FinOps diz respeito à minimização dos custos associados aos seus sistemas de dados – tanto o TCO quanto o TOCO – enquanto simultaneamente maximiza a sua oportunidade de geração de receita. Como fazer isso? Em resumo, você pode optar por serviços baseados em nuvem que permitem uma abordagem prioritariamente OpEx, com tecnologias flexíveis de “pague conforme o uso” e opções modulares que possibilitam iterar, melhorar e crescer rapidamente.

# Build vs Buy

Até agora, temos falado sobre a escolha de ferramentas e tecnologias para a sua arquitetura, e enfatizei que, em geral, construir na nuvem com serviços flexíveis de pagamento conforme o uso será a melhor opção para a grande maioria das empresas quando se trata de serviços comuns, como, por exemplo, o armazenamento de objetos. Usar um serviço de nuvem como o Amazon S3 é uma escolha muito melhor do que tentar construir sua própria solução personalizada de armazenamento de objetos.

No entanto, dependendo dos requisitos do seu sistema, pode haver certas ferramentas ou tecnologias que você precisará desenvolver e customizar por conta própria. Por exemplo, muitas equipes optam por construir sobre frameworks de código aberto para obter exatamente a solução de que precisam. Em outros casos, uma equipe pode escolher desenvolver sua própria solução ou customizar frameworks de código aberto para evitar taxas de licenciamento ou simplesmente para não ficar à mercê de um fornecedor.

De fato, para praticamente todas as etapas do ciclo de vida da engenharia de dados, você terá uma variedade de opções na hora de escolher ferramentas e tecnologias. Claro que, para qualquer ferramenta que você necessite, é possível construir algo do zero. Em alguns casos, essa pode ser a única opção se você estiver tentando fazer algo que ninguém mais fez antes. Mas, na maioria dos casos, isso não é recomendado, a menos que você tenha certeza de que não existe uma solução já disponível para o que você está tentando realizar. Construir tecnologias do zero, quando soluções prontas já existem, pode equivaler a reinventar a roda, por assim dizer. Você me ouvirá referir a essa atividade como “trabalho pesado não diferenciado”, no sentido de que é um trabalho árduo e provavelmente não agrega valor final para a sua organização.

Quando se trata de soluções já existentes, elas incluem opções totalmente de código aberto, bem como opções de código aberto comercializadas por fornecedores, que são essencialmente versões gerenciadas de alguma ferramenta de código aberto. Além disso, pode haver também software e serviços proprietários (não de código aberto) para escolher.

Ao optar entre essas opções, há vários parâmetros-chave a serem considerados. Primeiramente, se você decidir utilizar uma solução totalmente de código aberto, sua equipe tem a capacidade e os recursos necessários para implementar e manter esse sistema? Muitas ferramentas de código aberto contam com uma excelente comunidade de suporte, onde você pode obter ajuda se precisar. Mas, se você faz parte de uma equipe pequena, talvez até uma equipe de uma única pessoa, é possível que um serviço gerenciado de código aberto ou uma solução proprietária seja mais adequado às suas necessidades. Isso ocorre porque essa opção pode liberar você para construir e gerenciar todo o seu sistema de dados sem se prender à implementação e manutenção de um único componente.

Além disso, mesmo que sua equipe possua a expertise e a capacidade para construir do zero e implementar uma solução de código aberto, será que realmente vale a pena? À primeira vista, construir algo por conta própria ou usar uma solução de código aberto pode parecer uma economia de custos, já que você está evitando as taxas de licenciamento. No entanto, o custo total de propriedade vai muito além dos custos de licenciamento, incluindo também o custo da equipe necessária para construir e manter o sistema.

Outro ponto importante a considerar é se desenvolver e manter uma solução personalizada ou de código aberto realmente proporciona valor para a sua organização. Em outras palavras, você obtém alguma vantagem ao construir seu próprio sistema ou ao usar código aberto em comparação com o que obteria com um serviço gerenciado, ou isso se resume apenas a um trabalho pesado não diferenciado – um esforço árduo que não agrega valor adicional?

Para a maioria das equipes – e particularmente para equipes pequenas que estão construindo pipelines de dados e se perguntando se devem construir suas próprias soluções, usar código aberto ou adquirir ferramentas comerciais de código aberto ou proprietárias – minha sugestão é: primeiro, avalie as soluções de código aberto ou as soluções de código aberto comercializadas; se elas não atenderem às suas necessidades, então considere a aquisição de uma solução proprietária. Há uma grande variedade de excelentes serviços modulares disponíveis em ambas as abordagens, o que permitirá que sua equipe se concentre nas oportunidades únicas que realmente agregam valor à sua organização.

# Server, Container, and Serverless Compute Options

Para hospedar qualquer aplicação de software, você precisa de um servidor, que é essencialmente um computador. Ou de um conjunto de computadores que impulsiona sua aplicação, fornecendo CPU, memória (ou RAM), armazenamento em disco e, possivelmente, uma GPU e conectividade de rede. Os servidores oferecem recursos computacionais através de uma rede, na maioria das vezes, pela Internet.

**Ferramentas de Nuvem e Opções de Computação**

No que diz respeito às ferramentas de nuvem, dependendo do serviço que você está considerando, pode ser necessário configurar e gerenciar os recursos computacionais exigidos para executar a aplicação. Em outros casos, você poderá escolher entre uma ou mais das seguintes três opções de computação: **Servidor, Container ou Serverless**. Vou abordar as diferenças e os prós e contras entre essas três opções.

**Opção 1: Servidor**

Se você optar pela versão de servidor de um serviço, será responsável por configurar e gerenciar o servidor, como, por exemplo, uma instância do Amazon EC2 na qual o serviço será executado. Isso inclui atualizar o sistema operacional, instalar ou atualizar pacotes, empacotamento de software, configuração de rede, escalabilidade e segurança.

**Opção 2: Container**

Em contraste com um servidor, um container é uma unidade mais modular que empacota seu código e todas as suas dependências em um pacote que pode ser executado em um servidor. Enquanto uma máquina virtual tradicional encapsula um sistema operacional inteiro, um container é mais leve, pois apenas empacota um ambiente isolado — como um sistema de arquivos e alguns processos. Para uma solução containerizada, você ainda será responsável por configurar os elementos essenciais do código da aplicação e suas dependências, mas o sistema operacional subjacente, a rede e todos os demais componentes serão fornecidos pela plataforma.

**Opção 3: Serverless**

É cada vez mais comum, no mundo das ferramentas de dados em nuvem, encontrar o termo *serverless* para descrever um determinado serviço. Se você está familiarizado com o funcionamento dos computadores, a palavra “serverless” pode soar um pouco estranha, como se fosse possível executar software sem um servidor, certo? Na verdade, o termo *serverless* não significa que não existe um servidor; ele apenas indica que configurar e manter o servidor não é responsabilidade sua para aquele serviço específico. Você pode interagir com a aplicação sem gerenciar os servidores nos bastidores ou se preocupar com instalações de pacotes e dependências. Assim, o servidor fica, essencialmente, oculto.

Normalmente, as tecnologias *serverless* operam em containers, permitindo que esses serviços escalem automaticamente. Elas possuem recursos de disponibilidade e tolerância a falhas integrados e oferecem cobrança conforme o uso. Contudo, no caso dos serviços *serverless*, os containers em que rodam também estão abstraídos. Dessa forma, as tecnologias *serverless* possibilitam que você dedique menos tempo à infraestrutura computacional e mais tempo ao desenvolvimento de produtos de dados.

**Exemplos e Considerações de Uso**

A tendência *serverless* ganhou força total com o lançamento do AWS Lambda, em 2014, um serviço que permite executar código em resposta a um evento, prometendo executar pequenos trechos de código conforme necessário, sem precisar gerenciar um servidor.

As opções *serverless* explodiram em popularidade e diversidade, indo muito além de simplesmente executar pequenos trechos de código sob demanda. Os principais motivos para essa popularidade são o custo e a conveniência. Em vez de pagar o custo de um servidor, você pode pagar apenas uma quantia pequena cada vez que seu código for executado ou quando utilizar um serviço específico.

**Quando Utilizar Serviços Serverless**

Como em muitas outras soluções de nuvem, a escolha pelo *serverless* depende do caso de uso. Como engenheiro de dados, você precisa compreender os detalhes da precificação na nuvem para prever o custo de suas implementações *serverless* e decidir se elas são mais econômicas do que a opção de servidor. Por exemplo, ao analisar a precificação do AWS Lambda, é possível perceber que o uso do serviço em um ambiente com alta taxa de eventos pode se tornar catastroficamente caro. Assim como em outras áreas dos seus pipelines de dados, é fundamental modelar e monitorar os serviços utilizados, sejam *serverless* ou não. Pode ser necessário monitorar diretamente para determinar as taxas reais de eventos, a duração e o custo por evento em um ambiente real, a fim de modelar o custo total de um serviço *serverless* em comparação com alguma alternativa.

Além disso, as plataformas *serverless* na nuvem possuem limites de execução, frequência, concorrência e duração. Se sua aplicação não se encaixar nesses limites de forma adequada, pode ser o momento de considerar uma abordagem orientada a containers. Em resumo, o *serverless* funciona melhor para tarefas e cargas de trabalho simples e discretas, não sendo a melhor opção se sua aplicação tiver muitas partes móveis ou exigir muita capacidade computacional ou de memória. Nesses casos, considere utilizar containers e um framework de orquestração de fluxo de trabalho para containers, como o Kubernetes.

# How the Undercurrents Impact Your Decisions

**Segurança**  
No que diz respeito à segurança, diferentes ferramentas possuem características de segurança distintas. É importante entender quais são essas características e garantir que a tecnologia de autenticação correta esteja implementada, juntamente com outras melhores práticas mencionadas. Um grande ponto de atenção é usar apenas softwares e ferramentas desenvolvidos por organizações de renome e comunidades open source confiáveis. Existem casos conhecidos de organizações ou estados-nação lançando ferramentas de dados que contêm componentes suspeitos – essencialmente spyware – que comprometem seus pipelines de dados. Não entrarei em mais detalhes sobre isso agora, mas a lição é: certifique-se de saber de onde vêm suas ferramentas. Se for uma ferramenta open source, examine o código e certifique-se de entender como ela foi implementada.

**Gerenciamento de Dados**  
Com o gerenciamento de dados, nem sempre está claro como certas práticas de governança de dados são implementadas. É uma boa ideia perguntar à empresa ou comunidade que fornece a ferramenta como a governança é tratada. Por exemplo:  
- Como os seus dados serão protegidos contra invasões tanto externas quanto internas?  
- Como a ferramenta cumpre com o GDPR e outras regulamentações de privacidade de dados?  
- Ou como a ferramenta proporciona a verificação da qualidade dos dados?

**Operações de Dados (Data Ops)**  
Na escolha das ferramentas para operações de dados, o foco está principalmente em entender quais funcionalidades elas oferecem em termos de automação e monitoramento. Se você estiver considerando uma opção de serviço gerenciado, certifique-se de compreender o acordo de nível de serviço (SLA) do provedor, que descreve suas garantias em relação à confiabilidade e disponibilidade.

**Arquitetura de Dados**  
Como discutido ao longo desta semana de materiais, na área de arquitetura de dados você precisa observar como uma determinada ferramenta oferece modularidade e interoperabilidade com outras ferramentas. Uma boa modularidade e interoperabilidade permitem flexibilidade e um desacoplamento eficaz entre os componentes.

**Orquestração**  
No campo da orquestração, o cenário atual da engenharia de dados é dominado pelo Apache Airflow, que pode ser implementado como uma ferramenta open source ou como serviço gerenciado. Existem também outras opções, como Prefect, Dagster e Mage, que estão ganhando popularidade. Se você estiver analisando ferramentas de orquestração, esteja ciente de que esse setor está evoluindo rapidamente e que um entendimento profundo dos objetivos da sua própria arquitetura de dados ajudará a determinar quais ferramentas de orquestração são mais adequadas para suas necessidades.

**Engenharia de Software**  
Quando se trata de engenharia de software, a grande questão é: quanto você deseja fazer? O que isto significa é avaliar a capacidade e a expertise da sua equipe, bem como identificar quais atividades de desenvolvimento realmente agregam valor à sua organização. Você prefere construir sua própria ferramenta, optar por uma solução open source, ou assinar uma solução comercial open source ou proprietária? O principal ponto a evitar é o “trabalho pesado indiferenciado”, ou seja, um esforço que não agrega valor à sua organização. Verifique primeiro as ferramentas open source e comerciais open source. Se elas não atenderem às suas necessidades, então considere as ferramentas proprietárias.

# The AWS Well-Architected Framework

Quando você está criando sistemas na AWS, especialmente quando está começando, pode ser muito difícil. Há muitas opções para escolher e diferentes maneiras de construir soluções na AWS. Então, como saber se você está fazendo certo? Bem, é para isso que o AWS Well-Architected Framework foi criado: para avaliar e melhorar soluções, permitindo que você acerte na hora de construir na AWS. Vou dar uma visão geral do Well-Architected Framework e indicar mais recursos para que você possa usar esse framework para avaliar qualquer coisa que você construir na AWS. Vamos começar com um pouco de contexto.

Na AWS, não fornecemos apenas serviços para construir sistemas na nuvem. Também trabalhamos de perto com milhares de clientes ao redor do mundo para ajudá-los a criar as melhores soluções em nuvem para apoiar e rodar seus negócios. Arquitetos de soluções da AWS, especialistas em diversos assuntos e outros funcionários da AWS passaram décadas trabalhando diretamente com clientes de diferentes áreas de negócios e necessidades, o que lhes deu muita experiência em fazer as coisas da maneira certa. A partir dessa experiência coletiva, a AWS construiu o Well-Architected Framework, que é composto por um conjunto de melhores práticas e estratégias centrais para arquitetar sistemas na nuvem.

O AWS Well-Architected Framework inclui seis pilares principais: excelência operacional, segurança, confiabilidade, eficiência de desempenho, otimização de custos e sustentabilidade. Aqui, vou descrever brevemente cada um desses pilares, e você pode seguir os links na seção de recursos ao final desta semana para aprender mais, caso tenha interesse.

### Primeiro Pilar: Excelência Operacional
Este pilar é focado em como você pode desenvolver e rodar suas cargas de trabalho na AWS de maneira mais eficaz, monitorar seus sistemas para obter insights sobre suas operações e melhorar continuamente seus processos e procedimentos para entregar valor ao negócio.

### Segundo Pilar: Segurança
O pilar de segurança é focado em como aproveitar as tecnologias da nuvem para proteger seus dados, sistemas e ativos. Você já analisou a segurança no ciclo de vida de engenharia de dados com o Joe, e a ideia aqui é a mesma. Você precisa usar as ferramentas adequadas para proteger seus sistemas, além de promover uma cultura de segurança em sua equipe.

### Terceiro Pilar: Confiabilidade
Sistemas confiáveis são aqueles que executam sua função pretendida corretamente e de forma consistente, e que podem se recuperar rapidamente após uma falha. Portanto, este pilar abrange desde o design para confiabilidade até o planejamento para falhas e adaptação às mudanças.

### Quarto Pilar: Eficiência de Desempenho
O pilar de eficiência de desempenho foca em adotar uma abordagem orientada por dados para construir arquiteturas de alto desempenho. Quando se trata da eficiência de desempenho do seu sistema, você avaliará a capacidade de um conjunto de recursos computacionais para atender eficientemente aos requisitos do seu sistema, além de como manter essa eficiência à medida que a demanda muda e as tecnologias evoluem.

### Quinto Pilar: Otimização de Custos
Este pilar é bem direto e está intimamente relacionado aos pontos que o Joe mencionou no início desta semana sobre adotar o FinOps. Simplificando, a otimização de custos significa construir sistemas para entregar o maior valor de negócios com o menor custo possível, e a AWS oferece uma série de serviços, incluindo o AWS Cost Explorer e o Cost Optimization Hub, onde você pode fazer comparações e obter recomendações sobre como otimizar os custos dos seus sistemas.

### Sexto Pilar: Sustentabilidade
Embora itens como desempenho, escalabilidade, segurança e custo possam ser as maiores preocupações ao construir sistemas de dados, também é importante considerar o impacto ambiental das cargas de trabalho que você executa na nuvem. O pilar de sustentabilidade foca na redução do consumo de energia e no aumento da eficiência em todos os componentes do seu sistema.

Agora, é importante lembrar que esses seis pilares do Well-Architected Framework não fornecerão designs específicos para você copiar e aplicar às suas soluções. Em vez disso, você pode pensar neles como um conjunto de princípios e perguntas que ajudarão você a ter conversas produtivas sobre suas soluções existentes e a ajudá-lo a projetar e operar sistemas confiáveis, seguros, eficientes, econômicos e sustentáveis na nuvem. É quase como ter acesso ao seu próprio arquiteto de soluções AWS, que pode ajudá-lo a refletir sobre os prós e contras de diferentes escolhas de arquitetura.