# Welcome to Data Engineering

Na última década, praticamente todas as indústrias se tornaram digitais. As comunicações digitais estão em toda parte, e os dados digitais estão substituindo o papel como o principal meio de armazenamento de informações em setores como saúde, finanças, manufatura, educação, tecnologia e muitos outros. No entanto, com essa enxurrada de dados, surgem riscos e novos desafios sobre como armazená-los e processá-los para gerar valor.  

Seja para melhorar o atendimento ao cliente ou superar a concorrência, ter bons pipelines de dados tornou-se cada vez mais essencial para as empresas. Por isso, a demanda por engenheiros de dados tem crescido exponencialmente.  

Estou muito animado para apresentar Joe Res como seu instrutor nesta especialização. Ele é engenheiro e arquiteto de dados, com décadas de experiência auxiliando empresas em suas necessidades relacionadas a dados. Além disso, é professor, podcaster e coautor do aclamado e best-seller *Fundamentals of Data Engineering*.  

---

### **Uma visão sobre a Engenharia de Dados**  

**Joe, lembro que você já se descreveu como um "cientista de dados em recuperação". O que isso significa?**  

*"Cientista de dados em recuperação" é um apelido que me deram por volta de meados da década de 2010. Naquela época, a ciência de dados estava se tornando muito popular. Minha formação era em aprendizado de máquina, análise de dados e funções similares. Mas o que percebi foi que muitas empresas estavam contratando cientistas de dados sem fornecer a infraestrutura adequada para que pudessem desempenhar seu trabalho com eficiência.*  

*Muitas vezes, um cientista de dados chegava a uma nova posição e não havia dados disponíveis para que ele realizasse suas análises. Depois de ver esse problema se repetir inúmeras vezes, percebi que, para que a ciência de dados tivesse sucesso, a engenharia de dados também precisava evoluir. Por isso, passei a me dedicar à construção da infraestrutura, garantindo qualidade de dados e fornecendo as bases necessárias para que os cientistas de dados pudessem executar suas tarefas com sucesso.*  

*Quando há uma boa infraestrutura de dados, um cientista pode formular uma pergunta e obter uma resposta em minutos ou horas, em vez de semanas ou meses. Isso faz uma diferença gigantesca na eficiência. A presença de um bom engenheiro de dados pode determinar se uma equipe terá agilidade ou se ficará presa a longos tempos de espera.*  

---

### **A Importância da Engenharia de Dados**  

*Ao longo dos anos, as empresas passaram a enxergar os dados como um ativo valioso. O que tenho notado recentemente é que elas estão investindo cada vez mais na construção dessa base, reduzindo drasticamente o tempo necessário para transformar dados brutos em valor útil — de dias ou meses para horas, minutos e, em alguns casos, segundos.*  

*Se você tem apenas um pequeno arquivo CSV no seu laptop, é fácil trabalhar com ele. Mas à medida que os conjuntos de dados crescem, a complexidade aumenta exponencialmente. É nesse ponto que uma boa engenharia de dados faz uma diferença imensa no desempenho e na escalabilidade dos sistemas.*  

*Com o avanço da inteligência artificial, é mais importante do que nunca adotar uma abordagem centrada nos dados. E finalmente vejo que o mercado está reconhecendo a necessidade de investir em infraestrutura e metodologias robustas para lidar com dados. Com a IA se tornando um fator-chave para praticamente todas as empresas e fluxos de trabalho, este é, sem dúvida, o momento certo para a engenharia de dados brilhar.*  

---

### **O Conceito de IA Centrada em Dados**  

**Joe, você ajudou a popularizar o termo "IA centrada em dados". O que isso significa para os engenheiros de dados?**  

*A abordagem centrada nos dados envolve estruturar e preparar os dados de forma sistemática para construir sistemas de IA bem-sucedidos. Isso vale para todos os tamanhos de conjunto de dados — desde pequenos arquivos CSV até enormes volumes armazenados em data warehouses. Hoje, grandes modelos de linguagem são treinados com trilhões de tokens, e a engenharia de dados é essencial para garantir que essas IA recebam os dados de que precisam para alcançar bons resultados. Esse é um campo em rápida expansão e extremamente empolgante.*  

*Estou ansioso para compartilhar mais sobre IA centrada em dados nesta especialização. A engenharia de dados não apenas é uma profissão crucial, mas também uma habilidade altamente especializada.*  

---

### **Aprendendo Engenharia de Dados: O que você precisa saber**  

**Quais são as habilidades essenciais para alguém que quer se tornar um engenheiro de dados?**  

*Este programa ensinará princípios fundamentais, ajudando você a pensar como um engenheiro de dados. Mas não para por aí. Estamos muito felizes por colaborar com a Amazon Web Services (AWS) nesta especialização, oferecendo exercícios práticos que permitirão a você desenvolver habilidades construindo sistemas de dados na nuvem.*  

*Hoje, a maioria dos engenheiros de dados trabalha com sistemas em nuvem, e atualmente a AWS é o serviço de nuvem pública mais utilizado. Familiarizar-se com a construção de sistemas na AWS será um grande diferencial para você como engenheiro de dados.*  

*Estou realmente empolgado com o fato de que este curso combina fundamentos da engenharia de dados — que são independentes de plataforma — com exercícios práticos e aplicáveis ao mercado. Se você deseja se tornar um engenheiro de dados, esta especialização é para você. Mas também será útil para aqueles que já trabalham na área e querem aprimorar suas habilidades.*  

*Além disso, se você trabalha em áreas relacionadas, como ciência de dados, aprendizado de máquina, engenharia de software, análise de dados ou qualquer outra função que lide com dados, este curso também será valioso para você.*  

# Course 1 Overview

Ao longo destes cursos, quero que você se imagine em um determinado cenário. Você acaba de ser contratado como engenheiro de dados em uma nova e empolgante empresa no setor de comércio.  

Primeiramente, parabéns pelo novo emprego!  

Na verdade, essa empresa contratou primeiro um cientista de dados porque queria realizar análises para entender melhor os interesses, comportamentos e hábitos de compra de seus clientes. Além disso, a empresa queria desenvolver ferramentas de aprendizado de máquina usando grandes modelos de linguagem para automatizar vários aspectos do suporte ao cliente.  

No entanto, quando esse pobre cientista de dados começou a trabalhar, descobriu que nenhuma infraestrutura de dados necessária para lidar com as tarefas de análise ou aprendizado de máquina existia ainda. Rapidamente, ele começou a estudar arquiteturas e sistemas de dados para tentar construir a infraestrutura de que precisava. Mas também precisou explicar para a liderança da empresa que a construção dessa infraestrutura não era seu forte e que, para otimizar o sucesso, a empresa deveria contratar um engenheiro de dados.  

É aí que você entra!  

Agora, essa pode parecer uma história boba, mas eu não consigo contar quantas vezes já vi exatamente esse cenário acontecer na vida real. De fato, eu fui um desses cientistas de dados que foram contratados por uma empresa exatamente como essa que descrevi.  

Fui lançado em uma situação onde precisei aprender rapidamente a construir diversos aspectos da infraestrutura de dados, apenas para colocar os dados e os sistemas da empresa em um estado onde eu pudesse começar a trabalhar nos projetos de ciência de dados para os quais fui contratado. Isso aconteceu há bastante tempo, muitos anos atrás, na época em que o cargo de engenheiro de dados nem existia ainda.  

Talvez a empresa que me contratou como cientista de dados possa ser perdoada por não saber exatamente do que precisava. E, conforme me aprofundava no design e construção de sistemas de dados, eu me sentia tanto sobrecarregado quanto entusiasmado com o que estava aprendendo.  

Descobri que o conjunto de habilidades essenciais para construir infraestruturas de dados robustas era amplamente o mesmo, independentemente das tarefas finais que se desejava realizar, fosse ciência de dados, aprendizado de máquina ou até mesmo a entrega de análises incorporadas diretamente em aplicativos para os usuários.  

Com o tempo, esse conjunto central de habilidades passou a ser conhecido como **engenharia de dados**.  

### **O Seu Papel Como Engenheiro de Dados**  

![image.png](attachment:image.png)

Voltando ao nosso cenário, você acaba de ser contratado como engenheiro de dados e sua empresa espera que você construa sistemas de dados que possam atender aos seus objetivos.  

Para alcançar esse objetivo, você precisará ser capaz de **traduzir as necessidades dos stakeholders da empresa em requisitos do sistema** e, em seguida, escolher o conjunto certo de ferramentas e tecnologias para construir esse sistema.  

Agora, isso pode parecer relativamente simples. Mas, com muita frequência, vejo engenheiros de dados mergulhando diretamente na implementação de um sistema, escolhendo ferramentas e tecnologias **antes de realmente entender como seus sistemas trarão valor para a organização**.  

Seguir essa abordagem pode levar ao desastre. Isso pode resultar na perda de tempo e recursos da empresa e, no pior dos casos, até custar seu emprego.  

Por isso, em vez de pular direto para a implementação, ao longo destes cursos – especialmente neste primeiro – passaremos **bastante tempo olhando para o quadro geral**.  

Falaremos sobre um conjunto de **princípios fundamentais** que se aplicam a todos os seus projetos de engenharia de dados, ajudando a formar uma **mentalidade estruturada** para construir sistemas de dados bem-sucedidos.  

Mas não se preocupe! Também entraremos no lado prático da implementação.  

Nos exercícios de laboratório destes cursos, você trabalhará com ferramentas e tecnologias de ponta para construir sistemas de dados na **nuvem AWS**.  

# Data Engineering Defined

Tenho observado a evolução da engenharia de dados ao longo do tempo. Os primeiros engenheiros de dados eram, na verdade, engenheiros de software, cujo trabalho principal era desenvolver os aplicativos de software necessários para as organizações. E isso não foi há tanto tempo assim. Naquele período, os dados gerados por esses aplicativos eram amplamente vistos como um subproduto ou um "resíduo". 

![image.png](attachment:image.png)

O que quero dizer com isso? Imagine que você tem um aplicativo de software em execução e ele está registrando vários eventos em um log. Esses registros podiam ser considerados úteis para tarefas como solução de problemas ou monitoramento da saúde do aplicativo, mas não se pensava que possuíssem um valor intrínseco significativo. Podemos imaginar uma analogia com um carro: os dados eram como a fumaça saindo do escapamento—apenas um subproduto do funcionamento do sistema.

Com o tempo, no entanto, as organizações começaram a reconhecer o valor intrínseco dos dados. À medida que o volume e a variedade de dados gerados por aplicativos, carregados por usuários ou criados pela digitalização de registros aumentavam, aqueles mesmos engenheiros de software passaram a se concentrar no desenvolvimento de sistemas especificamente voltados para a ingestão, armazenamento, transformação e disponibilização de dados para diversos casos de uso. Com isso, surgiu a engenharia de dados como uma função central dentro de muitas organizações que trabalham com dados. Foi assim que o papel do engenheiro de dados nasceu.

### Definição de Engenharia de Dados

No nosso livro *Fundamentos da Engenharia de Dados*, meu coautor Matt Housley e eu propomos a seguinte definição para engenharia de dados:

> **Engenharia de dados é o desenvolvimento, implementação e manutenção de sistemas e processos que transformam dados brutos em informações de alta qualidade e consistentes, que apoiam casos de uso posteriores, como análise e aprendizado de máquina.** 

Além disso, a engenharia de dados se encontra na interseção de diversas disciplinas, incluindo **segurança, gerenciamento de dados, DataOps, arquitetura de dados, orquestração e engenharia de software**.

Neste momento do curso, essa definição pode parecer um pouco abstrata ou exigir explicações adicionais sobre alguns dos termos mencionados. Mas não se preocupe! Ao longo do curso, exploraremos todos esses conceitos em detalhes, para que você compreenda exatamente o que essa definição significa e como se aplica na prática.

### O Ciclo de Vida da Engenharia de Dados

![image-2.png](attachment:image-2.png)

Além de definir engenharia de dados, no nosso livro também criamos um diagrama para visualizar seu ciclo de vida. Esse diagrama será amplamente utilizado ao longo do curso, por isso é útil apresentá-lo agora.

Podemos pensar no ciclo de vida da engenharia de dados como uma série de estágios:

 **Geração de dados e sistemas de origem**  
   No lado esquerdo do diagrama, temos a geração de dados e os sistemas de origem. Esses sistemas podem ser qualquer tipo de aplicativo de software, dados gerados por usuários, medições de sensores ou outras fontes. De qualquer forma, o ciclo de vida começa com a geração de dados.

 **Ingestão, transformação, armazenamento e disponibilização de dados**  
   No centro do ciclo de vida, temos as fases principais: **ingestão, transformação, armazenamento e disponibilização de dados**. Essas são as áreas nas quais você, como engenheiro de dados, se concentrará. 

   Um detalhe importante do diagrama é que **o armazenamento de dados se estende por todas as outras fases**, pois é uma parte essencial de cada uma delas. Isso significa que, independentemente de estarmos ingerindo, transformando ou servindo dados, sempre precisamos de um local adequado para armazená-los.

   ![image-3.png](attachment:image-3.png)

 **Casos de uso finais**  
   No lado direito do diagrama, temos os **casos de uso finais**, que representam como os stakeholders da organização extrairão valor dos dados. Esses casos incluem **análises, aprendizado de máquina e Reverse ETL** (processo de enviar os dados transformados de volta para os sistemas de origem, agregando valor adicional para os usuários desses sistemas).

Dentro do curso, usaremos frequentemente o termo **pipeline de dados** para descrever coletivamente as várias etapas pelas quais os dados passam, desde sua geração até os casos de uso finais. O pipeline de dados pode ser visto como uma combinação de arquitetura, sistemas e processos que movimentam os dados ao longo das fases do ciclo de vida da engenharia de dados.

Como engenheiro de dados, sua função é gerenciar esse ciclo de vida, garantindo que os dados fluam de forma eficiente desde os sistemas de origem até os casos de uso finais, como análise e aprendizado de máquina. Em termos mais simples, seu trabalho consiste em **pegar dados brutos de alguma fonte, transformá-los em algo útil e disponibilizá-los para consumo posterior**.

### Os Fundamentos da Engenharia de Dados

Na definição de engenharia de dados apresentada anteriormente, mencionei que a área se encontra na interseção de **segurança, gerenciamento de dados, DataOps, arquitetura de dados, orquestração e engenharia de software**. No livro *Fundamentos da Engenharia de Dados*, chamamos esses seis componentes de **correntes subjacentes do ciclo de vida da engenharia de dados**.

![image-4.png](attachment:image-4.png)

Com o diagrama do ciclo de vida em mente, podemos incluir essas correntes subjacentes na parte inferior do diagrama. Elas não são estágios do ciclo de vida, como os elementos principais descritos anteriormente, mas sim conceitos transversais que influenciam todas as fases.

A melhor forma de interpretar esse diagrama é a seguinte:
- Na parte superior, temos os estágios do ciclo de vida da engenharia de dados: **geração de dados, ingestão, armazenamento, transformação e disponibilização**.
- Abaixo, temos as **correntes subjacentes**, que incluem **segurança, gerenciamento de dados, DataOps, arquitetura de dados, orquestração e engenharia de software**.
- Cada uma dessas correntes é relevante para todas as fases do ciclo de vida, influenciando como os dados são processados, armazenados e disponibilizados.

# The Data Engineer Among Other Stakeholders

Como mencionei anteriormente, no seu papel como engenheiro de dados, sua função é obter dados brutos de alguma fonte, transformá-los em algo útil e torná-los disponíveis para casos de uso posteriores. No entanto, esse processo não ocorre isoladamente. Para saber exatamente como transformar os dados brutos em algo útil para os consumidores finais, você precisa compreender profundamente suas necessidades.  

Se você for bem-sucedido como engenheiro de dados, estará fornecendo dados para os usuários downstream de uma maneira que agregue valor para eles e os ajude a alcançar seus objetivos. Já mencionamos alguns desses casos de uso potenciais, como análise de dados e aprendizado de máquina.  

### Quem São os Consumidores de Dados?  

Os consumidores de dados downstream podem incluir:  
- **Analistas de dados**,  
- **Cientistas de dados**,  
- **Engenheiros de aprendizado de máquina**,  
- Outros profissionais da organização que precisam tomar decisões baseadas em dados, como **vendedores, profissionais de produto, marketing ou executivos**.  

Por exemplo, suponha que o consumidor de dados downstream seja um **analista de negócios** que precisa executar consultas SQL em um banco de dados para gerar dados para diferentes tipos de análise. Eles usarão esses dados para criar dashboards, analisar tendências e fazer previsões sobre certas métricas.  

Para atender com sucesso esse analista, você precisaria discutir com ele aspectos como:  
 **Frequência das consultas ao banco de dados**: Com que frequência os dashboards precisam ser atualizados?  
 **Informações extraídas em cada consulta**: Que tipos de dados são necessários?  
 **Estrutura de dados otimizada**: Seria útil criar junções pré-definidas entre tabelas ou agregar os dados antecipadamente para agilizar as consultas?  
 **Latência aceitável**: Os dados podem ter um atraso de uma hora, um dia ou precisam ser em tempo real?  

![image.png](attachment:image.png)

Além desses requisitos, é fundamental alinhar a **definição dos dados** com os analistas. Por exemplo, se o analista precisar do valor total de vendas diárias, isso pode parecer simples. No entanto, em uma empresa com atuação global, é essencial definir **qual fuso horário será utilizado** e **qual será o horário de início e término de cada dia**.  

Esse é apenas um exemplo, mas dependendo do seu usuário final e do seu caso de uso, as considerações podem variar significativamente.  

### Entendendo o Valor do Negócio  

![image-3.png](attachment:image-3.png)

Como engenheiro de dados, é importante estar envolvido na estratégia geral da empresa para compreender melhor **o valor comercial** que pode ser extraído dos dados que você fornece. Além disso, você precisa saber **quais métricas são importantes para o negócio** e para os stakeholders downstream.  

### Considerando os Stakeholders Upstream  

![image-2.png](attachment:image-2.png)

Além dos consumidores downstream, há também os stakeholders **upstream**. Eles são responsáveis pelo desenvolvimento e manutenção dos sistemas-fonte dos quais você obtém dados brutos.  

Os stakeholders upstream geralmente são **engenheiros de software** que desenvolvem esses sistemas-fonte. Eles podem ser colegas da sua empresa ou desenvolvedores responsáveis por fontes de terceiros das quais você consome dados.  

Aqui, os papéis se invertem: **você passa a ser o consumidor de dados**, e os responsáveis pelos sistemas-fonte são os provedores. Assim como no exemplo com o analista de negócios, você precisará se comunicar com esses proprietários de sistemas para entender:  
- **Volume e frequência** dos dados gerados,  
- **Formato dos dados**,  
- **Aspectos críticos do ciclo de vida da engenharia de dados**, como segurança da informação e conformidade regulatória.  

Se você desenvolver um relacionamento adequado com os responsáveis pelos sistemas-fonte, poderá influenciar **como os dados brutos são disponibilizados para você**. Com uma comunicação aberta, eles poderão informá-lo previamente sobre **interrupções no fluxo de dados**, **mudanças de esquema**, entre outras alterações que possam impactar seu pipeline de dados.  

Em alguns casos, os sistemas-fonte estarão **fora da sua organização** e **fora do seu controle direto**. Mesmo assim, se você conseguir se conectar com os responsáveis por esses sistemas, poderá obter uma compreensão melhor das aplicações que geram os dados que você consome.  

# Business Value

Qualquer empresa que contrata você como engenheiro de dados faz isso porque acredita que você agregará valor à organização, assim como qualquer outro funcionário.

Recentemente, conversei com meu amigo Bill Inman, que é um dos principais líderes de pensamento e uma das pessoas mais experientes na área de dados. Quando perguntei a ele qual conselho daria a alguém que está começando na indústria, ele enfatizou a importância de encontrar e entregar valor para o negócio. Aqui está o que Bill disse:

**"Que conselho você daria para alguém que está começando na área de dados?"**  

*"Eu daria o mesmo conselho que daria a um assaltante de banco: vá para onde está o dinheiro. Se você quer ter um sucesso duradouro e significativo na nossa indústria, encontre o valor do negócio. Não fique preso a todas as novas tecnologias que surgem. A cada nova inovação que aparece, vá para onde há valor para o negócio. Porque, no fim das contas, o valor para o negócio impulsiona tudo o que fazemos em tecnologia. E é fácil se perder e ficar obcecado com tecnologia. Não há nada de errado com tecnologia. Afinal, eu sou um técnico, eu adoro tecnologia. Mas a principal coisa que você precisa pensar agora é: se você não se importa com o sucesso e quer apenas explorar coisas novas e interessantes, vá em frente. Mas não espere obter grandes recompensas por isso.  

Então, como Willie Sutton disse quando perguntaram por que ele roubava bancos: 'Porque é onde está o dinheiro'. O mesmo vale para a tecnologia: procure o valor para o negócio."*  

---

### O que significa agregar valor como engenheiro de dados?

Ok, então como engenheiro de dados, você precisa buscar o valor para o negócio. Mas o que isso realmente significa?  

![image.png](attachment:image.png)

Na minha experiência, o valor para o negócio é, de certa forma, algo subjetivo. O que quero dizer com isso é que, por exemplo, suponha que sua organização espere que seu trabalho como engenheiro de dados contribua para o crescimento da receita. Nesse caso, se o seu gerente ou os líderes da empresa perceberem que seu trabalho está ajudando a aumentar a receita da empresa, parabéns! É muito provável que você seja reconhecido por agregar valor à organização.  

![image-2.png](attachment:image-2.png)

Por outro lado, se o seu trabalho for percebido apenas como um grande custo sem um retorno significativo sobre o investimento, pode ser que você precise começar a procurar outro emprego.  

![image-3.png](attachment:image-3.png)

Mas, em muitos casos, o valor para o negócio não é apenas uma questão de lucro e prejuízo. Ele pode assumir muitas formas diferentes, como vimos no vídeo anterior. No seu trabalho como engenheiro de dados, você interagirá com várias partes interessadas (stakeholders). Muitas vezes, serão essas partes interessadas que decidirão por si mesmas se você está agregando valor. E, em geral, isso significa que elas avaliarão se percebem você como alguém que as ajuda a atingir seus objetivos.  

Perceba que, em todos esses exemplos, estou falando sobre como o seu trabalho **é percebido**, e não sobre **o que você realmente faz**. A quantidade de valor que você gera para o negócio e para os stakeholders será determinada por aqueles que recebem esse valor.  

Portanto, de modo geral, quando você atende às necessidades das partes interessadas, você está fornecendo valor para elas — seja na forma de aumento de receita, redução de custos, maior eficiência no trabalho ou algo mais, como contribuir para o lançamento bem-sucedido de um produto.  

---

### Priorização de demandas e tomada de decisões

Dito isso, uma vez que você identificar todas as necessidades de dados das partes interessadas da sua organização, não será incomum perceber que essas necessidades coletivas superam em muito a capacidade ou os recursos disponíveis para criar soluções.  

Isso significa que você precisará **priorizar**. Será necessário descobrir quais projetos são mais viáveis, quanto tempo levariam para serem implementados, entre outros fatores.  

Na prática, acredito que definir exatamente **onde focar e como usar melhor seu tempo como engenheiro de dados** poderia ser o tema de um curso inteiro. Então, não entrarei em mais detalhes aqui.  

Por enquanto, vamos seguir em frente.  

Se você já definiu **qual tipo de sistema deseja construir**, o próximo passo é **identificar os requisitos desse sistema**.  

# System Requirements

A melhor maneira de garantir que você está entregando valor para as partes interessadas é primeiro entender suas necessidades e, em seguida, traduzi-las em requisitos para os sistemas que você desenvolve. Antes de começarmos a escrever qualquer código ou alocar recursos na nuvem, gostaria de dedicar um tempo para falar sobre o que significa reunir requisitos para o seu sistema.  

### O Que São Requisitos?  

O termo "requisitos" pode ter diferentes significados no contexto dos negócios e da engenharia. Podemos classificá-los em três grandes categorias:  

 **Requisitos de Negócio**: Definem os objetivos gerais da empresa. Exemplos incluem aumentar a receita ou expandir a base de usuários.  
 **Requisitos das Partes Interessadas**: São as necessidades individuais dentro da organização, ou seja, aquilo de que os funcionários precisam para realizar bem seu trabalho.  
 **Requisitos do Sistema**: Descrevem o que um sistema precisa fazer para atender tanto aos requisitos do negócio quanto aos das partes interessadas.  

Os requisitos do sistema geralmente se dividem em duas categorias:  

- **Requisitos Funcionais (O Que)**: Definem o que o sistema precisa fazer. No contexto da engenharia de dados, isso pode incluir atualizações regulares em um banco de dados que alimenta painéis analíticos ou alertas quando há uma anomalia nos dados.  
- **Requisitos Não Funcionais (Como)**: Descrevem como o sistema executará suas funções. Isso pode incluir especificações técnicas para ingestão de dados, orquestração de pipelines ou armazenamento, garantindo que o sistema atenda às necessidades dos usuários finais.  

### A Importância de Reunir Requisitos  

![image.png](attachment:image.png)

Para construir qualquer sistema de dados, é essencial começar com um conjunto de requisitos. Isso pode abranger desde requisitos estratégicos de negócios e das partes interessadas até características específicas dos produtos de dados e requisitos técnicos detalhados, como capacidade de memória e armazenamento. Além disso, é necessário levar em conta restrições de custos, requisitos de segurança e conformidade regulatória.  

O primeiro e mais importante passo em qualquer projeto de engenharia de dados é coletar esses requisitos. Normalmente, os requisitos vêm das partes interessadas que esperam atingir seus objetivos por meio do sistema que você está desenvolvendo.  

No entanto, há um desafio: as partes interessadas geralmente não se expressam em termos de requisitos técnicos concretos. Em vez disso, elas falam sobre metas de negócios, e cabe a você interpretar essas metas e traduzi-las em requisitos técnicos para o sistema.  

### O Processo de Coleta de Requisitos  

A coleta de requisitos pode variar dependendo do sistema que você está construindo, mas sempre começa com conversas com as partes interessadas. O modo como essas conversas são conduzidas depende do nível técnico do interlocutor em relação a dados e sistemas de dados, bem como de seu papel na organização.  

Nos próximos conteúdos, você será apresentado a profissionais experientes nessa área.  

- **Sol Rashidi**, uma executiva de dados que trabalhou em grandes empresas, compartilhará dicas sobre como novos engenheiros de dados podem se comunicar com diferentes partes interessadas, independentemente do nível técnico de cada uma.  
- **Jordan Morrow**, conhecido como "o padrinho da alfabetização em dados", apresentará estratégias sobre como conduzir a coleta de requisitos ao interagir com diferentes partes interessadas.  

# Conversation with Sol Rashidi

**Narrador:**  
A posição de Chief Data Officer, ou CDO, é uma função relativamente nova no mundo dos negócios. Mas, com a ascensão dos dados como um ativo-chave para as empresas, muitas organizações estão criando estruturas dedicadas para gerenciar e extrair o máximo de valor de seus dados.  

Sol Rashidi assumiu uma das primeiras posições executivas de dados no nível C, ao ocupar o cargo de Chief Data and AI Officer na Royal Caribbean em 2016. Ao longo da última década, ela liderou organizações de dados e analytics como Chief Data ou Data Analytics Officer em grandes empresas multinacionais, incluindo Sony Music, Merck Pharmaceuticals e Estée Lauder. Ela recebeu inúmeros prêmios e reconhecimentos, como CDO do Ano, estar entre os 100 maiores inovadores em dados e analytics, entre os 100 principais líderes de pensamento em IA, e uma das 50 mulheres mais poderosas na área de tecnologia, entre muitos outros. Ela também é autora best-seller do livro *Your AI Survival Guide, lessons learned from real world AI deployments*.  

**Entrevistador:**  
Sol, é ótimo ter você aqui.

**Sol Rashidi:**  
>> Obrigada. É maravilhoso estar aqui.

---

### Início da Carreira: Como Sol Entrou no Mundo dos Dados e da IA

**Entrevistador:**  
Então, vamos começar com um pouco de sua história. Como você entrou no campo de dados e IA?

**Sol Rashidi:**  
>> Nossa, foi completamente por acaso. Acho que ninguém cresce dizendo: "Ei, eu quero ser engenheiro de dados, analista de dados ou até cientista de dados." Eu me formei na faculdade com um diploma em química, e não queria nada a ver com química, então decidi seguir o que eu amava. Durante a faculdade, pratiquei esportes, fui para Berkeley e continuei praticando depois disso. Na verdade, joguei rugby na equipe feminina de rugby. Mas, com o passar do tempo, as coisas simplesmente não se recuperam tão rapidamente e tive que pendurar as chuteiras. Então, decidi: "Ok, qual é o emprego que ninguém quer e para o qual eu posso me candidatar e conseguir imediatamente?" E, de forma curiosa, acabou sendo a função de engenheira de dados.  

A boa notícia foi que encontrei minha tribo, encontrei meu povo. A má notícia foi que, depois de seis meses, me disseram que eu não tinha mais permissão para tocar em um pingo de código, porque tudo o que eu enviava para produção era um verdadeiro "gambiarra". E assim, disseram: "Você não pode mais tocar código." E eu pensei: "Tudo bem." Mas continuei com isso. Era a minha tribo, era a minha comunidade, tínhamos as mesmas piadas, os mesmos estilos.  
E, de forma curiosa, o que percebi foi algo realmente bom: engenheiros de dados são brilhantes no que fazem, mas às vezes podem não conseguir traduzir seu trabalho em termos comerciais ou de negócio. E uma coisa que sempre gostei de estudar e observar foram os jargões do mundo dos negócios, as métricas, os KPIs e os demonstrativos de resultados. O mundo dos negócios sempre me fascinou. E, de forma aleatória, acabei me tornando uma espécie de tradutora glorificada, pois entendia o trabalho deles, mesmo que não me permitissem mais tocar em código. Mas comecei a entender o negócio, e assim pude traduzir todo o excelente trabalho que meus colegas estavam realizando para mostrar a relevância para a empresa. Então, o negócio me notou e disseram: "Bem, parece que te entendemos melhor do que alguns dos seus pares; você pode ser nossa pessoa de referência para tudo relacionado à engenharia e análise de dados." E assim, a carreira foi, de certa forma, ganhando impulso como se fosse uma árvore de Natal.  

Fiz uma série de posições diferentes, mas os maiores marcos foram dois componentes:  
- Tornei-me consultora SAP Platinum MDM – não faça isso, pois basicamente eu só fazia migrações de ERP. Não há nada mais estressante do que uma migração.  
- Depois, evoluí para me tornar a líder de Enterprise Data Management. Em seguida, gerenciei uma equipe, uma prática, depois uma divisão, e acabei me tornando a pessoa referência, se assim se pode dizer, para tudo que era relacionado a dados na IBM, pelo menos no lado de consultoria.  

Então, após a vitória do Watson sobre Ken Jennings em 2011, a IBM decidiu levar o Watson ao mercado. Você não pode fazer IA sem dados. Tive um chefe maravilhoso, seu nome era Jay Bellissimo. Eu disse: "Jay, quero participar, quero entrar, treinador, me deixe entrar." Lembro que implorei gentilmente por quatro meses. E então, ele finalmente disse: "Ok, estamos prontos para você." E a partir daí, as coisas decolaram na área de IA.

---

### Ascensão à Alta Gestão: Como se Tornou uma Executiva C-Suite

**Entrevistador:**  
E o que aconteceu depois disso? Como você se tornou uma executiva do nível C?

**Sol Rashidi:**  
>> Para ser honesta, eu nunca pedi permissão. Nunca esperei que as coisas me fossem entregues. Sempre tive essa habilidade de identificar o que queria fazer. Eu abordava as coisas de maneira graciosa – não era como um elefante em uma loja de porcelanas, mas era muito direta e transparente sobre onde eu queria chegar, e fui implacável na minha busca.  

Fui parceira na Ernst and Young, eventualmente, quando saí da IBM e do Watson, e fui a parceira líder gerenciando tecnologia e dados para o maior cliente que tínhamos na época, realizando uma transformação digital. Isso foi em 2015, quando o termo transformação digital realmente tinha significado. E esse era o meu cliente. Cerca de nove meses depois, sugeri que eles contratassem um CDO, porque estávamos fazendo todo o trabalho e não havia transferência de conhecimento ocorrendo. Naquela época, o escritório estava em Miami, e não havia talento tecnológico suficiente em Miami, então eu até ajudava na entrevista de candidatos. Quatro meses depois disso, eles se aproximaram de mim e disseram: "Você sabe, o bom, o ruim e o feio. Você aparece todos os dias de forma totalmente resiliente, parece que ama dados, e consegue explicá-los para o negócio de uma forma realmente clara. Você teria interesse em se juntar ao nosso quadro de liderança?"  
E foi assim que, em 2016, me juntei a eles como Chief Data and AI Officer.

---

### A Importância dos Engenheiros de Dados e Conselhos para Aspirantes

**Entrevistador:**  
Na sua experiência liderando equipes de dados, obviamente você teve a oportunidade de trabalhar com engenheiros de dados. Qual foi a sua experiência trabalhando com eles?

**Sol Rashidi:**  
>> Engenheiros de dados são brilhantes, e são a espinha dorsal de tudo. Acredito que é uma posição muito ingrata, mas tudo o que eles fazem é fundamental. Sempre fui excessivamente protetora com os meus engenheiros de dados, justamente pelo fato de que não importa se você está executando campanhas de marketing, tentando definir uma nova segmentação ou um novo grupo de consumidores para atingir no mercado, ou lançando um novo produto. No final das contas, tudo depende da informação e do fluxo de informações, e os engenheiros de dados têm as chaves desse castelo. O trabalho deles é literalmente analisar, fazer investigações e construir a pipeline para que possamos obter o que precisamos, quando precisamos.  

Portanto, eu diria:  
1. Engenheiros de dados são brilhantes.  
2. Eles são uma comunidade subvalorizada e merecem mais destaque.  
3. Nenhuma operação de negócio pode funcionar sem eles. Eles são, de fato, a espinha dorsal de cada empresa, e precisamos fazer um trabalho melhor em protegê-los, incentivá-los e mostrar a eles que o que fazem realmente importa.

---

### Conselhos para Aspirantes a Engenheiros de Dados

**Entrevistador:**  
Então, qual é o seu conselho para os aspirantes a engenheiros de dados?

**Sol Rashidi:**  
>> Se você aspira a ser um engenheiro de dados, precisa ter coluna vertebral, e não apenas um desejo passageiro. A função requer um elemento de resiliência, mas lembre-se: você detém as chaves do castelo. A informação que você vai conhecer e como ela flui dentro e fora de qualquer ecossistema é extremamente poderosa – é a combinação de arte e ciência.  

Frequentemente, os engenheiros de dados podem ser considerados como uma função de bastidores, mas não tenham medo de se posicionar na linha de frente. Se você tem aspirações de entrar na gestão ou na liderança, trabalhe suas habilidades de comunicação. Se você simplesmente tem esse fogo interior e quer fazer mais, não se limite a trabalhar no seu escritório em casa ou no seu cubículo, codificando o dia inteiro. Vá para o centro das atenções.  

Entenda o jargão do mundo dos negócios. O contexto é tudo para os engenheiros de dados, porque você pode fazer a transferência da informação do sistema de origem para o sistema de destino, mas ela aparecerá exatamente como está – sem contexto, o negócio imediatamente a desconsiderará. Então, eu diria: se essa é a carreira que você escolheu, saiba que você importa. Sua função é extremamente crítica para cada operação do negócio, esteja ela reconhecida ou não. Certifique-se de compreender a linguagem dos negócios e o que é importante para eles. A comunicação é fundamental – não apenas falar, mas garantir que o que você diz seja entendido como pretendido. E não tenha medo de pedir para ser mais orientado à linha de frente, em vez de ficar restrito aos bastidores, se você tiver essas aspirações.

---

### Adaptando a Comunicação com os Stakeholders

**Entrevistador:**  
Ok, ótimo. Tudo muito valioso. Então, o que estamos fazendo neste ponto do curso é passar pelo processo de levantamento de requisitos. Enfatizei que uma peça crítica no levantamento de requisitos é compreender os objetivos gerais do negócio, e talvez a melhor forma de fazer isso seja conversar com a liderança. Quando você era Chief Data Officer, você interagia muito com seus engenheiros de dados?

**Sol Rashidi:**  
>> Eu interagia, sim, mas como aquela era a minha tribo, eu conversava muito com meus engenheiros de dados, arquitetos de dados, analistas de dados, cientistas de dados. Uma das minhas coisas favoritas era realizar sessões de quadro branco quando estávamos tentando resolver problemas. Mas, venho de um perfil que valoriza esse tipo de abordagem, e acredito que, se você vai conversar com executivos de negócios ou líderes de qualquer tipo – mesmo a gerência intermediária – você precisa conhecer o seu público.  

Se eu estiver conversando com um líder funcional, alguém que não entende nada do seu jargão, eu jamais falaria sobre camadas semânticas, camadas de conformidade, sistemas de origem e destino e construção de pipelines, pois os olhos dessa pessoa irão se apagar, e você perderá a atenção imediatamente, sem sequer conseguir uma reunião de acompanhamento.

> **Observação:** Iniciar o vídeo a partir do 9:01 e seguir o transcript a partir de 9:01.

Conheça a linguagem do seu interlocutor antes de abordá-lo. Mas, se ele for tecnofuncional, mantenha uma comunicação leve – use algum jargão, mas apenas o suficiente para que a pessoa acompanhe, sem sobrecarregá-la. Se for um executivo técnico, então, 100% – demonstre sua expertise, mostre sua habilidade, isso não será um problema. Mas, realmente, você precisa conhecer o executivo de negócios com quem está se conectando e como ele percebe a sua comunicação.  

Portanto, eu diria:  
- Se você é um engenheiro de dados, observe o título da pessoa e a qual departamento ela se reporta.  
- A menos que a pessoa esteja no escritório do CIO ou do CDO, assuma que ela tem um perfil mais funcional.  
- Comece a conversa de maneira funcional, a menos que o interlocutor direcione a conversa para um caminho mais técnico, então você pode se ajustar.

# Conversation with Jordan Morrow

**Jordan:**  
— O que está pegando, Jordan? Como vão as coisas?  
— Ei, como você está, meu amigo?  
— Bem. Para os alunos, este é o meu bom amigo, Jordan Morrow. Na verdade, nós moramos na mesma cidade, embora nos vejamos com mais frequência quando estamos fora dela. É ótimo te ver.  
— Você também, meu amigo.

**Apresentador:**  
— Incrível. Acho que você é conhecido como um dos fundadores da alfabetização em dados. Eu te chamo de “Padrinho da Alfabetização em Dados”, mesmo que isso te deixe meio desconfortável. Não sei bem como me sinto em relação a isso, é claro.  
— Incrível.

---

### Definição de Alfabetização em Dados

**Apresentador:**  
Mas, para os alunos, você pode descrever o que é alfabetização em dados?

**Jordan Morrow:**  
— Pense em alfabetização em dados como o conforto e a confiança em usar dados. Por definição, é a capacidade de ler, trabalhar, analisar e comunicar informações com base em dados.  
— Mas, basicamente, é sobre ajudar todos – não apenas os profissionais de dados e analytics – a terem conforto com os dados, dando a todos a oportunidade de, se os dados forem democratizados ou se estiverem tentando usá-los em seu trabalho, se sentirem mais à vontade ao fazê-lo.

---

### Importância da Alfabetização em Dados

**Apresentador:**  
— Isso é incrível. Mas por que isso é importante? Por que não simplesmente assumir que todo mundo já sabe lidar com dados?

**Jordan Morrow:**  
— Bem, pense em todos os produtos de dados: as organizações têm tentado extrair valor dos dados há quanto tempo? Esse é um tópico completamente diferente, pois definir o que realmente significa valor é complexo.  
— Se você está construindo produtos de dados, produtos de IA ou algo similar, precisa que as pessoas os adotem.  
— Se elas não se sentem confortáveis ou não possuem as habilidades necessárias, isso pode impedir o verdadeiro sucesso das iniciativas de dados e estratégias de dados.  
— Quando as organizações investem em dados, ferramentas e tecnologia, não basta simplesmente colocá-los diante das pessoas e dizer “aí está”.  
— É como se você soubesse que alguém é alpinista: não se pode colocar uma pessoa em frente a uma parede de escalada difícil sem antes fornecer algum tipo de treinamento para desenvolver o conforto necessário para escalá-la.  
— O mesmo vale para os dados. Não posso simplesmente colocar dashboards diante das pessoas e dizer “vá encontrar insights”. Precisamos que elas desenvolvam a capacidade de aproveitar o trabalho de qualidade que é feito, para que ele seja adotado e utilizado de forma eficaz.  
— Além disso, você não quer enfrentar problemas culturais onde as pessoas não querem lidar com dados, o que pode se tornar um grande obstáculo.

---

### Levantamento de Requisitos e Compreensão do Público

**Apresentador:**  
— Uma parte importante do início deste curso é sobre conversar com o lado de negócios, descobrir requisitos, entender quais são os objetivos da empresa. Quais sugestões você daria para as pessoas que estão tentando levantar requisitos e descobrir os objetivos do negócio?

**Jordan Morrow:**  
— Uma das chaves – que muitas vezes é esquecida – no levantamento de requisitos para construir bons produtos de dados é realmente entender o seu público.  
— A primeira coisa a fazer é compreender os objetivos de negócios da empresa. Isso vem através da comunicação, leitura, networking e afins.  
— Mas o próximo passo no levantamento de requisitos é: preste atenção às pessoas para as quais você está construindo o produto.  
— Não se trata apenas do que o negócio quer; é sobre o que elas estão procurando.  
— Se for um diretor de marketing, um diretor de riscos, uma equipe de vendas ou qualquer outro, descubra o que os motiva.  
— Assim, quando o produto estiver concluído e você estiver tentando promovê-lo para alcançar a adoção, não só os objetivos de negócio estarão atendidos, mas sua história também se conectará com as necessidades do público-alvo, permitindo que eles se engajem de forma diferenciada.

**Apresentador:**  
— Sempre faça o levantamento de requisitos, mas lembre-se de que esse processo também deve incluir o entendimento do público-alvo.

---

### Considerando Diferentes Públicos-Alvo

**Jordan Morrow:**  
— Exatamente. Existem diferentes perfis para os públicos também.  
— Por exemplo, se você está se encontrando com o C-suite, como um diretor de vendas, esse profissional busca bater metas de vendas.  
— Se estiver trabalhando com um diretor de marketing, o foco será como melhorar as estratégias de marketing.  
— Se for um diretor financeiro, a preocupação pode ser como melhorar o fluxo de caixa.  
— São diferentes abordagens.  
— Dependendo do que você está construindo – e pode ser algo para todos esses públicos –, o desafio aumenta, pois você precisa atender a cada um deles.  
— É um exercício interessante e que definitivamente requer o desenvolvimento de habilidades interpessoais.

---

### Conselho Final para Aspirantes a Engenheiros de Dados

**Apresentador:**  
— Algum outro conselho para aspirantes a engenheiros de dados?

**Jordan Morrow:**  
— O que eu diria, e sobre o qual vou falar melhor no meu próximo livro – que será lançado junto com o curso no final deste ano – é o “Business 101 para o Profissional de Dados”.  
— Assim como não quero transformar todo mundo em profissional de dados com a alfabetização em dados, com a alfabetização em negócios não pretendo transformar todos em executivos de negócios.  
— Seja você um profissional de dados, seja autêntico e seja você mesmo, mas se esforce para entender muito bem como uma empresa opera.  
— Compreender o funcionamento de um negócio é fundamental para os engenheiros de dados, pois quando estão construindo soluções, elas devem estar alinhadas às operações do negócio.  
— Quando se comunicam, a mensagem precisa ser direcionada a esse entendimento.  
— Meu conselho é: não pense que você precisa se tornar o próximo vendedor ou executivo de negócios. Seja um excelente engenheiro de dados, mas dedique-se a entender bem o lado comercial das coisas.

# Requirements Gathering Conversation

O primeiro passo em qualquer projeto de engenharia de dados é a coleta de requisitos, para dar uma noção de como essa etapa pode se parecer na prática. Ao longo destes cursos, apresentaremos uma série de conversas entre mim e o papel do engenheiro de dados dialogando com diferentes partes interessadas. O objetivo dessas conversas simuladas é mostrar como eu conduziria o processo de coleta de requisitos para alguns exemplos de sistemas de dados.  

Vou demonstrar como pode ser uma conversa entre você — na verdade, eu, neste caso, o engenheiro de dados — e uma parte interessada chave, que é minha amiga Colleen, que interpretará a cientista de dados que precisa de ajuda para obter os dados necessários para o trabalho dela. Na realidade, Colleen é uma profissional de dados com muita experiência em conversas com partes interessadas em seu próprio trabalho. Por isso, ela me ajudará em várias dessas conversas ao longo destes cursos. Mas, antes de começarmos, vou dedicar um momento para apresentá-la e, em seguida, iniciaremos a conversa.

**Como está, Colleen?**  
– Bem, e você?  
– Bem, obrigado.

Então, hoje vamos conversar com Colleen Foch. Ela é gerente técnica sênior. E acho que isso significa que você é cientista de dados, analista de marketing e engenheira de software.  
– Todas essas funções?  
– Sim, o que você realmente faz?  
– Bem, eu trabalho especificamente com nossa equipe de marketing e, por isso, lido com muitas das tecnologias de marketing. No dia a dia, passo bastante tempo no Snowflake e no DBT construindo modelos de dados, ou seja, fazendo muita engenharia de dados. Aliás, seu livro me ajudou bastante. Obrigada.  
– Incrível, e em uma vida passada, você também fez coisas interessantes.  
– Sim, eu estive no atletismo por muito tempo, nadei desde pequena, fui para a Cal Berkeley, ganhei um ou dois campeonatos nacionais, participei de revezamentos que detinham recorde americano, e depois decidi praticar CrossFit. Fiz isso profissionalmente por alguns anos, participei dos CrossFit Games tanto individualmente quanto em equipe. Depois, pratiquei bobsled por alguns anos, entrei para a seleção nacional dos EUA e, como é natural, acabei entrando na área de dados.  
– Eu literalmente fiz a mesma coisa na minha carreira.  
– Foi assim que nos conhecemos. (risos)  
– Que legal.

---

Agora, vamos realizar uma entrevista simulada com as partes interessadas, onde Colleen interpretará o papel de cientista de dados e eu o de engenheiro de dados. Então, vamos começar.

**Joe:**  
Oi, sou o Joe e acabei de entrar esta semana como novo engenheiro de dados. Estou muito animado para começar a trabalhar em projetos de dados com você e pensei que seria ótimo conversarmos sobre o que você está fazendo e de que forma posso ajudar.

**Colleen:**  
– Claro, é muito bom conhecê-lo e tê-lo na empresa. Eu comecei aqui como cientista de dados há alguns meses e, para dizer o mínimo, tem sido uma correria.

**Joe:**  
– Correria? Conte-me mais.  
– Bem, nossa equipe de marketing está solicitando uma análise em tempo real das vendas de nossos produtos por região. Eles querem poder observar, por exemplo, quais produtos os clientes compram e onde eles estão localizados, entre outras informações. Atualmente, todas as informações e dados de vendas dos produtos estão armazenados no banco de dados de produção da nossa plataforma de vendas. A equipe de engenharia de software não quer me dar acesso direto, pois correm o risco de que eu possa causar algum problema. Por conta disso, eles têm me enviado um “dump” de dados uma vez por dia, que eu faço o download manualmente.

**Joe:**  
– Entendo, então você está recebendo as informações necessárias, mas o processo é um pouco complicado por precisar fazer o download manualmente.  
– Bem, pode-se dizer que estou obtendo as informações de que preciso, mas também recebo muitos dados desnecessários. Acabo gastando muito tempo filtrando esses dados – cerca de 90% são informações que não preciso – e eles chegam armazenados em diversos arquivos CSV e JSON. Por isso, preciso executar uma série de etapas de processamento para extrair o que me é útil de cada arquivo, limpar os dados, agregá-los e, então, salvá-los em um formato que eu possa usar para construir meus dashboards.

**Joe:**  
– Então, parece que você passa uma boa parte do tempo processando os dados antes de usá-los para suas análises, certo?  
– Sim, com certeza. Provavelmente, passo cerca de 80% do meu tempo limpando e processando os dados. Muitas vezes, meus scripts de processamento travam por causa de anomalias ou entradas inesperadas nos arquivos enviados pela equipe de software. Em algumas ocasiões, a equipe de software mudou o formato dos dados enviados, e eu só descobri isso quando nenhum dos meus scripts funcionava, tendo que refatorá-los para se adequarem ao novo formato. Não é incomum passar o dia inteiro ajustando os dados para que fiquem em um formato utilizável para os dashboards. Enquanto isso, como mencionei, a equipe de marketing quer análises de vendas regionais em tempo real, e muitas vezes, quando estou atualizando os dados, as informações já têm dois dias de defasagem.

**Joe:**  
– Entendo, isso parece um processo bem doloroso. Compreendo que tem sido uma situação complicada para você. Então, em termos de entregar resultados mais rápidos, um dos problemas é que você só recebe os “dumps” de dados uma vez ao dia. Além disso, as etapas de limpeza e processamento são trabalhosas e um tanto imprevisíveis, o que adiciona tempo ao seu trabalho, certo?  
– Sim, atualmente, sinto que seria difícil entregar resultados mais rápidos nessas condições. Mas a equipe de marketing realmente precisa de métricas atuais, não de dados com dois dias de atraso. Por isso, espero que você possa ajudar com isso.

**Joe:**  
– Certo, você mencionou que eles querem atualizações em tempo real. O que exatamente eles pretendem fazer com essas informações?  
– Bem, no trabalho que fizemos até agora, o foco tem sido entender melhor a eficácia das campanhas de marketing, além de observar tendências de vendas de produtos tanto a curto quanto a longo prazo, para que possam programar suas campanhas com mais precisão. Também temos trabalhado em um sistema de recomendação para o site, que sugere produtos aos clientes enquanto eles navegam ou efetuam uma compra.

**Joe:**  
– Interessante. Parece que há alguns casos de uso distintos. Atualmente, você está fornecendo dashboards e um sistema de recomendação que atendem a algumas dessas necessidades. É isso mesmo?  
– Bem, sim e não. Em linhas gerais, os dashboards que eu forneço mostram as vendas de produtos por categoria e região ao longo dos últimos 30 dias, apresentando totais agregados e gráficos de linha com os números diários. Essa visualização foi solicitada para que se pudesse ter uma visão geral das tendências de diferentes regiões. Eles também podem clicar duas vezes em uma região específica para ver um detalhamento mais fino, seja por produto individual ou por uma granularidade temporal maior, como dados horários em vez de diários. Mas, como mencionei, os dados costumam ter pelo menos dois dias de atraso, então não mostram números atuais. Quanto ao sistema de recomendação, estou realizando análises para identificar quais produtos foram os mais populares na última semana ou algo assim, e então repassando esses IDs de produtos para a equipe de software, para que possam exibir recomendações de alguns produtos populares para todos que acessam o site. Ou seja, ainda não há uma personalização individual para cada cliente, apenas uma exibição dos produtos populares. Atualmente, estou trabalhando no treinamento de um modelo para fazer recomendações personalizadas usando um método de filtragem de conteúdo, mas ainda não implantei nada.

**Joe:**  
– Certo, então parece que, para o sistema de recomendação de produtos, você pode precisar de mais dados para o treinamento. E, uma vez que tenha um modelo pronto para ser implantado, precisará de um sistema que forneça os dados de atividade dos usuários da plataforma de vendas para o modelo, e que repasse as recomendações resultantes de volta para a plataforma para serem exibidas ao usuário enquanto ele navega, certo?  
– Sim, esse é o plano. Assim como em qualquer site ou aplicativo de e-commerce, enquanto o usuário navega ou realiza uma compra, ele verá recomendações de outros produtos com base no que esteve visualizando ou adicionando ao carrinho.

**Joe:**  
– Entendi. E quanto aos dashboards que você fornece para o marketing, você disse que eles querem dados atuais, não dados com dois dias de atraso. Você tem uma ideia de quais ações o marketing pretende tomar com base em dados atuais, que não poderiam ser realizadas com dados um pouco mais antigos?  
– Bem, eles comentaram sobre a possibilidade de direcionar suas campanhas publicitárias com base em dados atuais. Suponho que isso possa significar analisar o que os clientes estão fazendo no momento em termos de compras ou outras atividades na plataforma de vendas. Mas não tenho certeza se isso significa que eles precisam saber o que os clientes estão fazendo exatamente neste segundo, ou dentro da última hora, ou se basta saber de forma geral o que está acontecendo hoje e não ontem.

**Joe:**  
– Sem problemas. Vou acompanhar com a equipe de marketing para entender melhor o que eles pretendem fazer. Se eu conseguir identificar qual ação eles planejam tomar com base nos dados, isso me ajudará a definir exatamente como esses dados precisam ser apresentados e qual a tolerância de latência que o sistema pode ter.  
– Sim, faz sentido. Me avise se eu puder ajudar com mais alguma coisa nesse processo.

**Joe:**  
– Ótimo, isso tem sido realmente útil. Se entendi corretamente, o que realmente ajudaria seria encontrar uma forma de realizar uma ingestão mais direta e em tempo real dos dados do banco onde as vendas são registradas. Em seguida, se conseguirmos automatizar e orquestrar de forma mais eficiente a transformação e a disponibilização desses dados no formato que você precisa para seus dashboards e para o sistema de recomendação, estaríamos no caminho certo. Isso está correto?  
– Sim, definitivamente. Isso seria uma ajuda enorme. Se a ingestão e o processamento dos dados pudessem ser feitos de forma automática, de modo que os dados fossem armazenados no formato que preciso, minha vida seria muito mais fácil e eu poderia me concentrar no que faço de melhor, que é analisar os dados.

**Joe:**  
– Ótimo. Então, acredito que um bom próximo passo seria entrar em contato com a equipe de marketing para entender melhor as necessidades deles.  
– Sim, parece ótimo. Obrigada, Jeff.

**Joe:**  
– Certo, obrigado. Bem, isso foi divertido. Esse foi um exemplo de como uma conversa inicial para a coleta de requisitos pode ocorrer. Naturalmente, no mundo real, uma conversa assim pode não ser tão breve ou direta como apresentamos aqui, e cada situação será única. Além disso, haverá outras conversas a serem realizadas. Mas, neste ponto, você já pode começar a pensar em coisas como: quais foram os principais aprendizados? Como você pode transformar as informações obtidas em requisitos reais para o sistema que, eventualmente, será construído?  

# Translate Stakeholder Needs into Specific Requirements

**Introdução**

Você viu um exemplo de como pode ser uma conversa inicial de coleta de requisitos entre você, o engenheiro de dados, e um de seus principais stakeholders – neste caso, um cientista de dados. Deliberadamente, não forneci muitas diretrizes sobre exatamente o que procurar em termos de aprendizados dessa conversa, mas é exatamente isso que vamos fazer aqui.

---

**Análise Detalhada da Conversa**

Vamos analisar mais de perto cada um dos pontos mencionados pelo cientista de dados, bem como as perguntas que fiz a ele. O objetivo é apresentar um layout e uma abordagem que você pode utilizar em conversas como essa para extrair os requisitos dos seus sistemas de dados e identificar outros stakeholders com quem será necessário conversar.

---

**Elementos-Chave da Coleta de Requisitos**

Em resumo, os elementos fundamentais de qualquer esforço de coleta de requisitos serão os seguintes:

 **Conhecer os Sistemas ou Soluções Existentes:**  
   - Investigue quais sistemas ou soluções já estão em vigor para entregar os dados que seus stakeholders precisam para realizar suas tarefas.  
   - Identifique quais são os pontos problemáticos ou as dificuldades desses sistemas.

 **Entender as Ações Planejadas pelos Stakeholders:**  
   - Descubra quais ações os stakeholders planejam tomar com base nos dados que você fornecer.

 **Confirmar o Entendimento:**  
   - Repita o que você aprendeu de volta aos stakeholders para confirmar que compreendeu tudo corretamente.

 **Identificar Outros Stakeholders:**  
   - Identifique quaisquer outros stakeholders com os quais você precisará conversar se ainda estiver faltando informações sobre os sistemas existentes ou as ações planejadas.

---

**Aplicação Prática dos Elementos na Conversa com o Cientista de Dados**

- **Requisitos Relacionados aos Dados de Marketing:**  
  O primeiro comentário do cientista de dados foi que a equipe de marketing precisa de uma análise em tempo real das vendas de produtos por região, mas atualmente recebe apenas um "dump" diário de dados da equipe de software, para evitar comprometer o banco de dados de produção.  
  - Essa solução é claramente subótima.  
  - No entanto, não utilizar o banco de dados de produção para análises ou outros projetos geralmente é considerado uma boa prática, pois, ao executar consultas complexas em um banco de dados de produção enquanto se escreve novas informações para registrar a atividade real dos clientes, há o risco de sobrecarregar e possivelmente derrubar o sistema.

- **Problemas com Mudanças de Esquema e Anomalias nos Dados:**  
  O cientista de dados também mencionou que, às vezes, enfrenta problemas devido a mudanças de esquema ou outras anomalias nos dados.  
  - Diante de mudanças de esquema ou outras interrupções no sistema de origem, você pode considerar a implementação de verificações automáticas nos dados que estão sendo ingeridos, para garantir que tudo esteja conforme o esperado.  
  - Idealmente, seria preferível ser informado sobre essas mudanças ou interrupções antes que elas ocorram, mantendo uma comunicação direta com os responsáveis pelo sistema de origem que fornecem esses dados.

- **Identificação de Necessidade de Conversas com Outros Stakeholders:**  
  Após confirmar o que foi aprendido sobre as soluções existentes e os pontos problemáticos, você também identificou a necessidade de novas conversas com outros stakeholders – especificamente, com os engenheiros de software que mantêm o sistema de origem e o banco de dados de onde os dados serão ingeridos.  
  - Nessas conversas, o objetivo será entender como uma solução de ingestão pode ser melhor do que os "dumps" diários de dados e quais tipos de interrupções ou mudanças podem ser esperadas, além de como você pode ser avisado com antecedência para se preparar para essas mudanças.

- **Desafios no Processo de Limpeza e Processamento dos Dados:**  
  Outro ponto mencionado pelo cientista de dados foi a natureza trabalhosa da limpeza e do processamento dos dados.  
  - Neste caso, a necessidade do stakeholder está clara desde o início, e é basicamente para que outra pessoa (você, o engenheiro de dados) automatize a ingestão e a transformação dos dados no formato exigido.
  - Assim, foi identificado um requisito funcional de que o sistema precisa ingerir, transformar e fornecer os dados no formato que o cientista de dados necessita.
  - Os requisitos não funcionais para esse aspecto do sistema podem incluir, por exemplo, uma exigência de latência, indicando a rapidez com que os dados precisam estar disponíveis em relação ao momento em que foram registrados no sistema de origem.

- **Especificidades de “Tempo Real”:**  
  Um ponto que surgiu em várias ocasiões na conversa foi a necessidade de que os dados estejam disponíveis em tempo real para a equipe de marketing.  
  - Na prática, os termos como “tempo real” podem ser usados de forma vaga.  
  - Há casos em que clientes afirmam precisar de informações em tempo real quando, na verdade, necessitam apenas de um relatório mensal.  
  - Em outros casos, “tempo real” pode significar diário, a cada hora ou até uma latência de frações de segundo.  
  - Portanto, é importante destacar uma tática fundamental na coleta de requisitos: perguntar aos stakeholders qual ação eles planejam tomar com os dados fornecidos.  
  - Ressalta-se que perguntar qual ação será tomada não é o mesmo que perguntar apenas o que eles precisam.  
  - Frequentemente, os stakeholders tendem a dizer diretamente o que necessitam, apresentando uma tradução de suas necessidades e dos requisitos funcionais do sistema.  
  - Contudo, é crucial que você compreenda exatamente o que o stakeholder espera fazer com o produto de dados fornecido, para então mapear esses planos para suas necessidades.

- **Casos de Uso Específicos:**  
  - **Marketing:** Ao questionar sobre as ações que a equipe de marketing planeja realizar, fica claro que as decisões relacionadas às campanhas de marketing se basearão em análises, dashboards e recomendações de produtos oferecidos na plataforma.  
  - **Sistema de Recomendação:** Para o sistema de recomendação, é evidente que as recomendações de produtos precisarão ser fornecidas em quase tempo real – possivelmente em segundos ou menos – para os clientes que estão navegando na plataforma, permitindo o início do planejamento dos requisitos funcionais e não funcionais para esse sistema.  
  - **Dashboards:** Para os dashboards, ainda não está claro exatamente qual ação a equipe de marketing planeja tomar. Assim, será necessário conversar com a equipe de marketing para entender melhor suas expectativas e definir o que “tempo real” significa nesse contexto.

# Thinking Like a Data Engineer

Percorremos um exemplo de conversa para levantamento de requisitos e discutimos quais foram os principais aprendizados dessa conversa em termos de requisitos funcionais e não funcionais para o seu sistema de dados, bem como outros stakeholders com quem conversar. O levantamento de requisitos, como processo, não é exclusivo da engenharia de dados. De fato, é algo que você pode encontrar em vários cenários de desenvolvimento de produtos ou de gerenciamento de produtos. Dependendo da aplicação, a abordagem para levantamento de requisitos pode ter uma aparência um pouco diferente. Mas, de modo geral, o próximo passo após o levantamento de requisitos é decidir os detalhes de como você realmente construirá seu produto ou sistema para atender aos requisitos.

---

### Do Levantamento de Requisitos à Implementação

Na engenharia de dados, seu trabalho incluirá desde o levantamento de requisitos até a implementação dos seus sistemas de dados. Gostaria de compartilhar uma estrutura que chamo de “pensar como um engenheiro de dados”, que você pode usar para qualquer projeto em que esteja trabalhando.

---

### Primeira Fase: Identificação de Objetivos de Negócio e Necessidades dos Stakeholders

Nesta primeira etapa, o seu principal objetivo é determinar quais são os objetivos de negócio e as necessidades dos stakeholders que impulsionarão um projeto. Nessa fase, você deverá:

- **Definir os objetivos de negócio em alto nível:** Tenha clareza sobre as metas estratégicas da empresa.
- **Identificar os stakeholders relevantes:** Descubra quem são todas as pessoas envolvidas ou impactadas pelo projeto e como as necessidades deles se conectam aos objetivos de negócio mais amplos.
- **Realizar conversas individuais:** Converse com cada stakeholder para entender quais sistemas já estão em funcionamento (que você estará construindo ou substituindo) e quais são as necessidades que os sistemas atuais não atendem.
- **Investigar as ações planejadas:** Pergunte aos stakeholders qual ação eles planejam tomar com os produtos de dados que você fornecer. Isso ajudará a identificar os requisitos funcionais reais do sistema que será construído.

---

### Segunda Fase: Definição dos Requisitos Funcionais e Não Funcionais

Na segunda etapa, o seu objetivo é transformar as necessidades dos stakeholders em requisitos funcionais e não funcionais para o seu sistema. Em resumo, isso significa:

- **Requisitos Funcionais:** Descrever o que o sistema deve ser capaz de fazer para atender às necessidades dos stakeholders.
- **Requisitos Não Funcionais:** Descrever as especificações técnicas de como o sistema executará as funções necessárias.
- **Documentação e Validação:** Depois de definir um conjunto de requisitos funcionais e não funcionais, documente suas conclusões e confirme com os stakeholders que um sistema projetado conforme esses requisitos atenderá às suas necessidades.

---

### Terceira Fase: Escolha de Ferramentas, Tecnologias e Protótipo

Na terceira etapa, você escolherá as ferramentas e tecnologias para construir o seu sistema. Essa fase começa com a identificação das ferramentas e tecnologias que podem atender aos requisitos do sistema. Geralmente, haverá múltiplas opções para atender a cada requisito individual, sendo necessário avaliar as compensações entre elas. Para isso, você deverá:

- **Realizar uma análise de custo-benefício:** Compare componentes considerando taxas de licenciamento, estimativas de gastos com recursos na nuvem e outros recursos necessários para construir e manter o sistema.
- **Construir um Protótipo:** Depois de escolher o conjunto de ferramentas e tecnologias que você acredita ser o melhor, monte um protótipo do seu sistema para testar se ele atende às suas expectativas e se parece capaz de entregar valor aos stakeholders.
- **Iterar com os Stakeholders:** Antes de investir tempo e energia na construção completa do sistema de dados, teste se o sistema projetado realmente atende às necessidades dos stakeholders. Cheque com eles e permita que avaliem se o sistema entrega o valor esperado. Recomendo gastar o tempo necessário iterando no protótipo para garantir o sucesso do sistema quando entrar em produção.

---

### Etapa Final: Construção, Implantação e Evolução Contínua

Como último passo nesta etapa final, você construirá e implantará o seu sistema de dados. Uma vez em funcionamento, será necessário:

- **Monitorar e Avaliar:** Acompanhar continuamente o desempenho do sistema e iterar para melhorá-lo sempre que possível.
- **Evoluir com o Tempo:** Qualquer sistema de dados construído precisará evoluir ao longo do tempo. Isso pode ocorrer devido a mudanças nas necessidades dos stakeholders ou, em alguns casos, ao surgimento de novas ferramentas ou tecnologias que possam melhorar o desempenho do sistema, reduzir custos ou oferecer outras vantagens.
- **Processo Cíclico:** Embora essa estrutura tenha sido apresentada como uma sequência de quatro etapas ocorrendo uma após a outra, na realidade ela é um processo contínuo e cíclico. À medida que os objetivos de negócio e as necessidades dos stakeholders evoluem, seus sistemas de dados também precisarão evoluir. Portanto, como engenheiro de dados, você estará sempre em comunicação com os stakeholders sobre suas necessidades e expectativas, avaliando essas necessidades em termos de requisitos para seus sistemas de dados e atualizando os sistemas conforme necessário.

# Data Engineering on the Cloud

![image.png](attachment:image.png)

Como engenheiro de dados, o conjunto real de ferramentas e tecnologias com as quais você trabalha pode variar bastante de uma empresa para outra. Com o advento da nuvem pública e a proliferação de ferramentas open source e proprietárias disponíveis, empresas de todos os tamanhos e de diversos setores agora têm acesso ao mesmo conjunto de ferramentas e tecnologias de alto desempenho.

Muitas empresas hoje estão optando por construir seus sistemas de dados inteiramente na nuvem. Mas, não há muito tempo, a única opção para as empresas era construir e manter sua própria infraestrutura de dados internamente, conhecida como sistemas on premises. Hoje, ainda existem empresas que mantêm parte ou toda a sua infraestrutura de dados on premises e, em certos casos, isso pode ocorrer devido a restrições regulatórias ou simplesmente porque a empresa possui alguns sistemas legados e prefere mantê-los on premises.

Como engenheiro de dados atuando atualmente, é possível que você esteja em uma empresa que possua alguns sistemas on premises, ou talvez até receba a tarefa de migrar um sistema on premises para a nuvem. Contudo, é cada vez mais provável que o seu trabalho como engenheiro de dados ocorra exclusivamente na nuvem.

Embora a AWS tenha sido a primeira nuvem pública popular e continue sendo a mais utilizada atualmente, você poderá encontrar outros provedores de nuvem dependendo de onde trabalhar, como o Google Cloud Platform, Microsoft Azure, entre outros. Nesta especialização, não vamos nos deter nas nuances ou considerações que você possa encontrar se precisar trabalhar com um sistema on premises ou migrar de on premises para a nuvem. Em vez disso, adotaremos uma abordagem “cloud first” para prepará-lo para os cenários que você provavelmente enfrentará como engenheiro de dados.

A nuvem da AWS compreende um conjunto expansivo de recursos e ferramentas. Nesta especialização, meu objetivo não é ensiná-lo tudo sobre engenharia de dados na AWS; em vez disso, adotaremos uma abordagem “just in time”, onde você aprenderá a usar ferramentas específicas para cada laboratório diretamente à medida que as encontrar. Dessa forma, não é necessário ter conhecimentos prévios em computação na nuvem para ter sucesso nestes cursos. Dito isso, ter alguma familiaridade com os conceitos básicos e a terminologia da computação na nuvem ajudará a construir o contexto à medida que você avança nos cursos.

# Intro to the AWS Cloud

Na AWS, descrevemos a nuvem como a entrega sob demanda de recursos de TI pela Internet com preços "pague pelo que usar". Em outras palavras, isso significa que a AWS foi projetada para fornecer os recursos necessários para construir seus sistemas de dados ou outras aplicações, praticamente de forma instantânea, quando você precisar deles, e você pode desligar esses recursos quando não forem mais necessários. Ao final de cada mês, você paga apenas pelo que utilizou.

### Comparação com Data Centers On-Premises

Como mencionado anteriormente, esse paradigma é muito diferente de construir seu próprio data center on-premises, onde normalmente você se comprometeria com a compra de recursos de TI por anos. Quando falamos em recursos de TI, estamos nos referindo a itens como recursos de computação, armazenamento e rede.

### Recursos de Computação, Armazenamento e Rede

- **Recursos de Computação:**  
  Na AWS, os recursos de computação são os ambientes para execução de código, como máquinas virtuais, serviços de hospedagem de contêineres ou funções serverless.

- **Recursos de Armazenamento:**  
  Os recursos de armazenamento são os locais para guardar seus dados. Isso inclui serviços como o Amazon Simple Storage Service (S3), Amazon Elastic Block Store, além dos serviços de banco de dados, onde você pode operar bancos de dados relacionais, NoSQL, bancos de dados de grafos e outros.

- **Recursos de Rede:**  
  Os recursos de rede permitem conectar outros recursos entre si e à Internet. Um exemplo de recurso de rede é o Amazon Virtual Private Cloud (VPC), onde você possui sua própria rede privada na nuvem.

### Outras Categorias de Serviços AWS

Além dos recursos de computação, armazenamento e rede, existem muitas outras categorias de recursos e serviços na AWS, como segurança, streaming de dados, ingestão, transformação, entre outros.

### Vantagens de Construir Sistemas de Dados na Nuvem

Um dos grandes benefícios de construir seus sistemas de dados na nuvem é que os recursos são escaláveis e elásticos. Isso significa que, por exemplo, se você estiver construindo um pipeline de dados que inclua o armazenamento de objetos S3, não é necessário se preocupar com a capacidade exata de armazenamento que precisará antecipadamente. Você não precisa gerenciar as operações de escalonamento à medida que seu conjunto de dados cresce ou diminui, pois o serviço escala automaticamente. Essa elasticidade e escalabilidade também se aplicam a outros serviços da AWS, o que significa que você não precisa adivinhar a capacidade com antecedência, pode estar sempre preparado para picos de demanda ou mudanças no tráfego do seu sistema, e ainda evita pagar por recursos desnecessários.

### Consumo de AWS como Consumo de Eletricidade

Pense em utilizar a AWS da mesma forma que consome eletricidade. Com a eletricidade, você paga apenas pelo que usa e, no final do mês, quando paga sua conta, os detalhes de como essa eletricidade foi gerada ou entregue à sua casa ficam abstraídos de você. Da mesma forma, os recursos e serviços da AWS estão hospedados em data centers físicos construídos pela AWS em todo o mundo, e você utiliza esses serviços pela Internet por meio de APIs. Isso permite que você construa soluções sem precisar gerenciar e construir seus próprios data centers.

### Regiões e Zonas de Disponibilidade

Quando você utiliza a AWS, não pensa em termos de data centers individuais. Em vez disso, você implanta os recursos em regiões da AWS, que são conjuntos de data centers localizados em áreas geográficas específicas onde os serviços da AWS estão disponíveis. Hospedar suas soluções de forma distribuída geograficamente garante a confiabilidade e a disponibilidade dos seus sistemas, além de permitir resiliência no caso de um data center individual ficar offline devido a desastres naturais ou outros problemas.

- **Regiões da AWS:**  
  As regiões são nomeadas de acordo com a área geográfica, como "US East (Northern Virginia)", "Asia Pacific (Mumbai)" ou "Europe (Frankfurt)".

- **Zonas de Disponibilidade (AZs):**  
  Cada região da AWS é composta por várias zonas de disponibilidade, que são agrupamentos menores de data centers dentro da região. As AZs são projetadas para ficarem suficientemente distantes umas das outras, de modo que, se ocorrer uma falha em nível de AZ — como uma queda de energia, inundação ou outra interrupção —, o sistema possa falhar para outras AZs na mesma região, que absorverão o tráfego para que seus sistemas não sejam afetados.

Ao criar recursos na AWS, você seleciona a região e, dependendo do serviço, também pode escolher a zona de disponibilidade. Nos bastidores, esses data centers e zonas de disponibilidade são interligados por links de baixa latência que fazem parte da rede global de cabos de fibra da AWS.

### Integração de Múltiplos Recursos

No seu trabalho como engenheiro de dados, frequentemente você combinará múltiplos recursos e serviços da AWS, utilizando-os como blocos de construção para formar soluções completas. A AWS oferece mais de 200 serviços, sendo alguns mais generalistas e outros mais específicos para determinados usos.

# Intro to AWS Core Services

Agora que você já está familiarizado com o que é a nuvem AWS e como ela funciona em um nível geral, gostaria de apresentar brevemente alguns dos serviços centrais da AWS que você encontrará ao longo destes cursos. Vou dividir esses serviços centrais em cinco categorias: computação, rede, armazenamento, bancos de dados e segurança. Se você já é um especialista em AWS, sabe que, na verdade, há muito mais na nuvem AWS do que pode ser capturado em cinco categorias simples de serviços. Mas acredito que começar com essas categorias centrais facilita a compreensão do restante.

---

### Computação

Primeiro, vamos falar de computação. Existem diversos serviços de computação na AWS, mas há um em particular que você verá com frequência, que é o Amazon Elastic Compute Cloud, ou EC2. De forma simples, o EC2 é o serviço que fornece máquinas virtuais (VMs) na AWS. Você pode pensar em uma VM como um computador ou servidor virtual, onde pode executar qualquer sistema operacional que desejar, como Linux, macOS ou Windows, além de quaisquer aplicações, assim como faria em qualquer computador físico. No caso da AWS, quando você lança uma única VM usando o EC2, chamamos isso de instância do Amazon EC2.

Ao iniciar uma instância EC2, você tem controle total sobre ela, incluindo o sistema operacional, as aplicações e qualquer outra coisa que aconteça na própria instância. Assim, o EC2 é uma opção bastante flexível para suas cargas de trabalho, oferecendo muito controle. Você pode usar uma instância EC2 como uma máquina de desenvolvimento para programação, para rodar um servidor web, containers, cargas de trabalho de aprendizado de máquina ou o que desejar. Pode implantar uma única instância EC2 ou um conjunto delas, escalando horizontalmente para atender à demanda.

Além do EC2, existem várias outras opções de computação na AWS, incluindo funções serverless utilizando um serviço chamado AWS Lambda, onde você pode hospedar códigos que são executados em resposta a gatilhos ou eventos, assim como serviços de hospedagem de containers, como o Amazon Elastic Container Service (ECS) ou o Amazon Elastic Kubernetes Service (EKS).

---

### Rede

Ao criar uma instância EC2 ou muitos outros tipos de recursos na AWS, é necessário posicioná-los dentro de uma rede. Na AWS, chamamos essa rede privada de Amazon Virtual Private Cloud, ou VPC, para abreviar. As VPCs são redes privadas na nuvem que você pode criar e controlar, as quais são isoladas de outras redes na nuvem AWS. Você escolhe o tamanho do espaço de IP privado que deseja e pode particioná-lo em redes menores chamadas sub-redes ou subnets. Uma única VPC abrange todas as zonas de disponibilidade (AZs) dentro de uma região, mas não pode abranger regiões diferentes. Portanto, é necessário criar uma VPC em cada região em que você deseja operar. O mesmo vale para a maioria dos recursos da AWS, que são vinculados a regiões. Seus dados e recursos não deixam a região, a menos que você projete suas soluções para esse comportamento, o que é importante para fins de conformidade e segurança. Assim, sempre que você criar determinados recursos na AWS, como instâncias EC2 ou bancos de dados baseados em instância, precisará selecionar qual VPC deseja usar e em qual AZ posicioná-los.

---

### Armazenamento

Mudando um pouco de assunto, vamos falar sobre armazenamento. No que diz respeito ao armazenamento na AWS, há vários tipos de armazenamento dos quais você deve estar ciente, como armazenamento de objeto, bloco e arquivo. A AWS oferece serviços para cada um desses tipos:

- **Armazenamento de Objeto:** É o mais utilizado para armazenar dados não estruturados, como documentos, logs, fotos ou vídeos. Na verdade, você pode colocar qualquer tipo de dado no armazenamento de objeto. Nestes cursos, você passará bastante tempo se familiarizando com o serviço de armazenamento de objetos Amazon S3.
- **Armazenamento de Bloco:** Geralmente é usado para armazenamento de bancos de dados, sistemas de arquivos de máquinas virtuais e outros ambientes onde baixa latência e alto desempenho são críticos. Dentro da AWS, você pode anexar dispositivos de armazenamento de bloco, chamados volumes do Amazon Elastic Block Store (EBS), às instâncias EC2, que se conectam ao sistema operacional para que os dados possam ser armazenados e acessados por programas executados na EC2.
- **Armazenamento de Arquivo:** É o tipo de armazenamento mais familiar para o usuário não técnico médio. Com o armazenamento de arquivo, os dados são organizados em arquivos e diretórios em uma estrutura hierárquica, assim como o sistema de arquivos do seu laptop ou um sistema de arquivos compartilhado no trabalho. A AWS possui um serviço gerenciado chamado Amazon Elastic File System (EFS), que fornece uma solução de armazenamento de arquivos escalável, podendo ser montada em vários sistemas simultaneamente para acesso aos arquivos.

---

### Bancos de Dados

De certa forma, pode-se dizer que os bancos de dados são apenas outro tipo de serviço de armazenamento, mas eles se enquadram em uma categoria central separada. Embora os bancos de dados utilizem armazenamento de bloco nos bastidores para guardar os dados, eles também oferecem funcionalidades especiais para gerenciar dados estruturados, como a realização de consultas complexas, indexação de dados e outros recursos que normalmente não são oferecidos pelos serviços de armazenamento gerais.

Como engenheiro de dados, você trabalhará frequentemente com dados tabulares organizados em formato de banco de dados relacional. Nestes cursos, você se familiarizará bastante com o Amazon Relational Database Service (RDS), que, como o nome sugere, é um serviço de banco de dados relacional baseado na nuvem. Você também utilizará um serviço chamado Amazon Redshift, que é um serviço de data warehouse que permite armazenar, transformar e servir dados para casos de uso finais. Existem vários outros serviços de banco de dados na AWS, mas o RDS e o Redshift são os dois que você encontrará com mais frequência nestes cursos. Mais adiante, apresentarei outros.

---

### Segurança

No que diz respeito à segurança na nuvem, a AWS segue o que chamamos de modelo de responsabilidade compartilhada. Esse modelo afirma que a AWS é responsável pela segurança da nuvem, e você é responsável pela segurança dentro da nuvem. Para entender melhor o que isso significa, gosto de usar a analogia de um prédio de apartamentos. No caso de um prédio, o proprietário e a empresa de administração são responsáveis por garantir que o edifício físico esteja seguro, em conformidade com as normas e que cada apartamento tenha trancas funcionando e, possivelmente, outras medidas de segurança. Agora, se você é inquilino no prédio, é responsável por usar esses recursos de segurança, como garantir que sua porta esteja trancada quando você sair ou quando estiver em casa à noite.

Aplicando essa analogia ao Amazon EC2, a AWS opera e gerencia os componentes subjacentes, desde o hardware físico e as instalações onde a instância EC2 é executada, até a camada de hipervisor, que é onde os recursos de computação são provisionados para você e outros clientes da AWS. A segurança de todos esses componentes é 100% responsabilidade da AWS. Em seguida, quando você lança uma VM usando o EC2, você é responsável pela gestão do sistema operacional convidado, quaisquer atualizações ou correções de software, configuração de rede (como firewalls), gerenciamento de acesso aos seus dados e o uso adequado de técnicas de criptografia, quando necessário. A segurança de todos esses aspectos é 100% de sua responsabilidade, o que significa que tanto você quanto a AWS devem fazer a sua parte para manter uma instância EC2 segura. O mesmo vale para qualquer outro recurso na nuvem, sendo que cada serviço da AWS funciona de maneira um pouco diferente, determinando onde termina a responsabilidade da AWS e onde começa a sua. Você aprenderá mais sobre esse conceito conforme avançar nos cursos e entrar em contato com os diferentes serviços da AWS.


# Walkthrough of the AWS Management Console

### Acesso e Navegação na AWS Management Console

![image.png](attachment:image.png)

- **Iniciando o Laboratório:**  
  Ao iniciar cada laboratório, você receberá instruções para abrir a AWS Management Console. Assim que fizer isso, verá uma página inicial semelhante à que é mostrada no vídeo.

- **Atualizações da Interface:**  
  Conforme a AWS atualiza sua plataforma e seus serviços, a interface do console pode mudar e sua aparência pode ser um pouco diferente do que é mostrado no vídeo. Entretanto, as instruções básicas de navegação permanecerão, em sua maioria, as mesmas.

- **Seção "Recentemente Visitados":**  
  Na página inicial, há uma seção denominada "Recentemente Visitados" que exibe os serviços acessados mais recentemente. No início de um laboratório, essa seção pode não conter nenhum serviço. Sempre que precisar acessar um serviço para criar um recurso, você pode usar a barra de pesquisa, digitando o nome do serviço desejado. Por exemplo, se quiser acessar os recursos EC2 já existentes ou iniciar novos, basta digitar “EC2” na barra de pesquisa e clicar no serviço que aparecer. Isso o levará ao painel do serviço, que se assemelha ao exemplo apresentado.

- **Navegação Interna:**  
  A maioria dos serviços possui um menu de navegação à esquerda, permitindo que você acesse janelas específicas ao clicar nos itens desse menu.

---

### Exemplo Prático: Lançamento de uma Instância EC2

![image-2.png](attachment:image-2.png)

- **Iniciando o Processo:**  
  Suponha que você queira lançar uma nova instância EC2. No painel do EC2, você deve selecionar “Lançar instância”, o que o direcionará para uma página onde poderá configurar todos os detalhes da instância.

![image-3.png](attachment:image-3.png)

- **Configuração da Instância:**  
  - **Nome:** Primeiro, forneça um nome para a instância (por exemplo, “instância de exemplo”).  
  - **Amazon Machine Image (AMI):** Selecione a AMI desejada, que definirá o sistema operacional e os aplicativos pré-instalados na instância, além de outras configurações. No exemplo, será mantido o Amazon Linux como escolha da AMI.  
  - **Tipo de Instância:** Escolha o tipo de instância, que determina o tamanho e as capacidades de hardware que a instância EC2 oferecerá. Para esta demonstração rápida, será aceito o valor padrão, que é um t2.micro (onde “t2” é o tipo da instância e “micro” o tamanho).  
  - **Par de Chaves:** Selecione a opção de prosseguir sem um par de chaves para conectar à instância.  
  - **Valores Padrão:** Role a página para baixo, aceite os demais valores padrão e lance a instância.

- **Observação:**  
  Não é necessário se preocupar com todos os detalhes de configuração neste momento. O objetivo é apenas familiarizá-lo com a navegação na AWS Management Console. Nos exercícios de laboratório, você receberá instruções detalhadas para configurar as instâncias EC2.

- **Inicialização da Instância:**  
  A instância levará alguns minutos para iniciar. Durante esse período, você pode continuar a acompanhar a demonstração e retornar quando a instância estiver pronta.

---

### Interação com a API da AWS

Quando você utiliza a AWS Management Console para lançar uma instância, você está invocando a API da AWS para realizar essa ação. Essa mesma tarefa poderia ser executada utilizando outras ferramentas, como a AWS Command Line Interface (CLI) ou os kits de desenvolvimento de software (SDKs) da AWS. A Management Console é apenas uma das formas de interagir com a API da AWS.

---

### Monitoramento e Documentação da Instância

![image-4.png](attachment:image-4.png)

- **Verificação da Instância:**  
  Após o lançamento, a instância EC2 se torna disponível, e você pode ver que há uma instância em execução. É possível interagir com ela diretamente pela console.

- **Consulta à Documentação:**  
  Para entender melhor as características desta máquina virtual (instância), é interessante consultar a documentação da EC2.  
  - **Tipo Padrão:**  
    Conforme mencionado, esta instância é um t2.micro, o tipo padrão da EC2.  
  - **Especificações Técnicas:**  
    Na documentação, sob a seção “Uso Geral”, você pode selecionar “t2” para ver as especificações de todos os tipos de instâncias t2.  
    - Em “Características”, observa-se que a instância possui um processador de 3,3 gigahertz.  
    - Na tabela de “Memória”, é mostrado que o t2.micro possui 1 gigabyte de RAM.  
  - **Comparação:**  
    Essa configuração revela que o t2.micro é um computador relativamente pequeno – possivelmente com menos poder de processamento e memória do que muitos smartphones. Caso seja necessário um desempenho maior para sua carga de trabalho, você pode optar por outros tipos de instâncias t2 ou mesmo por tipos de instâncias de uso geral, otimizadas para computação, memória ou armazenamento, incluindo opções aceleradas e de alto desempenho.

- **Conclusão:**  
  A ideia é mostrar que, com a EC2, há literalmente centenas de tipos de instâncias disponíveis. Dependendo do projeto, você pode provisionar uma máquina com recursos que variam desde uma fração do poder de um telefone móvel até um supercomputador em nuvem.

---

### Gerenciamento de Custos e Recursos

- **Cuidado com Recursos Ativos:**  
  Ao trabalhar em sua própria conta AWS, é importante excluir ou interromper quaisquer recursos que não estejam em uso, a fim de evitar cobranças desnecessárias.  
  - **Cobranças na EC2:**  
    Você é cobrado pelas instâncias EC2 somente quando elas estão em execução, bem como pelos recursos do Elastic Block Store (EBS) que estão anexados à instância.
  
- **Exemplo Prático – Parando a Instância:**  
  Para evitar cobranças, a instância pode ser parada selecionando “Estado da Instância” e depois “Parar Instância”.  
  - **Aviso:**  
    Um aviso informará que você ainda será cobrado pelos recursos EBS associados ou por eventuais endereços IP elásticos, embora, neste exemplo, estes não estejam presentes.  
  - **Ação:**  
    Após confirmar a operação, a instância será interrompida.

---

### Informações da Conta e Região

- **Localizando o ID da Conta:**  
  No canto superior direito da console, clique no menu suspenso próximo ao nome da sua conta para copiar o ID da conta.  
  - *Nota:* O ID da conta utilizado no exemplo é para demonstração; o seu será único.

- **Selecionando a Região:**  
  Clique no menu suspenso da região para visualizar ou alterar a região em que você está operando.  
  - **Definição de Região:**  
    A região AWS representa uma área geográfica contendo os data centers onde os seus recursos são hospedados.