<a href="https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/Aula_08.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/mack_logo.png?raw=true" height="70" align="right"/></a>






<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/HadoopCover.png?raw=true" height="250" align="left"/></a>

# Sistemas de Armazenamento de Dados

## File Storage
Armazenamento gerenciado por sistemas de arquivos operacionais, organizando dados em diretórios e arquivos. NTFS (Windows), ext4 (Linux). Escalabilidade limitada e dificuldade em gerenciar grandes volumes de dados. Dados armazenados em HDDs ou SSDs e não são abstraídos.

## Block Storage
Divide dados em blocos de tamanho fixo, gerenciados de forma independente.
Comum em virtualização e bancos de dados que exigem alta performance.
Amazon EBS, Google Persistent Disk. Baixa latência para recuperação e atualização dos dados torna esse sistema ideal para ambientes intensivos em atualização. Servidores de e-mail, além de bancos de dados, em geral empregam esta opção. Dados armazenados em HDDs ou SSDs e não são abstraídos.

## **Object Storage**
Armazena dados como objetos, incluindo metadados e uma chave única para acesso.
Dados não estruturados, como imagens, som e vídeo. Amazon S3, Google Cloud Storage. Escalabilidade e facilidade de gerenciamento de grandes volumes de dados, mas com latência maior em comparação com armazenamento em bloco e complexidade na recuperação de dados. O identificador único (em geral 128 bits)desempenha um papel fundamental na localização do objeto.

Documentos, fotos, e-mails (histórico), principalmente quando precisam ter sua integridade preservada (não atualização), são casos de uso importantes aqui. O acesso aos dados é feito em geral por APIs. Versionamento, criptografia, mecanismos de segurança, API de acesso internet, replicação e gerenciamento do ciclo de vida dos dados são normalmente associados a essa classe de armazenamento.

## Cache and Memory
Redis, Memcached, são exemplos. Mas, embora aumente significativamente a velocidade de acesso a dados, apresenta capacidade limitada e volatilidade dos dados armazenados.

## **Hadoop Distributed File System (HDFS)**
Sistema de arquivos distribuído projetado para armazenar grandes volumes de dados em clusters. Projetado para processamento de big data e análise de grandes conjuntos de dados. Tem alta tolerância a falhas e escalabilidade horizontal, mas é de grande complexidade para configuração e manutenção. Em geral também oferece criptografia, mas a segurança no acesso aos dados é limitada.

Casos de uso comuns são o armazenamento de dados e operações ETL, processamento e análise de logs, análise de dados e aprendizado de máquina em larga escala. Em parte, esses casos de uso são viabilizados pela integração com as demais ferramentas do ecossistema Hadoop, como MapReduce, Hive e Pig.

## Streaming
Processamento contínuo de dados em tempo real para análise em tempo real, como monitoramento de eventos, logs. Apache Kafka, Apache Flink.

## Bancos de Dados (*)
(já vimos bastante)




| **Tipo de Armazenamento** | **AWS** | **Google Cloud** | **Azure** |
|---------------------------|---------|------------------|-----------|
| **Arquivos (File Storage)** | EFS (Elastic File System), FSx | Filestore | Azure Files |
| **Blocos (Block Storage)** | EBS (Elastic Block Store) | Persistent Disks | Azure Managed Disks |
| **Objetos (Object Storage)** | S3 (Simple Storage Service) | Cloud Storage | Azure Blob Storage |
| **HDFS (Hadoop Distributed File System)** | EMR (Elastic MapReduce) com HDFS | Dataproc com HDFS | HDInsight com HDFS |
| **Bancos de Dados Relacionais (SQL)** | RDS (Relational Database Service), Aurora | Cloud SQL, AlloyDB | Azure SQL Database |
| **Bancos de Dados Não Relacionais (NoSQL)** | DynamoDB | Firestore, Bigtable | Azure Cosmos DB |
| **Data Warehouse** | Redshift | BigQuery | Azure Synapse Analytics |
| **Armazenamento de Streaming** | Kinesis | Pub/Sub | Azure Event Hubs |
| **Armazenamento em Cache** | ElastiCache (Redis/Memcached) | Memorystore (Redis/Memcached) | Azure Cache for Redis |



# Eco-Sistema Hadoop

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Hadoop.png?raw=true" height="300" align="left"/></a>



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Hadoopdependencies.png?raw=true" height="500" align="left"/></a>

| Propósito        | Componente   | Descrição                                                                 |
|------------------|--------------|---------------------------------------------------------------------------|
| **Armazenamento**    | **HDFS**         | Sistema de arquivos distribuído que armazena grandes volumes de dados em clusters. |
| Armazenamento    | HBase        | Banco de dados NoSQL, orientado a colunas, construído sobre HDFS, ideal para dados não estruturados. |
| **Processamento**    | **MapReduce**    | Framework de processamento distribuído que executa tarefas em paralelo no cluster. |
| **Processamento**    | **Apache Spark** | Plataforma de processamento rápido e generalizado, com suporte a batch e streaming, que pode substituir o MapReduce. |
| Processamento    | Apache Impala| Motor de consultas SQL em tempo real que permite análise de dados diretamente no HDFS e HBase com baixa latência. |
| **Orquestração**     | **YARN**         | Sistema de gerenciamento de recursos e agendamento de tarefas no cluster. |
| **Armazenamento**    | **Hive**         | Sistema de data warehouse que oferece consultas SQL-like para dados armazenados no HDFS. |
| Streaming        | Apache Flume | Serviço para coleta, agregação e movimentação de grandes volumes de dados de logs. |
| Streaming        | Apache Kafka | Plataforma de streaming de eventos que permite publicar e consumir fluxos de dados em tempo real. |
| Armazenamento    | Kudu         | Sistema de armazenamento distribuído otimizado para leituras e escritas rápidas, complementa HDFS para dados tabulares. |
| Orquestração     | ZooKeeper    | Serviço centralizado para manutenção de informações de configuração, sincronização distribuída e grupos de nomeação. |
| Consultas        | Apache Drill | Engine de consultas distribuídas, sem necessidade de esquemas, que suporta múltiplos tipos de dados (JSON, Parquet, etc.). |
| Processamento    | Apache Pig   | Linguagem de alto nível para criar programas de análise de dados que são convertidos em MapReduce. |
| Armazenamento    | Apache Solr  | Plataforma para busca e indexação de grandes volumes de dados, muitas vezes usada em conjunto com Hadoop. |


## Comercial Distributions

* Cloudera (CDH - Cloudera Distribution for Hadoop) + Hortonworks (HDP - Hortonworks Data Platform)
* MapR (agora HPE Ezmeral Data Fabric):
* Amazon EMR (Elastic MapReduce)

Mas **NÃO**,

* ElasticSearch (emprega o Lucene como motor de indexação)
* DataBricks (emprega o Spark, mas não o HDFS)
* SnowFlake (trabalha sobre armazenamento em nuvem de diferentes provedores)

# HDFS, Hadoop Distributed File System

No passado recente, “Hadoop” era praticamente sinônimo de “big data”. O Hadoop
Distributed File System é **baseado no Google File System (GFS)** e foi inicialmente projetado para processar dados com o modelo de programação MapReduce. O Hadoop é
semelhante ao armazenamento de objetos, mas com uma diferença fundamental: **o Hadoop combina computação e
armazenamento nos mesmos nós**, onde os armazenamentos de objetos normalmente têm suporte limitado para
processamento interno.

**O Hadoop divide arquivos grandes em blocos**, pedaços de dados com menos de algumas centenas
megabytes de tamanho. O sistema de arquivos é gerenciado pelo NameNode, que mantém
diretórios, metadados de arquivo e um catálogo detalhado descrevendo a localização dos blocos de arquivo
no cluster. **Em uma configuração típica, cada bloco de dados é replicado para três
nós. Isso aumenta a durabilidade e a disponibilidade dos dados.** Se um disco ou nó
falha, o fator de replicação para alguns blocos de arquivo cairá abaixo de 3. O NameNode
instruirá outros nós a replicar esses blocos de arquivo para que eles alcancem novamente o fator de
replicação correto. Portanto, a probabilidade de perda de dados é muito baixa, exceto por uma
falha correlacionada (por exemplo, um asteroide atingindo o data center).

O Hadoop não é simplesmente um sistema de armazenamento. **O Hadoop combina recursos de computação** com
nós de armazenamento para permitir o processamento de dados no local. Isso foi  alcançado **usando
o modelo de programação MapReduce**.

> **O Hadoop está morto?**

> Isso é apenas parcialmente verdade. O Hadoop
não é mais uma tecnologia quente e de ponta. Muitas ferramentas do ecossistema Hadoop, como o Apache Pig, agora estão em suporte de vida e são usadas principalmente para executar trabalhos legados. O modelo de programação MapReduce puro caiu no esquecimento. O HDFS continua amplamente
usado em vários aplicativos e organizações.

> O Hadoop **ainda aparece em muitas instalações legadas**. Além disso, o HDFS é um **ingrediente essencial de muitos mecanismos de big data atuais, como o
Amazon EMR**. Na verdade, o **Apache Spark** ainda é comumente executado em clusters HDFS.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/HDFS.png?raw=true" height="300" align="left"/></a>

# Frameworks Computacionais

Com os principais componentes do Hadoop, temos dados armazenados no HDFS e um meio de
executar aplicativos distribuídos via YARN. Vamos ver
analisar dois dos principais frameworks.



## Hadoop MapReduce
MapReduce é o aplicativo original para o qual o Hadoop foi criado e **é uma implementação
baseada em Java** do projeto estabelecido no artigo MapReduce do Google. Originalmente,
era um framework autônomo em execução no cluster, mas foi posteriormente
portado para o YARN conforme o projeto Hadoop evoluiu para oferecer suporte a mais aplicativos e casos de uso. Embora substituído por mecanismos mais novos, como Apache Spark e Apache
Flink, ainda vale a pena entender, visto que **muitos frameworks de nível superior compilam
suas entradas em trabalhos MapReduce para execução. Isso inclui o Hive, Pig e Sqoop**.

Os termos map e reduce são emprestados da programação funcional,
onde um map aplica uma função de transformação a cada elemento
em uma coleção, e um reduce aplica uma função de agregação a
cada elemento de uma lista, combinando-os em menos valores de resumo.

Essencialmente, **o MapReduce divide uma computação em três estágios sequenciais: map,
shuffle e reduce**. Na fase de map, os dados relevantes são lidos do HDFS e processados
em paralelo por várias tarefas de map independentes. Essas tarefas devem ser executadas idealmente
onde quer que os dados estejam localizados — geralmente buscamos uma tarefa de map por bloco HDFS. O
usuário define uma função map() (em código) que processa cada registro no arquivo e produz
saídas de valor-chave prontas para a próxima fase. Na fase de shuffle, as saídas do map
são buscadas pelo MapReduce e enviadas pela rede para formar a entrada para as
tarefas de reduce. Uma função reduce() definida pelo usuário recebe todos os valores para uma chave
por sua vez e os agrega ou combina em menos valores que resumem as entradas.
Os fundamentos do processo são mostrados na Figura 1-6. No exemplo, os arquivos são lidos
do HDFS por mapeadores e embaralhados por chave de acordo com uma coluna de ID. Os redutores
agregam as colunas restantes e gravam os resultados de volta no HDFS.

**Sequências desses três estágios lineares simples podem ser compostas e combinadas em
essencialmente qualquer computação de complexidade arbitrária; por exemplo, transformações avançadas,
junções, agregações** e muito mais. Às vezes, para transformações simples que não
requerem agregações, a fase de redução não é necessária. Normalmente, as saídas
de um trabalho MapReduce são armazenadas de volta no HDFS, onde podem formar as entradas
para outros trabalhos.

Apesar de sua simplicidade, o MapReduce é incrivelmente poderoso e extremamente robusto e
escalável. No entanto, ele tem algumas desvantagens. Primeiro, ele é bastante envolvido do
ponto de vista de um usuário, que precisa codificar e compilar funções map() e reduce()
em Java, o que é um nível muito alto para muitos analistas — compor pipelines de processamento
complexos no MapReduce pode ser uma tarefa assustadora. Segundo, o MapReduce em si não é
particularmente eficiente. Ele faz muita E/S baseada em disco, o que pode ser caro ao
combinar estágios de processamento ou fazer operações iterativas. Pipelines multiestágio
são compostos de trabalhos individuais do MapReduce com uma barreira de E/S HDFS
entre eles, sem reconhecimento de otimizações potenciais em todo o gráfico de processamento
.

Devido suas desvantagens, vários sucessores do MapReduce foram desenvolvidos
que visam simplificar o desenvolvimento e tornar os pipelines de processamento mais
eficientes. Apesar disso, os fundamentos conceituais do MapReduce — que o processamento de dados
deve ser dividido em várias tarefas independentes em execução em diferentes
máquinas (mapas), cujos resultados são então embaralhados e agrupados e coletados
juntos em outro conjunto de máquinas (redução) — são fundamentais para todos os mecanismos de processamento de dados
distribuídos, incluindo estruturas baseadas em SQL. Apache Spark, Apache
Flink e Apache Impala, embora todos bastante diferentes em suas especificidades, são essencialmente
implementações diferentes desse conceito.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/MapReduce.png?raw=true" height="300" align="left"/></a>

## Apache Spark

**Apache Spark é uma estrutura de computação distribuída, com ênfase em eficiência
e usabilidade, que suporta computações em lote e streaming**. **Em vez
de o usuário ter que expressar as manipulações de dados necessárias em termos de funções map()
e reduce() puras como no MapReduce, o Spark expõe uma API rica de operações
comuns, como filtragem, junção, agrupamento e agregações diretamente em Datasets,**
que compreendem linhas todas aderindo a um tipo ou esquema específico. Além de usar métodos de API,
os usuários podem enviar operações diretamente usando um **dialeto de estilo SQL** (daí o
nome geral deste conjunto de recursos, Spark SQL), removendo grande parte da exigência
de compor pipelines programaticamente.

Com sua API, o Spark torna o trabalho de compor
pipelines de processamento complexos muito mais tratável para o usuário. Como um simples
exemplo, na Figura a seguir, três conjuntos de dados são lidos. Dois deles unidos e
unidos com um terceiro conjunto de dados filtrado. O resultado é agrupado de acordo com uma coluna e
agregado e gravado em uma saída.

As fontes e coletores do conjunto de dados podem ser controlados por lote
e usar HDFS ou Kudu, ou podem ser processados ​​em um fluxo de e para o Kafka.
Um recurso essencial das operações em conjuntos de dados é que os gráficos de processamento são executados por meio de
um otimizador de consulta padrão antes da execução, muito semelhante aos encontrados em bancos de dados relacionais
ou em mecanismos de consulta de processamento massivamente paralelos. Este otimizador pode reorganizar,
combinar e podar o **gráfico de processamento para obter o pipeline de execução
mais eficiente**. Dessa forma, o mecanismo de execução pode operar em conjuntos de dados de uma forma muito
mais eficiente, evitando grande parte da E/S intermediária da qual o MapReduce
sofre.

**Um dos principais objetivos de design do Spark era aproveitar ao máximo a memória
em nós de trabalho, que está disponível em quantidades crescentes em servidores de commodities**.
A capacidade de armazenar e recuperar dados da memória principal em velocidades que são ordens
de magnitude mais rápidas do que as de discos giratórios torna certas cargas de trabalho radicalmente
mais eficientes. Cargas de trabalho de aprendizado de máquina distribuídas em particular, que geralmente
operam nos mesmos conjuntos de dados de forma iterativa, podem ver enormes benefícios em tempos de execução
sobre a execução equivalente do MapReduce. O Spark permite que os conjuntos de dados sejam armazenados em cache na
memória dos executores; se os dados não couberem inteiramente na memória, as partições
que não podem ser armazenadas em cache são espalhadas no disco ou recomputadas de forma transparente no tempo de execução.

**O Spark implementa o processamento de fluxo como uma série de microlotes periódicos de conjuntos de dados**.
Essa abordagem requer apenas pequenas diferenças de código nas transformações e
ações aplicadas aos dados — essencialmente, o mesmo código ou um código muito semelhante pode ser usado
nos modos de lote e streaming. Uma desvantagem da abordagem de microlote é
que ela leva pelo menos o intervalo entre os lotes para que um evento seja processado, portanto,
não é adequada para casos de uso que exigem latências de milissegundos. No entanto, essa potencial
fraqueza também é uma força porque o microlote permite uma taxa de transferência de dados muito maior
do que pode ser alcançado ao processar eventos um por um. Em geral, há
relativamente poucos casos de uso de streaming que realmente exigem tempos de resposta de subsegundos.
No entanto, a funcionalidade de streaming estruturada do Spark promete trazer muitas das
vantagens de um gráfico de computação em lote Spark otimizado para um contexto de streaming,
bem como um modo de streaming contínuo de baixa latência.

**O Spark envia uma série de bibliotecas e APIs integradas para aprendizado de máquina**. O Spark
MLlib permite que o processo de criação de um modelo de aprendizado de máquina (preparação de dados,
limpeza, extração de recursos e execução de algoritmo) seja composto em um pipeline distribuído. Nem todos os algoritmos de aprendizado de máquina podem ser executados automaticamente de
maneira distribuída, então o Spark vem com algumas implementações de classes comuns de
problemas, como clustering, classificação e regressão e filtragem colaborativa.

Spark é uma estrutura extraordinariamente poderosa para processamento de dados e é frequentemente
(corretamente) a escolha de fato ao criar novos casos de uso de processamento em lote, aprendizado de máquina
e streaming. Mas não é o único jogo na cidade; arquitetos de aplicativos
também devem considerar opções como **Apache Flink** para processamento em lote e streaming, e **Apache Impala** para SQL interativo.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Spark.png?raw=true" height="250" align="left"/></a>

## Mecanismos analíticos de SQL

Embora MapReduce e Spark sejam frameworks extremamente flexíveis e poderosos, para
usá-los você precisa estar confortável programando em uma linguagem como Java, Scala,
ou Python e deve estar feliz implantando e executando código da linha de comando.
**A realidade é que, na maioria das empresas, SQL continua sendo a língua franca da análise,
e a maior e mais acessível base de habilidades está lá.**  Às vezes, você precisa fazer as coisas
sem a ladainha de codificar, compilar, implantar e executar um aplicativo completo.
Além disso, um grande corpo de ferramentas de suporte à decisão e inteligência empresarial
interagem com armazenamentos de dados exclusivamente por SQL. Por essas razões, muito tempo e
esforço foram gastos desenvolvendo interfaces semelhantes a SQL para dados estruturados armazenados no
Hadoop. Muitos deles usam MapReduce ou Spark como seu mecanismo de computação subjacente,
mas alguns são mecanismos de computação por direito próprio. Cada mecanismo é
focado em consultar dados que já existem no mecanismo de armazenamento ou em inserir novos
dados em massa nesses mecanismos. Eles são projetados para análises em larga escala e não
para processamento transacional em pequena escala. Vamos dar uma olhada nos principais participantes.

### Apache Hive
Apache Hive é a tecnologia original de data warehousing para Hadoop. Foi desenvolvido
no Facebook e foi o primeiro a oferecer uma linguagem semelhante a SQL, chamada HiveQL, para
permitir que analistas consultem dados estruturados armazenados no HDFS sem precisar primeiro compilar
e implantar código. O Hive oferece suporte a conceitos comuns de consulta SQL, como junções de tabelas,
uniões, subconsultas e visualizações. Em um alto nível, o Hive analisa uma consulta do usuário, otimiza-a
e a compila em um ou mais cálculos em lote encadeados, que ele executa no
cluster. Normalmente, esses cálculos são executados como trabalhos MapReduce, mas o Hive pode
também usar Apache Tez e Spark como seu mecanismo de execução de apoio.  

# How-to

* [How To HDFS Docker](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_run_wordcount_example_on_docker_hadoop_not_Colab.ipynb)
* [How To MapReduce HDFS Streaming Sum](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_map_reducer_sum_hadoop_streaming_on_Colab.ipynb)
> * [How To MapReduce HDFS Streaming ngrams](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_map_reducer_ngrams_hadoop_streaming_on_Colab.ipynb)
> * [How To MRjob](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_map_reducer_sum_MRJob_on_Colab.ipynb)
* [How To PySpark](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_pyspark.ipynb)


# Exercício (sala) - **Wikipedia Word Count**

Em grupo de até 4 alunos. Empregue os exemplos de **PySpark** de word count para extrair os termos mais comumente utilizados em 4 temas (subjects) extraídos de páginas da wikipedia. Para obter os dados da Wikipedia, você pode utilizar [Get Wikipedia Content](https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/how_to_get_wikipediaContent_by_subject.ipynb). **Particione os dados pelos temas**. Faça a entrega do seu notebook, executável no Moodle.



# Exercício (home) - **How to Hadoop**

Em grupo de até 4 alunos.

1. Escolha uma das seguintes soluções do eco-sistema `Hadoop`:

  1. Apache Spark Streaming
  2. Apache Impala
  2. Apache Pig
  2. Apache Flume
  2. Apache Solr

2. Implemente, à exemplo das aulas, um **How to** para uma dessas tecnologias.

3. Empregue em todos os casos dados do [GroupLens](https://grouplens.org/) ou, alternativamente dados texto extraídos da Wikipedia como no exercício anterior (particularmente útil para indexação do Solr). Para o problemas de Streaming, podem ser bases incrementadas do GroupLens ou streamings simuladas via Python.

4. **How to READ** $\times$ **How to Class**. Ao construir o seu How To fique atento a essa diferenças. Os empregados em sala são apresentados, já o do trabalho deve estar adequado à leitura! **Comentários, explicações, além da escolha dos casos de uso são essenciais e são uma parte importante da atividade.** Pense que seu tutorial poderia ser publicado.

5. Sua implementação pode ser feita no ambiente Colab ou em um container, com instruções detalhadas para execução nos dois casos.





