# Capítulo 1: Introdução ao Apache Spark

## 1.1 - O que é Spark?

### Objetivos

- conceitos fundamentais do Apache Spark
- identificar oportunidades para construir aplicações usando o Spark
- construir aplicações em Apache Spark, por meio de seus principais componentes, para processamento de dados em altíssima escala


### Desafios

- volume de dados vem crescendo em taxa superior à capacidade de processamento
- restrição física limita o aumento do poder computacional dos computadores

- dados não cabem na memória de um único computador
- desejo de interpretação dos dados e reação a eles em tempo real
- sistemas tradicionais de banco de dados relacionais não escalam suficientemente

### Solução: Computação Distribuída

- divisão em conjuntos de dados menores
- processamento de dados de forma distribuída em múltiplas máquinas
- grupo de computadores trabalham em conjunto como se fosse um único computador para o usuário
- vasto campo de estudo na ciência da computação
- sistemas de computação distribuída são complexos de se implementar
    - cada máquina pode falhar
    - necessidade de coordenar as máquinas entre si
    - difíceis de implantar, manter, depurar

### Plataformas de Computação Distribuída

- Hadoop
- Flink
- Apache Storm
- Apache Spark

### O que é o Apache Spark?

- plataforma de código aberto
- para processamento unificado de cargas de trabalho de big data
- de forma rápida e distribuída

- big data
- large-scale data
- big data workloads
<br>

- distributed data processing
- cluster computing
<br>

- general-purpose
- unified 
<br>

- lightning-fast
<br>

- open-souce: https://github.com/apache/spark


#### Ferramenta para Computação Distribuída

- paralelismo implícito
    - o programador não precisa de preocupar em dividir as tarefas, nem em coordenar a computaçãoo entre as máquinas
    - aumento da produtividade do programador

- tolerância a falhas
    - capacidade do sistema operar mesmo após falhas
    - redundância e replicação

#### Ferramenta Unificada

- processamento em lote (batch), ETL
- processamento de streams (fluxo)
- ML, Deep Learning

#### É um Ecossistema

- Streaming
- MLib (for ML)
- GraphX (for graph computing)
- Spark SQL & DataFrames (dados estruturados)
- Spark Core API
    - R
    - Python
    - Scala
    - SQL
    - Java

#### História do Apache Spark

- nasceu na Universidade da Califórnia, Berkeley, em 2019
- em 2013, foi doado à Fundação Apache
- em 2013, os criadores do Spark fundaram a Databricks

## 1.2 - Quais as Vantagens e Desvantagens do Spark?

### Por que aprender Apache Spark?

#### Desempenho

- servidores baratos, com muita memória e várias cores
- pouco I/O



#### API Simples

- estrutura de dados: RDD, Dataset, Dataframe
- Operações:  transformações e ações

#### Suporte a várias linguagens

- Python, Java, R, Scala
- bindings para C#, F#, Julia, Groovy, Closure, Kotlin

#### Plataforma unificada para analytics

- componentes para diferentes cargas de trabalho
    - dados estruturados: Spark SQL (capítulo 4)
    - dados em grafos: Spark Graph X (capítulo 5)
    - dados em streaming: Spark Streaming (capítulo 6)
    - dados para aprendizado de máquina: Spark MLLib (capítulo 7)

- substitui:
    - Apache Storm
    - Google Dremel
    - Google Pregel
    - Apache Impala
    - Haddop

### Quando evitar o Spark?

- o valume de dados não for grande
    - o Spark é útil a a partir de dezenas/centenas de GBs
- poucos recursos computacionais e pouca memória
    - Spark é desenhado para operar com abundância de CPU e memória
    - neste cenário, o Hadoop pode fazer mais sentido
- busca de dados textuais
    - Solr e elasticsearch podem fazer mais sentido

## 1.3 - Estudo de Casos Reais

### Quem usa o Apache Spark?

- cientistas de dados
- engenheiros de dados
- engenheiros de aprendizado de máquina

#### Cientistas de Dados

- combinação de Matemática, Estatística, Ciência da Computação / Programação
- contar estórias por meio dos dados
- limpar os dados
- descobrir padrões
- construir modelos para previsão e recomendação

##### Por que o Spark é útil?
- Spark SQL (exploração interativa dos dados) - capítulo 4
- Spark MLLib - capítulo 7

#### Engenheiros de Dados

- implantar os modelos em produção
- construir e transformar dados reais: sujos e crus
- conectar com o pipeline de dados: aplicações web, Apache Kafka
- transformar end-to-end os dados: ler de várias fontes e armazenar os dados na nuvem, em bancos SQL e NoSQL

##### Por que o Spark é útil?
- forma simples de paralelizar a computação
- esconde a complexidade de distribuir os dados e capacidade de tolerar falhas
- provê APIs para ler e combinar dados de múltiplas fontes

### Casos de uso típicos

- processar em paralelo grandes conjuntos de dadoss
- explorar e visualizar conjuntos de dados de forma interativa
- construir, treinar e avaliar modelos de ML
- implementar pipelines de dados end-to-end
- analisar redes sociais e grafos

### Estudo de Caso #1 - Worldsense



- Common Crawl
<br>

- ~ 10 bilhões de links
- 40 TB de dados
- A WorldSense processava os dados em algumas horas em máquinas da AWS

### Estudo de Caso  #2 - airbnb

- pipeline de dados complexo
- várias fontes e destinoss de dados distintas
- Spark em batch e stream

### Estudo de Caso #3 - Intel 

- Bioinformática
<br

- benefícios do Spark:
    - Spark Core: não há necessidade de se preocupar em como paralelizar a computação => foco nos algoritmos
    - GraphX: vários algoritmos que operam sobre grafos implementados

### Estudo de Caso #4 - NBC

- NBC: uma das maiores empresas de mídia do mundo
- time de infraestrutura precisa servir vídeos sob demanda
<br><br>

- cachear todo o conteúdo: baixa latência, alto custo
- não cachear nada: alta latência para os consumidores
- problema de negócio: como encontrar o menor compromiso?
<br><br>

- GBs de metadados sobre os vídeos:
    - IDs dos vídeos
    - duraçãoo
    - data e hora de transmissão
    - canal de distribuição
<br><br>

Fluxo Oracle -> Apache Spark -> HBase executa todas as noites
<br><br>

- 10x ganho com 18 cores vs 1 core
- com muitos dados, era inviável executar sem cluster

## 1.4 - Spark x Hadoop MapReduce

### O que é o Apache Hadoop?

- MapReduce nasceu em 2004, no Google
- Hadoop nasceu em 2006
- escrito em Java 

### Módulos do Hadoop

- Hadoop Common
- Hadoop Distributed File System (HDFS)
- Hadoop YARN
- Hadoop Ozone
- Hadoop MapReduce

### O Modelo de Programação MapReduce

- *map:* filtra e ordena dados ao expô-los como pares chave-valor
- *reduce:* a partir do mapeamento, sumariza os dados
- inspirado em programação funcional

```
function map(String name, String document):
// name: document name
// document: document contents
for each word w in document: 
    emit (w, 1)
```

```
function reduce(String word, Iterator partialCounts):
// word: a word
// partialCounts: a list of aggregated partial counts
sum = 0
for each pc in partialCounts:
    sum += pc
emit (word, sum)
```

### Desempenho: Spark vs Hadoop MapReduce

- Spark pode ser entre 10 e 100 vezes mais veloz que o Hadoop MapReduce
    - Spark faz menos leituras e escritas em disco
    - Spark armazena dados intermediários em memória sempre que possível
- Spark brilha em tarefas iterativas

### Spark pode ser executado com o YARN

- YARN = Yet Another Resource Negotiator
    - gestor de recursos do cluster
    - agendamento e monitoramento de jobs

### Spark pode ser executado com HDFS

- HDFS = Hadoop Distributed File System
    -  armazena grandes conjuntos de dados em hardware commodity
    - centenas / milhares de nós
    - tolerância a falhas via réplicas

### Tolerância a falhas: Spark vs Hadoop MapReduce

- ambos são tolerantes a falhas
- como o Hadoop usa mais o disco, ele consegue se recuperar de falhas mais rapidamente

### Spark: plataforma unificada

- Hadoop: batch
- Spark: batch, tempo real, iterativo, grafos

### Spark e Hadoop podem cooperar

- Apache Spark como motor de processamento dos dados
- Apache Hadoop como armazenamento distribuído e gestor de recursos
    - HDFS
    - YARN

# Capítulo 2: Conceitos Fundamentais do Apache Spark

## 2.1 - A Arquitetura do Apache Spark

### Componentes do Spark

- driver program
- cluster manager
- worker nodes