### Fundamentos do Spark

#### 1.1. Introdução ao Apache Spark

##### O que é Apache Spark?
- Apache Spark é um framework de código aberto para computação distribuída que facilita o processamento de grandes volumes de dados. Ele foi projetado para ser rápido e eficiente, permitindo o processamento de dados em larga escala, tanto em modo batch (lote) quanto em tempo real.

##### Arquitetura do Spark
- **Driver:** O Driver é responsável por coordenar o trabalho no Spark. Ele executa o código principal do usuário, cria o SparkContext, e distribui as tarefas aos executores.
- **Executors:** São os processos responsáveis por executar as tarefas distribuídas pelo Driver. Eles executam operações nos dados e armazenam resultados intermediários na memória ou disco conforme necessário.
- **Cluster Manager:** O Spark pode ser executado em diferentes modos, como standalone, sobre Apache Hadoop YARN, Mesos, ou Kubernetes, com o Cluster Manager gerenciando os recursos necessários para as tarefas.

##### Componentes Principais do Spark
- **Spark Core:** O núcleo do Spark, que inclui o suporte para processamento de tarefas, agendamento, e operações básicas sobre RDDs.
- **Spark SQL:** Permite trabalhar com dados estruturados usando SQL ou DataFrames, facilitando a manipulação e consulta de dados com uma sintaxe familiar.
- **Spark Streaming:** Facilita o processamento de fluxos de dados em tempo real usando micro-batching.
- **MLlib:** Biblioteca de machine learning distribuída, que oferece algoritmos e utilitários para tarefas de aprendizado de máquina.
- **GraphX:** Biblioteca para computação em grafos, permitindo análise de dados que têm uma estrutura de grafo.

#### 1.2. Conceitos Fundamentais

##### Resilient Distributed Datasets (RDDs)
- **RDD:** É a principal abstração do Spark. Um RDD é uma coleção distribuída e imutável de objetos que pode ser processada em paralelo. RDDs são resilientes, o que significa que eles podem se recuperar automaticamente de falhas.

**Transformações e Ações:**
- **Transformações:** Operações que retornam novos RDDs, como `map`, `filter`, e `flatMap`. Transformações são executadas de forma preguiçosa (lazy), ou seja, elas apenas definem uma sequência de operações que serão executadas quando uma ação for chamada.

##### Exemplos de Transformações Comuns

**Exemplo de Código Básico:**

In [0]:
spark

In [0]:
# Criação de um RDD simples
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])

# Realizando uma transformação (map) e uma ação (collect)
squared_rdd = rdd.map(lambda x: x * x)

In [0]:
print(squared_rdd.collect())  # Output: [1, 4, 9, 16, 25]


- **Map:** Aplica uma função a cada elemento do RDD e retorna um novo RDD com os resultados.

In [0]:
# Exemplo: Elevar ao quadrado cada elemento do RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
squared_rdd = rdd.map(lambda x: x * x)
print(squared_rdd.collect())  # Output: [1, 4, 9, 16, 25]


- **Filter:** Filtra os elementos do RDD com base em uma condição booleana fornecida.

In [0]:
# Exemplo: Manter apenas os números pares
rdd = sc.parallelize([1, 2, 3, 4, 5])
even_rdd = rdd.filter(lambda x: x % 2 == 0)
print(even_rdd.collect())  # Output: [2, 4]


- **FlatMap:** Similar ao `map`, mas cada entrada do RDD pode ser mapeada para zero ou mais saídas. Resulta em um RDD "achatado".

In [0]:
# Exemplo: Dividir frases em palavras
rdd = sc.parallelize(["Hello World", "Apache Spark"])
words_rdd = rdd.flatMap(lambda line: line.split(" "))
print(words_rdd.collect())  # Output: ['Hello', 'World', 'Apache', 'Spark']


- **GroupByKey:** Agrupa os elementos de um RDD (que é uma coleção de pares chave-valor) pela chave.

In [0]:
# Exemplo: Agrupar números por seu valor de chave
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
grouped_rdd = rdd.groupByKey()
print([(x, list(y)) for x, y in grouped_rdd.collect()])  # Output: [('a', [1, 3]), ('b', [2])]


- **ReduceByKey:** Semelhante ao `groupByKey`, mas aplica uma função de redução aos valores de cada chave.

In [0]:
# Exemplo: Somar valores por chave
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
summed_rdd = rdd.reduceByKey(lambda x, y: x + y)
print(summed_rdd.collect())  # Output: [('a', 4), ('b', 2)]


- **Join:** Faz a junção de dois RDDs de pares chave-valor com base nas chaves.

In [0]:
# Exemplo: Juntar dois RDDs com base na chave
rdd1 = sc.parallelize([("a", 1), ("b", 2)])
rdd2 = sc.parallelize([("a", 3), ("b", 4)])
joined_rdd = rdd1.join(rdd2)
print(joined_rdd.collect())  # Output: [('a', (1, 3)), ('b', (2, 4))]


- **Distinct:** Retorna um novo RDD contendo apenas elementos únicos.

In [0]:
# Exemplo: Remover elementos duplicados
rdd = sc.parallelize([1, 2, 2, 3, 4, 4, 5])
distinct_rdd = rdd.distinct()
print(distinct_rdd.collect())  # Output: [1, 2, 3, 4, 5]


- **Sample:** Amostra um subconjunto dos elementos do RDD.

In [0]:
# Exemplo: Amostrar 50% dos elementos do RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
sample_rdd = rdd.sample(False, 0.5)
print(sample_rdd.collect())  # Output: Pode variar


##### Ações
- **Ações** são operações que desencadeiam a execução de todas as transformações acumuladas em um RDD e retornam um resultado ao driver ou escrevem dados para o armazenamento. Exemplos incluem `collect()`, `count()`, `first()`, `take(n)`, e `saveAsTextFile()`.

##### DataFrames
- Um **DataFrame** é uma coleção distribuída de dados organizada em colunas, muito similar a uma tabela em um banco de dados relacional. Eles são construídos sobre RDDs e trazem otimizações adicionais, como o Catalyst Optimizer para planos de consulta eficientes.

##### Datasets
- Os Datasets combinam as vantagens dos RDDs e DataFrames, proporcionando uma API orientada a objetos e uma maior eficiência. Eles são fortemente tipados e garantem segurança de tipo em tempo de compilação. Operações comuns incluem `map`, `filter`, `join`, e `groupBy`, com garantias de tipo.

#### 1.3. Diferença entre Processamento em Lote e Tempo Real

- **Processamento em Lote:** Refere-se ao processamento de grandes volumes de dados acumulados ao longo do tempo. Spark é altamente eficiente para este tipo de processamento usando RDDs e DataFrames.

- **Processamento em Tempo Real:** Com Spark Streaming, o Spark pode processar dados em tempo real dividindo os fluxos de dados em pequenos lotes chamados micro-batches.




`[INFO]: FIM DO NOTEBOOK`