# <span style="color: green; font-size: 40px; font-weight: bold;">Apache Spark</span>


<br> <br>

# O que é ?

- É um <i>framework de processamento de dados distribuído de uso geral</i> e pode ser usado como <i>um framework de análise unificada extremamente rápido para Big Data e Machine Learning</i>.

<br>

- O Apache Spark permite processar grandes volumes de dados mais rapidamente, dividindo o trabalho em partes e atribuindo essas partes aos recursos computacionais através de máquinas de um cluester de computadores.

<br>

# Por que Precisamos do Apache Spark?

#### A pergunta será respondida através de um <i>Storytelling</i>.

<br>

Imagine que você tenha que criar um modelo de Machine Learning com uma massa de dados de aproximadamente 10 GB.

Você pode usar o Scikit-learn para construir o modelo e realizar todo o processamento em uma única máquina.

Caso o próximo volume de dados for de 100GB, talvez seja necessários aumentar o hardware da máquina, adicionando mais CPU, mais memória RAM e mais espaço em disco.

<br>

O **problema** é que uma única máquina apresenta **escalabilidade vertical**, que é o limite de hardware que você pode adicionar ao computador. **Ou seja**, estaremos limitados à capacidade de um processamento de uma única máquina.<br>

#### Como resolver esse problema ?

Neste caso poderíamos usar um cluster de computadores, um conjunto de máquinas que vão trabalhar juntas, aumentando assim a capacidade de processamento.

Em clusters, temos a escabilidade vertical (aumentando o hardware de cada máquina do cluster), mas temos também a escalabilidade horizontal, que é aumentar o número de máquinas no cluster. O problema agora poderia ser de limitação física para comportar todas essas novas máquinas e com isso teríamos um **outro problema**.

O **problema** é que para executar um software em um ambiente de cluster de computadores, o software deve ser capaz de realizar processamento distribuído, ou seja, dividir uma tarefa de processamento em sub-tarefas, enviálas para as máquinas do cluster, coletar as respostas, juntar tudo e entregar o resultado.

Toda essa gestão de processamento é feito via software, e por isso precisaríamos de um software que seja capaz de trabalhar de maneira distribuída e o **Scikit-learn não é um framework para procssamento distribuído**, é um framework sequencial.

<br>

#### E agora por precisamos mesmo do Apache Spark ?

> O **Apache Spark** é exatamente para realizar o processamento distribuído e em paralelo.

<br>

Podemos usar o Apache Spark em uma única máquina (como será feito aqui) ou em um cluster de 6.000 máquinas. A formo como construímos o processo de análise será a mesma!

Além disso o Apacha Spark **oferece** bibliotecas poderosas para processamento de Machine Learning, processamento de dados estruturados com SQL, processamento de dados em tempo real com Streaming e processamento de grafos computacionais.

O Apache Spark não tem um sistema de armazenamento, pois é um framework de processamento. mas pode ser usado em conjunto com um ambiente de armazenamento distribuído como o **Apache Hadoop HDFS**.

Podemos usar o Apache Spark localmente ou na nuvem, como um pseudo-cluster (cluster de uma máquina só) para ambiente de desenvolvimento ou em um cluster de milhares de máquinas em um ambiente de produção.

E ainda podemos trabalhar com linguagens Python, Java, Scala ou R

<br>

**Aqui** usaremos Linguagem Python e pseudo-cluster.


<br> <br>



# Ecossistema e Componentes do Apache Spark

<br>



> Na prática o Apache Spark é uma plataforma que possui uma śerie de componentes que podem ser usados em conjunto de acordo com o tipo do projeto. 

### Spark Core

**Spark Core**: é o componente principal do ecossistema do Apache Spark (é o coração do sitema, chamado de motor), considerado mecanismo principal do Apache Spark. O Spark Core inclui o motor (engine) que realiza o processamento de dados distribuído e serve como a base para as outras bibliotecas do Apache Spark.

O Spark Core fornece funcionalidades básicas de processamento de dados, incluindo:

- Gerenciamento de tarefas de computação distribuída.
- Operações básicas de leitura e escrita em fontes de dados.
- Funcionalidades de cache e persistência de dados.
- Suporte a várias linguagens de programação, como Python, Java, Scala e R.

<br> <br>

### Principais Bibliotecas do Apache Spark

> Acima do Spark Core, existem pelo menos quatro bibliotecas principais que expandem as funcionalidades do Spark, cada uma voltada para um tipo específico de processamento de dados:

#### SparkSQL

- Biblioteca para processamento de dados estruturados.
- Permite executar consultas SQL em grandes conjuntos de dados de maneira distribuída.
- Integra-se com várias fontes de dados como Hive, Avro, Parquet, entre outras.

#### MLlib

- Biblioteca de aprendizado de máquina.
- Oferece uma ampla gama de algoritmos de machine learning, incluindo classificação, regressão, clustering e filtragem colaborativa.
- Facilita a construção e implementação de modelos de machine learning em larga escala.

#### GraphX

- Biblioteca para processamento de grafos computacionais.
- Permite a análise de grafos e redes sociais.
- Oferece algoritmos para computação de grafos, como PageRank, Connected Components e Triangle Counting.

#### Streaming

- Biblioteca para processamento de dados em tempo real.
- Permite o processamento contínuo de dados de fontes de streaming, como Kafka, Flume, e sockets TCP.
- Suporta transformações de dados em tempo real e algoritmos de machine learning para streaming.

#### Exemplificando

- Para **construção de Modelos de Machine Learning** usamos o **MLlib**.
- Para **capturar e processar dados em tempo real** usamos o **Streaming**.
- Para **capturar dados em tempo real e aplicar Machine Learning** então usaremos **Streaming** juntamente co **MLlib**.
- Para **executar uma consulta/query** em grande quantidade conjunto de dados em cluster, então usa o **SparkSQL**.

<br> <br>

### APIs do Apache Spark

> O Apache Spark suporta várias APIs de programação, permitindo que desenvolvedores trabalhem com a linguagem de sua preferência. As principais APIs são:

- **Python (PySpark)**: Facilita a integração com bibliotecas Python populares, como pandas e NumPy.
- **R**: Usada principalmente para análises estatísticas e gráficos.
- **Java**: Ideal para desenvolvedores que trabalham em ecossistemas Java.
- **Scala**: A linguagem nativa do Apache Spark, oferece alta performance.
- **SQL**: Permite consultas SQL em dados estruturados, aproveitando a familiaridade com SQL.

<br>

#### Exemplificando

Em um projeto, podemos trabalhar com a API **Python (PySpark)** e usar pelo menos uma biblioteca principal do Apache Spark. O uso de PySpark permitirá que aproveitemos a familiaridade com Python, enquanto exploramos as poderosas funcionalidades oferecidas pelas bibliotecas do Spark, como SparkSQL e MLlib, para processamento de dados e machine learning.

Por exemplo, podemos usar a API PySpark para carregar dados, transformá-los e executar consultas SQL com SparkSQL, além de aplicar algoritmos de machine learning usando MLlib.

<br> <br>

### Armazenamento no Apache Spark

> O Apache Spark é um framework de processamento de dados que pode se integrar com diversas opções de armazenamento. Dependendo das necessidades do projeto e da infraestrutura disponível, você pode escolher entre diferentes sistemas de armazenamento. Abaixo estão algumas das opções mais comuns:

#### Armazenamento Local

- **Descrição**: Refere-se ao armazenamento de dados no sistema de arquivos local da máquina onde o Spark está sendo executado.
- **Uso**: Útil para desenvolvimento e testes em pequenos volumes de dados.
- **Limitações**: Não é escalável e não oferece tolerância a falhas.

#### HDFS (Hadoop Distributed File System)

- **Descrição**: Sistema de arquivos distribuído projetado para rodar em hardware comum. HDFS é uma parte central do Apache Hadoop.
- **Uso**: Ideal para grandes volumes de dados distribuídos em um cluster. Oferece alta disponibilidade e tolerância a falhas.
- **Vantagens**: Escalável, tolerante a falhas, e integrado nativamente ao ecossistema Hadoop.

#### RDBMS (Relational Database Management System)

- **Descrição**: Bancos de dados relacionais como MySQL, PostgreSQL, Oracle, etc.
- **Uso**: Útil para dados estruturados que requerem transações ACID e suporte a SQL.
- **Vantagens**: Oferece consistência transacional e suporte a consultas complexas.

#### NoSQL

- **Descrição**: Bancos de dados não relacionais como MongoDB, Cassandra, HBase, etc.
- **Uso**: Ideal para dados semi-estruturados ou não estruturados, e aplicações que requerem alta escalabilidade e flexibilidade.
- **Vantagens**: Suporta grande escalabilidade horizontal e oferece alta performance em leituras e gravações.

#### AWS S3 (Amazon Simple Storage Service)

- **Descrição**: Serviço de armazenamento em nuvem da Amazon, que fornece armazenamento de objetos através de uma interface de serviços web.
- **Uso**: Excelente para armazenar grandes volumes de dados em um ambiente de nuvem, com alta durabilidade e disponibilidade.
- **Vantagens**: Escalabilidade infinita, integração com outros serviços AWS, e custo-efetivo para armazenamento a longo prazo.

<br>

### Gerenciamento do Apache Spark

> O Apache Spark pode ser gerenciado de várias maneiras, dependendo do ambiente e das necessidades do projeto. As principais opções de gerenciamento incluem:

#### Standalone

- **Descrição**: Um gerenciador de cluster simples embutido no Spark. 
- **Uso**: Ideal para pequenos clusters e desenvolvimento.
- **Vantagens**: Fácil de configurar e usar, não requer software adicional.

#### YARN (Yet Another Resource Negotiator)

- **Descrição**: Um gerenciador de recursos distribuído para o ecossistema Hadoop.
- **Uso**: Integrado em clusters Hadoop para gerenciar recursos e executar aplicações.
- **Vantagens**: Suporte robusto para Hadoop, escalabilidade e integração com HDFS.

#### Kubernetes

- **Descrição**: Um sistema de orquestração de contêineres.
- **Uso**: Gerencia o deployment, a escalabilidade e a operação de aplicações em contêineres.
- **Vantagens**: Alta escalabilidade, gerenciamento eficiente de contêineres e suporte a várias plataformas de nuvem.

<br>

#### Exemplificando novamente

Em um projeto, podemos trabalhar com a API **Python (PySpark)** e usar pelo menos uma biblioteca principal do Apache Spark. O uso de PySpark permitirá que aproveitemos a familiaridade com Python, enquanto exploramos as poderosas funcionalidades oferecidas pelas bibliotecas do Spark, como SparkSQL e MLlib, para processamento de dados e machine learning.

Por exemplo:

- **Armazenamento de Dados**: Podemos carregar dados de um armazenamento local, HDFS, RDBMS, NoSQL ou AWS S3.
- **Gerenciamento de Cluster**: O Spark pode ser gerenciado usando Standalone, YARN ou Kubernetes.
- **Processamento e Análise**:
  - Usar **PySpark** para carregar dados de uma fonte de armazenamento.
  - Transformar os dados e executar consultas SQL com **SparkSQL**.
  - Aplicar algoritmos de machine learning usando **MLlib**.
  

<br><br>

# Quando PodemosUsar o Apache Spark?


O Apache Spark podeser usado sempre que os requerimentos abaixo fizerem parte de um projeto de Ciência de Dados:

<br>

  - Integração de dados e ETL
  - Análises interativase manipulação de grandes massas de dados
  - Computação em batch de alta performance
  - Análises avançadas e Machine Learning•
  - Processamento de dados em tempo real
  
<br><br>

# Conectando ao Cluster Spark

Para trabalhar com o Apache Spark, primeiro devemos conectar no cluster Spark (seja um pseudo-cluster de uma única máquina, seja em um cluster de milhares de máquinas). A conexão é feita criando um SparkContext.

<br>

## SparkContext

Um SparkContext representa a conexão com um cluster Spark e pode ser usado para criar RDDs (Datasets Distribuídos), acumuladores e variáveis de broadcast nesse cluster. Apenas um SparkContext deve estar ativo por JVM. Você deve parar o SparkContext ativo antes de criar um novo.

<br>

### SparkSession

Com o contexto criado, podemos então criar uma sessão Spark. SparkSession é o ponto de entrada para o SparkSQL. Você cria uma SparkSession usando o método `Builder()`, que dá acesso à API do Builder que você usa para configurar a sessão.

#### Funcionalidades do SparkSession

Uma vez criada a sessão, SparkSession permite:
- Criar um DataFrame
- Criar um Dataset
- Acessar serviços SparkSQL (por exemplo, ExperimentalMethods, ExecutionListenerManager, UDFRegistration)
- Executar uma consulta SQL
- Carregar uma tabela
- Acessar a interface DataFrameReader para carregar um conjunto de dados do formato de sua escolha

<br>

## Múltiplas SparkSessions

Você pode ter quantas SparkSessions quiser em um único aplicativo Spark. O caso de uso comum é manter as entidades relacionais separadas logicamente em catálogos por SparkSession.

<br>

## Encerrando a SparkSession

No final, você interrompe uma SparkSession usando o método `stop()`.
