# Começando com Spark

### O que é o [Apache Spark](https://spark.apache.org/)?

O Apache Spark é uma engine open-source de computação para programação paralela e distribuída para processamento de grandes volumes de dados ou dados em tempo real.

O Spark distrubui fluxos de trabalho de processamento de dados em *clusters*, com paralelismo e tolerancia a falhas. Diferente do *MapReduce* utilizado em ferramentas como Hadoop, o Spark processa e mantém os dados na memória para acessos subsequentes, sem precisar ler ou gravar dados no disco a cada iteração, o que resulta em velocidades de execução significativamente mais altas.

O Spark oferece suporte via API para diversas linguagens de programaçao utilizada por Cientistas de Dados como: Python, R, Scala e Java.

### Utilizando o Apache Spark com PySpark no Windows

#### 1 - Instalar o Java

Para utilizar o PySpark, precisamos que seja instalado o Java em uma versão 7 ou superior. Obtenha a versão mais recente clicando [aqui](https://www.java.com/pt-BR/download/). 

Verifique a versão do Java instalada em sua máquina com a linha de comando no *prompt*:

```
java -version
```

Em minha instalação, utilizei a versão 8 ("1.8.0_441")

#### Instalar o Python

Deve ser instalado uma versão do Python superior a 2.6. Vale ressaltar que em minha primeira tentativa de instalação, tive problemas com Spark DataFrame na a versão 3.13 do Python, soluciando fazendo o downgrade para a [versão 3.11.9 do Python](https://www.python.org/downloads/release/python-3119/). Para obter a versão mais recente clique [aqui](https://www.python.org/downloads/windows/). 

Verifique a versão do Python instalada em sua máquina com a linha de comando no *prompt*:

```
python --version
```

#### Instalar o Apache Spark 

Acesse [aqui](http://spark.apache.org/downloads.html) e selecione a versão mais estável. Nessa instalação utilizamos a versão do Spark **3.5.5** com o tipo de pacote **Pre-built for Apache Hadoop 3.3**. Ao clicar em download, você será redirecionado para uma página com o link para Download.

O arquivo baixado deverá ter a extensão .tgz, podendo ser descompactado com WinRAR. 

Não é necessário executar um instalador do Apache Spark, basta descompactar os arquivos e mover para uma pasta a sua escolhe. Recomendo que mova para seu disco "C:"

<font color=red>Certifique-se de que o caminho onde os arquivos do Spark foram armazenados não contenham espaços (ex.: **"C:\spark\spark-3.5.5-bin-hadoop3"**).</font>

Para testar o funcionamento do Spark execute os comandos abaixo em seu *prompt* de comando. Esses comandos assumem que você extraiu os arquivos do Spark na pasta **"C:\spark\"**.

```
cd C:\spark\spark-3.5.5-bin-hadoop3
```

```
bin\pyspark
```

O comando acima inicia o *shell* do PySpark que permite trabalhar interativamente com o Spark.

Para sair basta digitar `exit()` e logo depois presionar *Enter*. Para voltar ao *prompt* pressione *Enter* novamente.

#### Instalar o findspark

Em seu *prompt*, execute:

```
pip install findspark
```

#### Instalar o winutils

O Spark não inclui o utilitário **winutils.exe**, recurso necessário para funcionamento no windows. Se não informarmos onde o Spark deve procurar este utilitário, veremos alguns erros no console e também não conseguiremos executar alguns utilitários.

Faça o download acessando o [repositório](https://github.com/steveloughran/winutils) para a versão do Hadoop para a qual sua instalação do Spark foi feita. Em nosso exemplo foi utilizada a versão 3.0. Faça o *download* apenas do arquivo **winutils.exe**.

Crie uma pasta **"hadoop\bin"** dentro da pasta que contém os arquivos do Spark (em nosso exemplo **"C:\spark\spark-3.5.5-bin-hadoop3"**) e copie o arquivo **winutils.exe** para dentro desta pasta.

Se estiver usando uma versão do Hadoop superior a **hadoop-3.0.0**, faça download e instale os binários acessando o [repositório](https://github.com/cdarlint/winutils).
Escolha a pasta correspondente à versão do Hadoop usada pelo seu Spark
Extraia os arquivos para uma pasta local. Sugestão: C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin

#### Configuran as variaveis ambiente

Crie variáveis de ambiente no seu Windows. 

- **SPARK_HOME**=**"C:\spark\spark-3.5.5-bin-hadoop3"**)
- **HADOOP_HOME**=**C:\spark\spark-3.5.5-bin-hadoop3\hadoop**
- Adicione os binários do Hadoop ao PATH -> **PATH=%PATH%**; **C:\spark\spark-3.5.5-bin-hadoop3\hadoop\bin**

## Testando o funcionamento

Após realizar o procedimento de instalação do Apache Spark, execute as células a seguir para testar o funcionamento básico.

In [1]:
import findspark
findspark.init()

In [2]:
# Criando uma Session

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').getOrCreate()
spark

In [3]:
#Criando um dataframe
data = [("Hello", "25"),("Word", "30")]
colNames = ["Nome", "Idade"]
df = spark.createDataFrame(data,colNames)
df

DataFrame[Nome: string, Idade: string]

In [4]:
#Exibindo o DataFrame
df.show()

+-----+-----+
| Nome|Idade|
+-----+-----+
|Hello|   25|
| Word|   30|
+-----+-----+

