# Introdução ao Spark e ao Python

Vamos aprender a usar Spark com Python usando a biblioteca pyspark! 

https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz

https://phoenixnap.com/kb/install-spark-on-windows-10

HADOOP_HOME=D:\git\spark-3.0.1-bin-hadoop2.7

JAVA_HOME=C:\Program Files\Java\jdk1.8.0_241

PYTHONPATH=D:\git\spark-3.0.1-bin-hadoop2.7/python;D:\git\spark-3.0.1-bin-hadoop2.7/python/lib/py4j-0.10.9-src.zip;%PYTHONPATH%

SPARK_HOME=D:\git\spark-3.0.1-bin-hadoop2.7


# Obtendo arquivos do drive da disciplina

spark-2.4.4-bin-hadoop2.7.zip

https://drive.google.com/file/d/1s6BgmM5S1UVNYQJrPg_7Ix2MzSmwDQQb/view?usp=sharing
https://archive.apache.org/dist/spark/spark-2.4.4/

Descompactar em uma pasta C:\Users\ricar\spark\spark-2.4.4-bin-hadoop2.7\

## Definir as variáveis SPARK_HOME e HADOOP_HOME

### SPARK_HOME=C:\Users\usuario\spark\spark-2.4.4-bin-hadoop2.7

### HADOOP_HOME=%SPARK_HOME%

Obs: o binário winutil por padrão não vem com apache spark e pode ser baixado aqui  https://github.com/steveloughran/winutils

## Definir PATH

### %SPARK_HOME%\bin

### %HADOOP_HOME%\bin

### %SPARK_HOME%\python

## Criando um SparkContext

A opção --master especifica a URL master para um cluster distribuído, ou local para rodar localmente com um thread, ou local [N] para rodar localmente com N threads. Você deve começar usando local para teste.

# execução com 10 cores localmente

`spark-shell --master local[10]`

Primeiro, precisamos criar um SparkContext. Vamos importar isso do pyspark:

In [None]:
!pip install pyspark

In [4]:
from pyspark import SparkContext

In [5]:
sc = SparkContext(master="local[2]", appName='spark1')

In [6]:
sc

Agora, crie o SparkContext. Um SparkContext representa a conexão com um cluster Spark e pode ser usado para criar um RDD e variáveis de transmissão nesse cluster.

*Nota! Você só pode ter um SparkContext de cada vez da maneira como estamos executando as coisas aqui. *

In [8]:
#sc = SparkContext()

#sc = SparkContext(master="local[*]", appName="CEUB")

In [9]:
sc

## Operações básicas

Vamos começar com um exemplo de "Olá mundo", que apenas lerá um arquivo de texto. Primeiro vamos criar um arquivo de texto.

Vamos escrever um exemplo de arquivo de texto para ler usando alguns comandos especiais do notebook jupyter para isso, mas sinta-se livre para usar qualquer arquivo .txt:

In [10]:
%%writefile example.txt
first line
second line
third line
fourth line

Overwriting example.txt


### Criando o RDD

Agora, podemos pegar o arquivo de texto usando o método ** textFile ** do SparkContext que criamos. Este método irá ler um arquivo de texto do HDFS, um sistema de arquivos local (disponível em todos
nós), ou qualquer URI do sistema de arquivos compatível com Hadoop, e devolvê-lo como um RDD de Strings.

In [11]:
textFile = sc.textFile('example.txt')

A abstração primária do Spark é uma coleção distribuída de itens chamados de Conjunto de Dados Distribuido Resiliente (Resilient Distributed Dataset - RDD). Os RDDs podem ser criados a partir de Hadoop InputFormats (como arquivos HDFS) ou transformando outros RDDs.

### Ações

Acabamos de criar um RDD usando o método textFile e podemos executar operações nesse objeto, como contar as linhas.
Os RDDs têm ações, que retornam valores e transformações, que retornam ponteiros para novos RDDs. Vamos começar com algumas ações:

In [12]:
textFile.count()

4

In [13]:
textFile.first()

'first line'

### Transformações

Agora, podemos usar transformações, por exemplo, a transformação filtro retornará um novo RDD com um subconjunto de itens no arquivo. Vamos criar uma transformação de amostra usando o método filter(). Este método (assim como a própria função de filtro do Python) apenas retornará elementos que satisfaçam a condição. Procuremos procurar linhas que contenham a palavra "segundo". Nesse caso, deve haver apenas uma linha que tenha isso.

In [14]:
secfind = textFile.filter(lambda line: 'second' in line)

In [15]:
# RDD
secfind

PythonRDD[4] at RDD at PythonRDD.scala:53

In [16]:
# Execute a ação na transformação
secfind.collect()

['second line']

In [17]:
# Execute a ação na transformação
secfind.count()

1

In [18]:
help(secfind.count())

Help on int object:

class int(object)
 |  int([x]) -> integer
 |  int(x, base=10) -> integer
 |  
 |  Convert a number or string to an integer, or return 0 if no arguments
 |  are given.  If x is a number, return x.__int__().  For floating point
 |  numbers, this truncates towards zero.
 |  
 |  If x is not a number or if base is given, then x must be a string,
 |  bytes, or bytearray instance representing an integer literal in the
 |  given base.  The literal can be preceded by '+' or '-' and be surrounded
 |  by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
 |  Base 0 means to interpret the base from the string as an integer literal.
 |  >>> int('0b100', base=0)
 |  4
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __ceil__(...)
 |      Ceiling of an Integral retur

Observe como as transformações não exibirão uma saída e não serão executadas até que uma ação seja chamada. 