# Introdução ao Spark e Python

Vamos aprender como usar o Spark com Python usando a biblioteca pyspark! Certifique-se de assistir à palestra em vídeo que explica o Spark e RDDs antes de continuar com este código.

Este notebook servirá como código de referência para a seção de Big Data do curso envolvendo a Amazon Web Services. O vídeo fornecerá explicações mais detalhadas sobre o que o código está fazendo.

## Criando um SparkContext

Primeiro, precisamos criar um SparkContext. Vamos importá-lo do pyspark:

In [1]:
from pyspark import SparkContext, SparkConf

Agora crie o SparkContext. Um SparkContext representa a conexão com um cluster Spark e pode ser usado para criar um RDD e transmitir variáveis nesse cluster.

*Nota! Você só pode ter um SparkContext por vez da maneira como estamos executando as coisas aqui.*

In [2]:
sc = SparkContext()

23/05/04 09:50:15 WARN Utils: Your hostname, kauas-ThinkPad-T480 resolves to a loopback address: 127.0.1.1; using 192.168.43.253 instead (on interface wlp3s0)
23/05/04 09:50:15 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/05/04 09:50:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


## Operações Básicas

Vamos começar com um exemplo simples, que é ler um arquivo de texto. Primeiro, vamos criar um arquivo de texto.

Vamos escrever um exemplo de arquivo de texto para ler. Usaremos alguns comandos especiais do Jupyter Notebook para fazer isso, mas sinta-se à vontade para usar qualquer arquivo .txt:

In [3]:
%%writefile example.txt
first line
second line
third line
fourth line

Overwriting example.txt


### Criando o RDD

Agora podemos ler o arquivo de texto usando o método **textFile** do SparkContext que criamos. Esse método lerá um arquivo de texto do HDFS, do sistema de arquivos local (disponível em todos os nós) ou de qualquer URI de sistema de arquivos suportado pelo Hadoop e o retornará como um RDD de Strings.

In [4]:
textFile = sc.textFile('example.txt')

A principal abstração do Spark é uma coleção distribuída de itens chamada Resilient Distributed Dataset (RDD). Os RDDs podem ser criados a partir de InputFormats do Hadoop (como arquivos HDFS) ou por meio da transformação de outros RDDs.

### Ações

Acabamos de criar um RDD usando o método textFile e podemos realizar operações nesse objeto, como contar as linhas.

Os RDDs possuem ações, que retornam valores, e transformações, que retornam ponteiros para novos RDDs. Vamos começar com algumas ações:

In [6]:
textFile.count()

4

In [7]:
textFile.first()

'first line'

### Transformações

Agora podemos usar as transformações. Por exemplo, a transformação filter retornará um novo RDD com um subconjunto de itens do arquivo. Vamos criar uma transformação de exemplo usando o método filter(). Esse método (assim como a função filter própria do Python) retornará apenas elementos que satisfazem a condição. Vamos tentar procurar por linhas que contenham a palavra 'segundo'. Nesse caso, deverá haver apenas uma linha que contenha essa palavra.

In [9]:
secfind = textFile.filter(lambda line: 'second' in line)

In [10]:
secfind

PythonRDD[5] at RDD at PythonRDD.scala:53

In [11]:
secfind.collect()

['second line']

In [12]:
secfind.count()

1

Observe que as transformações não exibirão uma saída e não serão executadas até que uma ação seja chamada. Na próxima palestra: Spark Avançado e Python, veremos muitos mais exemplos dessa relação entre transformação e ação!

# Ótimo trabalho!