# Introdução ao Spark e ao Python

Vamos aprender a usar Spark com Python usando a biblioteca pyspark! Certifique-se de ter assistido ao vídeo explicando Spark e RDDs antes de continuar neste código.

Este notebook servirá como uma referência para a seção Big Data do curso envolvendo o Amazon Web Services. O vídeo fornecerá explicações mais completas sobre o que o código está fazendo.

## Criando um SparkContext

Primeiro, precisamos criar um SparkContext. Vamos importar isso do pyspark:

In [3]:
from pyspark import SparkContext

ModuleNotFoundError: No module named 'pyspark'

Agora, crie o SparkContext. Um SparkContext representa a conexão com um cluster Spark e pode ser usado para criar um RDD e variáveis de transmissão nesse cluster.

*Nota! Você só pode ter um SparkContext de cada vez da maneira como estamos executando as coisas aqui. *

In [2]:
sc = SparkContext()

## Operações básicas

Vamos começar com um exemplo de "Olá mundo", que apenas lerá um arquivo de texto. Primeiro vamos criar um arquivo de texto.

Vamos escrever um exemplo de arquivo de texto para ler usando alguns comandos especiais do notebook jupyter para isso, mas sinta-se livre para usar qualquer arquivo .txt:

In [1]:
%%writefile example.txt
first line
second line
third line
fourth line

Overwriting example.txt


### Criando o RDD

Agora, podemos pegar o arquivo de texto usando o método ** textFile ** do SparkContext que criamos. Este método irá ler um arquivo de texto do HDFS, um sistema de arquivos local (disponível em todos
nós), ou qualquer URI do sistema de arquivos compatível com Hadoop, e devolvê-lo como um RDD de Strings.

In [2]:
textFile = sc.textFile('example.txt')

NameError: name 'sc' is not defined

Spark’s primary abstraction is a distributed collection of items called a Resilient Distributed Dataset (RDD). RDDs can be created from Hadoop InputFormats (such as HDFS files) or by transforming other RDDs. 

### Actions

We have just created an RDD using the textFile method and can perform operations on this object, such as counting the rows.

RDDs have actions, which return values, and transformations, which return pointers to new RDDs. Let’s start with a few actions:

In [8]:
textFile.count()

4

In [10]:
textFile.first()

'first line'

### Transformations

Now we can use transformations, for example the filter transformation will return a new RDD with a subset of items in the file. Let's create a sample transformation using the filter() method. This method (just like Python's own filter function) will only return elements that satisfy the condition. Let's try looking for lines that contain the word 'second'. In which case, there should only be one line that has that.

In [11]:
secfind = textFile.filter(lambda line: 'second' in line)

In [12]:
# RDD
secfind

PythonRDD[7] at RDD at PythonRDD.scala:43

In [13]:
# Perform action on transformation
secfind.collect()

['second line']

In [14]:
# Perform action on transformation
secfind.count()

1

Notice how the transformations won't display an output and won't be run until an action is called. In the next lecture: Advanced Spark and Python we will begin to see many more examples of this transformation and action relationship!

# Great Job!