# Quick Start

Este é o tutorial de introdução ao Apache Spark disponibilizado na página do projeto.

In [1]:
import pyspark

In [2]:
sc = pyspark.SparkContext("local[*]")

In [3]:
spark = pyspark.sql.SparkSession(sc).builder.appName("Quick Start Tutorial").getOrCreate()

## DataFrames

In [4]:
textFile = spark.read.text("README.md")

In [5]:
textFile.count() #  Número de regitros presentes no DataFrame

103

In [6]:
textFile.first() #  Primeiro registro do DataFrame

Row(value='# Apache Spark')

In [7]:
linesWithSpark = textFile.filter(textFile.value.contains("Spark")) #  Cria um novo DataFrame através de uma transformação

In [8]:
linesWithSpark.show()

+--------------------+
|               value|
+--------------------+
|      # Apache Spark|
|Spark is a fast a...|
|rich set of highe...|
|and Spark Streami...|
|You can find the ...|
|   ## Building Spark|
|Spark is built us...|
|To build Spark an...|
|You can build Spa...|
|["Building Spark"...|
|For general devel...|
|The easiest way t...|
|Spark also comes ...|
|    ./bin/run-exa...|
|    MASTER=spark:...|
|Testing first req...|
|Spark uses the Ha...|
|Hadoop, you must ...|
|in the online doc...|
|Please review the...|
+--------------------+



In [9]:
textFile.filter(textFile.value.contains("Spark")).count() #  Combina uma transformação com uma ação

20

## Mais operação com DataFrames

Podemos importar ```from pyspark.sql.functions import *``` que disponibiliza algumas funções convenientes para utilizarmos com DataFrames.

In [10]:
from pyspark.sql.functions import *

In [11]:
textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()

[Row(max(numWords)=22)]

O código acima mapeia uma linha em um valor inteiro que contém a quantidade de palavras por linha, criando um novo DataFrame; `agg` busca a linha com maior quantidade de palavras.

In [12]:
wordCounts = textFile.select(explode(split(textFile.value, "\s+")).alias("word")).groupBy("word").count()

In [13]:
wordCounts.collect()

[Row(word='online', count=1),
 Row(word='graphs', count=1),
 Row(word='["Parallel', count=1),
 Row(word='["Building', count=1),
 Row(word='thread', count=1),
 Row(word='documentation', count=3),
 Row(word='command,', count=2),
 Row(word='abbreviated', count=1),
 Row(word='overview', count=1),
 Row(word='rich', count=1),
 Row(word='set', count=2),
 Row(word='-DskipTests', count=1),
 Row(word='name', count=1),
 Row(word='page](http://spark.apache.org/documentation.html).', count=1),
 Row(word='["Specifying', count=1),
 Row(word='stream', count=1),
 Row(word='run:', count=1),
 Row(word='not', count=1),
 Row(word='programs', count=2),
 Row(word='tests', count=2),
 Row(word='./dev/run-tests', count=1),
 Row(word='will', count=1),
 Row(word='[run', count=1),
 Row(word='particular', count=2),
 Row(word='option', count=1),
 Row(word='Alternatively,', count=1),
 Row(word='by', count=1),
 Row(word='must', count=1),
 Row(word='using', count=5),
 Row(word='you', count=4),
 Row(word='MLlib', count=

No código acima utilizamos a função `explode()` junto com o comando `select()` para transformar um DataFrame de linhas em um DataFrame de palavras, combinando com `groupBy()` e `count()` para contar quantas vezes a palavra aparece no arquivo.

In [14]:
linesWithSpark.cache()

DataFrame[value: string]

In [15]:
linesWithSpark.count()

20

In [16]:
linesWithSpark.count()

20