# Introdução ao Spark com Python

## A Criação de RDD

A estrutura de dados mais fundamental do Spark é o `conjunto de dados distribuídos resiliente` (em inglês, essa estrutura de dados é conhecida como *Resilient Distributed Dataset* ou RDD). Um RDD é uma coleção distribuída de elementos.

Toda tarefa no Spark trata de criar novas RDDs, transformar RDDs existentes, ou invocar RDDs para computar algum resultado. O Spark automaticamente distribui os dados contidos em uma RDD em clusters e computa as operações em paralelo. 

Vamos utilizar o conjunto de dados da copa KDD de 1999 é descrito em detalhes [aqui](http://kdd.ics.uci.edu/databases/kddcup99/kddcup99).

## Como obter o `SparkContext`

In [6]:
import pyspark
sc = pyspark.SparkContext(appName="P1")
sc

## Obtendo o conjunto de dados de análise reduzido

Usaremos um conjunto reduzido de dados (10%) da Copa KDD de 1999, que contém quase meio milhão de registros. O arquivo é fornecido como um *Gzip*.

In [11]:
import urllib.request as request
f = request.urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

## Criando um RDD a partir de um arquivo

Uma forma comum de criar um RDD é carregá-lo de um arquivo. 


Veja que a função `textFile` lida diretamente com arquivos comprimidos.

In [12]:
dados = "./kddcup.data_10_percent.gz"
dados_brutos = sc.textFile(dados)

Agora temos nosso arquivo de dados carregados em um RDD chamado `dados_brutos`.

A coisa mais básica que podemos fazer para checar que o conteúdo do RDD está certo é contar o número de linhas carregadas em nosso RDD.

In [None]:
dados_brutos.count()

Podemos também checar as primeiras entradas em nossos dados.

In [None]:
dados_brutos.take(5)

Nos próximos notebooks, vamos usar estes dados brutos para aprender sobre as diferentes transformações e ações que o Spark pode fazer. 

## Criando um RDD usando `parallelize`

Uma forma de criar um RDD é parelelizar uma lista existente.

In [16]:
lista = range(100)

dados = sc.parallelize(lista)

Como feito anteriormente, podemos `count()` o número de elementos em um RDD.

In [None]:
dados.count()

Como anteriormente, podemos acessar os primeiros elementos em nosso RDD.

In [None]:
dados.take(5)