# Criação do RDD

#### [Baseado em "Introduction to Spark with Python, by Jose A. Dianes"](https://github.com/jadianes/spark-py-notebooks)

Neste notebook, será apresentado duas formas diferentes de obter dados na estrutura de dados básica do Apache Spark, o **Resilient Distributed Dataset** ou **RDD**. Um RDD é uma coleção distribuída de elementos. Todo o processamento do Spark é expresso em como criar novos RDDs, transformar RDDs existentes ou chamar ações em RDDs para calcular um resultado. O Spark distribui automaticamente os dados contidos nos RDDs em todo o cluster e paraleliza as operações executadas neles.

#### Referências

O livro de referência para esses e outros tópicos relacionados ao Apache Spark é *Learning Spark* de Holden Karau, Andy Konwinski, Patrick Wendell e Matei Zaharia.

O conjunto de dados de competição do KDDCup 1999 é descrito em detalhes [here](http://kdd.ics.uci.edu/databases/kddcup99/kddcup99).

Este é o conjunto de dados usado para a Terceira Competição Internacional de Ferramentas de Descoberta de Conhecimento e Ferramentas de Mineração de Dados, realizada em conjunto com a KDD-99 A Quinta Conferência Internacional sobre Descoberta de Conhecimento e Mineração de Dados. A tarefa da competição era construir um detector de intrusão de rede, um modelo preditivo capaz de distinguir entre conexões "ruins", chamadas intrusões ou ataques, e conexões normais "boas". Este banco de dados contém um conjunto padrão de dados a serem auditados, que inclui uma ampla variedade de intrusões simuladas em um ambiente de rede militar.

## Fazendo download do Dataset

Neste notebook, usaremos o conjunto de dados reduzido 10% do fornecido para a KDD Cup 1999, contendo quase meio milhão de interações de rede. O arquivo é fornecido como um arquivo *Gzip* que será baixado localmente.

In [4]:
from urllib.request import urlretrieve

f = urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

## Criando um RDD a partir de um arquivo

A maneira mais comum de criar um RDD é carregá-lo de um arquivo. Observe que o `textFile` do Spark pode manipular arquivos compactados diretamente.

In [5]:
data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

Agora temos nosso arquivo de dados carregado no RDD `raw_data`.

Sem entrar em detalhes de operações de *transformations* e *actions* do Spark, a operação mais básica que podemos fazer para verificar se obtemos o conteúdo correto do RDD é `count()`, método que retorna o número de linhas carregadas de um arquivo no RDD.

In [6]:
raw_data.count()

494021

Também podemos verificar as primeiras entradas nos nossos dados.

In [7]:
raw_data.take(5)

['0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,235,1337,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,29,29,1.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,219,1337,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,6,6,0.00,0.00,0.00,0.00,1.00,0.00,0.00,39,39,1.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,217,2032,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,6,6,0.00,0.00,0.00,0.00,1.00,0.00,0.00,49,49,1.00,0.00,0.02,0.00,0.00,0.00,0.00,0.00,normal.']

Nos seguintes notebooks, usaremos esses dados para aprender sobre as diferentes transformações e ações do Apache Spark.

## Criando um RDD utilizando o `parallelize`

Outra maneira de criar um RDD é paralelizar uma lista já existente.

In [8]:
a = range(100)

data = sc.parallelize(a)

Como fizemos antes, podemos usar o `count()` para retornar o número de elementos contidos no RDD.

In [9]:
data.count()

100

Como antes, podemos acessar os primeiros elementos do nosso RDD.

In [10]:
data.take(5)

[0, 1, 2, 3, 4]

Também podemos retornar os n elementos do topo da pilha.

In [11]:
data.top(5)

[99, 98, 97, 96, 95]