# Introdução ao Spark com Python

## Operações de conjuntos em RDDs: `subtract`, `distinct` e `cartesian`.

O Spark suporta muitas das operações que temos em conjuntos matemáticos, como união e intersecção. 

Essas operações exigem que os RDDs que estão sendo operados sejam do mesmo tipo.

## Como obter o `SparkContext`

In [5]:
import pyspark
sc = pyspark.SparkContext(appName="P4")
sc

## Obtendo o conjunto de dados de análise reduzido e criando o RDD

Usaremos um conjunto reduzido de dados (10%) da Copa KDD de 1999, que contém quase meio milhão de registros. O arquivo é fornecido como um *Gzip*.

In [15]:
import urllib.request as request
f = request.urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

In [16]:
nome_arquivo = "./kddcup.data_10_percent.gz"
rdd = sc.textFile(nome_arquivo)

## Obtendo as interações de ataque utilizando `subtract`

Suponha que já temos as interações de rede que não configuram ataque (normal) de uma análise prévia.

In [17]:
normal_rdd = rdd.filter(lambda x: "normal." in x)

As interações de ataque poderiam ser obtidas subtraindo-se as interações normais do RDD sem filtragem.

In [18]:
ataque_rdd = rdd.subtract(normal_rdd)

Vamos fazer alguma aritmética para checar os resultados

In [23]:
from time import time

# Contando todas as interações
t0 = time()
contagem_total = rdd.count()
tt = time() - t0
print("A contagem demorou {} segundos".format(round(tt,3)))

A contagem demorou 0.776 segundos


In [24]:
# Contando as interações normais
t0 = time()
contagem_normal = normal_rdd.count()
tt = time() - t0
print("Contagem dos normais em {} segundos".format(round(tt,3)))

Contagem dos normais em 0.792 segundos


In [21]:
# Contando as interações de ataque
t0 = time()
contagem_ataque = ataque_rdd.count()
tt = time() - t0
print("Contagem dos ataques em {} segundos".format(round(tt,3)))

Contagem dos ataques em 3.747 segundos


In [26]:
print("Existem {} interações normais e {} interações de ataque, \
de um total de {} interações".format(contagem_normal, contagem_ataque, contagem_total))

Existem 97278 interações normais e 396743 interações de ataque, de um total de 494021 interações


## A transformação `cartesian`

A transformação `cartesian` retorna todos os pares possíveis de elementos entre dois RDDs. No nosso caso, retornará todas as combinações possíveis entre serviços e protocolos utilizados nas interações de rede.


Vamos isolar cada coleção de valores em dois RDDs separados. Para isso, vamos usar o `distinct` no conjunto de dados CSV. Da [descrição do conjunto de dados](http://kdd.ics.uci.edu/databases/kddcup99/kddcup.names), sabamos que o protocolo é a segunda coluna e o serviço a terceira.

Vamos obter os protocolos.

In [29]:
dados_csv = rdd.map(lambda x: x.split(","))
protocolos_rdd = dados_csv.map(lambda x: x[1]).distinct()
protocolos_rdd.collect()

['tcp', 'udp', 'icmp']

Vamos fazer o mesmo com os serviços.

In [28]:
servicos_rdd = dados_csv.map(lambda x: x[2]).distinct()
servicos_rdd.collect()

['http',
 'smtp',
 'finger',
 'domain_u',
 'auth',
 'telnet',
 'ftp',
 'eco_i',
 'ntp_u',
 'ecr_i',
 'other',
 'private',
 'pop_3',
 'ftp_data',
 'rje',
 'time',
 'mtp',
 'link',
 'remote_job',
 'gopher',
 'ssh',
 'name',
 'whois',
 'domain',
 'login',
 'imap4',
 'daytime',
 'ctf',
 'nntp',
 'shell',
 'IRC',
 'nnsp',
 'http_443',
 'exec',
 'printer',
 'efs',
 'courier',
 'uucp',
 'klogin',
 'kshell',
 'echo',
 'discard',
 'systat',
 'supdup',
 'iso_tsap',
 'hostnames',
 'csnet_ns',
 'pop_2',
 'sunrpc',
 'uucp_path',
 'netbios_ns',
 'netbios_ssn',
 'netbios_dgm',
 'sql_net',
 'vmnet',
 'bgp',
 'Z39_50',
 'ldap',
 'netstat',
 'urh_i',
 'X11',
 'urp_i',
 'pm_dump',
 'tftp_u',
 'tim_i',
 'red_i']

Agora podemos fazer o produto cartesiano

In [33]:
produto = protocolos_rdd.cartesian(servicos_rdd).collect()
print("Existem {} combinacoes de protocolo X serviço".format(len(produto)))

Existem 198 combinacoes de protocolo X serviço
