# Introdução ao Spark com Python

## Trabalhando com pares RDD chave-valor

O Spark fornece funções específicas para lidar com RDDs cujos elementos são chave-valor. Normalmente são utilizaedos para fazer agregações e outros tipos de processamento por chave.

## Como obter o `SparkContext`

O `SparkContext` Carregado automaticamente quando o notebook é iniciado pelo PySpark

In [None]:
# Somente necessário quando o notebook não é carregado pelo PySpark
#import pyspark
#sc = pyspark.SparkContext(appName="P6")

# Quando o notebook é carregado pelo PySpark, a variável sc é disponibilizada automaticamente
sc

## Obtendo o conjunto de dados de análise reduzido

Usaremos um conjunto reduzido de dados (10%) da Copa KDD de 1999, que contém quase meio milhão de registros. O arquivo é fornecido como um *Gzip*.

In [None]:
import urllib.request as request
f = request.urlretrieve("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

Atenção! Lembre-se de colocar o arquivo baixado no `HDFS` (caso ainda não tenha feito). Além disso, inicie o `HDFS` e o `Yarn`.

```bash
start-dfs.sh
start-yarn.sh
hdfs dfs -put kddcup.data_10_percent.gz /usr/hduser
```

In [None]:
nome_arquivo = "./kddcup.data_10_percent.gz"
rdd = sc.textFile(nome_arquivo)

## Criando um par RDD para tipos de interação

Faremos alguma análise de dados exploratória em nosso conjunto de dados. Mais especificamente, queremos traçar um perfil de cada tipo de interação de rede considerando algumas variáveis como duração.

In [None]:
csv_rdd = rdd.map(lambda x: x.split(","))
elementos_por_chave_rdd = csv_rdd.map(lambda x: (x[41], x)) # x[41] contém o tipo de interação de rede

We have now our key/value pair data ready to be used. Let's get the first element in order to see how it looks like.  

In [None]:
elementos_por_chave_rdd.take(1)

## Agregações de dados com pares RDD chave-valor

Podemos usar todas as transformações e ações disponívies para RDDs normais com pares de RDDs chave-valor. Só precisamos fazer com que as funções trabalhem com pares de elementos. Além disso, o Spark fornece funções específicas para trabalhar com RDDs contendo pares de elementos. São similares àqueles disponíveis para RDDs em geral.

Por exemplo, temos uma transformação `reduceByKey` que calcula a duração total de cada tipo de interação de rede.

In [None]:
duracao_interacoes_rdd = csv_rdd.map(lambda x: (x[41], float(x[0]))) 
duracao_interacoes_por_tipo_rdd = duracao_interacoes_rdd.reduceByKey(lambda x, y: x + y)
duracao_interacoes_por_tipo_rdd.collect()

Podemos especificar a ação de contagem para pares de chave-valor.

In [None]:
contagem_por_chave = elementos_por_chave_rdd.countByKey()
contagem_por_chave

### Usando o `combineByKey`

Esta é a mais geral das funções de agregação por chave. A maioria dos outros combinadores por chave utilizam essa implementação. Podemos até pensar nesta função como um equivalente ao `aggregate` já que o usuário retorna os valores que não são do mesmo tipo que a entrada de dados.

Por exemplo, podemos usar para calcular a duração média por tipo como a seguir.

In [None]:
interacoes_combinadas_rdd = duracao_interacoes_rdd.combineByKey(
    (lambda x: (x, 1)), # o valor inicial com valor x e contagem 1
    (lambda acum, valor: (acum[0]+valor, acum[1]+1)), # como combinar um valor com o acumulador: soma valor, incrementa contagem
    (lambda acum1, acum2: (acum1[0]+acum2[0], acum1[1]+acum2[1])) # combina acumuladores
)

interacoes_combinadas_rdd.collectAsMap()

Podemos ver que os argumentos são similares ao passados ao `aggregate` apresentado anteriormente. O resultado associado a cada tipo é na forma de um par. Se quisermos realmente as médias, precisamos fazer a divisão antes de coletar os resultados.

In [None]:
duracao_media_por_tipo_rdd = interacoes_combinadas_rdd.map((lambda x: (x[0], round(x[1][0]/x[1][1],3))))
duracao_media_por_tipo_rdd.collectAsMap()