# Exercicios com Spark

Caso precise, abaixo estão os comandos para iniciar o container:

Para macOS e linux, utilize:

```bash
docker run \
    -it \
    --rm \
    -p 8888:8888 \
    -p 4040:4040 \
    -v "`pwd`":/home/jovyan/work \
    jupyter/pyspark-notebook


```

Se estiver no Windows estes comandos, utilize:

- No Powershell: `docker run -it --rm -p 8888:8888 -p 4040:4040 -v ${PWD}:/home/jovyan/work jupyter/pyspark-notebook`

- No Prompt de comando: `docker run -it --rm -p 8888:8888 -p 4040:4040 -v %cd%:/home/jovyan/work jupyter/pyspark-notebook`

Agora abra esse notebook lá no container!


## Iniciando o Spark

In [None]:
import pyspark

conf = pyspark.SparkConf()
conf.setAppName('Minha aplicação')
conf.setMaster('local[*]')

sc = pyspark.SparkContext(conf=conf)

In [None]:
sc

## Iniciando a biblioteca de correção

In [None]:
import insperautograder.jupyter as ia
from dotenv import load_dotenv
load_dotenv()

In [None]:
ia.grades(task="exercicios_spark")

## Trabalhando com Spark

Para este exercicio vamos trabalhar com o dataset de reviews da Amazon visto em https://www.kaggle.com/datasets/kritanjalijain/amazon-reviews. Baixe o arquivo "train.csv"

Vamos ler o arquivo "train.csv" em um RDD.

In [None]:
rdd = sc.textFile('train.csv')

In [None]:
rdd.take(1)

De acordo com a documentação deste arquivo vista no Kaggle, cada linha contem 2 elementos: o sentimento do review (1 - negativo, 2 - positivo), o título e o corpo do review. A linha contem esses elementos em um formato "comma-separated value" (CSV), onde cada um dos campos está delimitado por aspas duplas. Se o texto em si (titulo ou corpo) contem aspas, elas aparecem como um par de aspas duplas. Vamos usar o `.filter()` para achar um exemplo desses.

In [None]:
example_line = rdd.filter(lambda x: '""' in x).take(1)
example_line = example_line[0]

example_line

Levando isso em consideração, vamos fazer uma função simples para separar os campos:

In [None]:
def parse_line(line):
    parts = line[1:-1].split('","')
    sentiment = int(parts[0])
    title = parts[1].replace('""', '"')
    body = parts[2].replace('""', '"')
    return (sentiment, title, body)

In [None]:
parse_line(example_line)

Podemos agora utilizar nossa função para separar os campos de cada linha do dataset. 

In [None]:
rdd_split = rdd.map(parse_line)

Como de costume, nada realmente acontece até que uma "action" seja invocada. O `.map()` é uma "transformation". Vamos usar uma action simples para "materializar" o novo RDD.

In [None]:
rdd_split.count()

Vamos explorar os resultados para ver se deu certo

In [None]:
rdd_split.take(1)

**Atividade**: Implemente uma função que recebe o rdd processado e conte quantos sentimentos diferentes existem, e quantas vezes aparecem, para confirmar que só tem os sentimentos 1 e 2. Sua função deve retornar o resultado em tuplas, onde o primeiro elemento é o sentimento e o segundo é a contagem de vezes que aparece.

In [None]:
def ex01(rdd_split):
    return rdd_split
    
ex01(rdd_split)

In [None]:
ia.sender(answer="ex01", task="exercicios_spark", question="ex01", answer_type="pycode")

**Atividade**: Implemente uma função que recebe o rdd processado e retorna quantos reviews não tem titulo.

In [None]:
def ex02(rdd_split):
    return rdd_split

ex02(rdd_split)

In [None]:
ia.sender(answer="ex02", task="exercicios_spark", question="ex02", answer_type="pycode")

**Atividade**: Implemente uma função que recebe o rdd processado e retorna quantos reviews não tem corpo.

In [None]:
def ex03(rdd_split):
    return rdd_split

ex03(rdd_split)

In [None]:
ia.sender(answer="ex03", task="exercicios_spark", question="ex03", answer_type="pycode")

**Atividade**: Implemente uma função que recebe o rdd processado e retorna qual o comprimento máximo de um título e de um corpo. O resultado deve ser uma tupla com os dois valores.

In [None]:
def ex04(rdd_split):
    return rdd_split
    
ex04(rdd_split)

In [None]:
ia.sender(answer="ex04", task="exercicios_spark", question="ex04", answer_type="pycode")

**Atividade**: Implemente uma função que recebe o rdd processado e retorna qual a maior palavra palíndroma sem pontuações do dataset (no titulo ou corpo) e seu tamanho. Para este exercício, está permitido o uso de list comprehensions.

In [None]:
import string
string.punctuation

In [None]:
def ex05(rdd_split):
    return rdd_split

ex05(rdd_split)

In [None]:
ia.sender(answer="ex05", task="exercicios_spark", question="ex05", answer_type="pycode")

**Atividade**: Implemente uma função que recebe o rdd processado e retorna as 20 palavras mais populares do titulo com sua frequência absoluta. Teste no subconjunto apresentado abaixo.

In [None]:
def ex06(rdd_split):
    return rdd_split

ex06(rdd_split)

In [None]:
rdd_redux = rdd_split.sample(False, 0.05, 7)
ex06(rdd_split)

In [None]:
ia.sender(answer="ex06", task="exercicios_spark", question="ex06", answer_type="pycode")