# RDD - Exercises

## Setup Spark environment

In [None]:
from pathlib import Path

installation_folder = Path("/content/spark-3.5.0-bin-hadoop3")

if not installation_folder.exists():

  # Install Java locally
  !apt-get install openjdk-8-jdk-headless -qq > /dev/null

  # Download & decompress Spark
  !wget -q https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz -O spark-3.5.0-bin-hadoop3.tgz
  !tar xf spark-3.5.0-bin-hadoop3.tgz

  # Install finspark
  !pip install -q findspark

  # Setup required environment variables
  import os
  os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
  os.environ["SPARK_HOME"] = "/content/spark-3.5.0-bin-hadoop3"

  print("Spark setup finished!")

else:
  print("Skipping Spark setup")

Spark setup finished!


## Prepare the Spark context

In [None]:
# Import findpsark
import findspark

# Configure the environment
findspark.init()

# Import the Spark components required for the context creation
from pyspark import SparkConf, SparkContext

# Configure and create the context
conf = SparkConf()
conf = conf.setAppName('mds-session')
conf = conf.setMaster('local[*]')
sc = SparkContext.getOrCreate(conf=conf)

## EJERCICIO 1: ¿Cuántas palabras hay en El Quijote?

In [12]:
quijote = sc.textFile('quijote.txt')
palabras = quijote.flatMap(lambda line: line.split())
palabras.count()

383184

## EJERCICIO 2: ¿Cuántas palabras empiezan por vocal?

In [14]:
palabras_vocal = palabras.filter(lambda palabra: palabra[0].lower() in 'aeiou')
palabras_vocal.count()

76815

## EJERCICIO 3: ¿Cuántas palabras empiezan con cada vocal?

In [25]:
agrupado_vocal = palabras_vocal.groupBy(lambda palabra: palabra[0].lower())
agrupado_vocal.map(lambda vocal: (vocal[0], len(list(vocal[1])))).collect()

[('i', <pyspark.resultiterable.ResultIterable at 0x7999bd6e1a80>),
 ('e', <pyspark.resultiterable.ResultIterable at 0x7999bd6e1780>),
 ('o', <pyspark.resultiterable.ResultIterable at 0x7999bd6e18a0>),
 ('a', <pyspark.resultiterable.ResultIterable at 0x7999bd6e38b0>),
 ('u', <pyspark.resultiterable.ResultIterable at 0x7999bd6e0a00>)]

## EJERCICIO 4: ¿Qué longitud tiene la palabra más larga?

In [27]:
longitud_maxima = palabras.map(lambda palabra: len(palabra)).max()

27

## EJERCICIO 5: ¿Qué palabra es?

In [28]:
palabras.map(lambda palabra: (len(palabra), palabra)).max()

(27, 'Association/Carnegie-Mellon')

## EJERCICIO 6: Calcula la desviación típica de las longitudes de las palabras que empiezan por cada vocal y muestra el resultado ordenado por dicha desviación de mayor a menor

## Close the Spark context

In [None]:
sc.stop()