# Introduccion a RDDs Clave-Valor

- Muchos conuuntos de datos que vemos en ejemplos de la vida real suelen ser pares clave-valor
- Ejemplos:
Un conjunto de datos que contiene numeros de pasaporte y los nombres de los propietarios.
- El patron tipico de este tipo de conjunto de datos es que cada fila es una clave que esta asociada a uno o multiples valores
- Un RDD clave-valor es un tipo particular de RDD que puede almacenar pares Clave-Valor
- Son bloques utiles de construccion en muchos programas Spark

### Como crear RDDs clave-valor

1. Crear RDDs clave-valor a partir de una lista de datos clave-valor estructurada llamada tupla

In [2]:
// Creamos una tupla
val tuple = ("Juan", 25)

val name = tuple._1
val age = tuple._2

tuple: (String, Int) = (Juan,25)
name: String = Juan
age: Int = 25


### Convertir tuplas en RDDs clave-valor

In [5]:
// Ejemplo 1

val tuple = List(("Lily", 23), ("Jack", 29), ("Mary", 29), ("James", 8))
val pairRDD = sc.parallelize(tuple)

pairRDD.coalesce(1).saveAsTextFile("out/pair_rdd_from_tuple_list")

tuple: List[(String, Int)] = List((Lily,23), (Jack,29), (Mary,29), (James,8))
pairRDD: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[2] at parallelize at <console>:29


In [6]:
// Ejemplo 2

val inputStrings = List("Lily 23", "Jack 29", "Mary 29", "James 8")
val regularRDDs = sc.parallelize(inputStrings)

val pairRDD = regularRDDs.map(s => (s.split(" ")(0), s.split(" ")(1)))
pairRDD.coalesce(1).saveAsTextFile("out/pair_rdd_from_regular_rdd")


inputStrings: List[String] = List(Lily 23, Jack 29, Mary 29, James 8)
regularRDDs: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[5] at parallelize at <console>:30
pairRDD: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[6] at map at <console>:32


# Transformaciones Filter y MapValue en RDDs clave-valor

- Los RDDs clave-valor pueden utilizar todas las transformaciones disponibles para RDDs regulares, por lo tanto admiten las mismas funciones
- Dado que los RDDs clave-valor tienen tuplas, tenemos que ejecutar las funciones que operan en tuplas en lugar de elementos individuales


### Transformacion Filter

- La transformacion Filter tambien se puede aplicar a un RDD clave-valor
- La transformacion Filter se ejecutaa como una funcion y genera un RDD clave-valor formado por aquellos elementos seleccionados que pasan la funcion filter

#### Ejercicio:

Cree un programa Spark para leer los datos del aeropuerto desde in / airports.text; generar un par RDD con el nombre del aeropuerto como clave y el nombre del país como valor. Luego, elimine todos los aeropuertos que se encuentran en Estados Unidos y envíe el par RDD a out / airports_not_in_usa_pair_rdd.text Cada fila del archivo de entrada contiene las siguientes columnas:  Identificación del aeropuerto, nombre del aeropuerto, ciudad principal a la que sirve el aeropuerto, país donde se encuentra el aeropuerto, Código IATA / FAA, Código ICAO, Latitud, Longitud, Altitud, Zona horaria, DST, Zona horaria en formato Olson

#### Solucion:

In [8]:
val airportsRDD = sc.textFile("input/airports.text")

val airportPairRDD = airportsRDD.map(line => (line.split(",")(1),
      line.split(",")(3)))
val airportsNotInUSA = airportPairRDD.filter(keyValue => keyValue._2 != "\"United States\"")

airportsNotInUSA.saveAsTextFile("out/airports_not_in_usa_pair_rdd.text")

airportsRDD: org.apache.spark.rdd.RDD[String] = input/airports.text MapPartitionsRDD[10] at textFile at <console>:25
airportPairRDD: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[11] at map at <console>:27
airportsNotInUSA: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[12] at filter at <console>:29


# Transformaciones map y mapValues

- Transformaciones map tambien funciona para RDDs clave-valor. Se puede utilizar para convertir un RDD en otro.
- Sin embargo, cuando se trabaja con RDDs clave-valor, solo queremos acceder al valor de nuestro par clave-valor

#### Ejercicio:


Cree un programa Spark para leer los datos del aeropuerto desde / airports.text, genere un par RDD con el nombre del aeropuerto siendo la clave y el nombre del país el valor. Luego convierta el nombre del país a mayúsculas y salida del par RDD a out / airports_uppercase.text Cada fila del archivo de entrada contiene las siguientes columnas: Identificación del aeropuerto, nombre del aeropuerto, ciudad principal a la que sirve el aeropuerto, país donde se encuentra el aeropuerto, código IATA / FAA, Código OACI, latitud, longitud, altitud, zona horaria, horario de verano, zona horaria en formato Olson

#### Solucion:

In [12]:
val airportsRDD = sc.textFile("input/airports.text")

val airportPairRDD = airportsRDD.map((line: String) => (line.split(",")(1),
      line.split(",")(3)))

val upperCase = airportPairRDD.mapValues(countryName => countryName.toUpperCase)

upperCase.saveAsTextFile("out/airports_uppercase.text")

airportsRDD: org.apache.spark.rdd.RDD[String] = input/airports.text MapPartitionsRDD[25] at textFile at <console>:28
airportPairRDD: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[26] at map at <console>:30
upperCase: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[27] at mapValues at <console>:33
