# RDDs y wordcount

En el presente notebook haremos una introducción a los objetos RDD conocidos por sus siglas en inglés Resilient Distributed Datasets, que significa Conjunto de Datos Resiliente Distribuido. Trabajaremos con un ejemplo sencillo de conteo de palabras. Estaremos usando varias funciones típicas que le permitirán entender que es el Almacenamiento Distribuido y cómo funcionan las funciones de mapeo/reducción que permiten a los ecosistemas Big Data como Hadoop y Spark ser altamente eficientes en el procesamiento de grandes volúmenes de datos.

Se recomienda que consulte las funciones empleadas [aquí](https://sparkbyexamples.com/).

In [0]:
nombre = 'Vargas,Harry'
nombre.split(',')

Out[5]: ['Vargas', 'Harry']

In [0]:
# Se crea un string llamado input

input = 'para entonces para la historia toma la salida'


In [0]:
print(input)

para entonces para la historia toma la salida


In [0]:
input.split()

Out[8]: ['para', 'entonces', 'para', 'la', 'historia', 'toma', 'la', 'salida']

In [0]:
# Tomamos ese input lo partimos y paralelizamos
# sc - spark context

rdd_text = sc.parallelize(input.split()) #parallelize() distribuye una colección local para formar un RDD

In [0]:
print(rdd_text)

ParallelCollectionRDD[0] at readRDDFromInputStream at PythonRDD.scala:413


In [0]:
# Para recuperar el contenido tenemos que recolectar los datos

print(rdd_text.collect())

['para', 'entonces', 'para', 'la', 'historia', 'toma', 'la', 'salida']


In [0]:
# Usamos mapeo para transformar cada uno de nuestros objetos en el rdd
# Función lambda - anónima, no existe en el entorno global

rdd_aux = rdd_text.map(lambda x:(x,1))  #map() realiza el mapeo aplicando una función a cada elemento del RDD


In [0]:
def a(x):
  return (x,1)

rdd_aux = rdd_text.map(a) 

In [0]:
print(rdd_aux)

PythonRDD[1] at RDD at PythonRDD.scala:58


In [0]:
print(rdd_aux.collect())

[('para', 1), ('entonces', 1), ('para', 1), ('la', 1), ('historia', 1), ('toma', 1), ('la', 1), ('salida', 1)]


In [0]:
# Ahora usamos una función de reducción, que va a sumar los objetos con mismas palabras
def b(x,y):
  return x + y

rdd_result = rdd_aux.reduceByKey(lambda x,y:x+y)

# reduceByKey() combina los valores para cada clave utilizando una función de reducción

In [0]:
display(rdd_result.collect())  #collect() regresa una lista que contiene todos los elementos del RDD


_1,_2
la,2
para,2
entonces,1
salida,1
toma,1
historia,1


In [0]:
import pandas as pd

pd.DataFrame(('a','b','c'))

Unnamed: 0,0
0,a
1,b
2,c


## HIVE: Interprete

pseudo-SQL --> HIVE --> Sentencias map reduce --> Resultado de la consulta