In [1]:
import findspark
findspark.init()
findspark.find()

'D:\\apps\\spark-3.5.0-bin-hadoop3'

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Perla Negra") \
                            .master("local[*]") \
                            .config("spark.ui.port", "4040") \
                            .getOrCreate()

In [4]:
# Transformation
rdd = spark.sparkContext.textFile("test.txt") # leer el archivo y cargarlo en una RDD

# Action
rdd.count() # contar la cantidad de elementos en la RDD

126

## Transformaciones

Leer un archivo de texto con la funcion textFile devuelve una RDD donde cada elemento es una linea leida en el archivo. 

In [5]:
rdd.take(5) # Pregunta 1: que pasa si usamos collect aqui en vez de take? que riesgo corremos si el dataset es muy grande?

['Project Gutenberg’s',
 'Alice’s Adventures in Wonderland',
 'by Lewis Carroll',
 'This eBook is for the use',
 'of anyone anywhere']

Si quisieramos, por ejemplo, tomar cada palabra de un archivo como un elemento distinto tendriamos que aplicarle la funcion split a cada linea y desagregar eso dentro del RDD para generar una sola gran coleccion de palabras. Para esto podemos usar flatMap() que nos permite pasar una funcion que devuelve un array en lugar de un unico elemento. Ademas de mapear la funcion, flatMap se va a encargar de luego desagregar los arrays resultantes en un unico array que sera nuestra RDD transformada.

In [6]:
rdd2 = rdd.flatMap(lambda x: x.split(" ")) # Pregunta 2: Que pasa si usamos map() aqui en lugar de flatMap()? 

In [7]:
rdd2.take(10)

['Project',
 'Gutenberg’s',
 'Alice’s',
 'Adventures',
 'in',
 'Wonderland',
 'by',
 'Lewis',
 'Carroll',
 'This']

Ahora si, podemos mapear una funcion a cada elemento de la RDD. En este caso, vamos a crear un contador de palabras

In [8]:
rdd3 = rdd2.map(lambda x: (x,1)) # que pasa si invertimos (x,1) a (1,x)?

In [9]:
rdd4 = rdd3.reduceByKey(lambda a,b: a+b) # Pregunta 3:  reduceByKey es una transformacion? o una accion? 

In [10]:
rdd4.take(5)

[('Alice’s', 18), ('by', 18), ('Lewis', 18), ('Carroll', 18), ('eBook', 27)]

reduceByKey aplica la funcion de mapeo sobre la RDD agrupada por clave. Se toma al primer elemento como la clave por la cual se va a agrupar. Por lo que lo que termina pasando es que la funcion acumuladora que se le pasa a reduceByKey se aplica sobre cada agrupacion de las palabras. Entonces cada grupo basicamente suma todos sus '1' dando el total de elementos por grupo. 

In [11]:
rdd5 = rdd4.map(lambda x: (x[1],x[0])).sortByKey() # devolvemos una version invertida de cada tupla para poder ordenar por clave. 

In [12]:
rdd6 = rdd5.map(lambda x: (x[1],x[0])) # volvemos a invertir para recuperar el orden inicial

In [13]:
rdd6.collect()

[('Project', 9),
 ('Gutenberg’s', 9),
 ('Alice’s', 18),
 ('by', 18),
 ('Lewis', 18),
 ('Carroll', 18),
 ('Adventures', 18),
 ('in', 18),
 ('Wonderland', 18),
 ('eBook', 27),
 ('for', 27),
 ('use', 27),
 ('of', 27),
 ('anyone', 27),
 ('at', 27),
 ('no', 27),
 ('cost', 27),
 ('and', 27),
 ('with', 27),
 ('This', 27),
 ('is', 27),
 ('the', 27),
 ('anywhere', 27)]

In [14]:
filteredRdd = rdd6.filter(lambda x: 'an' in x[0])
filteredRdd.collect()

[('Wonderland', 18), ('anyone', 27), ('and', 27), ('anywhere', 27)]

## Acciones

In [16]:
rdd6.count()

23

In [17]:
rdd6.first()

('Project', 9)

In [18]:
rdd6.max()

('with', 27)

In [30]:
rdd6.map(lambda x: x[1]).reduce(lambda a,b: a+b)

522

## Respuestas a las preguntas:

- Pregunta 1:
- Pregunta 2:
- Pregunta 3:

In [None]:
## Problema 1: escribir un filtro para la RDD que recupere las palabras con mas de 10 ocurrencias y mostrarlo

# solucion:


