# Frecuecia de palabras en un libro

In [None]:
from pyspark import SparkContext

In [None]:
sc = SparkContext('local[*]', 'Word frequencies')

## Cargar libro

### Se puede ingresar la dirección de un archivo particular o la dirección de un folder donde puede haber múltiples archivos (en este caso solo almacené un libro en un folder). 

### El **RDD** resultante tiene como elementos las lineas (**strings**) de los libros

In [None]:
sc.textFile?

In [None]:
input = sc.textFile("GoodBook")

In [None]:
type(input)

In [None]:
input.take(1)

## Mapear las lineas a palabras

### Un `flatMap` es un tipo especial de mapa; aplica el mapa a cada elemento del **RDD** y posteriormente trata de unir los resultados en un nuevo **RDD**. 

### Por ejemplo, si un mapa $f$ transforma `'Hello World'` en `('Hello', 'World')` y `'Goodbye Sir'` en `('Goodbye', 'Sir')`, `flatMap` unirá estas **tuplas** y regresará un **RDD** con el contenido `['Hello', 'World', 'Goodbye', 'Sir']`. 

### Nota: Si hubiesemos utilizado `map` obtendriamos un **RDD** con [('Hello', 'World'), ('Goodbye', 'Sir')].

In [None]:
input.flatMap?

In [None]:
words = input.flatMap(lambda line: line.split())

In [None]:
words.take(5)

## Tomar cada palabra como **llave** y agregar un valor de **uno** para posteriormente hacer su conteo

In [None]:
word_freq = words.map(lambda word: (word, 1))

In [None]:
word_freq.take(3)

## Realizar la reducción mediante una suma

In [None]:
word_freq.reduceByKey?

In [None]:
frequencies = word_freq.reduceByKey(lambda x, y: x + y)

In [None]:
frequencies.take(10)

## (Opcional) Transformemos nuestro **RDD** en un **Dataframe**

### Debemos primero inicializar una sesión **Spark** de **sql** (la cual trabaja con **Dataframes**)

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("RDDView").getOrCreate()

### Ahora podemos transformar nuestro RDD

In [None]:
freq_df = frequencies.toDF(['word', 'freq'])
type(freq_df)

In [None]:
freq_df.show()