Spark - WordCount
===


## Definición del problema

Se desea contar la frecuencia de palabras para un alto volumen de textos. Pruebe el algoritmo con el texto presentado en la siguiente celda.

## Solución

En este caso, la solución será realizada usando Spark.



In [0]:
import findspark
findspark.init()

from pyspark import SparkConf, SparkContext

from operator import add


APP_NAME = "My Spark Application"

def tokenize(text):
    return text.split()

def main(sc): 
    ## carga los archivos
    text = sc.textFile("files/wordcount/*.txt")
    
    ## separa por palabras (split)
    ## con una palabra por registro
    words = text.flatMap(tokenize)
    
    ## genera el par (word, 1)
    wc = words.map(lambda x: (x,1))
    
    ## suma los valores para la misma clave
    counts = wc.reduceByKey(add)
    
    ## escribe los resultados al directorio `output`
    counts.saveAsTextFile("output")

if __name__ == "__main__":
    # Configure Spark
    conf = SparkConf().setAppName(APP_NAME) 
    conf = conf.setMaster("local[*]")
    sc =SparkContext(conf=conf)
    
    # Execute main functionality
    main(sc)

In [0]:
## archivos con los resultados
!ls output/ 

_SUCCESS   part-00000 part-00001 part-00002 part-00003


In [0]:
## Contenido de los archivos
!head output/part-00000

('interpretation,', 1)
('of', 8)
('in', 5)
('data.', 1)
('Especially', 1)
('analytics', 8)
('simultaneous', 1)
('operations', 1)
('research', 2)
('quantify', 1)


In [0]:
!head output/part-00001

('the', 10)
('discovery,', 1)
('and', 15)
('communication', 1)
('meaningful', 1)
('valuable', 1)
('rich', 1)
('recorded', 1)
('information,', 1)
('relies', 1)


In [0]:
!head output/part-00002

('Analytics', 2)
('is', 3)
('areas', 2)
('statistics,', 2)
('programming', 1)
('improve', 2)
('predictive', 2)
('analytics,', 8)
('enterprise', 1)
('stock-keeping', 1)


In [0]:
!head output/part-00003

('patterns', 1)
('with', 2)
('on', 1)
('application', 1)
('computer', 2)
('performance.', 2)
('data', 4)
('within', 1)
('prescriptive', 1)
('cognitive', 1)


---

In [0]:
!rm -rf output