In [109]:
from pyspark import SparkContext

In [110]:
sc = SparkContext("local", "Number RDD App")

Ejercicio 1: Carga el fichero con spark

In [111]:
raw_text_file_rdd = sc.textFile('./texto.txt')
text_file_rdd = raw_text_file_rdd.flatMap(lambda x: x.split())

Ejercicio 2: Contar la frecuencia de palabras

In [112]:
word_count = text_file_rdd.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)
word_count.collect()

[('En', 2),
 ('el', 6),
 ('a�o', 1),
 ('2045,', 1),
 ('la', 9),
 ('humanidad', 2),
 ('se', 6),
 ('encuentra', 2),
 ('en', 6),
 ('un', 7),
 ('punto', 1),
 ('de', 13),
 ('inflexi�n.', 1),
 ('La', 2),
 ('tecnolog�a', 1),
 ('ha', 3),
 ('transformado', 1),
 ('radicalmente', 1),
 ('nuestras', 1),
 ('vidas.', 1),
 ('Desde', 1),
 ('los', 4),
 ('avances', 1),
 ('inteligencia', 1),
 ('artificial', 1),
 ('hasta', 1),
 ('colonizaci�n', 1),
 ('Marte,', 1),
 ('mundo', 1),
 ('experimentado', 1),
 ('cambios', 1),
 ('asombrosos.', 1),
 ('Sin', 1),
 ('embargo,', 1),
 ('junto', 1),
 ('con', 2),
 ('progreso,', 1),
 ('tambi�n', 1),
 ('han', 1),
 ('surgido', 1),
 ('desaf�os.', 1),
 ('brecha', 1),
 ('entre', 1),
 ('ricos', 1),
 ('y', 4),
 ('pobres', 1),
 ('ampliado,', 1),
 ('lucha', 1),
 ('por', 1),
 ('recursos', 1),
 ('naturales', 1),
 ('intensifica.', 1),
 ('medio', 1),
 ('este', 1),
 ('panorama,', 1),
 ('grupo', 1),
 ('cient�ficos', 1),
 ('descubre', 1),
 ('fen�meno', 1),
 ('inexplicable', 1),
 ('espacio'

Ejercicio 3: Encontrar las palabras más comunes

In [113]:
word_sorted = word_count.sortBy(lambda w_count: w_count[1], ascending=False)
word_sorted.take(10)

[('de', 13),
 ('la', 9),
 ('un', 7),
 ('el', 6),
 ('se', 6),
 ('en', 6),
 ('que', 5),
 ('los', 4),
 ('y', 4),
 ('ha', 3)]

Ejercicio 4: Eliminar palabras comunes (stop words), donde stop Word es la siguiente lista

In [114]:
rdd_stop_words = sc.parallelize(
    ["la", "de", "en", "y", "un", "se", "con", "el", "que", "su", "para", "es", "un", "por", "lo", "ha",
     "del", "los", "una", "año", "las"]
)
text_without_stop_words = text_file_rdd.map(lambda x: x.lower()).subtract(rdd_stop_words)
text_without_stop_words.collect()

['humanidad',
 'humanidad',
 'inflexi�n.',
 'tecnolog�a',
 'radicalmente',
 'nuestras',
 'vidas.',
 'artificial',
 'mundo',
 'experimentado',
 'embargo,',
 'junto',
 'progreso,',
 'brecha',
 'entre',
 'pobres',
 'lucha',
 'recursos',
 'naturales',
 'intensifica.',
 'medio',
 'panorama,',
 'grupo',
 'descubre',
 'fen�meno',
 'inexplicable',
 'espacio',
 'serie',
 'serie',
 'pulsos',
 'pulsos',
 'electromagn�ticos',
 'electromagn�ticos',
 'parecen',
 'mientras',
 'tierra,',
 'genio',
 'alex',
 'alex',
 'alex',
 'algoritmo',
 'misterioso',
 'desencadena',
 'catastr�ficos.',
 'ayuda',
 'ecl�ctico',
 'fren�tica',
 'descifrar',
 'oculto',
 'demasiado',
 'llevar�',
 'trav�s',
 'mundos',
 'alternativos,',
 'cre�a',
 'saber',
 'sobre',
 'universo.',
 'descubrir',
 'verdad',
 'detr�s',
 'enigmas',
 'c�smicos',
 'destino',
 'final?',
 'a�o',
 '2045,',
 'encuentra',
 'encuentra',
 'punto',
 'transformado',
 'desde',
 'avances',
 'inteligencia',
 'hasta',
 'colonizaci�n',
 'marte,',
 'cambios',
 'a

Ejercicio 5: Número de palabras únicas y conteo de palabras

In [115]:
count_unique_words = text_file_rdd.distinct().count()
count_unique_words

126

Ejercicio 6: Encontrar la longitud promedio de las palabras por párrafo (separando por punto)

In [116]:
def transform_word_into_len(line):
    words = line.split()
    return [len(x) for x in words]

In [117]:
text_file_lines = raw_text_file_rdd.flatMap(lambda x: x.split('.')).map(lambda x: x.strip())
count_word_per_line = text_file_lines.map(transform_word_into_len).map(lambda x: (sum(x), len(x))).map(
    lambda x: x[0] / x[1])
paragraphs_average = count_word_per_line.collect()

for idx, paragraph in enumerate(paragraphs_average):
    print(f"Words in paragraph {idx + 1} have a mean of {paragraph:.2f} characters of length")

Words in paragraph 1 have a mean of 4.15 characters of length
Words in paragraph 2 have a mean of 7.29 characters of length
Words in paragraph 3 have a mean of 6.18 characters of length
Words in paragraph 4 have a mean of 5.50 characters of length
Words in paragraph 5 have a mean of 4.56 characters of length
Words in paragraph 6 have a mean of 5.86 characters of length
Words in paragraph 7 have a mean of 5.46 characters of length
Words in paragraph 8 have a mean of 5.06 characters of length
Words in paragraph 9 have a mean of 4.88 characters of length
Words in paragraph 10 have a mean of 4.76 characters of length


In [118]:
sc.stop()